Windows操作系统下，开盖即食的消费级DeepSeek R1运行环境搭建

人工智能

前言：

unsloth.ai动态量化模型：https://unsloth.ai/blog/deepseekr1-dynamic

大模型运行框架Ollama：https://ollama.com

1.基础系统硬件

内存：192GB

显卡：万丽 RTX 4090

2.配置虚拟内存

最低配置内存的一般大小虚拟内存：96GB

3.下载Ollama运行包

下载：https://github.com/ollama/ollama/releases/download/v0.5.13/OllamaSetup.exe

运行安装后，直接Ollama，会常驻菜单。

4.开盖即食

运行命令下载模型：

# 模型文件：140G
ollama pull secfa/DeepSeek-R1-UD-IQ1_S:24g

# 模型文件：169GB
# 巅峰时，内存占用略小于192GB
ollama pull secfa/DeepSeek-R1-UD-IQ1_M:24g

# 模型文件：196GB
# 会爆内存， 以至于部分加载到虚拟内存上
ollama pull secfa/DeepSeek-R1-UD-IQ2_XXS:24g

# 模型文件：227GB
ollama pull secfa/DeepSeek-R1-UD-Q2_K_XL:24g

运行大模型，命令行体验：

ollama run secfa/DeepSeek-R1-UD-IQ1_M:24g --verbose

注意：如第三方API调用，需要更改监听：

本人配置：

# API服务监听地址
OLLAMA_HOST=http://0.0.0.0:11434
# 模型在内存中保持加载的存活状态(默认五分钟)
# 永不退出加载模型
OLLAMA_KEEP_ALIVE=-1
# 排队请求的最大数量
OLLAMA_MAX_QUEUE=10
# 模型文件存储地址
OLLAMA_MODELS=E:\\AI\\Ollama\\models
# 模型并发处理数
OLLAMA_NUM_PARALLEL=1

Dify配置截图：

5.性能表现

模型：secfa/DeepSeek-R1-UD-IQ1_S:24g

# 常规153GB内存占用，20.3GB显存占用，6.4G虚拟显存
total duration:       3m52.2931578s
load duration:        24.7414ms
prompt eval count:    618 token(s)
prompt eval duration: 6.491s
prompt eval rate:     95.21 tokens/s
eval count:           429 token(s)
eval duration:        3m45.765s
eval rate:            1.90 tokens/s

模型：secfa/DeepSeek-R1-UD-IQ1_M:24g

# 常规179GB内存占用，21GB显存，6G虚拟显存
total duration:       5m19.9583399s
load duration:        53.415ms
prompt eval count:    824 token(s)
prompt eval duration: 21.859s
prompt eval rate:     37.70 tokens/s
eval count:           548 token(s)
eval duration:        4m58.031s
eval rate:            1.84 tokens/s

如果觉得文章对你有用，请随意赞赏

AI

Windows操作系统下，开盖即食的消费级DeepSeek R1运行环境搭建

https://www.yowe.net/archives/deepseek-r1-win-runtime

作者

癫上飞煌

发布于

2025-03-08

更新于

2025-03-09

许可协议

CC BY 4.0

Windows操作系统下，开盖即食的消费级DeepSeek R1运行环境搭建

1.基础系统硬件

2.配置虚拟内存

3.下载Ollama运行包

4.开盖即食

5.性能表现

作者

发布于

更新于

许可协议

评论