前言:
unsloth.ai动态量化模型:https://unsloth.ai/blog/deepseekr1-dynamic
大模型运行框架Ollama:https://ollama.com
1.基础系统硬件
内存:192GB
显卡:万丽 RTX 4090
2.配置虚拟内存
最低配置内存的一般大小虚拟内存:96GB
3.下载Ollama运行包
下载:https://github.com/ollama/ollama/releases/download/v0.5.13/OllamaSetup.exe
运行安装后,直接Ollama,会常驻菜单。
4.开盖即食
运行命令下载模型:
# 模型文件:140G
ollama pull secfa/DeepSeek-R1-UD-IQ1_S:24g
# 模型文件:169GB
# 巅峰时,内存占用略小于192GB
ollama pull secfa/DeepSeek-R1-UD-IQ1_M:24g
# 模型文件:196GB
# 会爆内存, 以至于部分加载到虚拟内存上
ollama pull secfa/DeepSeek-R1-UD-IQ2_XXS:24g
# 模型文件:227GB
ollama pull secfa/DeepSeek-R1-UD-Q2_K_XL:24g
运行大模型,命令行体验:
ollama run secfa/DeepSeek-R1-UD-IQ1_M:24g --verbose
注意:如第三方API调用,需要更改监听:
本人配置:
# API服务监听地址
OLLAMA_HOST=http://0.0.0.0:11434
# 模型在内存中保持加载的存活状态(默认五分钟)
# 永不退出加载模型
OLLAMA_KEEP_ALIVE=-1
# 排队请求的最大数量
OLLAMA_MAX_QUEUE=10
# 模型文件存储地址
OLLAMA_MODELS=E:\\AI\\Ollama\\models
# 模型并发处理数
OLLAMA_NUM_PARALLEL=1
Dify配置截图:
5.性能表现
模型:secfa/DeepSeek-R1-UD-IQ1_S:24g
# 常规153GB内存占用,20.3GB显存占用,6.4G虚拟显存
total duration: 3m52.2931578s
load duration: 24.7414ms
prompt eval count: 618 token(s)
prompt eval duration: 6.491s
prompt eval rate: 95.21 tokens/s
eval count: 429 token(s)
eval duration: 3m45.765s
eval rate: 1.90 tokens/s
模型:secfa/DeepSeek-R1-UD-IQ1_M:24g
# 常规179GB内存占用,21GB显存,6G虚拟显存
total duration: 5m19.9583399s
load duration: 53.415ms
prompt eval count: 824 token(s)
prompt eval duration: 21.859s
prompt eval rate: 37.70 tokens/s
eval count: 548 token(s)
eval duration: 4m58.031s
eval rate: 1.84 tokens/s