Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

金木鱼23897029 2025-02-16 发布于江苏

展开全文

一、安装ollama

打开ollama网站https:///，下载客户端

打开下载好的OllamaSetup.exe进行安装，一直默认安装即可

二、修改ollama模型保存位置和启动ollama

右键点击【此电脑】→【属性】→【高级系统设置】→【高级】→【环境变量】→【系统变量】→【新建】→【变量名】OLLAMA_MODELS

→【变量值】D:\Ollama\Models（盘符根据自己的需求修改，硬盘大小尽量在500G以上）

WIN+R启动运行，进入CMD，输入ollama help调取ollama的各项命令

Large language model runner

Usage:

ollama [flags]

ollama [command]

Available Commands:

serve Start ollama 开始ollama

create Create a model from a Modelfile 从一个Modelfile创建一个模型

show Show information for a model 显示模型的信息

run Run a model 运行一个模型

stop Stop a running model 停止正在运行的模型

pull Pull a model from a registry 从注册表中拉取一个模型

push Push a model to a registry 将一个模型推送到注册表

list List models 列出模型

ps List running models 列出正在运行的模型

cp Copy a model 复制一个模型

rm Remove a model 删除一个模型

help Help about any command 关于任何命令的帮助

Flags:

-h, --help help for ollama

-v, --version Show version information

Use 'ollama [command] --help' for more information about a command.

WIN+R启动运行，进入CMD，输入ollama serve启动

三、安装Page Assist - 本地 AI 模型的 Web UI

打开谷歌浏览器（Google Chrome）或GPT浏览器（官方网站：
https://www./），进入扩展程序chrome://extensions/，打开开发者模式。

本地安装Page Assist插件（
https://github.com/n4ze3m/page-assist，
https://www./product-tool/85997.html），或者进入Chrome应用商店安装（注：需要魔法）

安装完成后在菜单中顶置

四、配置Page Assist - 本地 AI 模型的 Web UI

打开Page Assist，选择设置，进入后对一般设置、RAG模型、ollama设置进行修改，同时可以对管理知识进行添加。

五、安装模型

打开ollama网站https:///，进入模型页面，打开所需的模型页面后通过Page Assist进行拉取下载。

也可以通过Page Assist设置界面中的管理模型中进行拉取模型。

除此之外，也可以通过ollma命令拉取模型。如ollama run
Huzderu/deepseek-r1-671b-2.51bit。

六、模型推荐

NAME ID SIZE

动态量化后的模型deepseek-r1

Huzderu/deepseek-r1-671b-1.73bit:latest 08d46664e5ce 168 GB

Huzderu/deepseek-r1-671b-2.22bit:latest aff1a536ee6b 196 GB

Huzderu/deepseek-r1-671b-2.51bit:latest bf80bdb59818 227 GB

SIGJNF/deepseek-r1-671b-1.58bit:latest a2138b47f53d 140 GB

DeepSeek-Janus-Pro模型

erwan2/DeepSeek-Janus-Pro-7B:latest e877a212a6a7 4.2 GB

越狱版deepseek-r1

huihui_ai/deepseek-r1-abliterated:7b 9e25a373f069 4.7 GB

huihui_ai/deepseek-r1-abliterated:8b f72bcec0a6da 4.9 GB

huihui_ai/deepseek-r1-abliterated:14b 6b2209ffd758 9.0 GB

huihui_ai/deepseek-r1-abliterated:32b fb53b3296912 19 GB

huihui_ai/deepseek-r1-abliterated:70b 50f8d0fe980f 42 GB

嵌入模型（必须）

nomic-embed-text:latest 0a109f422b47 274 MB

官方模型deepseek-r1

deepseek-r1:1.5b a42b25d8c10a 1.1 GB

deepseek-r1:7b 0a8c26691023 4.7 GB

deepseek-r1:8b 28f8fd6cdc67 4.9 GB

deepseek-r1:14b ea35dfe18182 9.0 GB

deepseek-r1:32b 38056bbcbb2d 19 GB

deepseek-r1:70b 0c1615a8ca32 42 GB

deepseek-r1:671b 739e1b229ad7 404 GB

七、配置

目前我使用的电脑配置如下，跑32B模型很轻松（20tok/s），跑
SIGJNF/deepseek-r1-671b-1.58bit:latest缓慢（不到1tok/s）。

CPU：13th Gen Intel(R) Core(TM) i5-13400 2.50 GHz

内存：2根5代32G内存条

保存模型的硬盘：2TB SSD

显卡：navida 2080ti 22GB

主板：微星 PRO Z790-P DDR5代

八、其他

DeepSeek-R1-671B 的不同量化版本（1.73bit、2.22bit、2.51bit）的主要区别在于量化精度、模型性能（如推理速度、显存占用）和模型效果（如准确率）之间的权衡。以下是具体分析：

1.量化位数与压缩效率

1.73bit：量化程度最高，模型体积最小，显存占用最低，推理速度最快，但对模型精度损失最大。
2.22bit：中等量化级别，在模型大小和性能之间取得平衡。
2.51bit：量化程度最低，模型体积相对较大，但保留更多原始模型的精度。
量化原理：
这些非整数 bit 值表明采用了混合精度量化（如不同层或参数使用不同位数的量化），通过动态分配低比特（如1bit）和高比特（如3bit）来优化整体效率。例如，某些关键参数可能用更高精度保留，次要参数用更低精度压缩，最终计算出平均位数（如1.73bit）。

2.性能与效果的权衡

版本	模型体积	推理速度	显存占用	模型效果（准确率）
1.73bit	最小	最快	最低	相对较低
2.22bit	中等	中等	中等	平衡
2.51bit	较大	较慢	较高	接近原始模型

1.73bit：适合资源极度受限的场景（如边缘设备），但对生成质量要求不高的任务。
2.22bit：适合大多数应用场景，在速度和效果间取得较好平衡。
2.51bit：适合对生成质量要求较高且资源充足的环境（如云端服务器）。

3.技术实现差异

量化方法：可能采用类似 GPTQ（基于梯度的量化）或 AWQ（激活感知量化）的算法，通过动态调整量化策略减少精度损失。
非对称量化：对权重和激活值使用不同的量化策略，进一步优化效率。
硬件适配：低比特版本（如1.73bit）可能针对特定硬件（如GPU Tensor Core）优化，以提高计算吞吐量。

4.如何选择？

优先速度/显存 → 选 1.73bit（如实时对话、低显存GPU）。
平衡速度与效果 → 选 2.22bit（通用场景）。
优先效果 → 选 2.51bit（复杂推理、高精度生成任务）。

总结

这些版本的差异本质是**“压缩率 vs 精度”的权衡**。量化通过牺牲少量模型性能来大幅降低资源需求，用户需根据自身场景选择最合适的版本。

5.虚拟内存创建

确认设置步骤：
右键点击【此电脑】→【属性】→【高级系统设置】→【高级】→【性能-设置】→【高级】→【虚拟内存-更改】取消勾选【自动管理分页文件大小】→ 选择D盘（可以是其他盘） → 选择【自定义大小】初始大小设为 1024000 MB（约1000GB），最大值设为 2048000 MB（约2000GB）→ 点击【设置】→【确定】并重启电脑。（举例，起码500G起步）
关键点：
确保D盘剩余空间远大于设置的虚拟内存最大值（建议至少预留100GB以上）。重启后检查是否生效：任务管理器 → 性能 → 查看“提交内存”上限是否增加。