分享

Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

 金木鱼23897029 2025-02-16 发布于江苏

一、安装ollama

打开ollama网站https:///,下载客户端

Windows10系统本地部署DeePseek大模型并用Web UI进行聊天
Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

打开下载好的OllamaSetup.exe进行安装,一直默认安装即可

Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

二、修改ollama模型保存位置和启动ollama

右键点击【此电脑】→【属性】→【高级系统设置】→【高级】→【环境变量】→【系统变量】→【新建】→【变量名】OLLAMA_MODELS

→【变量值】D:\Ollama\Models(盘符根据自己的需求修改,硬盘大小尽量在500G以上)

Windows10系统本地部署DeePseek大模型并用Web UI进行聊天
Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

WIN+R启动运行,进入CMD,输入ollama help调取ollama的各项命令

Large language model runner

Usage:

ollama [flags]

ollama [command]

Available Commands:

serve Start ollama 开始ollama

create Create a model from a Modelfile 从一个Modelfile创建一个模型

show Show information for a model 显示模型的信息

run Run a model 运行一个模型

stop Stop a running model 停止正在运行的模型

pull Pull a model from a registry 从注册表中拉取一个模型

push Push a model to a registry 将一个模型推送到注册表

list List models 列出模型

ps List running models 列出正在运行的模型

cp Copy a model 复制一个模型

rm Remove a model 删除一个模型

help Help about any command 关于任何命令的帮助

Flags:

-h, --help help for ollama

-v, --version Show version information

Use 'ollama [command] --help' for more information about a command.

WIN+R启动运行,进入CMD,输入ollama serve启动

Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

三、安装Page Assist - 本地 AI 模型的 Web UI

打开谷歌浏览器(Google Chrome)或GPT浏览器(官方网站:
https://www./)
,进入扩展程序chrome://extensions/,打开开发者模式。

本地安装Page Assist插件(
https://github.com/n4ze3m/page-assist,
https://www./product-tool/85997.html),或者进入
Chrome应用商店安装(注:需要魔法)

安装完成后在菜单中顶置

Windows10系统本地部署DeePseek大模型并用Web UI进行聊天
Windows10系统本地部署DeePseek大模型并用Web UI进行聊天
Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

四、配置Page Assist - 本地 AI 模型的 Web UI

打开Page Assist,选择设置,进入后对一般设置、RAG模型、ollama设置进行修改,同时可以对管理知识进行添加。

Windows10系统本地部署DeePseek大模型并用Web UI进行聊天
Windows10系统本地部署DeePseek大模型并用Web UI进行聊天
Windows10系统本地部署DeePseek大模型并用Web UI进行聊天
Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

五、安装模型

打开ollama网站https:///,进入模型页面,打开所需的模型页面后通过Page Assist进行拉取下载。

Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

也可以通过Page Assist设置界面中的管理模型中进行拉取模型。

Windows10系统本地部署DeePseek大模型并用Web UI进行聊天

除此之外,也可以通过ollma命令拉取模型。如ollama run
Huzderu/deepseek-r1-671b-2.51bit。

六、模型推荐

NAME ID SIZE

动态量化后的模型deepseek-r1

Huzderu/deepseek-r1-671b-1.73bit:latest 08d46664e5ce 168 GB

Huzderu/deepseek-r1-671b-2.22bit:latest aff1a536ee6b 196 GB

Huzderu/deepseek-r1-671b-2.51bit:latest bf80bdb59818 227 GB

SIGJNF/deepseek-r1-671b-1.58bit:latest a2138b47f53d 140 GB

DeepSeek-Janus-Pro模型

erwan2/DeepSeek-Janus-Pro-7B:latest e877a212a6a7 4.2 GB

越狱版deepseek-r1

huihui_ai/deepseek-r1-abliterated:7b 9e25a373f069 4.7 GB

huihui_ai/deepseek-r1-abliterated:8b f72bcec0a6da 4.9 GB

huihui_ai/deepseek-r1-abliterated:14b 6b2209ffd758 9.0 GB

huihui_ai/deepseek-r1-abliterated:32b fb53b3296912 19 GB

huihui_ai/deepseek-r1-abliterated:70b 50f8d0fe980f 42 GB

嵌入模型(必须)

nomic-embed-text:latest 0a109f422b47 274 MB

官方模型deepseek-r1

deepseek-r1:1.5b a42b25d8c10a 1.1 GB

deepseek-r1:7b 0a8c26691023 4.7 GB

deepseek-r1:8b 28f8fd6cdc67 4.9 GB

deepseek-r1:14b ea35dfe18182 9.0 GB

deepseek-r1:32b 38056bbcbb2d 19 GB

deepseek-r1:70b 0c1615a8ca32 42 GB

deepseek-r1:671b 739e1b229ad7 404 GB

七、配置

目前我使用的电脑配置如下,跑32B模型很轻松(20tok/s),跑
SIGJNF/deepseek-r1-671b-1.58bit:latest缓慢(不到1tok/s)。

CPU:13th Gen Intel(R) Core(TM) i5-13400 2.50 GHz

内存:2根5代32G内存条

保存模型的硬盘:2TB SSD

显卡:navida 2080ti 22GB

主板:微星 PRO Z790-P DDR5代

八、其他

DeepSeek-R1-671B 的不同量化版本(1.73bit、2.22bit、2.51bit)的主要区别在于量化精度、模型性能(如推理速度、显存占用)和模型效果(如准确率)之间的权衡。以下是具体分析:


1.量化位数与压缩效率

  • 1.73bit:量化程度最高,模型体积最小,显存占用最低,推理速度最快,但对模型精度损失最大。
  • 2.22bit:中等量化级别,在模型大小和性能之间取得平衡。
  • 2.51bit:量化程度最低,模型体积相对较大,但保留更多原始模型的精度。
  • 量化原理
    这些非整数 bit 值表明采用了
    混合精度量化(如不同层或参数使用不同位数的量化),通过动态分配低比特(如1bit)和高比特(如3bit)来优化整体效率。例如,某些关键参数可能用更高精度保留,次要参数用更低精度压缩,最终计算出平均位数(如1.73bit)。

2.性能与效果的权衡

版本

模型体积

推理速度

显存占用

模型效果(准确率)

1.73bit

最小

最快

最低

相对较低

2.22bit

中等

中等

中等

平衡

2.51bit

较大

较慢

较高

接近原始模型

  • 1.73bit:适合资源极度受限的场景(如边缘设备),但对生成质量要求不高的任务。
  • 2.22bit:适合大多数应用场景,在速度和效果间取得较好平衡。
  • 2.51bit:适合对生成质量要求较高且资源充足的环境(如云端服务器)。

3.技术实现差异

  • 量化方法:可能采用类似 GPTQ(基于梯度的量化)或 AWQ(激活感知量化)的算法,通过动态调整量化策略减少精度损失。
  • 非对称量化:对权重和激活值使用不同的量化策略,进一步优化效率。
  • 硬件适配:低比特版本(如1.73bit)可能针对特定硬件(如GPU Tensor Core)优化,以提高计算吞吐量。

4.如何选择?

  • 优先速度/显存 → 选 1.73bit(如实时对话、低显存GPU)。
  • 平衡速度与效果 → 选 2.22bit(通用场景)。
  • 优先效果 → 选 2.51bit(复杂推理、高精度生成任务)。

总结

这些版本的差异本质是**“压缩率 vs 精度”的权衡**。量化通过牺牲少量模型性能来大幅降低资源需求,用户需根据自身场景选择最合适的版本。

5.虚拟内存创建

  • 确认设置步骤
    右键点击【此电脑】→【属性】→【高级系统设置】→【高级】→【性能-设置】→【高级】→【虚拟内存-更改】取消勾选【自动管理分页文件大小】→ 选择D盘(可以是其他盘) → 选择【自定义大小】
    初始大小设为 1024000 MB(约1000GB),最大值设为 2048000 MB(约2000GB)→ 点击【设置】→【确定】并重启电脑。(举例,起码500G起步)
  • 关键点
    确保D盘剩余空间
    远大于设置的虚拟内存最大值(建议至少预留100GB以上)。重启后检查是否生效:任务管理器 → 性能 → 查看“提交内存”上限是否增加。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多