分享

LLMs之DeepSeek:DeepSeek-R1的简介、安装和使用方法、案例应用之详细攻略

 处女座的程序猿 2025-01-22 发布于上海

LLMs之DeepSeek:DeepSeek-R1的简介、安装和使用方法、案例应用之详细攻略

目录


相关文章

LLMs之MoE之DeepSeek-V3:DeepSeek-V3的简介、安装和使用方法、案例应用之详细攻略

LLMs之MoE之DeepSeek-V3:DeepSeek-V3的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

LLMs之DeepSeek:DeepSeek-R1的简介、安装和使用方法、案例应用之详细攻略

https://yunyaniu.blog.csdn.net/article/details/145293767

DeepSeek-R1的简介

2025年1月20日,正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1是 DeepSeek 推出的第一代推理模型,它包含两个主要版本:DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 进行训练。有关模型架构的更多详细信息,请参阅DeepSeek-V3存储库。
>> DeepSeek-R1-Zero:这是一个通过大规模强化学习 (RL) 训练的模型,无需预先进行监督微调 (SFT)。它在推理方面表现出色,展现出自我验证反思生成长链思维 (CoT) 等能力。然而,它也存在一些问题,例如无限重复、可读性差和语言混合。
>> DeepSeek-R1:为了解决 DeepSeek-R1-Zero 的问题并进一步提升推理性能,DeepSeek-R1在 RL 训练之前加入了冷启动数据。其性能与 OpenAI-o1 在数学、代码和推理任务上相当。
DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
DeepSeek-R1 上线 API,对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用。
DeepSeek 官网与 App 即日起同步更新上线。

此外,项目还开源了 DeepSeek-R1-Zero、DeepSeek-R1,以及六个基于 Llama 和 Qwen 蒸馏出的密集模型 (DeepSeek-R1-Distill 模型)。其中,DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,在密集模型中取得了新的最先进结果。

GitHub地址GitHub - deepseek-ai/DeepSeek-R1

1、算法原理

方法

意义

后训练阶段

后训练阶段:直接在基础模型上应用强化学习(RL),不依赖于监督式微调(SFT)作为初步步骤。这种方法使模型能够探索解决复杂问题的链式思维(CoT),从而发展出DeepSeek-R1-Zero。

提出了开发 DeepSeek-R1 的流程:

>> 两个RL阶段:发现更优的推理模式并对齐人类偏好

>> 两个SFT阶段:为模型的推理和非推理能力提供初始种子。

模型可以探索链式思考(CoT),用于解决复杂问题。

>> 开发了 DeepSeek-R1-Zero,具备自我验证反思生成长链式思考的能力。

>> 首次通过研究验证了大型语言模型的推理能力可以纯粹通过RL激励实现,无需SFT。

>> 为未来研究提供了突破性的方向。该流程可以帮助行业开发更优质的模型

蒸馏

蒸馏:小模型也能发挥强大作用。

大模型的推理模式可以通过蒸馏传递到小模型中,性能优于直接在小模型上通过RL发现的推理模式。

>> 使用 DeepSeek-R1 生成的推理数据,微调了多个在研究社区中广泛使用的稠密模型。

>> 评估结果表明,蒸馏后的较小稠密模型在基准测试中表现卓越。

>> DeepSeek-R1及其API为研究社区提供了蒸馏更优秀小模型的基础。

>> 向社区开源了基于 Qwen2.5 和 Llama3 系列的以下模型检查点:

- 1.5B、7B、8B、14B、32B 和 70B。

2、模型性能

README 中提供了 DeepSeek-R1在多个基准测试上的评估结果,涵盖了英语和中文的各种推理、代码和数学任务。 这些结果表明 DeepSeek-R1在这些任务上取得了与 OpenAI-o1 相当甚至更好的性能。 具体来说,它在以下基准测试中表现出色:

英语:MMLU, MMLU-Redux, MMLU-Pro, DROP, IF-Eval, GPQA-Diamond, SimpleQA, FRAMES, AlpacaEval2.0, ArenaHard

代码:LiveCodeBench, Codeforces, SWE Verified, Aider-Polyglot

数学:AIME 2024, MATH-500, CNMO 2024

中文:CLUEWSC, C-Eval, C-SimpleQA

DeepSeek-R1模型:性能对齐 OpenAI-o1 正式版

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

在此,我们将 DeepSeek-R1 训练技术全部公开,以期促进技术社区的充分交流与创新协作。

论文链接: DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 · GitHub

 DeepSeek-R1-Distill模型:蒸馏小模型超越 OpenAI o1-mini

我们在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

HuggingFace 链接: https:///deepseek-ai

3、使用建议

将温度设置为 0.5-0.7 之间(推荐 0.6),以防止无限重复或输出不连贯。

避免添加系统提示;所有指令都应包含在用户提示中。

对于数学问题,建议在提示中包含指令,例如:“将最终答案放在 \boxed{} 中”。

评估模型性能时,建议进行多次测试并平均结果。

4、开放的许可证和用户协议

为了推动和鼓励开源社区以及行业生态的发展,在发布并开源 R1 的同时,我们同步在协议授权层面也进行了如下调整:
模型开源 License 统一使用 MIT。我们曾针对大模型开源的特点,参考当前行业的通行实践,特别引入 DeepSeek License 为开源社区提供授权,但实践表明非标准的开源 License 可能反而增加了开发者的理解成本。为此,此次我们的开源仓库(包括模型权重)统一采用标准化、宽松的 MIT License,完全开源,不限制商用,无需申请。
产品协议明确可“模型蒸馏”。为了进一步促进技术的开源和共享,我们决定支持用户进行“模型蒸馏”。我们已更新线上产品的用户协议,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

DeepSeek-R1的安装和使用方法

1、安装

模型下载:DeepSeek-R1 和 DeepSeek-R1-Distill 模型都可以在 Hugging Face 上下载。

DeepSeek-R1 模型

模型#总参数#已激活参数上下文长度下载
DeepSeek-R1-Zero671B37B128千🤗 HuggingFace
DeepSeek-R1671B37B128千🤗 HuggingFace

DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 进行训练。有关模型架构的更多详细信息,请参阅DeepSeek-V3存储库。

DeepSeek-R1-Distill 模型

模型基础模型下载
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-数学-1.5B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B骆驼-3.1-8B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-指导🤗 HuggingFace

DeepSeek-R1-Distill 模型基于开源模型进行了微调,使用了 DeepSeek-R1 生成的样本。我们对其配置和分词器进行了轻微更改。请使用我们的设置来运行这些模型。

2、使用方法

T1、本地运行

DeepSeek-R1 模型

有关在本地运行 DeepSeek-R1 的更多信息,请访问DeepSeek-V3 repo。

DeepSeek-R1-Distill 模型

DeepSeek-R1-Distill 模型可以以与 Qwen 或 Llama 模型相同的方式使用。使用 vLLM 和 SGLang 运行 DeepSeek-R1-Distill-Qwen-32B 模型的示例命令

vLLM
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
SGLang
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

T2、采用API

DeepSeek 提供了兼容 OpenAI 的 API,地址为 platform.。

下面的代码以 Python 语言为例,展示了如何访问思维链和最终回答,以及如何在多轮对话中进行上下文拼接

官方文档:推理模型 (deepseek-reasoner) | DeepSeek API Docs

非流式

from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.")

# Round 1
messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages
)

reasoning_content = response.choices[0].message.reasoning_content
content = response.choices[0].message.content

# Round 2
messages.append({'role': 'assistant', 'content': content})
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages
)
# ...
流式

from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.")

# Round 1
messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages,
    stream=True
)

reasoning_content = ""
content = ""

for chunk in response:
    if chunk.choices[0].delta.reasoning_content:
        reasoning_content += chunk.choices[0].delta.reasoning_content
    else:
        content += chunk.choices[0].delta.content

# Round 2
messages.append({"role": "assistant", "content": content})
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages,
    stream=True
)
# ...

T3、在线聊天

用户可以通过 DeepSeek 的官方网站 chat. 与 DeepSeek-R1 进行交互。

在线测试地址:DeepSeek

逻辑问题测试:测试“甲乙丙丁谁是小偷”——两者均回答正确,虽然OpenAI更快,但DeepSeek-R1性价超高!

逻辑问题测试:测试央视撒贝宁提出的“谁是小偷”逻辑问题

DeepSeek-R1的案例应用

持续更新中……

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多