发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
来自: 老庄走狗 > 《我的图书馆》
0条评论
发表
请遵守用户 评论公约
全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻
硅谷巨头神话崩塌,30刀见证啊哈时刻。7B模型复刻,结果令人惊讶港科大助理教授何俊贤的团队(共同一作黄裕振、Weihao Zeng),只用了8K...
DeepSeek闭门会议深度探讨
DeepSeek闭门会议深度探讨 DeepSeek闭门会议深度探讨。I. DeepSeek.10. 读完 DeepSeek 论文的感受是,很多都是节约硬件开销的技术,在比...
DeepSeek R1 简单指南:架构、训练、本地部署和硬件要求
DeepSeek R1 简单指南:架构、训练、本地部署和硬件要求DeepSeek推出的LLM推理新策略。DeepSeek-R1 技术概述模型架构。DeepSeek-R1 不是...
我们举办了一场推理模型“年终考试”,最终夺冠的居然是
我们举办了一场推理模型“年终考试”,最终夺冠的居然是。考试规则一共有六道考题,分别用高三数学的单选题、多选题和计算题测试模型的...
考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用
考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用。视觉推理多面手目前,GLM-Zero-Preview 支持上传 png、jpg、jpeg...
LLMs之DeepSeek:DeepSeek-R1的简介、安装和使用方法、案例应用之详细攻略
>> DeepSeek-R1-Zero:论文链接: DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 · GitHub ?DeepSee...
谈谈对DeepSeek-R1的一些理解
使用量少、质量高的冷启动数据(cold data)来sft base模型,使得base模型可以有个良好的初始化使用RL提升模型的推理能力在RL阶段接近收敛...
DeepSeek
这篇题为《DeepSeek-R1:通过强化学习激发大语言模型的推理能力》的论文,展示了一种前沿的开源推理模型,以及使用大规模强化学习技术训...
一文读懂 DeepSeek R1:强化学习如何重塑大语言模型推理能力? • Tech Explorer 🚀
在这样的背景下,DeepSeek R1的研究团队另辟蹊径,尝试运用纯强化学习(RL)来提升语言模型的推理能力。DeepSeek R1的训练流程分为四个阶段,旨在解决DeepSeek R1-Zero存在的问题,并进一步提升模型性...
微信扫码,在手机上查看选中内容