DeepSeek-R1是一款具有开创性的AI推理模型,由DeepSeek团队在2025年1月推出。该模型通过大规模强化学习训练,实现了与OpenAI的GPT系列模型相媲美的推理能力。DeepSeek-R1的独特之处在于其不依赖监督微调,而是直接进入强化学习阶段,通过“试错”模式自我进化发展推理能力。
此外,DeepSeek-R1还采用了开源策略,允许全球开发者和研究人员免费获取和使用其代码和模型,极大地促进了AI技术的开放、透明和协作发展。这一模型的推出,标志着AI在自主学习和推理能力方面取得了重大突破。
开源许可与模型蒸馏
- 开源许可:DeepSeek-R1采用MIT License,这是一种非常宽松的开源许可方式。它允许开发者自由使用、修改和分发模型,商业用途也不受限制,无需额外申请。
- 模型蒸馏:DeepSeek-R1支持模型蒸馏技术,这是一种将大模型的知识转移到小模型的技术,能在不损失太多性能的前提下,提升小模型的效率。这一特性有助于开发者训练出更高效、更具针对性的小模型,推动AI技术在不同场景的应用。
DeepSeek-R1性能表现
- 对标OpenAI o1:DeepSeek-R1在性能上对标OpenAI o1正式版,其成功的关键在于后训练阶段大规模运用强化学习技术。即使在标注数据极少的情况下,该技术也显著提升了模型的推理能力。
- 实际测试数据:在数学、代码、自然语言推理等任务中,DeepSeek-R1表现出色。例如,在AIME 2024(数学竞赛)的Pass@1指标中,DeepSeek-R1达到96.6%,与OpenAI o1正式版相当;在MATH-500测试中,DeepSeek-R1的Pass@1成绩也是94.3%,与OpenAI o1正式版持平。
小模型蒸馏
- 基于DeepSeek-R1的小模型:DeepSeek-R1团队基于该模型蒸馏出了6个小模型并开源。其中,32B和70B的小模型在多项能力上对标OpenAI o1-mini。例如,DeepSeek-R1-Distill-Qwen-32B在AIME 2024竞赛题测试中Pass@1达到72.6%,超过OpenAI o1-mini的63.6%;在MATH-500测试里,前者Pass@1成绩为94.3%,也优于OpenAI o1-mini的90.0%。
- 小模型的局限:尽管小模型在某些任务中表现优异,但面对复杂场景和大规模数据时,相比大模型可能存在性能差距。例如,在处理长篇文本的复杂语义理解和生成任务时,小模型的上下文理解和逻辑连贯性可能不如大模型。
DeepSeek-R1应用与API
- 应用便捷性:DeepSeek-R1在应用方面十分便捷。用户登录官网( chat.deepseek.com )或官方App,开启“深度思考”模式,就能调用它处理各种推理任务,如代码编写、内容创作等场景。
- API对外开放:DeepSeek-R1的API也对外开放。通过设置model=’deepseek-reasoner’,开发者即可调用该模型的API。但需要注意的是,API定价上,输入tokens缓存命中时每百万1元,未命中每百万4元,输出tokens每百万16元。对于需要大规模使用的企业和开发者来说,成本是个不可忽视的因素。
DeepSeek-R1其他特点与优势
- 多层推理方法:与传统AI推理不同,DeepSeek-R1采用多层推理的方法,以思路链、共识和搜索的方式优化回答。这一过程被称为“测试时间扩展”(Test-time Augmentation,TTA)。
- 英伟达支持:英伟达官方将DeepSeek-R1定义为“最先进推理能力的开放模型”。结合微软的云计算能力,DeepSeek-R1有望加速AI技术在各行业的应用。
- 国产AI搜索接入:秘塔AI搜索宣布融合了DeepSeek-R1满血版,实现了“国产最强推理+全网实时搜索+高质量知识库”的结合。这进一步提升了AI搜索的准确性和可靠性,并增强了推理能力。
论文链接: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
开源地址:https://github.com/deepseek-ai/DeepSeek-R1