DeepSeek发布全新推理模型DeepSeek-R1,其性能已与OpenAI-o1相媲美,引发行业广泛关注

2025年1月20日,DeepSeek 宣布推出其首个通过强化学习 (RL) 训练的推理模型 DeepSeek-R1,该模型在多个推理基准测试中取得了与 OpenAI-o1-1217相当的性能。 DeepSeek-R1基于 DeepSeek-V3-Base 模型,并采用了多阶段训练和冷启动数据来提高推理能力。

QQ_1737418705279.png


DeepSeek 的研究人员首先开发了 DeepSeek-R1-Zero,这是一个完全通过大规模强化学习训练的模型,没有任何监督微调的预备步骤。DeepSeek-R1-Zero 在推理基准测试中展现出卓越的性能,例如在 AIME2024考试中,其 pass@1分数从15.6% 提升至71.0%。然而,DeepSeek-R1-Zero 也存在一些问题,例如可读性差和语言混杂。

为了解决这些问题并进一步提升推理性能,DeepSeek 团队开发了 DeepSeek-R1。DeepSeek-R1在强化学习之前引入了多阶段训练和冷启动数据。 具体而言,研究人员首先收集了数千个冷启动数据对 DeepSeek-V3-Base 模型进行微调。 然后,他们像训练 DeepSeek-R1-Zero 一样进行了面向推理的强化学习。 在强化学习过程接近收敛时,他们通过对强化学习检查点进行拒绝抽样创建了新的监督微调数据,并结合 DeepSeek-V3在写作、事实问答和自我认知等领域中的监督数据,然后重新训练 DeepSeek-V3-Base 模型。 最后,使用所有场景的提示对微调后的检查点进行额外的强化学习。

DeepSeek-R1在多个基准测试中取得了令人瞩目的成绩:

•在 AIME2024考试中,DeepSeek-R1的 pass@1分数达到了79.8%,略高于 OpenAI-o1-1217。

•在 MATH-500考试中,DeepSeek-R1的 pass@1分数达到了97.3%,与 OpenAI-o1-1217持平。

•在代码竞赛任务中,DeepSeek-R1在 Codeforces 上获得了2029的 Elo 评级,超过了96.3% 的人类参赛者。

•在知识基准测试(如 MMLU、MMLU-Pro 和 GPQA Diamond)中,DeepSeek-R1的得分分别为90.8%、84.0% 和71.5%,显著优于 DeepSeek-V3。

•在其他任务(如创意写作、一般问答、编辑、摘要等)中,DeepSeek-R1也表现出色。

此外,DeepSeek 还探索了将 DeepSeek-R1的推理能力蒸馏到更小的模型中。研究发现,直接从 DeepSeek-R1进行蒸馏比在小型模型上应用强化学习的效果更好。 这表明大型基础模型发现的推理模式对于提高推理能力至关重要。DeepSeek 已开源了 DeepSeek-R1-Zero、DeepSeek-R1以及基于 Qwen 和 Llama 的六个从 DeepSeek-R1蒸馏的密集模型(1.5B、7B、8B、14B、32B、70B)。 DeepSeek-R1的推出,标志着强化学习在提高大型语言模型推理能力方面取得了重大进展。

成本优势

在成本方面,DeepSeek-R1提供了极具竞争力的定价策略。其 API 访问定价为每百万输入令牌0.14美元(缓存命中)和0.55美元(缓存未命中),输出令牌每百万2.19美元。这一价格策略相比其他同类产品更具吸引力,被用户形容为“游戏规则改变者”。目前官方网站和 API 现已上线!访问 https://chat.deepseek.com 就可以体验 DeepThink! 

QQ_1737419771139.png

社区反馈与未来展望

DeepSeek-R1的发布引发了社区的热烈讨论。许多用户对模型的开源特性和成本优势表示赞赏,认为其为开发者提供了更多的选择和自由。然而,也有用户对模型的上下文窗口大小提出疑问,希望未来版本能够进一步优化。

DeepSeek 团队表示,他们将继续致力于提升模型的性能和用户体验,同时计划在未来推出更多功能,包括高级数据分析,以满足用户对 AGI(通用人工智能)的期待。

猜你喜欢

年轻人热衷的社交新玩法“剧本杀”影视化,电影版迅速走红引发关注
年轻人热衷的社交新玩法“剧本杀”影视化,电影版迅速走红引发关注

《密室逃生2》上映,“剧本杀电影”走红 年轻人的“社交新宠”影视化新片《密室逃生2》今日正式上映,通过线下火爆的潮流娱乐

浙江深化知识产权的创造与保护措施,激发共同富裕的内生动力与经济活力
浙江深化知识产权的创造与保护措施,激发共同富裕的内生动力与经济活力

“浙江知识产权在线”平台。网站截图杭州4月2日电(记者 奚金燕)创新是引领发展的第一动力,保护知识产权就是保护创新。2日

清明节文化传承的深层密码与现代社会的融合探析
清明节文化传承的深层密码与现代社会的融合探析

【守望家园】清明节成熟于周,距今已有2500多年的历史了。据古书记载,因这一时节气清景明,故称“清明”。清明节有哪些特别

《国家宝藏》:以全新视角赋予国宝新生命,重塑文化价值的探索之旅
《国家宝藏》:以全新视角赋予国宝新生命,重塑文化价值的探索之旅

近日,热门综艺《国家宝藏》同名图书正式结集出版。该书共分三册,三册《国家宝藏》立足于广受好评的同名电视节目,结合相关考古

沙霏在《孔雀东南飞》中惊艳登场,带来意料之外的精彩开场表现
沙霏在《孔雀东南飞》中惊艳登场,带来意料之外的精彩开场表现

4月1日到5日,北京京剧院将在长安大戏院上演《孔雀东南飞》《穆桂英挂帅》《杨门女将》《珠帘寨》《鸳鸯冢》五部传统剧目,陪

非物质文化遗产剪纸:在传承与创新中坚守“守正”的核心价值观
非物质文化遗产剪纸:在传承与创新中坚守“守正”的核心价值观

非遗剪纸:“守正”是传承与创新的底线民国时期佛山铜凿剪纸《焰火迎春》 (选自《广东民间美术》)近年来,在剪纸非遗界,刮起

清明时节:哀愁与欣喜交织,绵绵细雨映衬春日儿女情长
清明时节:哀愁与欣喜交织,绵绵细雨映衬春日儿女情长

在二十四节气中,唯有清明最为特殊:它既是节气也是节日,自古就被赋予了自然与人文的双重内涵。清明呈现出暮春时节的气候与风景

文字背后那些不为人知的较量更引人深思,挑战思维极限
文字背后那些不为人知的较量更引人深思,挑战思维极限

“谍战”一直是文学和影视中的热门题材。从《暗算》《潜伏》到《伪装者》《叛逆者》等,影视剧的热播更是刮起了一次次的谍战旋风

清代广州四大书院的兴盛与繁荣,见证了独特的文化与商业交融的辉煌历史
清代广州四大书院的兴盛与繁荣,见证了独特的文化与商业交融的辉煌历史

文脉书院4“五岭北来峰在地,九州南尽水浮天。”岭南大地倚山临海,地势开阳。自古以来,岭南人采中原之精粹,纳四海之新风,融

花朝汉服文化节让游客尽情体验“国潮”魅力,领略传统与现代的完美结合
花朝汉服文化节让游客尽情体验“国潮”魅力,领略传统与现代的完美结合

花朝汉服文化节带游客感受“国潮”游人参与汉服春日运动秀。本报记者 刘平摄本报讯(记者 孙颖)刚与一位黑衣“侠客”擦肩而过