作者:冯丽妃 来源:中国科学报 发布时间:2025/9/18 10:56:26
选择字号:
DeepSeek登上《自然》封面

 

北京时间9月17日晚,DeepSeek创始人梁文锋作为论文通讯作者,与同事合作的关于开源人工智能(AI)模型DeepSeek-R1采用的大规模推理模型训练方法的文章以封面形式发表于《自然》。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。

让AI模型像人类一样进行推理一直是难题。LLM已显示出一些推理能力,但训练过程需要大量计算资源。通过人工提示引导可改进这类模型,促使其生成中间推理步骤,从而大为强化其在复杂任务中的表现。但这个方法会导致计算成本过高,并限制其扩展潜力。

9月18日《自然》封面。

  ?

DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文峰和同事报告,该模型使用了强化学习而非人类示例来开发推理步骤,从而减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程。这一模型通过解决问题获得奖励,从而强化学习效果。在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9%和79.8%。研究者补充说,该模型在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。

当前版本的DeepSeek-R1有一些能力限制,研究者希望能在未来版本中得到改进。例如,该模型有时会混合语言,目前只针对中文和英文做了优化。它对提示词也很敏感,需要精心设计的提示词工程,在某些任务上没有展现出明显提升,例如软件工程任务。研究者总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果可靠。

在同期发表的新闻观点文章中,卡内基梅隆大学的Daphne Ippolito和张益铭表示,当学生遇到具有挑战性的数学问题或程序员需要编写复杂算法时,他们很少能一次性解决所有问题。相反,他们会通过推理过程,记录笔记和中间步骤来最终得出解决方案。同样地,大型语言模型(LLMs)——这种处理并生成人类语言的人工智能(AI)系统——在解决复杂任务时,如果先写下推理过程再给出答案,其表现要比直接给出答案更好。大型语言模型(LLM)在输出中间推理步骤时准确性更高。一种名为“强化学习”的试错过程,可以教会它们自主做到这一点,而无需外部指令。

相关论文信息:

https://doi.org/10.1038/s41586-025-09422-z

https://doi.org/10.1038/d41586-025-02703-7

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
两把钥匙重启植物细胞“命运逆转”齿轮 肉眼可见的“时间晶体”现身
“夸父”遥操作系统测试平台研制成功 新型材料工艺刻蚀高性能微芯片
>>更多
 
一周新闻排行
 
编辑部推荐博文