Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 人工智能AI >

北京大学 DeepSeek-R1及类强推理模型开发解读 PDF 下载


分享到:
时间:2025-03-11 10:25来源:http://www.java1234.com 作者:转载  侵权举报
北京大学 DeepSeek-R1及类强推理模型开发解读
失效链接处理
北京大学 DeepSeek-R1及类强推理模型开发解读  PDF 下载 

 
 
相关截图:
 


主要内容:
 
冷启动 Cold Start
➢ 数据准备:few-shot long cot data, 详细带反思和验证的数据集
➢ 双重验证:由人类注释者和 R1-zero 生成的高质量链式思考
Chain-of-Thought, CoT)数据,部分样本长度达到 10,000 Token
➢ 成效:提供一些 Human Prior \ 显著提升了语言的语义连贯性、可
读性和基本推理能力。
 
➢ 推理为中心RL Reasoning-Oriented RL
➢ 增加了大规模的RL训练过程:DeepSeek-R1 Zero 基本一致,主
要是提升Reasoning的能力,包括coding \ mathematics \ logic
reasoning 等带有明确解答过程的问题
➢ 语言一致性奖励:引入 language consistency reward 衡量长推理链
可读性(通过计算CoT过程中目标语言的占比)
➢ 推理准确率奖励:结合 accuracy of reasoning tasks and reward for
language consistency
➢ 成效:通过 GRPO ,模型在 AIME 2024 等数学基准上取得了显著
提升,pass@1 从 15.6% 提高到 71.0%。此外,模型能够自发延长
推理链条,展现出更强的逻辑连贯性。


 
 
------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐