失效链接处理 |
北京大学 DeepSeek-R1及类强推理模型开发解读 PDF 下载
相关截图:
![]() 主要内容:
冷启动 Cold Start
➢ 数据准备:few-shot long cot data, 详细带反思和验证的数据集
➢ 双重验证:由人类注释者和 R1-zero 生成的高质量链式思考
(Chain-of-Thought, CoT)数据,部分样本长度达到 10,000 Token
➢ 成效:提供一些 Human Prior \ 显著提升了语言的语义连贯性、可
读性和基本推理能力。
➢ 推理为中心RL Reasoning-Oriented RL
➢ 增加了大规模的RL训练过程:和DeepSeek-R1 Zero 基本一致,主
要是提升Reasoning的能力,包括coding \ mathematics \ logic
reasoning 等带有明确解答过程的问题
➢ 语言一致性奖励:引入 language consistency reward 衡量长推理链
可读性(通过计算CoT过程中目标语言的占比)
➢ 推理准确率奖励:结合 accuracy of reasoning tasks and reward for
language consistency
➢ 成效:通过 GRPO ,模型在 AIME 2024 等数学基准上取得了显著
提升,pass@1 从 15.6% 提高到 71.0%。此外,模型能够自发延长
推理链条,展现出更强的逻辑连贯性。
|