北京大学 DeepSeek-R1及类强推理模型开发解读 PDF 下载

北京大学 DeepSeek-R1及类强推理模型开发解读 PDF 下载

转载自：http://www.python222.com/article/1142

相关截图：

主要内容：

冷启动 Cold Start

➢ 数据准备：few-shot long cot data, 详细带反思和验证的数据集

➢ 双重验证：由人类注释者和 R1-zero 生成的高质量链式思考

（Chain-of-Thought, CoT）数据，部分样本长度达到 10,000 Token

➢ 成效：提供一些 Human Prior \ 显著提升了语言的语义连贯性、可

读性和基本推理能力。

➢ 推理为中心RL Reasoning-Oriented RL

➢ 增加了大规模的RL训练过程：和DeepSeek-R1 Zero 基本一致，主

要是提升Reasoning的能力，包括coding \ mathematics \ logic

reasoning 等带有明确解答过程的问题

➢ 语言一致性奖励：引入 language consistency reward 衡量长推理链

可读性（通过计算CoT过程中目标语言的占比）

➢ 推理准确率奖励：结合 accuracy of reasoning tasks and reward for

language consistency

➢ 成效：通过 GRPO ，模型在 AIME 2024 等数学基准上取得了显著

提升，pass@1 从 15.6% 提高到 71.0%。此外，模型能够自发延长

推理链条，展现出更强的逻辑连贯性。

最新Java全栈就业实战课程(免费)