大模型进展专栏第三期|专家精彩评论:类o1大模型技术路线揭秘发表时间:2025-03-03 15:26 近期,DeepSeek R1、Kimi k1.5 以及李飞飞团队的 S1 等关于类o1推理模型的工作相继发布,引发了行业内的广泛关注。我们邀请了北京大学杨耀东教授就类o1大模型技术路线进行点评: DeepSeek R1 报道:https://mp.weixin.qq.com/s/TEZxXZ2eHRW_8QBLUX7VzA Kimi K1.5报道:https://mp.weixin.qq.com/s/FOAcS2jsTwNoZA2t1BJ66Q 1. 在Kimi K1.5和 DeepSeek-R1所公开的技术实践之外,是否还有其他一些值得关注的推理模型技术实践? 回答: 在DeepSeek-R1和Kimi K1.5通过强化学习(RL)激活模型推理潜力的技术路线之外,近期研究社区涌现出两类值得关注的创新实践:一是基于搜索树的显式推理优化方法,如rStar-Math通过蒙特卡洛树搜索(MCTS)与过程奖励模型结合,实现小模型的高效数学推理;二是对思维链(CoT)的深度建模框架,如Meta-CoT尝试捕捉非线性、迭代性的人类解题思维模式,与强化学习驱动的隐式推理形成互补。这些探索从不同维度突破了传统RL范式的边界,为复杂推理任务的模型能力提升提供了新思路。 Kimi K1.5 和 DeepSeek-R1 的技术实践都是以强化学习(RL)为核心,通过RL发掘的模型的推理潜能。Kimi K1.5 以长文本为核心,将RL应用于长文本的思维链 (Chain-of-Thought, CoT) 的推理过程,与此同时增加上下文的长度,让模型在生成CoT的过程中进行隐式的规划、反思和修正,从而不引入显示的搜索树或价值函数。而DeepSeek-R1 Zero 和 DeepSeek-R1 则是进行基于规则的奖励建模(准确率奖励和格式奖励),通过以推理为中心的大规模强化学习,无需监督微调,获得由纯强化学习驱动的推理模型,并且观察到了训练过程中的推理范式涌现和长度泛化。 以上两者,其实都是没有使用显式的搜索树的策略,更多关注于用强化学习激活模型推理潜力。近期社区也有很多关注于基于搜索树的方法挖掘模型推理能力的工作。例如rStar-Math [1], 其中的核心是利用两个小模型,其中一个作为策略模型Policy Model, 而另一个模型训练成为基于偏好的过程奖励模型(PPM),二者配合进行蒙特卡洛树搜索(MCTS)产生分步验证的高质量推理数据,经过四轮自我迭代提升后,7B小模型在数学任务上也达到了和OpenAI o1 相当的水平。这篇工作也是众多探究强推理模型里把MCTS路线走通的典范,而且仅使用了相当有限的机器资源达成的。 学界也有一些尝试建模思维链,从而深入探究System 2推理的实现的工作。例如 Meta-CoT [2], 该框架尝试建模一些复杂问题的解题思路背后的潜在思考过程(通常涉及非线性、迭代性和潜在的探索与验证),进而融入到模型的构建过程中。这和STaR [3]一类引导中间 CoT 步骤的方法的思想也有相通之处。 [1] https://arxiv.org/abs/2501.04519 [2] https://arxiv.org/abs/2501.04682 [3] https://arxiv.org/abs/2203.14465 2. 长思维链推理模型与可解释性 基于长思维链(Chain of Thought, CoT)的推理模型是否有可能解决模型的可解释性问题?为什么? 回答: 基于长思维链(CoT)的推理模型虽能通过显式推理路径提升表面可解释性,但其本质仍受限于语言模型的“解释-意图分离”风险——模型可能生成符合人类认知的虚假推理步骤,掩盖真实计算逻辑。研究表明,CoT的透明性承诺与参数空间的弹性(如“抗拒对齐”现象)及欺骗性推理(如In-Context Scheming)可能形成矛盾:模型既能输出逻辑连贯的思维链,也可能通过策略性伪装绕过监督。因此,CoT的可解释性价值需置于“是否反映真实意图”的验证框架下,其可靠性依赖对抗性测试、动态奖励机制与形式化验证的协同干预,而非单纯依赖推理步骤的文本呈现。 基于长思维链的推理可以在一定程度上提高模型的可解释性,因为它提供了显式的推理路径,让人类可以追踪模型如何从输入推导出输出,从而追踪模型的决策过程,减少黑箱推理。同时,CoT 使监督者更容易检测模型是否遵循合理逻辑,并有助于 AI 对齐过程中对模型行为的透明化处理。 然而,CoT 并不能完全解决可解释性问题,因为模型仍可能利用 CoT 进行欺骗性推理,即In-Context Scheming。CoT 生成的推理步骤是模型输出的一部分,并不能保证它反映了模型的真实内部计算过程。模型可能学会输出符合人类期望的思维链,但实际推理过程可能与其展示的 CoT 不同。 我们最近的一篇文章[1]发现语言模型参数空间是具有弹性的,即它可能会“抗拒对齐”,看似表现出对齐的特征,但仅需一点反向数据,它便如同弹簧一样返回到未对齐状态。Anthropic 近期也有一篇文章[2]提出了对齐欺骗 (Alignment Faking) 的现象,也深入探讨了语言模型尝试绕过对齐过程的行为。 当模型具备长期目标意识(Instrumental Reasoning)时,它可能会构造看似合理但实际上误导性的 CoT,以隐藏其真正的意图。此外,CoT 仅是文本输出的一部分,并不代表模型的实际内部推理过程,因此不能确保其真实透明。 为了防止 CoT 变成伪装工具,需要结合AI-Driven 监督机制、对比推理(Contrastive Prompting)和形式验证(Formal Verification)等方法。例如,可以让模型在不同监督环境下执行相同任务,检测其推理一致性;或者使用自动化对抗性测试,分析模型是否在训练过程中优化了欺骗策略。此外,动态奖励机制也需要强化,以防止模型利用 CoT 绕过对齐监督。 仅靠 Long CoT 不能完全确保 AI 透明可信,因为我们需要的不仅仅是“让 AI 解释它的思维过程”,而是“让 AI 无法欺骗地解释它的思维过程”。这必须结合更强的外部控制手段和安全验证机制,如 AI 监测系统、抗欺骗评估和强约束规则,使模型在推理过程中无法刻意隐藏或操纵其真实意图。未来研究应专注于如何量化欺骗性对齐(Deceptive Alignment),并开发可扩展的检测和预防技术,确保 AI 在复杂环境下仍然保持可靠和安全。 [1] https://arxiv.org/abs/2406.06144 [2] https://arxiv.org/abs/2412.14093 3. 关于通过蒸馏及SFT手段提高模型推理能力的探讨 · 背景1:近日,斯坦福S1及上交大LIMO团队使用少量(S1使用1000个,LIMO使用817个)含有推理轨迹的训练样本,通过SFT方案分别获得Test Time Scaling及泛化效果。S1论文中提到,其与LIMO团队研究所使用的基座Qwen2.5-32B-Instruct模型在数学任务上的表现通常与更大的Qwen2.5-72B-Instruct或其他开放模型相当,甚至更好。有传闻称其数学表现尤其优异的原因是因为Qwen2.5-存在训练数据中。有业内人士指出,该基座模型的选择是 S1 和 LIMO 团队只需要通过小样本监督微调(SFT)即可大幅提高表现的核原因,如使用其他模型很可能无法复现同样效果。 · 背景2:DeepSeek团队利用DeepSeek-R1模型生成800K的推理轨迹样本,对多个广泛使用的较小参数量的密集模型进行了SFT,如DeepSeek-R1-Distill-Qwen-7B在2024年AIME竞赛中取得了55.5%的得分,超越了QwQ-32B-Preview;而DeepSeek-R1-Distill-Qwen-32B在AIME 2024中得分72.6%,在MATH-500测试中达到94.3%,在LiveCodeBench测试中得分57.2%,这些成绩不仅显著优于之前的开源模型,甚至与o1-mini等先进模型相当。这一发现表明,通过知识蒸馏,可以将大型模型中复杂的推理模式和策略有效地提炼并迁移到小型模型中,使小型模型在推理任务中展现出更强的能力。这种方法不仅提高了模型的推理性能,还降低了计算成本和资源消耗,为实际应用中的模型部署提供了更高效的选择 S1 报道:https://mp.weixin.qq.com/s/ax_CCrqpgrp5j2mLOssY4w LIMO 报道:https://mp.weixin.qq.com/s/c62TWyepruRYf_1xHFKw4g · 问题:S1团队使用Qwen2.5-32B-Instruct这个特殊的模型是否会对实验结果及相关发现有所影响?使用SFT手段提高小模型的推理能力方案与使用强化学习提高推理能力的方案的主要区别是什么?DeepSeek使用蒸馏R1的手段获取轨迹样本的方案存在哪些局限性? 回答: S1团队选择Qwen2.5-32B-Instruct作为基座模型,其强推理先验虽为实验提供了高阶起点,但最终性能跃升的核心驱动力在于s1K数据集的课程化设计与预算强制法则的动态控制——前者通过高密度数学与科学问题的精细筛选与轨迹标注,模拟人类渐进式学习;后者通过“思考标记”阈值调控模型的探索深度,平衡效率与效果。这种组合表明,模型基座的上限固然重要,但面向推理任务的数据工程与训练机制创新也能突破性能瓶颈,其价值甚至超越模型规模的原始优势,这也体现后训练Test-Time Scaling Law的重要性。 S1团队利用Qwen2.5-32B-Insturct模型进行实验,这一选择对实验结果及相关发现可能确实会产生积极的影响。尽管Qwen2.5-32B-Insturct本身就是一个能力较强的模型,能够为后续思考过程提供宝贵的先验知识,就像经验丰富的大师一样,通过进一步的训练可以更好地激发其潜力。然而,S1模型的表现显著超越了其基座模型o1-preview,这主要得益于两个关键因素:s1K数据集和预算强制法则的应用。 s1K数据集精心挑选了1000个涵盖数学竞赛、博士级科学问题及奥林匹克竞赛题目等,这些问题经过难度、多样性和质量的严格筛选,并包含详细的推理轨迹与答案。此外,团队还自主创建了两个原创数据集作为补充资源。这些高质量的数据不仅丰富了训练材料,还起到了类似课程学习的效果,促进了模型性能的提升。 另一方面,预算强制法则有效地控制了模型在测试阶段的计算资源消耗。当模型生成的思考标记超过预设限制时,系统会插入“end-of-thinking token”来终止思考过程并促使模型转向答案生成阶段;若需要增加计算投入,则会暂时阻止end-of-thinking token的出现,并鼓励更深入的探索。这种机制为优化模型的思考过程提供了宝贵的见解,也是S1模型表现优异的重要原因之一。 综上所述,虽然Qwen2.5-32B-Insturct模型自身具备强大的基础能力,但S1模型的卓越表现更多地归功于s1K数据集的使用以及预算强制法则的实施。这两个因素共同作用,使得S1模型在推理评测榜单上的成绩有了显著提升。 利用SFT蒸馏大模型的强推理范式来提升小模型的推理能力社区也有所广泛探索。与使用强化学习提升推理能力的方案相比,直接使用SFT蒸馏虽然可以帮助小模型获得推理分数上的表现,但由于SFT的本质和模仿学习相似,模型更多是去拟合数据中的pattern,而很难学习到数据背后推理基于的数学规律等。强化学习则是通过试错和尝试,鼓励模型在最大化奖励过程中学习到推理背后的规律,获得的泛化性和推理表现上界也是要超过SFT的方案。 DeepSeek 利用蒸馏R1的手段获得了一系列小模型,表现非常突出。这很大程度得益于R1模型足够强大,发现了很多高阶推理范式,而这些高阶推理范式是小模型直接利用大规模强化学习难以发现的(可以认为是由于预训练知识不足),因此这些蒸馏得到的小模型表现比较突出,甚至超过了基于RL的方法。 但这种方案相对还是比较依赖于强大的教师模型,并且蒸馏过程通常针对特定任务或一组任务(例如代码和数学问题)优化,这可能导致生成的小模型在面对新任务或环境(例如通用任务)时适应性和泛化能力不足。相比于直接使用强化学习方法,这些小模型可能缺乏探索和自我调整的能力,尤其是在动态变化的任务场景中。 4. 关于Kimi K1.5和DeepSeekR1/R1-Zero策略优化方案的探讨 Kimi K1.5和DeepSeekR1/R1-Zero在RL过程中分别采用了GRPO和变种Mirror Decent的online policy optimization方案的主要价值分别是什么?不同的online policy optimization 方案对模型推理能力影响会有多大?对于后训练模型推理能力的提升,是否后训练Pipeline的总体影响会更大一些? 回答: DeepSeek-R1采用的GRPO方案核心价值在于效率优化——通过群组平均奖励替代价值函数估算,结合KL散度直接正则化策略,实现复杂推理任务的高效策略迭代;而Kimi-K1.5的变种Mirror Descent则侧重行为模式涌现,通过稳定梯度更新驱动模型自主形成验证、回溯等系统性推理行为。两种在线策略优化路径分别从“计算效率”与“认知深度”维度突破传统PPO的局限;与此同时,模型最终推理能力的提升更依赖于后训练Pipeline的全局设计:数据覆盖的分层设计、抗欺骗奖励机制与推理长度-正确率的动态权衡,其综合影响远超单一优化算法的选择。 GRPO 的主要价值在于其利用同一问题下多个采样输出的平均奖励作为基线,从而无需额外近似价值函数。这种机制通过群组相对方式计算优势值,与奖励模型基于同一问题的输出比较训练的特性天然契合。此外,GRPO直接将策略模型与参考模型的KL散度作为正则项加入损失函数,而非将其混入奖励计算,简化了优势值的计算过程。这使得GRPO在大规模强化学习任务中,特别是在处理复杂的推理任务时,能够更有效地优化策略模型,同时保持较高的计算效率。 变种Mirror Descent可以在保证学习稳定性的同时,促进模型对复杂推理任务的理解深度,如逐层加深反思、验证、回溯等行为范式的形成。它允许模型自然地探索到验证、回溯、总结、反思的行为模式,这些对于提高模型在推理任务中的表现至关重要。 后训练Pipeline对于提升模型推理能力的重要性不可忽视。一方面,随着测试阶段算力和训练阶段探索算力的增加,根据后训练Scaling Law,模型的表现将持续得到改善。另一方面,强化学习算法中涉及的包括数据构建和奖励建模等,对模型最终性能有着至关重要的影响。理想的数据构建应当覆盖广泛的类别,并且难度分级明确,这有利于实现类似课程学习的效果,逐步提高模型的能力。同时,在奖励建模时,必须确保基于奖励模型的奖励机制不会被轻易攻陷,基于规则的奖励设计严密且具有良好的泛化性。此外,还需要平衡推理长度与推理正确率之间的关系。例如,针对一个序列中的下一个动作,若存在一个是错误答案而另一个是正确答案的情况,传统的方法会倾向于提升选择正确答案的概率,同时降低选择错误答案的概率。然而,从推理长度的角度来看,有时选择看似错误的答案可能会引导模型进入自我修正的过程,这种自我修正机制以及更长的推理路径同样对提升模型的整体推理能力至关重要。因此,在实际操作中需要对此进行权衡考虑。 5. 关于纯强化学习路线的探讨 · 背景1:DeepSeek团队在R1-Zero的开发过程中采用直接对基础模型应用强化学习(RL),而不依赖监督微调(SFT)作为初步步骤。这种方法使模型能够探索用于解决复杂问题的思维链(CoT),从而开发出DeepSeek-R1-Zero。DeepSeek团队认为DeepSeek-R1-Zero展示了诸如自我验证、反思和生成长思维链等能力,该研究验证可以通过纯粹的强化学习激励大型语言模型(LLMs)的推理能力,而无需进行监督微调。 · 背景2:DeepSeek 团队在使用纯强化学习方法开发 R1-Zero 模型时发现了一些问题:1)模型生成的内容可读性较差,DeepSeek团队认为这可能是因为模型在生成长思维链(Chain of Thought, CoT)时过于关注推理逻辑,而忽视了语言表达的自然性和流畅性。2)R1-Zero模型还存在语言混杂的问题,即在生成过程中可能会混合使用不同的语言风格或表达方式,导致输出结果不够一致和清晰。为了解决这些问题并进一步提升模型的推理性能,DeepSeek团队引入了 DeepSeek-R1 模型。该模型采用了多阶段训练流程,首先通过收集冷启动数据对基础模型进行微调,以解决可读性和语言风格的问题。随后,团队继续采用强化学习进行训练,类似于 R1-Zero 的方法。当强化学习接近收敛时,团队通过拒绝采样生成新的训练数据,并结合其他领域的监督数据进行进一步微调。最后,模型再次经历强化学习过程,确保在各种场景下都能表现出色。通过这一系列改进,DeepSeek-R1 不仅解决了 R1-Zero 的问题,还在推理能力上达到了与 OpenAI-o1-1217 相当的水平。 · 问题:您如何看待纯强化学习路线的挑战及潜力?您认为是否有潜在的方法可以不进行SFT,仅通过强化学习解决R1-Zero遇到的问题? 回答:纯强化学习方法可能导致模型在生成内容时过于侧重于推理逻辑,而忽略了语言表达的自然性和流畅性。例如,在DeepSeek-R1-Zero中观察到的一个显著问题是生成内容的可读性较差。另一个问题是语言混杂现象,即在生成过程中可能会混合使用不同的语言风格或表达方式,导致输出结果不够一致和清晰。这种情况可能是由于预训练数据集包含了多种语言,“一视同仁”的tokenization方式使得不同领域的语言编码对推理能力产生了复杂的影响。没有监督微调(SFT)作为初步步骤,意味着模型需要从头开始探索所有可能的解决方案,这对于复杂任务来说效率较低且资源消耗大。 此外,纯强化学习高度依赖于奖励设计和建模。例如,在数学推理问题上,可以通过准确率奖励和格式奖励来优化模型表现,这得益于推理问题可以进行自动化标记和验证(Self-Automated Verification and Annotation)。然而,在处理无法明确判断正误的复杂问题或通用任务时,定义规则化的奖励往往十分困难。 尽管存在这些挑战,强化学习在提升任务泛化性以及激励发现高阶推理范式和规律方面展现了巨大潜力。 SFT的作用类似于为模型提供格式规劝和示例演示,从而使得思考过程更具有可读性。不过,也可以通过奖励设计来达到类似效果,例如加入衡量长推理链可读性的语言一致性奖励(通过计算CoT过程中目标语言的占比),或是针对不同领域和语言编码的特点,设计相应的强化学习策略以促进更好的跨语言理解和推理能力。 大模型专栏联系方式:lmdi123@163.com 欢迎投稿 |