2026美加墨世界杯中国官方网页版当SFT遇上RL：基于样本学习阶段的动态政策优化机制

发布时间：2026-05-15 来源：世界杯官网作者：admin 浏览：56

往日一段期间里，在围绕大模子推理能力增强的谈判中，SFT 和 RL 是两类中枢后老师范式 —— 前者剖释敛迹快，能高效接收高质地推理数据；后者更具探索性，有望推动模子完了复杂推理和散布外泛化。

但在施行老师中，这两种信号却难以灵验会通，现存责任大多仅停留在 "把两个 loss 混在一皆" 的层面。

为冒失这一挑战，谈判团队提议了DYPO（Dynamic Policy Optimization）动态政策优化设施。

中枢想考在于：既然 SFT 和 RL 的学习信号统计性质自然不同，和洽优化要如何作念，才能既保留监督学习的剖释性，又不捐躯强化学习的探索能力？

△ 图 1：DYPO 的合座框架

如图 1，模子会先字据一组 rollout 的效能判断样本所处的学习阶段，再决定它应该走监督旅途、强化学习旅途，如故暂时跳过。

SFT 和 RL 为什么很难委果协同

若是把大模子后老师比作"教会生作念题"，SFT 和 RL 的特色互异便一目了然。

SFT更像竭诚径直讲标准谜底。它的优点是学得快、过程稳、敛迹也更容易限度，但问题在于，学生很容易学成"会按套路作念题"，一朝题目稍许变形，就可能短少泛化能力。

RL更像让学生我方反复尝试，再字据得分不停修正政策。它的优点是更有探索性，更可能逼着模子从"记取解法"走向"学会推理"，但污点相似光显：老师过程中波动更大，奖励一朝寥落，模子就很容易学偏，以至不剖释。

从表面层面看，这背后对应着典型的偏差—方差矛盾：

SFT：低方差，但高偏差。SFT 的梯度来自静态高质地数据，更新剖释、噪声小，却自然偏向拟合示范散布，压缩模子探索空间；

RL：低偏差，但高方差。RL 通过奖励启动试错，更接近 "灵验政策优化"，但受采样立地性和奖励寥落性影响，梯度方差高、老师易波动。

问题也正出在这里。许多和洽老师设施诚然同期用了 SFT 和 RL，但默许扫数样本都值得用归并种神志行止理。

但施行情况中，不相似本的学习信号存在显耀互异：有些问题模子还是会了，屡次 rollout 都能答对，这类样本不息老师，收益不时很有限；有些问题模子刻下整个不会，屡次 rollout 全部失败，这时径直作念 RL 经常也拿不到什么灵验奖励；

委果最值得优化的，反而是那些"还是会少许，但还不剖释"的样本。它们既讲解模子还是摸到了门槛，又保留了区分正确轨迹和荒唐轨迹的空间。

因此，这项责任想管理的，并不是"要不要把 SFT 和 RL 放在一皆"，而是更进一步：不同学习阶段的样本，到底应该若何被优化，才能在剖释和探索之间找到更合理的均衡。

△ 图 2：SFT 与 RL 的偏差—方差矛盾

od手机app中国官网入口

SFT 更稳，但偏差更大；RL 偏差更低，但老师波动光显更强。

DYPO 如何同期处理偏差和方差问题

基于上述想考，本文提议了Dynamic Policy Optimization ( DYPO ) 。它的中枢想想并不是再堆一个更复杂的老师经由，而是先字据 rollout 效能判断样本所处的学习阶段，再去匹配最合适的优化旅途。

具体而言，DYPO 会让刻下政策为每个问题生成一组 rollout，然后字据这些 rollout 的成败情况，把样本分辨红三类：

Easy 样本：一组 rollout 全部得胜，讲解模子已掌抓这类问题，径直跳过以减少无效更新；

Hard 样本：一组 rollout 全部失败，讲解模子短少弥漫常识基础，径直作念 RL 难获剖释正向信号。对此弃取多教师蒸馏（Multi-Teacher Distillation），引入多个 teacher 让 student 学习多种合理推理轨迹的共通部分，减少单一 teacher 的特定偏差，先建设可靠先验，再去说念后续探索；

Mid 样本：一组 rollout 有得胜也有失败，是最有价值的"学习前沿"。这类样本得当 RL 优化。但为管理标准 RL 的高方差问题，团队在 GRPO 的基础上引入了Group Alignment Loss，也即是GAL，来对皆亏欠。

GAL 的中枢想路是应用归并组 rollout 中的成败轨迹互异，显式将模子拉向正确轨迹、推离荒唐轨迹。这让 RL 更新不再仅依赖高噪声奖励信号，而是颠倒得回了一层更剖释的相对对皆管束。

换句话说，GAL 的作用并不是通俗"再加一个 loss "，而是在 RL 更新过程中充任一个动态的方差抑制项。

若是从表面上转头 DYPO 的谈判逻辑，它其实是在分别处理 SFT 和 RL 的两个中枢劣势：

多教师蒸馏针对Hard 样本，缓解 SFT 的高偏差问题。多个 teacher 的组合可对消个体偏差，2026美加墨世界杯中国官方网页版使合座监督偏差随 teacher 数目加多而着落；

GAL 针对Mid 样本，管理 RL 的高方差问题。搀杂宗旨的梯度方差严格小于纯 GRPO，且随模子区分轨迹能力的进步，GAL 本人的方差还会进一步自然衰减。

由此可见，DYPO 并不是通俗把 SFT 和 RL 拼起来，而是在结构上把"高偏差监督"和"高方差强化学习"分别放到最得当的样本上处理。也正因为如斯，它更像是一种再行组织后老师过程的神志，而不单是是一个新的老师妙技。

△ 图 3：GAL 的直不雅机制

如图 3，它应用归并组 rollout 中还是出现的正负样本，把模子往正确轨迹场地拉近，同期把荒唐轨迹往外推开。

实验效能

谈判团队在数学和逻辑推理场景开展实验，基础模子包括Qwen2.5-Math-7B 和 Qwen3-4B-Base，评测任务粉饰 AIME 2024/2025、AMC、MATH-500、Minerva，以及更偏散布外泛化的 ARC-c 和 GPQA-Diamond。

对这类责任来说，分数自然遑急，但若是只看最终效能，很容易把 DYPO 阐发成"又一个作念得更高的老师妙技"。真刚巧得看的，其实是它到底赢在什么地方。

在Qwen2.5-Math-7B上，和传统SFT → RL规章 pipeline 比较，DYPO：

五个复杂推理 benchmark 上的平平分从47.7进步到52.5，对应4.8个点的进步

在 OOD 任务上，平平分从48.3进步到61.6，对应13.3个点的进步

这一进步并非依赖单一任务冲高，而是合座阐发更剖释。尤其是在GPQA-Diamond这种更垂青迁徙推理能力的任务上，DYPO 取得了表中最佳的效能，这讲解它学到的并不单是更逼近老师散布的模板。

△ 图 4：Qwen2.5-Math-7B 上的合座效能对比

如图高傲，DYPO 在复杂推理和散布外任务上都阐发出较强的详细上风。

在Qwen3-4B-Base上，肖似的趋势依然存在。DYPO：

在 ID 任务上的平平分达到66.9，光显高于SFT → RL的56.1；

在 OOD 任务上，平平分达到68.5，也高于后者的 52.6。

这讲解它的收益并不单依赖某一个特定 backbone，而更像来自这套动态分流机制本人。

此外，消融实验进一步考证了设施灵验性。

许多时候，一个设施看起来更强，只怕是因为设施本人，也可能只是 teacher 更强、数据更好。

但在这项责任里，即便把第二个 teacher 换成比原教师 deepseek-R1 更弱的 Qwen3-8B 模子，DYPO 依然能把AIME 25从22.0进步到27.8，把GPQA-Diamond从30.8进步到39.4。

这意味着它的进步并不单是来自"多喂了一些更强 teacher 的数据"，而是后头这套动态路由与低方差优化本人确乎阐发了作用。

除了最终效能，谈判还考证了 DYPO 的老师剖释性。

作家分析了老师过程中离线数据占比、reward 和政策熵的变化。

一个很成心思意思的情状是，DYPO 并不是一上来就把模子推向更强的探索，而是跟着能力进步，渐渐镌汰对监督信号的依赖，让老师自然从"更靠 teacher 扶着走"过渡到"更依赖政策我方探索"。

这个过程有点像一种自得当课程学习：先把基础稳住，再把探索空间渐渐放出来。

△ 图 5：老师动态分析

如图，跟着老师鼓吹，DYPO 会渐渐减少对离线监督的依赖，同期保持相对健康的政策万般性。

再看梯度范数。

标准 GRPO 的梯度弧线会有比较光显的剧烈震憾，而 DYPO 的弧线要平滑得多。这种互异看起来像是老师细节，但背后对应的其实是一个很施行的问题：若是梯度一直在大幅舞动，老师就更容易发散，也更难把学习率和优化政策设得积极。

DYPO 在这里阐发出的剖释性，正好讲解它对 RL 那部分高方差更新作念了灵验管束。

△ 图 6：梯度范数对比

如图 6，和标准 GRPO 比较，DYPO 的更新轨迹更平滑，也更容易保持可控。

转头

DYPO 不是在讲授 SFT 和 RL 不错一皆用，而是在修起它们到底应该若何一皆用。它提供的，是一种更像"老师组织神志"的想路。

过往谈判已意志到，单纯依赖监督能够单纯依赖强化学习，都不及以把大模子推理能力往前再推一大步。但中枢难点并非谈判宗旨函数，而是不同阶段、不相似本暴泄漏来的学习信号本人就不一样。

DYPO 的中枢孝敬，是将优化逻辑前移：先判断样本学习阶段，再匹配优化旅途。这么一来，SFT 认真把模子扶稳，RL 认真让模子不息往外探索，而非无辞别地搀杂两种信号。

自然，这项责任也有其实验界限。

当今主要考证的是数学与逻辑推理场景，对绽开式对话、创作类任务是否相似灵验，还需要进一步不雅察；同期，为了剖释意料样本难度，老师时每个 prompt 需要生成 8 条 rollout，这也意味着颠倒算力支拨。

关于大模子推理能力增强来说，这也许不是至极，但 DYPO 无疑提供了一个值得持续鼓吹的新场地。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link: https://github.com/Tocci-Zhu/DYPO

一键三连「点赞」「转发」「预防心」

迎接在指摘区留住你的想法！

— 完 —

咱们正在招聘又名眼疾手快、柔软 AI 的学术剪辑实习生 � �

感兴味的小伙伴迎接柔软 � � 了解确定

� � 点亮星标 � �

科技前沿进展逐日见2026美加墨世界杯中国官方网页版

上一篇：上一篇：世界杯官方网页版德国十米大骨架，组团访华！狗见了齐怕下一篇：下一篇：世界杯(中国)官网英伟达给黄仁勋儿女涨薪了！年薪百万好意思元，“凭智商而不是身份”

返回世界杯官网