2026美加墨世界杯中国官方网页版 当SFT遇上RL:基于样本学习阶段的动态政策优化机制

往日一段期间里,在围绕大模子推理能力增强的谈判中,SFT 和 RL 是两类中枢后老师范式 —— 前者剖释敛迹快,能高效接收高质地推理数据;后者更具探索性,有望推动模子完了复杂推理和散布外泛化。
但在施行老师中,这两种信号却难以灵验会通,现存责任大多仅停留在 "把两个 loss 混在一皆" 的层面。

为冒失这一挑战,谈判团队提议了DYPO(Dynamic Policy Optimization) 动态政策优化设施。
中枢想考在于:既然 SFT 和 RL 的学习信号统计性质自然不同,和洽优化要如何作念,才能既保留监督学习的剖释性,又不捐躯强化学习的探索能力?

△ 图 1:DYPO 的合座框架
如图 1,模子会先字据一组 rollout 的效能判断样本所处的学习阶段,再决定它应该走监督旅途、强化学习旅途,如故暂时跳过。
SFT 和 RL 为什么很难委果协同
若是把大模子后老师比作"教会生作念题",SFT 和 RL 的特色互异便一目了然。
SFT更像竭诚径直讲标准谜底。它的优点是学得快、过程稳、敛迹也更容易限度,但问题在于,学生很容易学成"会按套路作念题",一朝题目稍许变形,就可能短少泛化能力。
RL更像让学生我方反复尝试,再字据得分不停修正政策。它的优点是更有探索性,更可能逼着模子从"记取解法"走向"学会推理",但污点相似光显:老师过程中波动更大,奖励一朝寥落,模子就很容易学偏,以至不剖释。
从表面层面看,这背后对应着典型的偏差—方差矛盾:
SFT:低方差,但高偏差。SFT 的梯度来自静态高质地数据,更新剖释、噪声小,却自然偏向拟合示范散布,压缩模子探索空间;
RL:低偏差,但高方差。RL 通过奖励启动试错,更接近 "灵验政策优化",但受采样立地性和奖励寥落性影响,梯度方差高、老师易波动。
问题也正出在这里。许多和洽老师设施诚然同期用了 SFT 和 RL,但默许扫数样本都值得用归并种神志行止理。
但施行情况中,不相似本的学习信号存在显耀互异:有些问题模子还是会了,屡次 rollout 都能答对,这类样本不息老师,收益不时很有限;有些问题模子刻下整个不会,屡次 rollout 全部失败,这时径直作念 RL 经常也拿不到什么灵验奖励;
委果最值得优化的,反而是那些"还是会少许,但还不剖释"的样本。它们既讲解模子还是摸到了门槛,又保留了区分正确轨迹和荒唐轨迹的空间。
因此,这项责任想管理的,并不是"要不要把 SFT 和 RL 放在一皆",而是更进一步:不同学习阶段的样本,到底应该若何被优化,才能在剖释和探索之间找到更合理的均衡。

△ 图 2:SFT 与 RL 的偏差—方差矛盾
od手机app中国官网入口SFT 更稳,但偏差更大;RL 偏差更低,但老师波动光显更强。
DYPO 如何同期处理偏差和方差问题
基于上述想考,本文提议了Dynamic Policy Optimization ( DYPO ) 。它的中枢想想并不是再堆一个更复杂的老师经由,而是先字据 rollout 效能判断样本所处的学习阶段,再去匹配最合适的优化旅途。
具体而言,DYPO 会让刻下政策为每个问题生成一组 rollout,然后字据这些 rollout 的成败情况,把样本分辨红三类:
Easy 样本:一组 rollout 全部得胜,讲解模子已掌抓这类问题,径直跳过以减少无效更新;
Hard 样本:一组 rollout 全部失败,讲解模子短少弥漫常识基础,径直作念 RL 难获剖释正向信号。对此弃取多教师蒸馏(Multi-Teacher Distillation),引入多个 teacher 让 student 学习多种合理推理轨迹的共通部分,减少单一 teacher 的特定偏差,先建设可靠先验,再去说念后续探索;
Mid 样本:一组 rollout 有得胜也有失败,是最有价值的"学习前沿"。这类样本得当 RL 优化。但为管理标准 RL 的高方差问题,团队在 GRPO 的基础上引入了Group Alignment Loss,也即是GAL,来对皆亏欠。
GAL 的中枢想路是应用归并组 rollout 中的成败轨迹互异,显式将模子拉向正确轨迹、推离荒唐轨迹。这让 RL 更新不再仅依赖高噪声奖励信号,而是颠倒得回了一层更剖释的相对对皆管束。
换句话说,GAL 的作用并不是通俗"再加一个 loss ",而是在 RL 更新过程中充任一个动态的方差抑制项。
若是从表面上转头 DYPO 的谈判逻辑,它其实是在分别处理 SFT 和 RL 的两个中枢劣势:
多教师蒸馏针对Hard 样本,缓解 SFT 的高偏差问题。多个 teacher 的组合可对消个体偏差,2026美加墨世界杯中国官方网页版使合座监督偏差随 teacher 数目加多而着落;
GAL 针对Mid 样本,管理 RL 的高方差问题。搀杂宗旨的梯度方差严格小于纯 GRPO,且随模子区分轨迹能力的进步,GAL 本人的方差还会进一步自然衰减。
由此可见,DYPO 并不是通俗把 SFT 和 RL 拼起来,而是在结构上把"高偏差监督"和"高方差强化学习"分别放到最得当的样本上处理。也正因为如斯,它更像是一种再行组织后老师过程的神志,而不单是是一个新的老师妙技。

△ 图 3:GAL 的直不雅机制
如图 3,它应用归并组 rollout 中还是出现的正负样本,把模子往正确轨迹场地拉近,同期把荒唐轨迹往外推开。
实验效能
谈判团队在数学和逻辑推理场景开展实验,基础模子包括Qwen2.5-Math-7B 和 Qwen3-4B-Base,评测任务粉饰 AIME 2024/2025、AMC、MATH-500、Minerva,以及更偏散布外泛化的 ARC-c 和 GPQA-Diamond。
对这类责任来说,分数自然遑急,但若是只看最终效能,很容易把 DYPO 阐发成"又一个作念得更高的老师妙技"。真刚巧得看的,其实是它到底赢在什么地方。
在Qwen2.5-Math-7B上,和传统SFT → RL规章 pipeline 比较,DYPO:
五个复杂推理 benchmark 上的平平分从47.7进步到52.5,对应4.8个点的进步
在 OOD 任务上,平平分从48.3进步到61.6,对应13.3个点的进步
这一进步并非依赖单一任务冲高,而是合座阐发更剖释。尤其是在GPQA-Diamond这种更垂青迁徙推理能力的任务上,DYPO 取得了表中最佳的效能,这讲解它学到的并不单是更逼近老师散布的模板。

△ 图 4:Qwen2.5-Math-7B 上的合座效能对比
如图高傲,DYPO 在复杂推理和散布外任务上都阐发出较强的详细上风。

在Qwen3-4B-Base上,肖似的趋势依然存在。DYPO:
在 ID 任务上的平平分达到66.9,光显高于SFT → RL的56.1;
在 OOD 任务上,平平分达到68.5,也高于后者的 52.6。
这讲解它的收益并不单依赖某一个特定 backbone,而更像来自这套动态分流机制本人。
此外,消融实验进一步考证了设施灵验性。
许多时候,一个设施看起来更强,只怕是因为设施本人,也可能只是 teacher 更强、数据更好。
但在这项责任里,即便把第二个 teacher 换成比原教师 deepseek-R1 更弱的 Qwen3-8B 模子,DYPO 依然能把AIME 25从22.0进步到27.8,把GPQA-Diamond从30.8进步到39.4。
这意味着它的进步并不单是来自"多喂了一些更强 teacher 的数据",而是后头这套动态路由与低方差优化本人确乎阐发了作用。

除了最终效能,谈判还考证了 DYPO 的老师剖释性。
作家分析了老师过程中离线数据占比、reward 和政策熵的变化。
一个很成心思意思的情状是,DYPO 并不是一上来就把模子推向更强的探索,而是跟着能力进步,渐渐镌汰对监督信号的依赖,让老师自然从"更靠 teacher 扶着走"过渡到"更依赖政策我方探索"。
这个过程有点像一种自得当课程学习:先把基础稳住,再把探索空间渐渐放出来。

△ 图 5:老师动态分析
如图,跟着老师鼓吹,DYPO 会渐渐减少对离线监督的依赖,同期保持相对健康的政策万般性。
再看梯度范数。
标准 GRPO 的梯度弧线会有比较光显的剧烈震憾,而 DYPO 的弧线要平滑得多。这种互异看起来像是老师细节,但背后对应的其实是一个很施行的问题:若是梯度一直在大幅舞动,老师就更容易发散,也更难把学习率和优化政策设得积极。
DYPO 在这里阐发出的剖释性,正好讲解它对 RL 那部分高方差更新作念了灵验管束。

△ 图 6:梯度范数对比
如图 6, 和标准 GRPO 比较,DYPO 的更新轨迹更平滑,也更容易保持可控。
转头
DYPO 不是在讲授 SFT 和 RL 不错一皆用,而是在修起它们到底应该若何一皆用。它提供的,是一种更像"老师组织神志"的想路。
过往谈判已意志到,单纯依赖监督能够单纯依赖强化学习,都不及以把大模子推理能力往前再推一大步。但中枢难点并非谈判宗旨函数,而是不同阶段、不相似本暴泄漏来的学习信号本人就不一样。
DYPO 的中枢孝敬,是将优化逻辑前移:先判断样本学习阶段,再匹配优化旅途。这么一来,SFT 认真把模子扶稳,RL 认真让模子不息往外探索,而非无辞别地搀杂两种信号。
自然,这项责任也有其实验界限。
当今主要考证的是数学与逻辑推理场景,对绽开式对话、创作类任务是否相似灵验,还需要进一步不雅察;同期,为了剖释意料样本难度,老师时每个 prompt 需要生成 8 条 rollout,这也意味着颠倒算力支拨。
关于大模子推理能力增强来说,这也许不是至极,但 DYPO 无疑提供了一个值得持续鼓吹的新场地。
Arxiv Link: https://arxiv.org/pdf/2604.08926
Github Link: https://github.com/Tocci-Zhu/DYPO
一键三连「点赞」「转发」「预防心」
迎接在指摘区留住你的想法!
— 完 —
咱们正在招聘又名眼疾手快、柔软 AI 的学术剪辑实习生 � �
感兴味的小伙伴迎接柔软 � � 了解确定

� � 点亮星标 � �
科技前沿进展逐日见2026美加墨世界杯中国官方网页版