8%的token决定reasoning差距

今日概览

  • RLVR里的「不可学习」现象:一批困难样本即便在rollout里出过正确答案,整个训练也永远学不会,奖励曲线照涨——涨的其实是更易学子集的部分。
  • reasoning优势是稀疏的:base和reasoning model的差距高度集中在约8%的token上,富集在响应早期的planning决策位置。
  • 单模型红队不再算保护:把一组前沿模型当成集合并发查询,任何一个守不住就够拿到有害输出,最高成功率100%。
  • WOW-Seg跳过文本prompt:Meta用Mask2Token把mask直接对齐VLLM特征空间,1/8参数超过LVIS上的SOTA。
  • 3D重建给扩散prior加幻视分数图:HAD用前馈式新视角网络做交叉验证,像素级遮掉不可靠区域。

重点关注

01 训练优化 奖励曲线还在涨,但有一批难题模型永远学不会

ICML这篇做了件挺尴尬的事:把RLVR训练里模型最初做不对的「困难样本」挑出来跟踪,发现里面有相当一部分,即便rollout中出过正确答案,整个训练过程也始终学不会。换句话说,奖励曲线确实在涨,但涨的那部分其实来自更容易学的那批样本,hard examples被默默放弃了。作者用跨样本梯度相似度分析揭示了原因——这些unlearnable样本的梯度方向和其它样本几乎不重合,推理路径无法泛化,本质上是模型的内部表示里就没有解这类题需要的「零件」。更扎心的是,常见的优化和采样技巧、包括数据增强都试过,没一个能把这些样本救回来——表示层的缺陷,RL阶段补不上。对从业者的直接含义是:盲目把所有失败样本灌进RL是在烧算力同时虚抬指标,curriculum和数据筛选的逻辑该重新审视——RLVR能修的是「会做但做不稳」,不是「压根不会」。

困难样本中有相当一部分对RLVR属于「不可学习」,奖励曲线的提升实际来自更容易学的子集问题出在表示层而非优化层,加数据增强也救不回来调整RL配方时优先做难度筛选,把unlearnable样本剔除或放回SFT阶段处理

02 推理 reasoning model的全部优势可能藏在8%的token里

部署reasoning model推理成本太高,但完整RL训练又做不起,这是不少团队的两难。这项ICML工作做了一次token级诊断:base model和reasoning model生成的同一段response里,真正造成性能差距的只占约8%的token,并且高度集中在响应早期、与planning决策相关(富集17倍),通常出现在base model自身高度不确定的位置——意味着base其实知道「这里不会」,只是没人替它选对方向。基于这个观察,作者提出推理时只在高分歧位置让reasoning model「接管」一个token、立即切回base,一种稀疏委托方案在小预算下就能恢复甚至超过同尺寸reasoning model的表现。对担心部署成本的团队,这是一条值得评估的轻量路径,但目前主要在Qwen3-0.6B等小模型上验证,规模化和跨任务表现仍需看全文或后续工作。

reasoning优势是稀疏现象,~8%的早期planning token就承担了大部分差距对部署成本敏感的团队,token级干预可能成为完整reasoning训练的轻量替代目前验证集中在小模型,扩展到主力推理模型的效果待观察

03 安全对齐 单模型红队的天花板不再算保护

现在主流的大模型安全评估几乎都默认一个前提:攻击者盯着一个模型反复试。这篇 ICML 论文把视角换到攻击者一侧——真实威胁里没人只查一个模型,把一组前沿模型当成集合并发查询,任何一个守不住就够拿到有害输出。作者据此设计了一个针对「广撒网」场景的越狱方法,在没有额外防护的模型集合上成功率最高能到100%。换句话说,单个模型再硬,只要集合里有一个软的,整个安全边界就被拉到那个最弱的水平。

安全评估需要新增「多模型联合泄漏」这一维度,单模型红队跑通不等于真实场景安全前沿模型厂商的对齐水平存在木桶效应,靠队友兜底是危险假设做安全产品和合规的团队应该把「用户能并发访问多家模型」作为默认威胁模型,而不是边角案例。

04 多模态 给分割模型补语义,能不能不再靠文本桥

SAM擅长切mask但说不出切的是什么,CLIP系语义模型反过来——过去几年补这条裂缝的主流做法都是拿文本prompt当桥梁。Meta的WOW-Seg把「word-free」写进名字,思路是用Mask2Token把图像mask直接转成视觉token去对齐VLLM特征空间,跳过文本环节,再用Cascade Attention Mask隔离不同实例之间的信息串扰。论文给的成绩是在LVIS上以1/8参数超过此前SOTA,并附了一个7,662类的RR-7K区域识别基准。但要判断这条路线值不值得跟,绝对SOTA数字不是关键——更值得看的是no-prompt设定下相对带文本输入基线掉了多少,摘要里没给这组对比,需要看全文确认。

开放词汇分割正在尝试甩掉文本prompt依赖,纯视觉对齐的路线开始有人押注Mask2Token把mask直接token化对齐VLLM特征空间,是个值得跟踪的架构选择评估word-free方法别只盯SOTA,要看相对带文本baseline的性能保留率

05 图像生成 给3D重建里的「幻视」打个分

稀疏视图3D重建过去一年流行的套路是用扩散模型补出新视角的图像,再丢进重建流水线。问题是扩散模型会「脑补」——生成出输入视图里根本不存在的内容,最后这些幻觉会被烘进3D资产里。HAD的做法不是事后擦除,而是用一个预训练的前馈式新视角合成网络做交叉验证,给每张补出来的图算一张像素级的「幻视分数图」,重建时直接把不可靠的像素遮掉。另外它会用不同输入视图各生成一版增强图再融合,让上下文更广。论文是CVPR接收,在多个新视角合成benchmark上拿了SOTA。

扩散prior补novel view已是稀疏重建标配,但「幻视污染」是大家心知肚明的代价把幻视检测显式写进流水线比后处理擦除更诚实,做3D资产/重建的团队可以拿来当新baseline像素级置信度的思路也适用于其他「用生成模型补数据」的场景,不只是3D。
8%的token决定reasoning差距

也值得关注

06
D²Evo给「medium难度样本随训练漂移」配了一组双层难度估计 训练优化和今天的RLVR-Unlearnability放一起读,正好覆盖curriculum重校准里「剔不可学」和「追中间难度」两端。链接
07
GUI agent的self-evolution框架,过往episode写成可检索memory而不是塞回context Agent避开了多步任务里context窗口受限和静态策略适应性差两个老问题。链接
08
TRACE做多视频事件理解的evidence grounding 多模态视频agent处理长heterogeneous语料时不再被context预算限死,定位+归因证据scatter across多个视频。链接
09
SSL里projection head的几何理论分析 模型架构把head建成trainable Riemannian metric,给collapse和invariance这些工程经验找了一组解释。链接
10
PluRule:同一内容在不同社区规则下的合规判定 评测多元化治理趋势下,内容审核模型要面对的是compositional压力测试,不再是单一规则集。链接
11
模态缺失下的情感分析换思路:不再「生成补齐」,而是直接处理decision drift 多模态真实数据里模态缺失和质量不均衡是常态,feature生成路线有自身代价。链接
12
多任务线性回归的污染鲁棒性结果 训练优化理论侧,但能用来反推现实多任务训练里outlier task的容忍度上界。链接

今日观察

今天Unlearnability、Reasoning Restored、D²Evo三篇凑在一起,给出一个挺具体的方向收敛信号:RLVR的研究焦点已经从「能不能涨分」转到「学习动力学到底在动什么」。Unlearnability指认了「一批困难样本根本学不会但奖励曲线照涨」这个事实——奖励的来源不是它看上去的那批;Reasoning Restored则发现base→reasoning的能力gap其实压缩在极少数token决策上,整体训练里大量算力其实在改「已经会」的部分;D²Evo承认medium-difficulty样本本身会随训练漂移,做难度估计的方式得跟着动起来。三条线指的是同一件事:奖励曲线、loss和benchmark分数都是粗粒度信号,下一步要看的是gradient方向、token位置和样本难度的演化。

对工程团队的隐含动作很具体:数据curriculum需要重新校准,把「通不过的难样本」机械堆进去既浪费算力也虚抬指标。先跑一遍gradient similarity或简单的pass-rate追踪,把不动的那一档剥出来——能省下的训练预算和能避免的指标自欺,都不是小数。