今日概览
- RLVR里的「不可学习」现象:一批困难样本即便在rollout里出过正确答案,整个训练也永远学不会,奖励曲线照涨——涨的其实是更易学子集的部分。
- reasoning优势是稀疏的:base和reasoning model的差距高度集中在约8%的token上,富集在响应早期的planning决策位置。
- 单模型红队不再算保护:把一组前沿模型当成集合并发查询,任何一个守不住就够拿到有害输出,最高成功率100%。
- WOW-Seg跳过文本prompt:Meta用Mask2Token把mask直接对齐VLLM特征空间,1/8参数超过LVIS上的SOTA。
- 3D重建给扩散prior加幻视分数图:HAD用前馈式新视角网络做交叉验证,像素级遮掉不可靠区域。
重点关注
01 训练优化 奖励曲线还在涨,但有一批难题模型永远学不会
ICML这篇做了件挺尴尬的事:把RLVR训练里模型最初做不对的「困难样本」挑出来跟踪,发现里面有相当一部分,即便rollout中出过正确答案,整个训练过程也始终学不会。换句话说,奖励曲线确实在涨,但涨的那部分其实来自更容易学的那批样本,hard examples被默默放弃了。作者用跨样本梯度相似度分析揭示了原因——这些unlearnable样本的梯度方向和其它样本几乎不重合,推理路径无法泛化,本质上是模型的内部表示里就没有解这类题需要的「零件」。更扎心的是,常见的优化和采样技巧、包括数据增强都试过,没一个能把这些样本救回来——表示层的缺陷,RL阶段补不上。对从业者的直接含义是:盲目把所有失败样本灌进RL是在烧算力同时虚抬指标,curriculum和数据筛选的逻辑该重新审视——RLVR能修的是「会做但做不稳」,不是「压根不会」。
原文:The Unlearnability Phenomenon in RLVR for Language Models
02 推理 reasoning model的全部优势可能藏在8%的token里
部署reasoning model推理成本太高,但完整RL训练又做不起,这是不少团队的两难。这项ICML工作做了一次token级诊断:base model和reasoning model生成的同一段response里,真正造成性能差距的只占约8%的token,并且高度集中在响应早期、与planning决策相关(富集17倍),通常出现在base model自身高度不确定的位置——意味着base其实知道「这里不会」,只是没人替它选对方向。基于这个观察,作者提出推理时只在高分歧位置让reasoning model「接管」一个token、立即切回base,一种稀疏委托方案在小预算下就能恢复甚至超过同尺寸reasoning model的表现。对担心部署成本的团队,这是一条值得评估的轻量路径,但目前主要在Qwen3-0.6B等小模型上验证,规模化和跨任务表现仍需看全文或后续工作。
原文:Reasoning Can Be Restored by Correcting a Few Decision Tokens
03 安全对齐 单模型红队的天花板不再算保护
现在主流的大模型安全评估几乎都默认一个前提:攻击者盯着一个模型反复试。这篇 ICML 论文把视角换到攻击者一侧——真实威胁里没人只查一个模型,把一组前沿模型当成集合并发查询,任何一个守不住就够拿到有害输出。作者据此设计了一个针对「广撒网」场景的越狱方法,在没有额外防护的模型集合上成功率最高能到100%。换句话说,单个模型再硬,只要集合里有一个软的,整个安全边界就被拉到那个最弱的水平。
原文:New Wide-Net-Casting Jailbreak Attacks Risk Large Models
04 多模态 给分割模型补语义,能不能不再靠文本桥
SAM擅长切mask但说不出切的是什么,CLIP系语义模型反过来——过去几年补这条裂缝的主流做法都是拿文本prompt当桥梁。Meta的WOW-Seg把「word-free」写进名字,思路是用Mask2Token把图像mask直接转成视觉token去对齐VLLM特征空间,跳过文本环节,再用Cascade Attention Mask隔离不同实例之间的信息串扰。论文给的成绩是在LVIS上以1/8参数超过此前SOTA,并附了一个7,662类的RR-7K区域识别基准。但要判断这条路线值不值得跟,绝对SOTA数字不是关键——更值得看的是no-prompt设定下相对带文本输入基线掉了多少,摘要里没给这组对比,需要看全文确认。
原文:WOW-Seg: A Word-free Open World Segmentation Model
05 图像生成 给3D重建里的「幻视」打个分
稀疏视图3D重建过去一年流行的套路是用扩散模型补出新视角的图像,再丢进重建流水线。问题是扩散模型会「脑补」——生成出输入视图里根本不存在的内容,最后这些幻觉会被烘进3D资产里。HAD的做法不是事后擦除,而是用一个预训练的前馈式新视角合成网络做交叉验证,给每张补出来的图算一张像素级的「幻视分数图」,重建时直接把不可靠的像素遮掉。另外它会用不同输入视图各生成一版增强图再融合,让上下文更广。论文是CVPR接收,在多个新视角合成benchmark上拿了SOTA。
原文:HAD: Hallucination-Aware Diffusion Priors for 3D Reconstruction

也值得关注
今日观察
今天Unlearnability、Reasoning Restored、D²Evo三篇凑在一起,给出一个挺具体的方向收敛信号:RLVR的研究焦点已经从「能不能涨分」转到「学习动力学到底在动什么」。Unlearnability指认了「一批困难样本根本学不会但奖励曲线照涨」这个事实——奖励的来源不是它看上去的那批;Reasoning Restored则发现base→reasoning的能力gap其实压缩在极少数token决策上,整体训练里大量算力其实在改「已经会」的部分;D²Evo承认medium-difficulty样本本身会随训练漂移,做难度估计的方式得跟着动起来。三条线指的是同一件事:奖励曲线、loss和benchmark分数都是粗粒度信号,下一步要看的是gradient方向、token位置和样本难度的演化。
对工程团队的隐含动作很具体:数据curriculum需要重新校准,把「通不过的难样本」机械堆进去既浪费算力也虚抬指标。先跑一遍gradient similarity或简单的pass-rate追踪,把不动的那一档剥出来——能省下的训练预算和能避免的指标自欺,都不是小数。