'请简洁'砍半token,准确率反涨16分

今日概览

  • 一句「请简洁」就能自蒸馏,Qwen3在MATH-500上token砍半、准确率反涨16分,冗余推理不只浪费算力还主动制造错误
  • 策略自己知道哪里会失败——RoboPocket把模型的不确定性AR投射到手机上,让数据采集者针对弱点补演示,效率翻倍
  • RAG只看语义不看数据分布,检索到的函数跑不通。 DARE把数据特征编码进检索向量,NDCG@10达93.47%,高出最好的开源模型17分
  • 物理仿真做桥梁,视频模型不用学物理。 RealWonder把动作交互拆成仿真+翻译两步,480×832分辨率下13.2FPS实时生成

重点关注

01 推理加速 一句「请简洁」,token砍半准确率反涨?

整个方法可以一句话讲完:给同一个模型加上「请简洁回答」的指令,用它生成的logits作为teacher,在模型自己的rollout上做reverse KL蒸馏。没有外部teacher模型,没有人工标注的答案,没有预设的token预算,也没有题目难度估计器。就是纯粹的自蒸馏——让模型的简洁模式教会它的默认模式。但效果出奇地好:Qwen3-8B和14B在MATH-500上减少57%-59%的推理token,准确率反而提升了9-16个百分点。更意外的是,14B模型在竞赛级的AIME 2024上也涨了10分,同时压缩41%的token。论文给出的解释很有说服力:推理模型生成的大量中间步骤不只是冗余,而是在主动制造错误——每多一个不必要的token都在累积偏差。模型其实已经具备简洁推理的能力,这个方法只是把它从「被动模式」蒸馏回了「默认模式」。

自蒸馏方案不依赖外部模型或标注数据,部署门槛极低token减少50%以上的同时准确率提升,说明冗余推理本身就在损害质量方法自动区分难易题——简单题压缩激进,难题保留深度思考

02 机器人 采集再多演示数据也没用,如果你不知道策略哪里薄弱

模仿学习的数据瓶颈不在量,在针对性。手持设备让「野外」数据采集成了规模化方案,但操作员并不知道当前策略哪些动作已经学会、哪些还不行,大量演示浪费在模型已经掌握的场景上。RoboPocket的思路是把策略的预测轨迹通过AR实时投射到手机屏幕上,采集者能直观看到策略可能在哪失败,然后针对性地补充演示。配合异步在线微调,整个纠错循环几分钟就能闭合,数据效率比离线采集策略提升2倍。

数据采集的核心瓶颈不是规模而是针对性,盲目演示大量浪费在模型已掌握的区域AR可视化让采集者「看到」策略弱点,把交互式纠错从实验室搬到了现场数据效率翻倍的前提是策略的不确定性估计足够准确,这一点需要更多场景验证

03 检索 语义匹配满分,推荐的函数却跑不通

LLM agent做统计分析时,RAG检索R函数有个被忽略的盲区:现有方法只看函数描述的语义相似度,完全不考虑实际数据的分布特征。结果就是检索到的函数描述完美契合需求,但数据根本不满足使用前提——比如数据明显偏态,却推荐了假设正态分布的检验方法。DARE的做法出人意料地直接:把数据分布特征编码进检索向量,让检索同时理解「想做什么」和「数据长什么样」。在8191个CRAN包构建的知识库上,检索准确率(NDCG@10)93.47%,比最好的开源embedding模型高17个百分点,而且参数量更少。思路本身并不复杂,但它戳中了一个更普遍的问题:当前大多数RAG系统都只编码静态语义,完全无视运行时上下文——这个盲区远不止统计分析一个场景。

代码检索只看语义描述会忽略数据是否满足函数的统计前提,导致推荐结果不可用将数据分布编码进检索向量是个简单但被忽视的方向,效果提升显著做RAG系统的团队都该重新审视自己是否忽略了运行时上下文

04 视频生成 视频模型不懂物理?那就别让它学

视频生成模型擅长生成逼真画面,但对「推一下这个杯子会怎样」这类物理交互毫无概念——它缺乏3D场景结构的理解。RealWonder的思路是不去硬教视频模型理解物理,而是引入物理仿真做中间层:先用物理引擎把动作(力、机械臂操控)转成仿真画面(光流和RGB),再让视频模型只负责从仿真到真实感的「翻译」。这个拆解很务实——物理引擎本就擅长模拟力的后果,视频模型本就擅长生成逼真画面,各做各的。系统集成了单图3D重建、物理仿真和一个只需4步扩散的蒸馏视频生成器,在480×832分辨率下跑到13.2FPS,覆盖刚体、可变形体、流体和颗粒材料。

用物理仿真做桥梁,把「模型不会的难题」拆成两个「各自擅长的简单题」4步蒸馏扩散实现实时生成,13.2FPS可交互探索开源代码和权重,AR/VR和机器人学习场景值得关注
'请简洁'砍半token,准确率反涨16分

也值得关注

05
SmoothQuant套到多模态LLM踩两个坑 推理加速视觉和语言token的平滑系数不能共享,跨模态计算不变性不成立。MASQuant按模态分别处理。CVPR。链接
06
静态benchmark刷榜越来越没意义 评测让模型在预算约束下主动交互获取信息再作答,评的是「会不会提问」而不只是「会不会答题」。链接
07
1.58-bit BitNet天然适合2:4稀疏剪枝 推理加速三值权重中零值本身就多,剪枝几乎不损精度,量化和稀疏的叠加效果比预期好得多。链接
08
ViT分类训练后加轻量模块即可大幅提升分割性能 模型架构不需要重新训练,即插即用。ICLR。链接
09
181小时真实生活视频,跨天/周/月尺度 多模态现有长视频模型在「稀疏事件+长时间跨度」场景下严重失效。链接
10
用RL训练企业级搜索agent Agent覆盖约束搜索、跨文档综合、表格推理等六种场景,比通用LLM agent表现好一截。链接
11
8.3B参数MoE时间序列基础模型 模型架构11.5K上下文长度,时间序列基础模型的规模终于跟上了语言模型的节奏。链接
12
扩散语言模型被散点接受策略拖累 推理加速用最长稳定前缀解码,连贯性和速度同时提升。ICLR。链接
13
用知识图谱在长对话中追踪操控性沟通模式 安全对齐识别gaslighting、guilt-tripping等手法,弥补LLM上下文窗口有限的短板。Microsoft。链接
14
低端设备上做test-time adaptation不需要反向传播 推理加速纯前向推理优化prompt适配分布偏移。CVPR。链接

今日观察

OPSDC用「请简洁」指令提取模型自身的简洁推理能力,RoboPocket把策略网络的不确定性信号投射给人类采集者,DARE把数据分布编码进检索向量。三个系统解决的问题完全不同,但突破点共享一个结构:改进所需的信号已经存在于系统内部,只是没人用。

模型已经会简洁推理——默认模式不启用而已。策略已经知道哪里不确定——没人看这个输出而已。数据分布已经是最好的检索上下文——没人编码它而已。三个团队做的事本质上一样:把系统自身已有的信号接入决策回路。

这个模式对日常工程有直接参考价值。下次系统表现不理想,先别急着加模块、换模型、堆数据——盘点一下系统内部已经产生但没被使用的信号:模型的logits分布、中间层表示、预测不确定性、输入数据的统计特征。具体做法:选一个当前表现最差的环节,打印出模型在该环节的中间输出,看看有没有可以直接利用的信号。「接上已有信号」比「引入新能力」部署更快、风险更低,而且往往效果更好。