频谱衰减让W4A4量化回升7%精度

今日概览

  • 预训练越充分,量化反而越脆弱:Amazon发现激活异常点严重程度与预训练规模正相关,S2D通过频谱衰减在训练阶段修复根因,W4A4精度最高回升7%
  • 精心挑选fine-tuning数据的大部分技巧没用,Microsoft Research系统拆解后发现只有梯度表示跨任务稳定有效,数据量充足时精选与随机几乎无差
  • token级策略梯度与推理的语义粒度根本错配。MPO把连续K个token打包为语义动作做策略梯度,让优化目标和推理结构对齐
  • Airbnb把地理检索重构为2500万网格的极端分类问题,在ranking之前就大幅收窄候选集,解决双边市场供需异质性带来的检索难题

重点关注

01 推理加速 预训练越充分,量化反而越脆弱

Amazon的一组实验揭示了一个规律性现象:从CLIP到SigLIP再到SigLIP2,预训练越充分,模型激活值中的异常点越严重,量化后精度掉得越狠。进一步分析表明,这些异常点和权重矩阵中少数主导奇异值直接相关——预训练越久,这些奇异值越突出,激活值分布范围越大,量化时的精度损失就越不可控。S2D(选择性频谱衰减)的思路是在fine-tuning阶段对这些主导奇异值做针对性正则化,从根源上压缩激活值范围,而不是在量化阶段事后打补丁。实验结果扎实:W4A4量化下ImageNet精度最高提升7%,结合QAT(量化感知训练)还能再提4%,且改善在下游任务和视觉-语言模型上同样成立。这项工作的实际含义是,量化策略不应该是模型训好之后才考虑的事——训练阶段的正则化选择直接决定了量化的天花板,对计划做量化部署的团队来说,这两件事需要一起设计。

预训练规模与量化难度正相关,根因是权重频谱中少数主导奇异值放大了激活值范围S2D在训练阶段做频谱正则化而非量化时补救,W4A4精度最高提升7%量化策略应前置到训练阶段,和预训练方案一起设计

02 训练优化 Fine-tuning数据选择的花活,大多是浪费精力

针对目标任务精挑细选fine-tuning数据——这条赛道近两年涌现了大量方法,每篇论文都在选择策略上做文章。Microsoft Research系统性拆解了「数据表示」和「选择算法」两个核心组件,结论相当清醒:只有基于梯度的数据表示能跨任务、跨模型稳定预测下游效果,其他表示方式的表现忽高忽低。即使是最优组合(梯度表示+贪心轮询算法),优势也只在低预算场景下明显——数据量一上去,精心挑选和随机选的差距迅速缩小。另一个被忽视的问题是,很多论文根本没对比zero-shot基线,导致方法的实际增益被系统性高估。

梯度表示是唯一跨任务稳定有效的数据选择信号,其他表示方式不值得投入数据预算充足时,复杂选择策略的边际收益趋近于零做targeted instruction selection前,先跑zero-shot基线再决定是否值得折腾

03 推理 一个token一个token地优化推理能力,方向就错了?

RL训练LLM的推理能力时,主流做法把每个token当成一个独立的「动作」来优化。但仔细想想——写一个等式、定义一个变量,本质上是一次语义决策,却被切成十几个token分别打分,梯度信号自然嘈杂。MPO(Multi-token Policy Gradient Optimization)换了个粒度:把连续K个token打包成一个语义动作来做策略梯度,让优化目标和推理的实际结构对齐。在数学推理和代码生成benchmark上,MPO优于标准的token级策略梯度基线。这个思路比调超参数根本得多——它质疑的是RL用于推理时的动作空间定义本身。

token级优化与推理的语义粒度存在根本错配,梯度信号过于嘈杂MPO将连续K个token作为语义动作单元,让策略梯度与推理结构对齐做推理RL的团队值得重新审视动作空间的定义粒度

04 检索 把全球房源检索变成2500万类的分类问题

Airbnb的搜索系统面对一个经典的双边市场检索难题:全球房源差异极大,旅客偏好也千差万别,ranking模型再好,候选集不对也白搭。他们之前用深度贝叶斯bandit预测一个矩形检索区域来过滤房源,现在换了个思路:把全球地图切成2500万个均匀网格,用极端分类(extreme classification)直接预测哪些网格中的房源最可能被预订。本质上是把推荐问题转化成了超大规模分类问题,在ranking之前就大幅收窄候选集。这类真实双边市场检索系统的实战论文不多见,对做搜索和推荐架构的团队有参考价值。

将地理检索从矩形区域预测重构为2500万网格的极端分类问题核心目标是在ranking之前就过滤到高预订概率的候选集双边市场中供需两端的极端异质性是检索阶段的关键挑战
频谱衰减让W4A4量化回升7%精度

也值得关注

05
Harvard跨层综述梳理GenAI在系统栈各层的共性瓶颈 代码智能从代码生成到芯片设计,把分散在软件、架构、硬件社区的问题放到统一框架下讨论。链接
06
AnchorWeave用局部空间记忆替代全局3D重建 视频生成长视频生成中保持世界一致性,不需要维护完整的3D场景表征。链接
07
RAG数据库包含敏感信息时的差分隐私保护方案 检索在检索增强生成中平衡隐私保证与生成质量。链接
08
用随机无偏近似替代精确向量-雅可比积 训练优化降低反向传播的计算和内存成本,精度损失可控。链接
09
因果基础模型能整合部分领域先验知识了 AI for Science不再只能从零发现因果结构,可以把已知的部分因果图作为输入。链接
10
工具使用型个人Agent(OpenClaw)的安全轨迹审计 安全对齐识别出六类风险场景,从权限提升到信息泄露。链接
11
推理链在什么任务拓扑下真正有帮助? 推理系统性实验表明收益取决于任务的计算结构,并非推理链越长效果越好。链接
12
多轮越狱攻击扩展到视觉语言模型,图像输入反而削弱攻击 安全对齐视觉通道增加了模型的防御锚点,攻击成功率不升反降。链接
13
VACE改造为因果注意力,实现实时自回归视频生成 视频生成将双向注意力替换为因果注意力,推理速度满足实时要求。链接
14
NVIDIA用LoRA在测试时适配3D基础模型做深度补全 多模态无需训练专用编码器,参数高效微调即可适配稀疏几何输入。链接

今日观察

三篇论文各自在ML pipeline的不同环节撞上了同一面墙。S2D发现量化掉点的根因不在量化阶段——预训练时权重频谱中少数主导奇异值已经埋下了隐患。指令选择的系统拆解发现,数据表示方式、选择算法这些被反复研究的设计选择大多不影响最终效果,真正拉开差距的只有梯度表示这一个维度。MPO则指出token级动作空间和推理任务的语义粒度天然不匹配,换成语义级动作就能让策略梯度信号更清晰。

共同的教训很直白:在错误的抽象层次上做精细优化,效果有天花板。遇到量化掉点时,先检查训练阶段的频谱特性再调量化方案;微调数据选了很多花样但效果平台期,跑个随机基线看看差距是否真的显著;RL训练推理能力不收敛,重新审视动作空间的粒度定义。不急着调超参数,先确认自己在正确的层面上优化。