12k样本赢金融SOTA,CUDA优化快35%

今日概览

  • 垂直领域post-training数据比模型大小更重要:金融场景系统消融实验表明,蒸馏质量控制+difficulty-aware采样让8B模型仅用12k RL样本就超越同规模SOTA
  • 离线RL让agent规划从碰运气变成系统工程,微软用合成轨迹+质量打分训练工具调用规划,思路可迁移到任何多步agent任务
  • 模型部署后不该被锁死在固定权重上。腾讯HY-WU引入功能性记忆模块,实时生成实例级权重更新,免去测试时优化开销
  • LLM优化CUDA kernel扩展到通用HPC场景,新基准MSKernelBench覆盖四类任务,多agent架构整体比现有方法快35%

重点关注

01 训练优化 决定垂直领域模型成败的不是参数量,是post-training数据怎么选

一组金融领域的系统消融实验给出了清晰结论:在垂直领域,post-training数据的质量和难度分布比模型规模更具决定性。研究团队构建了两个数据集——318k条经多阶段蒸馏和验证的CoT(思维链)监督数据用于SFT,以及12k条「难但可验证」的任务用于RL。SFT阶段的核心在于蒸馏源的选择和CoT质量控制,为模型建立扎实的推理基础。RL阶段引入difficulty-aware采样策略,只保留reward信号足够精确且难度适中的样本——过简单的学不到东西,不可验证的会引入噪声。最终8B模型在9个金融benchmark上持续超越同规模开源SOTA,涵盖通用金融任务、情感分析和数值推理三类场景。值得注意的是,整套数据工程pipeline(蒸馏→验证→难度过滤)不依赖金融领域的特殊设计,理论上可迁移到其他垂直领域,但需要在实际场景中验证迁移效果。

post-training数据的质量和难度分布比模型规模更影响垂直领域表现difficulty-aware采样让RL仅用12k样本就实现有效泛化蒸馏→验证→难度过滤的pipeline可复用,但跨领域迁移还需验证

02 Agent 离线RL训练工具调用规划,图像编辑从碰运气变成系统工程

把图像风格编辑拆解成工具调用序列,然后用离线RL(offline reinforcement learning)在质量打分的轨迹上训练规划能力——微软这套框架的思路值得关注。核心做法是建一个正交的基础变换工具库,让vision-language模型(Qwen3-VL)通过chain-of-thought推理来规划每一步该用哪个工具、参数怎么设。训练数据也很巧妙:合成约3万条带推理链、规划序列和质量分数的轨迹,解决了这类任务没有监督数据的问题。4B和8B参数模型在多数组合任务上超过baseline,人工评估也验证了效果。这条路径的意义不止于图像编辑——任何需要多步工具调用的agent任务,都可以用类似的「合成轨迹 + 质量打分 + 离线RL」来系统性地训练规划能力。

把复杂编辑建模为agent工具调用规划问题,用离线RL替代试错式prompt优化合成3万条带推理链的轨迹数据,解决agent规划缺乏监督数据的难题这套「工具库 + 轨迹打分 + 离线RL」范式可迁移到任何多步agent任务

03 模型架构 模型出厂之后,权重就不该被锁死

基础模型正在从离线预测工具变成长期运行的部署系统,但权重适配的方式还停留在上一个时代——每次遇到新任务或用户偏好变化,要么微调覆盖旧知识,要么用一组固定参数硬撑所有场景。腾讯提出的HY-WU换了个思路:不再反复改写共享权重,而是引入一个「功能性记忆」模块——一个神经网络生成器,根据当前输入条件实时合成权重更新,为每个实例生成专属的算子参数。核心优势在于部署后不需要重新训练或测试时优化,模型就能持续适应新需求。论文用图像编辑做了验证,但更值得关注的是它提出的架构范式:把适配压力从「覆盖一个固定权重点」转移到「在权重空间中按需导航」。

静态权重范式下持续学习和个性化本质上是在互相干扰,单点参数无法同时服务分化的目标HY-WU的记忆模块实时生成实例级权重更新,避免了测试时优化的开销对需要部署后持续适应的系统(推荐、个性化助手)这个方向值得跟进

04 代码智能 LLM优化CUDA kernel,终于不止是ML算子了

用LLM自动优化CUDA kernel的研究之前基本只在PyTorch算子上验证,但GPU性能工程的大头其实在通用HPC和科学计算。CUDAMaster把优化范围扩展到了稀疏矩阵运算、科学计算例程等多个场景,同时发布了MSKernelBench作为跨场景评估基准,覆盖基础代数、LLM算子、稀疏矩阵和科学计算四类任务。系统采用多agent架构结合硬件profiling,自动构建编译执行工具链,整体比现有方法Astra快约35%,部分算子接近甚至超过cuBLAS。这是「LLM做性能工程」从demo走向实用的一步,不过从摘要看主要还是benchmark层面的验证,离真实工程中替代手工调优还有不少路要走。

首个多场景CUDA kernel优化基准MSKernelBench,覆盖ML到科学计算四类任务多agent+硬件感知架构整体比现有方法快35%,部分超越cuBLAS方向正确但目前仍是benchmark验证阶段,实际工程落地待观察
12k样本赢金融SOTA,CUDA优化快35%

也值得关注

05
RL agent自主做架构搜索和超参研究,perpetual运行直到收敛 Agent思路大胆,但目前验证规模还小。链接
06
不训练不微调,用activation steering精准控制内镜图像的病理特征 AI for Science在扩散模型中生成因果训练数据。链接
07
RLVR训练后推理链充斥冗余步骤,re-solving策略让模型回到关键节点重新推演 推理效率和质量双升(ICLR)。链接
08
幻灯片自动生成终于有了细粒度rubric评测基准 评测覆盖布局、内容、视觉一致性多个维度。链接
09
Mila的行星级4D时空世界模型 AI for Science把多分辨率hash编码扩展到时间维度,跨世纪跨大陆的自监督表征。链接
10
长视频理解的可信度问题:关键帧缺失时VLM仍然高置信度作答 评测评测分数虚高(CVPR)。链接
11
把RAG引入基因扰动响应预测 检索跨细胞类型泛化显著优于纯深度学习方法(ICLR)。链接
12
将conformal prediction引入生成式分子设计 AI for Science无需oracle即可提供统计保证(ICLR)。链接