12k样本赢金融SOTA，CUDA优化快35%

今日概览

垂直领域post-training数据比模型大小更重要：金融场景系统消融实验表明，蒸馏质量控制+difficulty-aware采样让8B模型仅用12k RL样本就超越同规模SOTA
离线RL让agent规划从碰运气变成系统工程，微软用合成轨迹+质量打分训练工具调用规划，思路可迁移到任何多步agent任务
模型部署后不该被锁死在固定权重上。腾讯HY-WU引入功能性记忆模块，实时生成实例级权重更新，免去测试时优化开销
LLM优化CUDA kernel扩展到通用HPC场景，新基准MSKernelBench覆盖四类任务，多agent架构整体比现有方法快35%

重点关注

01 训练优化决定垂直领域模型成败的不是参数量，是post-training数据怎么选

一组金融领域的系统消融实验给出了清晰结论：在垂直领域，post-training数据的质量和难度分布比模型规模更具决定性。研究团队构建了两个数据集——318k条经多阶段蒸馏和验证的CoT（思维链）监督数据用于SFT，以及12k条「难但可验证」的任务用于RL。SFT阶段的核心在于蒸馏源的选择和CoT质量控制，为模型建立扎实的推理基础。RL阶段引入difficulty-aware采样策略，只保留reward信号足够精确且难度适中的样本——过简单的学不到东西，不可验证的会引入噪声。最终8B模型在9个金融benchmark上持续超越同规模开源SOTA，涵盖通用金融任务、情感分析和数值推理三类场景。值得注意的是，整套数据工程pipeline（蒸馏→验证→难度过滤）不依赖金融领域的特殊设计，理论上可迁移到其他垂直领域，但需要在实际场景中验证迁移效果。

post-training数据的质量和难度分布比模型规模更影响垂直领域表现difficulty-aware采样让RL仅用12k样本就实现有效泛化蒸馏→验证→难度过滤的pipeline可复用，但跨领域迁移还需验证

原文：Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

02 Agent 离线RL训练工具调用规划，图像编辑从碰运气变成系统工程

把图像风格编辑拆解成工具调用序列，然后用离线RL（offline reinforcement learning）在质量打分的轨迹上训练规划能力——微软这套框架的思路值得关注。核心做法是建一个正交的基础变换工具库，让vision-language模型（Qwen3-VL）通过chain-of-thought推理来规划每一步该用哪个工具、参数怎么设。训练数据也很巧妙：合成约3万条带推理链、规划序列和质量分数的轨迹，解决了这类任务没有监督数据的问题。4B和8B参数模型在多数组合任务上超过baseline，人工评估也验证了效果。这条路径的意义不止于图像编辑——任何需要多步工具调用的agent任务，都可以用类似的「合成轨迹 + 质量打分 + 离线RL」来系统性地训练规划能力。

把复杂编辑建模为agent工具调用规划问题，用离线RL替代试错式prompt优化合成3万条带推理链的轨迹数据，解决agent规划缺乏监督数据的难题这套「工具库 + 轨迹打分 + 离线RL」范式可迁移到任何多步agent任务

原文：Agentic Planning with Reasoning for Image Styling via Offline RL

03 模型架构模型出厂之后，权重就不该被锁死

基础模型正在从离线预测工具变成长期运行的部署系统，但权重适配的方式还停留在上一个时代——每次遇到新任务或用户偏好变化，要么微调覆盖旧知识，要么用一组固定参数硬撑所有场景。腾讯提出的HY-WU换了个思路：不再反复改写共享权重，而是引入一个「功能性记忆」模块——一个神经网络生成器，根据当前输入条件实时合成权重更新，为每个实例生成专属的算子参数。核心优势在于部署后不需要重新训练或测试时优化，模型就能持续适应新需求。论文用图像编辑做了验证，但更值得关注的是它提出的架构范式：把适配压力从「覆盖一个固定权重点」转移到「在权重空间中按需导航」。

静态权重范式下持续学习和个性化本质上是在互相干扰，单点参数无法同时服务分化的目标HY-WU的记忆模块实时生成实例级权重更新，避免了测试时优化的开销对需要部署后持续适应的系统（推荐、个性化助手）这个方向值得跟进

原文：HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

04 代码智能 LLM优化CUDA kernel，终于不止是ML算子了

用LLM自动优化CUDA kernel的研究之前基本只在PyTorch算子上验证，但GPU性能工程的大头其实在通用HPC和科学计算。CUDAMaster把优化范围扩展到了稀疏矩阵运算、科学计算例程等多个场景，同时发布了MSKernelBench作为跨场景评估基准，覆盖基础代数、LLM算子、稀疏矩阵和科学计算四类任务。系统采用多agent架构结合硬件profiling，自动构建编译执行工具链，整体比现有方法Astra快约35%，部分算子接近甚至超过cuBLAS。这是「LLM做性能工程」从demo走向实用的一步，不过从摘要看主要还是benchmark层面的验证，离真实工程中替代手工调优还有不少路要走。

首个多场景CUDA kernel优化基准MSKernelBench，覆盖ML到科学计算四类任务多agent+硬件感知架构整体比现有方法快35%，部分超越cuBLAS方向正确但目前仍是benchmark验证阶段，实际工程落地待观察

原文：Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

也值得关注

RL agent自主做架构搜索和超参研究，perpetual运行直到收敛 Agent思路大胆，但目前验证规模还小。链接

不训练不微调，用activation steering精准控制内镜图像的病理特征 AI for Science在扩散模型中生成因果训练数据。链接

RLVR训练后推理链充斥冗余步骤，re-solving策略让模型回到关键节点重新推演 推理效率和质量双升（ICLR）。链接

幻灯片自动生成终于有了细粒度rubric评测基准 评测覆盖布局、内容、视觉一致性多个维度。链接

Mila的行星级4D时空世界模型 AI for Science把多分辨率hash编码扩展到时间维度，跨世纪跨大陆的自监督表征。链接

长视频理解的可信度问题：关键帧缺失时VLM仍然高置信度作答 评测评测分数虚高（CVPR）。链接

把RAG引入基因扰动响应预测 检索跨细胞类型泛化显著优于纯深度学习方法（ICLR）。链接

将conformal prediction引入生成式分子设计 AI for Science无需oracle即可提供统计保证（ICLR）。链接