ProEval省8-65倍评测样本

今日概览

  • 评测变成概率题:Google用预训练高斯过程当代理函数估计大模型在benchmark上的表现,1%误差下样本量降到原来的1/8到1/65,对照实验的预算结构从「全量跑」切到「先筛后跑」
  • FT与ICL的清晰分野:在文法明确的形式语言任务上,分布内FT明显占优、分布外两者打平,ICL对模型规模和分词敏感是结构性问题而非实验噪声
  • 版权语料的工程绕道:标注明文公开、源文本非可逆hash,跨版次仍能对齐98.7%-99.79%的token,跨机构共享从法律问题改写成工程问题
  • SAM临床落地卡在prompt而非模型:saliency引导的解剖学先验加跨切片一致性约束,让SAM在粗糙中线点这类弱prompt下也能稳定分割

重点关注

01 评测 把benchmark评测变成概率题,省下8-65倍样本

完整跑一次大模型评测越来越贵:推理慢、人工打分贵,可选的benchmark还在不断扩张。Google这篇ProEval把性能估计变成贝叶斯求积分问题——用预训练的高斯过程当代理函数,「模型在某个benchmark上大概多少分」变成可以提前回答的问题,而不是每次都跑完。在推理、安全对齐和分类任务上,做到误差1%以内只需要8-65倍更少的样本,同时还能在更紧的预算下找出更多样的失败案例。从业者视角看,价值不是节省算力,而是评测预算的重新分配:用代理模型先筛掉那些「大概率没显著提升」的对照实验,把昂贵的人工评测留给真正不确定的区间。需要保留的疑问是迁移基础的稳定性——当模型架构跨代、或者新benchmark的分布偏离了高斯过程预训练时见过的分布,先验估计的可靠性就是这套方法的真实边界。

评测可以从「全量跑」变成「采样估计+主动选样」,对比实验的成本结构会变落地姿势是分配预算——确定差异大的快速筛掉,不确定的留给人工迁移先验在跨代模型或新分布benchmark上会失效,部署时要补一层校准

02 训练优化 FT vs ICL 之争为什么测不清?换成形式语言才看得见差距

之前 FT(微调)和 ICL(上下文学习)的对比研究结论一直不一致,主因是自然语言 benchmark 边界模糊、有数据污染嫌疑。这篇用形式语言做受控测试床——文法明确、字符串可采样、无训练数据泄露——并设计了一个判别式测试:模型必须对「语言内字符串」赋予比「语言外字符串」更高的生成概率才算真的掌握。结果分三层:分布内泛化 FT 明显强于 ICL,分布外两者打平;归纳偏置在低熟练度时相似,到高熟练度才分叉;ICL 对模型规模、模型家族和 token 词表都敏感,FT 则稳定得多。比起一次 A/B 测试,这种受控对照得出的结论更可迁移——尤其是 ICL 的不稳定性应当被当作固有特征,而不是实验设置的噪声。

分布内 FT 占优、分布外两者打平,归纳偏置只在高熟练度才分叉ICL 对模型规模和分词敏感是结构性问题,做选型时别指望换个 prompt 就能稳住想做可复现的能力对照,形式语言任务比 NLP benchmark 更干净

03 安全对齐 把语料共享的法律问题,变成工程问题

NLP里有个长期没解的实际瓶颈:高质量annotated corpus常常基于有版权的小说、新闻,研究者之间几乎没法合法地交换完整数据集。这篇ACL的做法是把语料拆成两部分——标注以明文公开,源文本用非可逆hash处理后一起发布。使用者必须自己合法持有原版材料,对手头的token应用同样的hash来匹配标注。关键是这个hash对版本差异有鲁棒性:不同版次的小说仍能对齐98.7%-99.79%的token。法律壁垒被改写成了工程问题,作者把实现开源为novelshare,做文学、新闻领域NLP的团队可以直接用。

版权材料的标注语料有了合法共享路径,标注明文加源文本不可逆hash是核心思路对版本差异鲁棒,跨版次对齐准确率98.7%-99.79%做文学、新闻领域NLP的团队可以直接用novelshare这个Python实现

04 AI for Science benchmark上的精确点框和临床里的脏prompt不是一回事

SAM在医学影像benchmark上的成绩多数建立在精确prompt前提下,而临床工作流给的标注往往是粗糙的中线点——会漂移到相邻解剖结构,把SAM导向不一致或不完整的mask。SPD的修法是先用一个轻量saliency头学出数据驱动的解剖学先验,得到置信定位图作为锚;再用相邻切片的上下文去验证和补全噪声prompt,形成一组接近专家推理的共识prompt;最后加一个切片间一致性目标把局部解剖一致性约束进损失。在四个MRI/CT benchmark上,区域和边界指标都稳定超过现有SAM适配方案和监督基线。这条思路把foundation model落地到专业领域的瓶颈从「模型能力」挪到「prompt鲁棒性」,对临床部署来说,这一层的投入回报往往比模型微调更高。

SAM在临床上的失败模式集中在prompt质量而不是模型本身,foundation model做垂直落地的核心瓶颈在「prompt鲁棒性」这一层saliency引导先验加跨切片一致性是处理弱标注的通用范式,文档、遥感这类有相邻上下文的场景同样可以借鉴做SAM类模型垂直适配的团队,先评估真实标注质量的离散度,再决定是适配prompt层还是模型层
ProEval省8-65倍评测样本

也值得关注

05
监控档案里用文本搜异常行为,pose和语义之间存在gap 多模态cascade框架先做粗对齐再细化,把几何结构和语义意图分两阶段处理。链接
06
开放词表目标检测里VLM伪标签有系统偏置 多模态用层级一致性约束做去偏,让objectness不被预训练分布带偏。链接
07
视频里同一人在多个事件中扮演不同角色 多模态多模态coreference显式建模身份-角色映射,让VidSitu不再把同一人切成多份。链接
08
text-to-motion在不同时间尺度上分别建模 视频生成层级flow matching兼顾粗粒度结构和细节运动,避免单一尺度上的取舍。链接
09
半监督医学分割不只看mask AI for Science生成式双分布对齐把特征级信息也补进来,从未标注数据里挖更多监督信号。链接