今日概览
- 开源TTS走连续latent路线,三处设计都奔着部署去:dots.tts是个2B的连续自回归语音基础模型,Apache 2.0开源,靠表示打磨、抗drift、蒸馏把首包延迟压到54–85ms,Seed-TTS-Eval上中/英WER报0.94%/1.30%。
- 一套权重吃下所有相机:UniSHARP把透视、广角、鱼眼、全景这一整条相机谱系统一进同一个全景latent空间做单目视图合成,而不是为每种相机各训一个专用模型。
- 让coding agent自己出题,能不能跳出能力圈:Socratic-SWE把agent的执行轨迹当数据源提炼可复用技能去自生成任务,三轮迭代后在SWE-bench Verified上做到50.40%。
- 表格基础模型开始往「能部署」做减法:TabSwift用行级注意力的轻量骨干打平更重的TabPFN v2/TabICL,再加逐层提前退出,明确押注lightweight与低延迟。
重点关注
01 多模态 一个开源的连续自回归TTS,三处设计都奔着工程可用去
dots.tts是个2B参数的文本转语音基础模型,走的是连续latent空间的自回归路线,Apache 2.0开源,权重和训练推理代码都放了出来。它值得看的不是「又一个TTS」,而是三处设计取向:训练AudioVAE时用多目标损失,把连续语音空间做得语义结构化、对预测友好,相当于先把表示这一层打磨好;flow-matching生成头用了full-history conditioning(拿全部历史做条件),针对的是长音频里容易出现的drift(生成越往后越跑偏);最后用reward-free自我修正的后训练加CFG-aware的MeanFlow蒸馏,把首包延迟压到输出流式85ms、双向流式54ms。指标上Seed-TTS-Eval的中/英/中-hard三档WER是0.94%/1.30%/6.60%,作者称是开源SOTA——三件事都指向部署落地而非单纯刷榜,这是它和很多论文型TTS的区别。需要保留的是,abstract仍以自述创新为主,连续latent路线的真实音质、音色克隆和情感表现力的稳定性,得听放出的样本才能下判断。
02 图像生成 一套权重,能不能吃下所有相机?
单目视图合成方法大多藏着一个隐含前提:相机是标准针孔(透视)镜头。可现实里有广角、鱼眼、全景这一整条谱系,过去的做法是为每种相机各训一个专用模型。UniSHARP想做的是把它们对齐到同一个全景latent空间里——在特征空间和高斯空间都做隐式对齐,让一套表示同时容纳从透视到全景的不同视场(FoV)。为此团队还专门构建了一个按视场分层的benchmark,并称大幅领先现有方法。需要保留的是:abstract主要讲清了对齐的思路,跨相机类型的真实泛化质量得看具体结果,尤其是鱼眼、全景这类畸变大的极端视场。
原文:UniSHARP: Universal Sharp Monocular View Synthesis
03 代码智能 让coding agent自己出题,能跳出自己的能力圈吗
训练SWE agent最受限的环节是高质量任务的供给,而现有合成方法多靠固定的mutation或bug注入造题,模式单一、覆盖不到真实仓库的复杂度。Socratic-SWE换了个数据源:把agent自己的历史执行轨迹(trace)当原料,从中提炼出结构化的「agent skill」——也就是反复出现的失败模式和有效修复套路——再用这些skill去真实仓库里生成有针对性的修复任务。它没有放任自造题失控,候选任务要过执行验证(能跑能测),还要用solver梯度对齐的reward打分,只保留那些既可验证、又确实能推动模型进步的题;新模型再产生新trace,课程随之迭代更新。三轮迭代后在SWE-bench Verified上做到50.40%,在同等算力预算下稳定优于其他自进化基线。值得保留的疑问也正是从业者最关心的:trace提炼出的skill终究来自模型已经走过的路径,这套闭环能不能持续暴露新的弱点、而不是在自己的分布里越练越熟,要看更长迭代轮次的曲线才能下结论。
原文:Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills
04 模型架构 表格基础模型终于开始往「能部署」的方向做减法
表格基础模型这条路线(以TabPFN为代表)有个聪明的设定:不微调,直接把带标签的训练样本塞进上下文,靠in-context learning推断测试标签,在中小数据集上表现很能打。问题是这两年大家为了刷精度,架构越堆越复杂,推理成本水涨船高,反而难落地。TabSwift选择回到TabPFN最初的简洁设计,用一个只做行级注意力(row-wise attention)的轻量骨干,加两个小改动——门控注意力稳定机制和一组可学习的register token提供全局上下文——做到和更强的TabPFN v2、TabICL打平,但推理更省。它还带了一个按样本动态调整推理深度的逐层提前退出机制,给延迟敏感的线上服务用。表格数据是企业里最普及的场景,一个真能部署的轻量表格FM,比又一个通用大模型更接地气。
原文:TabSwift: An Efficient Tabular Foundation Model with Row-Wise Attention

也值得关注
今日观察
dots.tts、TabSwift、UniSHARP三篇放在一起看,分属语音、表格、视图合成三个毫不相干的领域,却在做同一件结构相同的事:把「基础模型」这套模板搬进一个新模态。但真正值得留意的不是「又有三个基础模型」,而是它们抢的位置变了——三篇的核心卖点都不是能力上限,而是通用性、可部署、低延迟。dots.tts主打开源加蒸馏、把首包延迟压到54ms;TabSwift明说押注lightweight、deployment、latency,宁可打平也不堆复杂度;UniSHARP的卖点干脆是「一套权重吃下所有相机类型」。换句话说,它们竞争的维度从「谁更强」集体平移到了「谁更通用、更能真正用起来」。FM这套打法似乎正走过跑马圈地、比拼能力的阶段,进入比拼落地的阶段。
如果你在选型或自研某个模态的基础模型:别再只盯榜单分数,把「部署成本、延迟、覆盖的输入类型」这几栏单独拉出来对比——在能力趋同的阶段,这几项往往才是决定能不能真正用起来的分水岭。