dots.tts首包54ms,SWE自进化破50%

今日概览

  • 开源TTS走连续latent路线,三处设计都奔着部署去:dots.tts是个2B的连续自回归语音基础模型,Apache 2.0开源,靠表示打磨、抗drift、蒸馏把首包延迟压到54–85ms,Seed-TTS-Eval上中/英WER报0.94%/1.30%。
  • 一套权重吃下所有相机:UniSHARP把透视、广角、鱼眼、全景这一整条相机谱系统一进同一个全景latent空间做单目视图合成,而不是为每种相机各训一个专用模型。
  • 让coding agent自己出题,能不能跳出能力圈:Socratic-SWE把agent的执行轨迹当数据源提炼可复用技能去自生成任务,三轮迭代后在SWE-bench Verified上做到50.40%。
  • 表格基础模型开始往「能部署」做减法:TabSwift用行级注意力的轻量骨干打平更重的TabPFN v2/TabICL,再加逐层提前退出,明确押注lightweight与低延迟。

重点关注

01 多模态 一个开源的连续自回归TTS,三处设计都奔着工程可用去

dots.tts是个2B参数的文本转语音基础模型,走的是连续latent空间的自回归路线,Apache 2.0开源,权重和训练推理代码都放了出来。它值得看的不是「又一个TTS」,而是三处设计取向:训练AudioVAE时用多目标损失,把连续语音空间做得语义结构化、对预测友好,相当于先把表示这一层打磨好;flow-matching生成头用了full-history conditioning(拿全部历史做条件),针对的是长音频里容易出现的drift(生成越往后越跑偏);最后用reward-free自我修正的后训练加CFG-aware的MeanFlow蒸馏,把首包延迟压到输出流式85ms、双向流式54ms。指标上Seed-TTS-Eval的中/英/中-hard三档WER是0.94%/1.30%/6.60%,作者称是开源SOTA——三件事都指向部署落地而非单纯刷榜,这是它和很多论文型TTS的区别。需要保留的是,abstract仍以自述创新为主,连续latent路线的真实音质、音色克隆和情感表现力的稳定性,得听放出的样本才能下判断。

开源语音基础模型这一档长期被闭源占住,这篇给出一个可落地的连续latent路线选项,做语音产品的团队值得拿样本实测它的设计取向(表示打磨、抗drift、蒸馏压延迟)比单个指标更值得借鉴,因为都对应真实部署痛点首包延迟到50–85ms意味着流式交互场景基本够用,但音质和稳定性需自己听样本确认,别只看WER。

02 图像生成 一套权重,能不能吃下所有相机?

单目视图合成方法大多藏着一个隐含前提:相机是标准针孔(透视)镜头。可现实里有广角、鱼眼、全景这一整条谱系,过去的做法是为每种相机各训一个专用模型。UniSHARP想做的是把它们对齐到同一个全景latent空间里——在特征空间和高斯空间都做隐式对齐,让一套表示同时容纳从透视到全景的不同视场(FoV)。为此团队还专门构建了一个按视场分层的benchmark,并称大幅领先现有方法。需要保留的是:abstract主要讲清了对齐的思路,跨相机类型的真实泛化质量得看具体结果,尤其是鱼眼、全景这类畸变大的极端视场。

视图合成正从「针孔相机假设」里解放出来,相机通用性本身正在成为一个卖点「一套权重吃下所有相机」若成立,能省掉每种相机各训一版的工程成本但跨视场的真实泛化质量还需看结果,别只凭对齐思路下判断。

03 代码智能 让coding agent自己出题,能跳出自己的能力圈吗

训练SWE agent最受限的环节是高质量任务的供给,而现有合成方法多靠固定的mutation或bug注入造题,模式单一、覆盖不到真实仓库的复杂度。Socratic-SWE换了个数据源:把agent自己的历史执行轨迹(trace)当原料,从中提炼出结构化的「agent skill」——也就是反复出现的失败模式和有效修复套路——再用这些skill去真实仓库里生成有针对性的修复任务。它没有放任自造题失控,候选任务要过执行验证(能跑能测),还要用solver梯度对齐的reward打分,只保留那些既可验证、又确实能推动模型进步的题;新模型再产生新trace,课程随之迭代更新。三轮迭代后在SWE-bench Verified上做到50.40%,在同等算力预算下稳定优于其他自进化基线。值得保留的疑问也正是从业者最关心的:trace提炼出的skill终究来自模型已经走过的路径,这套闭环能不能持续暴露新的弱点、而不是在自己的分布里越练越熟,要看更长迭代轮次的曲线才能下结论。

用执行轨迹当训练数据源,给自合成任务找到了比固定mutation更贴近真实工程的供给方式执行验证+梯度对齐双重过滤是关键,决定了自造题是有用信号还是噪声自进化的天花板取决于能否持续发现新弱点,短期收益明确,长期是否跳出自身分布需观察更多迭代

04 模型架构 表格基础模型终于开始往「能部署」的方向做减法

表格基础模型这条路线(以TabPFN为代表)有个聪明的设定:不微调,直接把带标签的训练样本塞进上下文,靠in-context learning推断测试标签,在中小数据集上表现很能打。问题是这两年大家为了刷精度,架构越堆越复杂,推理成本水涨船高,反而难落地。TabSwift选择回到TabPFN最初的简洁设计,用一个只做行级注意力(row-wise attention)的轻量骨干,加两个小改动——门控注意力稳定机制和一组可学习的register token提供全局上下文——做到和更强的TabPFN v2、TabICL打平,但推理更省。它还带了一个按样本动态调整推理深度的逐层提前退出机制,给延迟敏感的线上服务用。表格数据是企业里最普及的场景,一个真能部署的轻量表格FM,比又一个通用大模型更接地气。

表格FM的价值正从「刷精度」转向「能部署」,TabSwift明确押注轻量这一侧行级注意力骨干打平更重的TabPFN v2/TabICL,说明复杂度未必换来精度做表格业务、对推理延迟敏感的团队值得试一下,但实际省多少需看自己数据规模下的benchmark确认。
dots.tts首包54ms,SWE自进化破50%

也值得关注

05
同一prompt反复出相似图,不重训也能把多样性调回来 图像生成针对flow-based文生图的mode collapse,用表示调制恢复多样性,无需重训。Breaking the Lock-in: Diversifying Text-to-Image Generation via Representation Modulation
06
VLM看得懂事件、看不清动作细节,借视频扩散来补 多模态把视频扩散模型的运动先验注入VLM,补细粒度运动理解的短板。MotionEnhancer: Leveraging Video Diffusion for Motion-Enhanced Vision-Language Models
07
简单题不该和难题烧一样多token 推理按难度动态调推理量来治overthinking,难度建模随训练演进。DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling
08
AIGC检测器换个生成器就失灵,这篇把判据露出来 安全对齐做可解释、可迁移的取证概念,对抗黑箱检测器的泛化崩塌。ForensicConcept: Transferable Forensic Concepts for AIGI Detection
09
绕开骨架/姿态估计,直接从驱动视频学人物动画 视频生成避免姿态估计在遮挡和复杂姿态下的误差传导。Beyond Skeletons: Learning Animation Directly from Driving Videos
10
无监督疾病分期不只给结果,还解释表示和聚类 AI for Science以亨廷顿病为例,给临床可用性补上可解释这一环。Explaining Unsupervised Disease Staging in Huntington's Disease
11
LLM研究只盯语义和拼写,忽略了「声音」 评测一个专测中文音韵理解的benchmark,补上被忽略的这块。Phun-Bench: Evaluating LLMs on Phonological Understanding in Chinese
12
给VLM加文本监督能提升地理空间表示 多模态对地理定位、空间推理这类被忽视的维度有用。Textual Supervision Enhances Geospatial Representations in Vision-Language Models
13
文化对齐总说「该压制什么」,这篇反过来定义「什么才算文化连贯」 安全对齐以韩国文化为例,给文化对齐一个建设性的正向定义。Korean Culture into LLM Alignment: Toward Cultural Coherence

今日观察

dots.tts、TabSwift、UniSHARP三篇放在一起看,分属语音、表格、视图合成三个毫不相干的领域,却在做同一件结构相同的事:把「基础模型」这套模板搬进一个新模态。但真正值得留意的不是「又有三个基础模型」,而是它们抢的位置变了——三篇的核心卖点都不是能力上限,而是通用性、可部署、低延迟。dots.tts主打开源加蒸馏、把首包延迟压到54ms;TabSwift明说押注lightweight、deployment、latency,宁可打平也不堆复杂度;UniSHARP的卖点干脆是「一套权重吃下所有相机类型」。换句话说,它们竞争的维度从「谁更强」集体平移到了「谁更通用、更能真正用起来」。FM这套打法似乎正走过跑马圈地、比拼能力的阶段,进入比拼落地的阶段。

如果你在选型或自研某个模态的基础模型:别再只盯榜单分数,把「部署成本、延迟、覆盖的输入类型」这几栏单独拉出来对比——在能力趋同的阶段,这几项往往才是决定能不能真正用起来的分水岭。