扩散模型把解码这道工序也吃了下来

今日概览

  • 消费级显卡一秒钟出2048分辨率大图,PiD把「latent解码」这道老工序换成了像素扩散,顺手把超分也包了
  • 让模型「看着图想」一直很难落地,ETCHR的思路是给模型配一个会P图的助手,即插即用就能给Qwen、Gemini、Kimi各涨5个点
  • 拍照这件事也能交给Agent了:PhotoFlow让模型自己进3D场景里找机位、按审美构图、渲染出片
  • Scaling Law为什么会失灵? 有人用香农的信道理论给出了解释:模型越训越大不等于越好,信噪比才是关键

重点关注

01 图像生成 生成大图最慢的一步,其实不是生成

现在主流的文生图模型(无论扩散还是自回归)都在一个压缩过的「潜空间」里画图,画完再用一个解码器还原成像素。问题是这个解码器天生是「还原派」——它只负责把压缩的东西复原,不负责补细节,分辨率一上去就又慢又吃力。PiD把这一步整个换掉:不用传统解码器,而是直接在像素空间跑一个扩散模型,把解码和超分合并成一件事。结果是512分辨率的latent能直接出2048的图,在一张消费级RTX 5090上不到1秒,比那些「先解码再级联超分」的老管线快约6倍,画质还更好。对做图像产品的人来说,这意味着出大图的成本和延迟可能要重新算一遍。

解码器是高分辨率生成里被忽视的瓶颈像素扩散把解码+超分合二为一,消费级显卡可用4步蒸馏后延迟压到亚秒级,对实时/批量出图都友好

02 多模态 让模型「看着图思考」,为什么不直接给它配个P图的?

「think with images」这个方向想让模型在推理时主动操作图像——放大局部、变换视角——而不是光靠文字硬想。但现有做法要么被固定的工具集卡死,要么自己生成的中间图很糙。ETCHR换了个思路:把「理解」和「画图」拆开,专门训一个会「按问题需求改图」的编辑模型来给主模型打下手。关键在于这个编辑器是解耦的,不挑下游模型,训练完能直接插到任何开源或闭源MLLM上免训练使用。在感知、图表、逻辑、3D等五类任务上,它给Qwen3-VL-8B、Gemini-3.1-Flash-Lite、Kimi K2.5分别带来了大约5个点的Pass@1提升。

把视觉推理拆成「理解模型+专职编辑模型」是条可行路线编辑器解耦后可即插即用,不用重训主模型对已经在用闭源大模型的团队,这是一种低成本加视觉推理能力的方式

03 Agent 给Agent一个空场景和一句话,让它自己拍出一张好照片

虚拟摄影这个任务挺刁钻:把Agent扔进一个没有预设机位、没有参考图的3D场景,只给一句话意图,让它自己理解空间、选机位、定参数、渲出片。难点在于它同时考两件很难一起评的能力——3D空间理解和抽象审美判断。PhotoFlow用了一套「导演-评审-反思」的闭环:导演先出构图蓝图和候选机位,评审用规则+视觉批评+两两对比筛选,反思则把失败转成「哪些区域别再去了」的记忆。团队还配了个47个Blender场景、141个语言任务的基准VPhotoBench。结果显示,在有限的渲染预算下,这套LLM主导的空间Agent确实能拍出像样的片子。对做3D工具、游戏内容、虚拟制片的人来说,这是个值得留意的信号:机位和构图这种「需要审美」的活,Agent开始能接了。

虚拟摄影把3D空间理解和审美判断绑在一起考,是个有区分度的Agent任务「导演-评审-反思」闭环比一次性预测和随机搜索都强附带的VPhotoBench可作为空间Agent的评测参考

04 训练优化 为什么模型越训越大,效果反而会掉?

经典的Scaling Law都是「越大越好」的单调曲线,可现实里偏偏有反例:过度训练会让性能崩、量化也会让模型退化——算力明明加了,效果却往下走,老公式解释不了。这篇论文把LLM训练看成「在有噪声的信道里传信息」,借香农理论建了个新框架:模型参数对应信道带宽,训练token对应信号功率。结论是LLM存在一个「香农容量」上限——光堆参数或数据而不维持足够的信噪比,只会放大噪声,把单调提升变成U型下滑。他们在Pythia和OLMo2上验证,还能外推:只用不超过6.9B的模型拟合,就预测出了12B模型的表现。这给「无脑加规模」提了个醒,不过结论需要看全文确认适用边界。

单调Scaling Law解释不了过度训练和量化退化,信噪比可能才是更本质的变量存在「香农容量」上限,盲目加规模会放大噪声这是个理论框架,落到具体训练决策前建议读全文
扩散模型把解码这道工序也吃了下来

也值得关注

05
没有配对数据,也能教会视频模型听懂「相机怎么动」 视频生成Geo-Align是首个面向相机控制视频重渲染的RL框架,用metric 3D估计器从生成视频里抠出相机轨迹,对旋转和平移的偏差直接打分惩罚,绕开了对真实多视角数据的依赖。链接
06
FPS游戏的世界模型,难在开枪只该影响枪口那一小块 视频生成SCOPE发现FPS动作是「空间选择性」的:开枪换弹只动局部,镜头移动管整体,于是给视频扩散模型每个transformer块插了个条件模块,按局部内容算动作响应。配套放出首个多游戏FPS数据集CrossFPS(7款游戏6.9万片段)。链接
07
3D重建Transformer慢在全局注意力,那就让每个token少看几眼 推理加速Good Token Hunting用「先选帧、再在帧内删冗余token」的两段式策略,给视觉几何Transformer在500张图的场景上提速超过85%,精度还能持平甚至略升。链接
08
3D场景重建借来生成模型的「想象力」补全细节 图像生成GenRecon把多视角重建当成「分块的条件3D生成」,复用Trellis.2这类强生成先验,产出可编辑的PBR网格,室内场景重建比现有最强方法再好16%。链接

今日观察

今天扎堆的几篇都在干同一件事:把「生成模型」当成基础设施去解别的问题。PiD用扩散替代解码器,GenRecon借生成先验做重建,Geo-Align用RL给视频模型对齐物理尺度,ETCHR则把图像编辑模型变成推理助手。生成能力正在从「终点产物」变成「中间工具」——做3D、视频、视觉推理工具链的团队,值得把「能不能用现成的生成模型当模块」加进方案评估里。