扩散模型把解码这道工序也吃了下来

今日概览

消费级显卡一秒钟出2048分辨率大图，PiD把「latent解码」这道老工序换成了像素扩散，顺手把超分也包了
让模型「看着图想」一直很难落地，ETCHR的思路是给模型配一个会P图的助手，即插即用就能给Qwen、Gemini、Kimi各涨5个点
拍照这件事也能交给Agent了：PhotoFlow让模型自己进3D场景里找机位、按审美构图、渲染出片
Scaling Law为什么会失灵？ 有人用香农的信道理论给出了解释：模型越训越大不等于越好，信噪比才是关键

重点关注

01 图像生成生成大图最慢的一步，其实不是生成

现在主流的文生图模型（无论扩散还是自回归）都在一个压缩过的「潜空间」里画图，画完再用一个解码器还原成像素。问题是这个解码器天生是「还原派」——它只负责把压缩的东西复原，不负责补细节，分辨率一上去就又慢又吃力。PiD把这一步整个换掉：不用传统解码器，而是直接在像素空间跑一个扩散模型，把解码和超分合并成一件事。结果是512分辨率的latent能直接出2048的图，在一张消费级RTX 5090上不到1秒，比那些「先解码再级联超分」的老管线快约6倍，画质还更好。对做图像产品的人来说，这意味着出大图的成本和延迟可能要重新算一遍。

解码器是高分辨率生成里被忽视的瓶颈像素扩散把解码+超分合二为一，消费级显卡可用4步蒸馏后延迟压到亚秒级，对实时/批量出图都友好

原文：PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion

02 多模态让模型「看着图思考」，为什么不直接给它配个P图的？

「think with images」这个方向想让模型在推理时主动操作图像——放大局部、变换视角——而不是光靠文字硬想。但现有做法要么被固定的工具集卡死，要么自己生成的中间图很糙。ETCHR换了个思路：把「理解」和「画图」拆开，专门训一个会「按问题需求改图」的编辑模型来给主模型打下手。关键在于这个编辑器是解耦的，不挑下游模型，训练完能直接插到任何开源或闭源MLLM上免训练使用。在感知、图表、逻辑、3D等五类任务上，它给Qwen3-VL-8B、Gemini-3.1-Flash-Lite、Kimi K2.5分别带来了大约5个点的Pass@1提升。

把视觉推理拆成「理解模型+专职编辑模型」是条可行路线编辑器解耦后可即插即用，不用重训主模型对已经在用闭源大模型的团队，这是一种低成本加视觉推理能力的方式

原文：ETCHR: Editing To Clarify and Harness Reasoning

03 Agent 给Agent一个空场景和一句话，让它自己拍出一张好照片

虚拟摄影这个任务挺刁钻：把Agent扔进一个没有预设机位、没有参考图的3D场景，只给一句话意图，让它自己理解空间、选机位、定参数、渲出片。难点在于它同时考两件很难一起评的能力——3D空间理解和抽象审美判断。PhotoFlow用了一套「导演-评审-反思」的闭环：导演先出构图蓝图和候选机位，评审用规则+视觉批评+两两对比筛选，反思则把失败转成「哪些区域别再去了」的记忆。团队还配了个47个Blender场景、141个语言任务的基准VPhotoBench。结果显示，在有限的渲染预算下，这套LLM主导的空间Agent确实能拍出像样的片子。对做3D工具、游戏内容、虚拟制片的人来说，这是个值得留意的信号：机位和构图这种「需要审美」的活，Agent开始能接了。

虚拟摄影把3D空间理解和审美判断绑在一起考，是个有区分度的Agent任务「导演-评审-反思」闭环比一次性预测和随机搜索都强附带的VPhotoBench可作为空间Agent的评测参考

原文：PhotoFlow: Agentic 3D Virtual Photography Missions

04 训练优化为什么模型越训越大，效果反而会掉？

经典的Scaling Law都是「越大越好」的单调曲线，可现实里偏偏有反例：过度训练会让性能崩、量化也会让模型退化——算力明明加了，效果却往下走，老公式解释不了。这篇论文把LLM训练看成「在有噪声的信道里传信息」，借香农理论建了个新框架：模型参数对应信道带宽，训练token对应信号功率。结论是LLM存在一个「香农容量」上限——光堆参数或数据而不维持足够的信噪比，只会放大噪声，把单调提升变成U型下滑。他们在Pythia和OLMo2上验证，还能外推：只用不超过6.9B的模型拟合，就预测出了12B模型的表现。这给「无脑加规模」提了个醒，不过结论需要看全文确认适用边界。

单调Scaling Law解释不了过度训练和量化退化，信噪比可能才是更本质的变量存在「香农容量」上限，盲目加规模会放大噪声这是个理论框架，落到具体训练决策前建议读全文

原文：LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

也值得关注

没有配对数据，也能教会视频模型听懂「相机怎么动」 视频生成Geo-Align是首个面向相机控制视频重渲染的RL框架，用metric 3D估计器从生成视频里抠出相机轨迹，对旋转和平移的偏差直接打分惩罚，绕开了对真实多视角数据的依赖。链接

FPS游戏的世界模型，难在开枪只该影响枪口那一小块 视频生成SCOPE发现FPS动作是「空间选择性」的：开枪换弹只动局部，镜头移动管整体，于是给视频扩散模型每个transformer块插了个条件模块，按局部内容算动作响应。配套放出首个多游戏FPS数据集CrossFPS（7款游戏6.9万片段）。链接

3D重建Transformer慢在全局注意力，那就让每个token少看几眼 推理加速Good Token Hunting用「先选帧、再在帧内删冗余token」的两段式策略，给视觉几何Transformer在500张图的场景上提速超过85%，精度还能持平甚至略升。链接

3D场景重建借来生成模型的「想象力」补全细节 图像生成GenRecon把多视角重建当成「分块的条件3D生成」，复用Trellis.2这类强生成先验，产出可编辑的PBR网格，室内场景重建比现有最强方法再好16%。链接

今日观察

今天扎堆的几篇都在干同一件事：把「生成模型」当成基础设施去解别的问题。PiD用扩散替代解码器，GenRecon借生成先验做重建，Geo-Align用RL给视频模型对齐物理尺度，ETCHR则把图像编辑模型变成推理助手。生成能力正在从「终点产物」变成「中间工具」——做3D、视频、视觉推理工具链的团队，值得把「能不能用现成的生成模型当模块」加进方案评估里。