今日概览
- 消费级显卡一秒钟出2048分辨率大图,PiD把「latent解码」这道老工序换成了像素扩散,顺手把超分也包了
- 让模型「看着图想」一直很难落地,ETCHR的思路是给模型配一个会P图的助手,即插即用就能给Qwen、Gemini、Kimi各涨5个点
- 拍照这件事也能交给Agent了:PhotoFlow让模型自己进3D场景里找机位、按审美构图、渲染出片
- Scaling Law为什么会失灵? 有人用香农的信道理论给出了解释:模型越训越大不等于越好,信噪比才是关键
重点关注
01 图像生成 生成大图最慢的一步,其实不是生成
现在主流的文生图模型(无论扩散还是自回归)都在一个压缩过的「潜空间」里画图,画完再用一个解码器还原成像素。问题是这个解码器天生是「还原派」——它只负责把压缩的东西复原,不负责补细节,分辨率一上去就又慢又吃力。PiD把这一步整个换掉:不用传统解码器,而是直接在像素空间跑一个扩散模型,把解码和超分合并成一件事。结果是512分辨率的latent能直接出2048的图,在一张消费级RTX 5090上不到1秒,比那些「先解码再级联超分」的老管线快约6倍,画质还更好。对做图像产品的人来说,这意味着出大图的成本和延迟可能要重新算一遍。
原文:PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
02 多模态 让模型「看着图思考」,为什么不直接给它配个P图的?
「think with images」这个方向想让模型在推理时主动操作图像——放大局部、变换视角——而不是光靠文字硬想。但现有做法要么被固定的工具集卡死,要么自己生成的中间图很糙。ETCHR换了个思路:把「理解」和「画图」拆开,专门训一个会「按问题需求改图」的编辑模型来给主模型打下手。关键在于这个编辑器是解耦的,不挑下游模型,训练完能直接插到任何开源或闭源MLLM上免训练使用。在感知、图表、逻辑、3D等五类任务上,它给Qwen3-VL-8B、Gemini-3.1-Flash-Lite、Kimi K2.5分别带来了大约5个点的Pass@1提升。
原文:ETCHR: Editing To Clarify and Harness Reasoning
03 Agent 给Agent一个空场景和一句话,让它自己拍出一张好照片
虚拟摄影这个任务挺刁钻:把Agent扔进一个没有预设机位、没有参考图的3D场景,只给一句话意图,让它自己理解空间、选机位、定参数、渲出片。难点在于它同时考两件很难一起评的能力——3D空间理解和抽象审美判断。PhotoFlow用了一套「导演-评审-反思」的闭环:导演先出构图蓝图和候选机位,评审用规则+视觉批评+两两对比筛选,反思则把失败转成「哪些区域别再去了」的记忆。团队还配了个47个Blender场景、141个语言任务的基准VPhotoBench。结果显示,在有限的渲染预算下,这套LLM主导的空间Agent确实能拍出像样的片子。对做3D工具、游戏内容、虚拟制片的人来说,这是个值得留意的信号:机位和构图这种「需要审美」的活,Agent开始能接了。
原文:PhotoFlow: Agentic 3D Virtual Photography Missions
04 训练优化 为什么模型越训越大,效果反而会掉?
经典的Scaling Law都是「越大越好」的单调曲线,可现实里偏偏有反例:过度训练会让性能崩、量化也会让模型退化——算力明明加了,效果却往下走,老公式解释不了。这篇论文把LLM训练看成「在有噪声的信道里传信息」,借香农理论建了个新框架:模型参数对应信道带宽,训练token对应信号功率。结论是LLM存在一个「香农容量」上限——光堆参数或数据而不维持足够的信噪比,只会放大噪声,把单调提升变成U型下滑。他们在Pythia和OLMo2上验证,还能外推:只用不超过6.9B的模型拟合,就预测出了12B模型的表现。这给「无脑加规模」提了个醒,不过结论需要看全文确认适用边界。
原文:LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

也值得关注
今日观察
今天扎堆的几篇都在干同一件事:把「生成模型」当成基础设施去解别的问题。PiD用扩散替代解码器,GenRecon借生成先验做重建,Geo-Align用RL给视频模型对齐物理尺度,ETCHR则把图像编辑模型变成推理助手。生成能力正在从「终点产物」变成「中间工具」——做3D、视频、视觉推理工具链的团队,值得把「能不能用现成的生成模型当模块」加进方案评估里。