今日概览
- 多agent系统的错误第一次能被「算」出来:GBC给agent之间的连接加上可微权重,让loss沿交互链回传,把「该改哪个agent的prompt」从凭感觉变成token级归因——前提是协作结构可微,离散工具调用这道坎待验。
- 去tokenizer的像素AR,质量正在追上主流:PRA用低维中间态加近似rollout压住累积误差,135M参数在ImageNet256做到FID2.58,反超此前十亿级模型的3.60,小一个数量级还更好。
重点关注
01 Agent 调多agent系统还是玄学:出了错,你不知道该改哪个agent的prompt
调多agent系统的人都熟悉这种无力感:整条流水线跑砸了,但你只拿到一个最终结果,不知道是分工没设计好,还是某一步交互把上游的正确信息带偏了,只能凭感觉改prompt、换角色。GBC(Gradient-Based Connections)想把这件事从试错往「能定位」推:它把多agent系统建模成一张计算图,给agent之间的连接加上可微的权重,让任务的loss信号沿着交互链条反向传播,从而在token级别量化每个agent的输出对下游的影响——哪一步该负责,哪个prompt该改,理论上能被算出来而不是猜出来。作者还配了个叫AgentChord的实现,用前缀梯度计算来降开销,并在MultiWOZ和τ-bench两个对话/工具任务上跑赢了强单agent和多agent基线,而且他们观察到归因质量越高、优化效果越好,这个正相关至少说明「细粒度信用分配」这条路是有信号的。真正要留意的是它的前提假设:整个协作结构得是可微的,但生产里大量agent交互是离散的工具调用、外部API、条件分支,这些地方梯度传不过去,所以它到底能覆盖多少真实场景,得看全文里对非可微环节怎么处理。对做多agent编排的团队来说,这个方向的价值不在具体分数,而在于它试图给「为什么这套agent不work」提供一个可分析的答案,而不是继续靠经验拍。
原文:GBC: Gradient-Based Connections for Optimizing Multi-Agent Systems
02 图像生成 去掉tokenizer这条路,质量正在追上来
主流图像生成都要先训一个离散tokenizer把图像压成token,这是个需要单独训练和维护的组件。像素空间自回归(AR)想绕过它——直接把图像当成原始像素patch的序列来预测,pixel-in、pixel-out,省掉整个tokenizer环节。代价是两个耦合的麻烦:单步要生成的维度太高,误差大;加上teacher-forcing带来的训练/推理gap,误差会沿AR步骤越滚越大。PRA的做法是先预测低维中间态、再用一个像素解码器映射回像素token,同时在训练时构造出接近推理时的输入分布,来近似真实rollout的反馈路径,但保留并行训练的效率。效果上,135M参数做到ImageNet256×256的FID2.58,超过之前十亿级像素空间AR的3.60;放大到511M进一步到1.94——参数量小一个数量级还更好,这条路线的质量差距在明显收窄。
原文:Parallel Rollout Approximation for Pixel-Space Autoregressive Image Generation
