今日概览
- Seed1.8把搜索、代码执行、GUI交互统一到基座层,字节跳动发布Agent原生基座模型,部署侧针对延迟和成本做了优化,但缺少与通用模型+框架方案的直接对比。
- 多模态模型的语言训练在系统性侵蚀视觉表征——跨架构、跨规模的诊断发现,单一文本生成目标迫使模型牺牲视觉保真度。PRe方法通过中间层预测约束缓解退化。
- DiT微调显存大幅下降,效果接近全量微调。动态patch采样按时间步调整分辨率,cross-attention掩码筛选关键block只微调这些,两个策略叠加打开消费级硬件上的可行性。
重点关注
01 Agent 通用底座套框架,还是从头为Agent设计?
Seed1.8的设计理念很明确:与其在通用模型上叠加Agent框架,不如从基座层就把多轮交互、工具使用和多步执行当作一等公民。字节跳动这次发布的不只是加了function calling的聊天模型——搜索、代码生成与执行、GUI交互被统一到同一个接口里,模型原生理解这些能力之间的协作关系。部署侧也做了针对性设计:可配置的思考模式和针对图片/视频优化的视觉编码,说明团队认真考虑了Agent场景下的延迟和成本问题。从评测覆盖来看,除了标准benchmark,还专门设计了应用对齐的工作流测试,覆盖基础能力、多模态理解和Agent行为三个层面。不过model card没有给出与「通用模型+Agent框架」方案的直接对比,而这恰恰是从业者最想看到的数据——架构上的一等公民设计到底带来多少可量化的优势,还需要社区独立评测来回答。
原文:Seed1.8 Model Card: Towards Generalized Real-World Agency
02 多模态 语言训练正在侵蚀多模态模型的视觉表征
多模态大模型在语言数据上训练时,内部的视觉表征会系统性退化——这篇CVPR论文对这个现象做了跨架构、跨规模的诊断分析。具体发现是,LLM中间层的视觉特征相比初始输入,在全局功能和patch结构上都出现了明显衰减,原因是单一的文本生成目标迫使模型牺牲视觉保真度来优化答案输出。作者提出的PRe(预测正则化)思路很直接:强制退化的中间层特征去预测初始视觉特征,相当于给视觉表征加了一条「不许丢」的约束。实验证实这种约束有效提升了视觉-语言任务表现,但具体提升幅度和跨任务泛化能力需要看全文数据。
03 训练优化 个性化图像生成的显存瓶颈,两刀砍下去效果不减
微调DiT(Diffusion Transformer)做个性化图像生成,显存开销一直是硬门槛。DiT-BlockSkip的方案很直接:第一刀是动态patch采样,根据扩散时间步调整patch大小——早期大patch抓全局结构,后期小patch抠细节,统一缩放到低分辨率送入模型。第二刀是block跳过,用cross-attention掩码筛选出对个性化最关键的transformer block只微调这些,其余预计算残差特征直接跳过。两个策略叠加后显存大幅下降,定性和定量评估上保持了接近全量微调的效果。论文提到了端侧设备(手机、IoT)的可行性,但需要看具体硬件上的实测数据才能确认。
原文:Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping
