端侧AI图像生成新突破!字节开源DreamLite:0.39B参数统一图像生成与编辑,小米14上实现1秒出图。

张开发
2026/4/13 16:29:52 15 分钟阅读

分享文章

端侧AI图像生成新突破!字节开源DreamLite:0.39B参数统一图像生成与编辑,小米14上实现1秒出图。
在AI图像生成与编辑领域云端大模型一直占据主导地位但其高延迟和依赖云端资源的特性限制了移动端应用的普及。近日字节跳动智能创作实验室发布的DreamLite模型以其0.39B参数的轻量化设计和统一生成与编辑的能力在小米14等移动设备上实现了1秒内生成或编辑1024x1024分辨率图像的壮举为端侧AI图像处理树立了新的标杆。相关链接论文https://arxiv.org/abs/2603.28713主页https://carlofkl.github.io/dreamlite仓库https://github.com/ByteVisionLab/DreamLite论文介绍DreamLite模型旨在解决端侧AI图像处理中的两大痛点高延迟和功能单一。传统端侧模型往往专注于单一的图像生成任务而图像编辑则需要部署额外的模型导致系统复杂度高且资源消耗大。DreamLite通过创新的轻量化架构设计、In-Context条件统一机制、任务渐进式联合预训练以及后训练优化与步数蒸馏等技术实现了在一个统一模型中同时支持图像生成和编辑的功能。方法概述轻量化架构设计DreamLite基于SnapGen进一步压缩U-Net骨干网络通过减少Transformer块数量、缩减通道维度、去掉高分辨率阶段的Self-Attention、使用深度可分离卷积和Multi-Query AttentionMQA等技术将模型参数量从2.5B压缩至0.39B。 采用极轻量的TinyVAE仅2.5M参数进行图像编码以及Qwen3-VL-2B作为文本编码器确保模型在保持高性能的同时计算量大幅降低。In-Context条件统一机制不同于传统的InstructPix2Pix范式DreamLite在latent空间中将目标图像和条件图像沿宽度方向水平拼接通过空间维度拼接和任务token路由在不引入额外参数的前提下实现了任务统一。文生图任务中条件面板设置为空白图像图像编辑任务中条件面板使用源图像。任务token[Generate]和[Edit]充当轻量级路由信号指导模型动态切换行为。任务渐进式联合预训练分三步进行预训练首先进行T2I预训练然后激活In-Context条件机制进行编辑预训练最后在T2I和编辑数据的混合数据集上进行统一联合训练。引入前景聚焦掩码解决编辑任务中目标编辑区域小、梯度信号被背景主导的问题确保模型在微小编辑上的敏感性和训练稳定性。后训练优化与步数蒸馏。采用监督微调SFT和强化学习RL进行后训练优化提升模型稳定性和性能。使用Distribution Matching Distillation (DMD2)将采样过程压缩到仅4步实现快速推理同时保持较高的生成和编辑质量。实验图像生成实验在GenEval和DPG基准上DreamLite分别达到0.72和85.8的成绩超过所有端侧模型甚至超越了部分服务器端大模型如FLUX.1-Dev 12B和SANA-1.6B。 在颜色属性和位置子项上DreamLite同样表现出色证明了其在复杂场景、风格把控和多物体关系处理上的能力。图像编辑实验在ImgEdit基准上DreamLite拿到4.11分超越了多个大模型如FLUX.1 Kontext-Dev 12B和BAGEL 7B在GEdit-EN基准上也取得了6.88分的优异成绩。 消融实验验证了In-Context条件统一机制、任务渐进式联合预训练和后训练优化的有效性证明了每个设计对模型性能提升的贡献。结论DreamLite模型通过创新的轻量化架构设计、In-Context条件统一机制、任务渐进式联合预训练以及后训练优化与步数蒸馏等技术成功实现了在一个统一模型中同时支持图像生成和编辑的功能。其在多个基准测试中的优异表现以及在移动端设备上的实时性能证明了DreamLite在端侧AI图像处理领域的领先地位。随着代码和模型权重的即将开源DreamLite有望推动端侧AI图像生成与编辑技术的普及和发展为用户带来更加便捷和高效的图像处理体验。

更多文章