端侧AI图像生成新突破！字节开源DreamLite：0.39B参数统一图像生成与编辑，小米14上实现1秒出图。

张开发

• 2026/4/21 16:47:55 • 15 分钟阅读

分享文章

端侧AI图像生成新突破！字节开源DreamLite：0.39B参数统一图像生成与编辑，小米14上实现1秒出图。

在AI图像生成与编辑领域云端大模型一直占据主导地位但其高延迟和依赖云端资源的特性限制了移动端应用的普及。近日字节跳动智能创作实验室发布的DreamLite模型以其0.39B参数的轻量化设计和统一生成与编辑的能力在小米14等移动设备上实现了1秒内生成或编辑1024x1024分辨率图像的壮举为端侧AI图像处理树立了新的标杆。相关链接论文https://arxiv.org/abs/2603.28713主页https://carlofkl.github.io/dreamlite仓库https://github.com/ByteVisionLab/DreamLite论文介绍DreamLite模型旨在解决端侧AI图像处理中的两大痛点高延迟和功能单一。传统端侧模型往往专注于单一的图像生成任务而图像编辑则需要部署额外的模型导致系统复杂度高且资源消耗大。DreamLite通过创新的轻量化架构设计、In-Context条件统一机制、任务渐进式联合预训练以及后训练优化与步数蒸馏等技术实现了在一个统一模型中同时支持图像生成和编辑的功能。方法概述轻量化架构设计DreamLite基于SnapGen进一步压缩U-Net骨干网络通过减少Transformer块数量、缩减通道维度、去掉高分辨率阶段的Self-Attention、使用深度可分离卷积和Multi-Query AttentionMQA等技术将模型参数量从2.5B压缩至0.39B。采用极轻量的TinyVAE仅2.5M参数进行图像编码以及Qwen3-VL-2B作为文本编码器确保模型在保持高性能的同时计算量大幅降低。In-Context条件统一机制不同于传统的InstructPix2Pix范式DreamLite在latent空间中将目标图像和条件图像沿宽度方向水平拼接通过空间维度拼接和任务token路由在不引入额外参数的前提下实现了任务统一。文生图任务中条件面板设置为空白图像图像编辑任务中条件面板使用源图像。任务token[Generate]和[Edit]充当轻量级路由信号指导模型动态切换行为。任务渐进式联合预训练分三步进行预训练首先进行T2I预训练然后激活In-Context条件机制进行编辑预训练最后在T2I和编辑数据的混合数据集上进行统一联合训练。引入前景聚焦掩码解决编辑任务中目标编辑区域小、梯度信号被背景主导的问题确保模型在微小编辑上的敏感性和训练稳定性。后训练优化与步数蒸馏。采用监督微调SFT和强化学习RL进行后训练优化提升模型稳定性和性能。使用Distribution Matching Distillation (DMD2)将采样过程压缩到仅4步实现快速推理同时保持较高的生成和编辑质量。实验图像生成实验在GenEval和DPG基准上DreamLite分别达到0.72和85.8的成绩超过所有端侧模型甚至超越了部分服务器端大模型如FLUX.1-Dev 12B和SANA-1.6B。在颜色属性和位置子项上DreamLite同样表现出色证明了其在复杂场景、风格把控和多物体关系处理上的能力。图像编辑实验在ImgEdit基准上DreamLite拿到4.11分超越了多个大模型如FLUX.1 Kontext-Dev 12B和BAGEL 7B在GEdit-EN基准上也取得了6.88分的优异成绩。消融实验验证了In-Context条件统一机制、任务渐进式联合预训练和后训练优化的有效性证明了每个设计对模型性能提升的贡献。结论DreamLite模型通过创新的轻量化架构设计、In-Context条件统一机制、任务渐进式联合预训练以及后训练优化与步数蒸馏等技术成功实现了在一个统一模型中同时支持图像生成和编辑的功能。其在多个基准测试中的优异表现以及在移动端设备上的实时性能证明了DreamLite在端侧AI图像处理领域的领先地位。随着代码和模型权重的即将开源DreamLite有望推动端侧AI图像生成与编辑技术的普及和发展为用户带来更加便捷和高效的图像处理体验。

端侧AI图像生成新突破！字节开源DreamLite：0.39B参数统一图像生成与编辑，小米14上实现1秒出图。

最新文章

Unity场景道具写实

PyCharm + PyQt5 GUI开发环境搭建：从安装包到配置工具的完整避坑指南

51单片机入门实战：用独立按键控制数码管显示0~9（附Proteus仿真文件）

ExtractorSharp：5分钟掌握游戏资源编辑的终极指南

身份证人像照片验证 API 集成指南

避坑指南：Spark On Hive配置中那些容易踩的雷（基于Spark 3.5.7 + Hive + MySQL 8）

推荐文章

网盘直链下载助手：告别限速困扰的八大网盘全能解决方案

【SAP Basis】从SU01出发：深入解析SAP用户账号管理的核心配置与实战

JavaScript的Symbol.unscopables：影响with语句行为的属性

一次由Nginx的proxy_pass尾随斜杠引发的重定向循环

恋爱心理学科学重构

图片EXIF元数据编辑器：单张图片的完整解决方案

相关文章

掌握媒体捕获与视频下载的7个实用技巧：猫抓cat-catch浏览器扩展完全指南

Android开发者必备：轻量级二维码解决方案ZXingLite全面解析

MogFace人脸检测在AR应用：移动端人脸关键点实时追踪与特效叠加

解锁AI编程效率：6个Continue插件实战技巧让开发效率提升10倍

[游戏录像引擎] 突破视角限制：League Director重构《英雄联盟》视频创作流程

从RK3562实践出发：AMP架构下的RPMsg核间通信实战解析

分享文章

更多文章

从Object.defineProperty到Proxy：Vue 3响应式系统的底层革命

企业级网络拓扑可视化解决方案：Topology完全指南

智能捕获网页媒体：猫抓插件如何让你轻松获取任何在线资源

DownKyi：解锁B站视频自由下载的5大核心能力

【独家首发】奇点大会未公开议程泄露：AIAgent搜索的3大合规红线与2026Q2商用准入清单

Phi-4-mini-reasoning基础教程：理解‘不输出＜think＞’设计背后的工程取舍

福建某准双一流网安大一生在csdn的第一篇博客

ESP32环境监测项目避坑指南：MQ-2预热、A9G供电、DHT11复位报错这些坑我都踩过了

改革开放颂

[tomcat最新漏洞20260218] CVE-2026-24734 Apache Tomcat and Tomcat Native - OCSP revocation bypass

保姆级教学：用LiuJuan20260223Zimage一键生成LiuJuan风格图片，小白也能秒懂

零基础部署腾讯混元翻译模型：HY-MT1.5-1.8B保姆级手把手教学