美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

张开发
2026/4/4 1:50:25 15 分钟阅读
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
引言物理世界的信息由图像、声音、文字交织而成。今天的大模型本质上仍然是以语言为中心的建模系统语言作为人类智慧符号化表述在压缩即智能的范式下表现出强大的能力。但通往真正的物理世界智能也许语言并不是世界的边界。视觉、语音与文本等多模态信号实际上是对现实物理对象的不同侧面投影。这就引出一个根本问题能否让 AI 像处理语言一样用同一种方式简洁有效地处理物理世界的多种信息如果能那么物理世界的AI就有了统一的母语Token 不再局限于文本而是成为描述一切物理信号的原生表示。对这些信号进行统一建模与压缩可能使模型学到更加本质的表示并实现更深层的模态内化。LongCat 团队经过研究发现在统一的建模框架与优化目标下可以构造一种语义完备的离散表示。我们将图像、语音与文本统一映射为同源的离散 Token使模型从学习连续空间的映射转向学习离散 ID 之间的关系结构并通过纯粹的下一个 Token 预测Next Token Prediction, NTP范式以一种统一的、优雅的方式建模各种物理信号。LongCat-Next是我们在通往物理世界 AI 道路上的一次探索。今天我们把研究思路的核心——LongCat-Next 模型和它的离散分词器全部开源希望更多开发者能基于它构建真正能感知、理解并作用于真实世界的AI。我们如何构造物理世界的“母语”接下来我们将逐一拆解三项核心技术看看我们是如何让 AI 真正拥有物理世界的“母语”。1.1 离散原生自回归架构 DiNA简洁统一业界主流的多模态大模型长期受制于“语言基座外挂视觉/语音模块”的拼凑式架构非语言模态往往只作为辅助组件存在。这种设计带来很多结构性问题比如图像理解与生成在结构与优化上长期割裂前者依赖对齐机制后者依赖扩散等独立模型多模态信息始终停留在被投影而非“被内化”。为此我们构建了DiNADiscrete Native Autoregressive离散原生自回归架构。其核心非常简单将所有模态统一为离散 Token并用同一个自回归模型进行建模。它将物理世界广泛存在的多模态信号收敛为同源的离散特征实现了视觉、语音、文本多模态的底层建模统一。作为整个大语言模型体系的自然扩展DiNA 彻底打破了模态间的隔阂。它通过极简的下一 Token 预测NTP范式将图像、声音和文字统一转化为同源的离散 Token。在这套原生的统一架构下视觉的“看”与“画”、听觉的“听”与“说”不再是拼接的异构模块而是同一套预测逻辑的自然涌现。简单而言我们把文字、图像、语音都变成同一种东西——离散 Token。无论读文字、看图片还是听声音对AI来说都是同一件事预测下一个 Token 是什么。这个设计带来 3 个根本性改变架构极简所有模态共享同一个自回归骨干这意味着无论输入的是文字、图像还是音频模型都用同一套参数、同一个注意力机制、同一个损失函数。这种统一设计让模型在训练时更稳定部署时更轻量。我们用 LongCat-Flash-Lite MoE68.5B 总参数3B 激活参数作为基座在这个框架基础上训练了 LongCat-Next。实验表明DiNA 的 MoE 路由在训练中逐渐出现模态专精化激活专家数量相比纯语言设置有所增加模型正在用更大容量支撑能力扩展。理解与生成对称LongCat-Next 用同一个自回归模型同时实现了视觉理解和生成通过这样解决了长期困扰的理解生成架构和优化不一致问题在统一 Token 空间中理解与生成被统一为同一数学问题两者本质上都是条件下的 Token 预测图像 → 文本理解文本 → 图像生成给定图像 Token 预测文字 Token 是“理解”给定文字 Token 预测图像 Token 是“生成”——数学形式完全一致从此不再割裂。实验证明这种对称设计在优化上消弭了冲突统一模型的理解损失仅比纯理解模型高 0.006而生成损失比纯生成模型低 0.02。理解没有损害生成反而表现出协同潜力。模态内化在离散原生训练范式下不同模态被统一编码为 Token并以相同方式建模。我们观察到不同模态的 Token 表征在表示空间中自然融合t-SNE 可视化MoE 专家自发形成模态偏好分化这表明模型并非在“对齐模态”而是在内部形成统一的多模态表征结构。1.2 离散原生分辨率视觉分词器 dNaViT构造“视觉单词”如果说 DiNA 解决的是“如何统一建模”那么 dNaViT 解决的是如何让图像本身能够被离散化为可建模的 Token。LongCat 团队首创的dNaViT技术相当于语言模型中的 tokenizer分词器——就像把句子拆成单词它把一张图拆解成一系列有意义的“视觉词汇”。原生任意分辨率支持Native Resolution for Understanding and Generation不做缩放、不裁剪、不填充每一处细节都完整保留。通过我们精心设计的训练策略dNaViT 实现了任意分辨率的图像编码与解码——在文档解析OCR、复杂图表推理等对细节敏感的任务中具备优势如在 OmniDocBench、OCRBench 等密集文本场景的测试中均表现优异。8层残差向量量化Residual Vector Quantization, RVQ细节多了怎么办分层打包。类比于第一层打包轮廓第二层打包颜色第三层打包纹理……8层级联递归拟合残差中的残差可以实现高达 28 倍极致像素空间压缩。解码时DepthTransformer 将多级 Token 合并重建让压缩与还原高效协同。解耦的双轨生成解码器Dual-Path Detokenization离散 token 还原图像时先由结构像素解码器保住布局再由扩散像素细化器注入纹理细节。解耦设计降低生成方差确保文本渲染无损清晰。更妙的是这套视觉词汇实现了 image → token → image 的完整回环——像语言 tokenizer 一样既用于看懂图像也用于画出图像。理解时学到的对应关系生成时正好反过来用——图像描述和图像生成在同一套 token 序列中闭环流转。更关键的是在 LongCat-Next 中视觉 Token 完成的是图像到离散 ID 的映射真正的特征是原生学习的。真正的视觉表征是在语言模型内部通过 Embedding 学习得到的。这意味着模型不是接入视觉能力而是在内部学习并形成自己的视觉语言。这种从“借用模态”到“内生模态”的转变是原生多模态建模的核心。1.3 语义对齐完备编码器破解“离散化必然损失信息”的难题离散建模通常被认为受限于两方面表征容量与离散化损失。然而我们进一步分析发现真正决定上限的关键在于离散 Token 本身是否具备语义完备性Semantic Completeness。也就是说问题不在于是否离散而在于离散后的表示是否能够同时承载高层语义与细粒度信息如颜色、纹理与空间结构从而支撑统一的理解与生成。基于这一视角我们提出实现语义完备离散表示的关键在于构建合适的表征基础。其中一类重要的候选范式是SAESemantic-and-Aligned Encoder。不同于以对比学习为主的模型如 SigLIPSAE 通过大规模视觉-语言监督涵盖图像描述、视觉问答乃至视觉推理等任务学习高信息密度、多属性的表征。这类表征不仅具备丰富的语义结构同时我们发现在网络的残差传递机制下底层视觉细节能够持续向高层传播从而在抽象语义中保留细粒度信息为离散 Token 的语义完备性提供基础。在此之上离散化过程本身仍需尽可能减少信息损失。为此我们采用多级残差向量量化Residual Vector Quantization, RVQ机制对表征进行逐级离散建模通过层级化拟合残差中的残差在有限离散空间内逼近高维连续表示从而在压缩率与信息保真之间取得平衡。最终得到的离散视觉 Token不仅能够支撑细粒度理解任务例如在密集文本识别中优于连续表征模型同时也具备高保真的图像重建能力。这表明离散表示并非信息的退化形式而可以成为统一理解与生成的完备表达载体。实证与洞察LongCat-Next 在视觉理解、图像生成、音频、智能体等多个维度上以一套离散原生框架展现出与多模专用模型相当甚至领先的性能。更重要的是这些成绩验证了三个关键发现发现一离散视觉没有天花板行业长期认为离散模型在细粒度文本识别上必然不如连续模型这也是一直阻碍业界使用离散建模作为选项的原因。值得一提的是经过我们 dNaViT 的设计以及 DiNA 的建模框架LongCat-Next 表现出了非凡的细粒度感知能力和高质量的视觉推理能力。LongCat-Next 在 OmniDocBench学术论文、财报、行政表格上的表现0.152 / 0.226挑战了这一刻板印象——不仅超越 Qwen3-Omni还超过了专用视觉模型 Qwen3-VL。离散化不是细粒度感知的天花板关键在于如何构建语义完备的离散视觉表征。发现二理解与生成可以协同传统观点认为一个模型很难同时做好理解和生成。但我们发现消融实验对比中LongCat-Next 统一模型的理解损失仅比纯理解模型高 0.006而生成损失比纯生成模型低 0.02。在图像生成上LongCat-Next 在 LongText-Bench英文 93.15在图像理解上MathVista83.1达到领先水平成为一个具备工业级潜力的理解生成统一方案。理解没有损害生成反而表现出协同潜力。发现三统一框架不折损语言能力在智能体与音频交互上形成跨模态协同在纯文本任务上LongCat-Next 的 MMLU-Pro77.02和 C-Eval86.80表现领先证明原生多模态训练未削弱语言核心能力。在工具调用上τ²-Bench 零售场景73.68大幅领先 Qwen3-Next-80B-A3B-Instruct57.3在代码能力上SWE-Bench43.0显著超越同类模型。在音频领域这一框架同样展现出良好的通用性。TTS 任务上SeedTTS 的中文和英文 WER 分别低至 1.90 和 1.89音频理解上MMAU76.40、TUT201743.09均达到先进水平。更重要的是模型支持低延迟的并行文本语音生成与可定制的语音克隆让语音交互更自然、更个性化。当模型学会用同一种方式理解图像、声音和文字它在理解世界时变得更聪明了——无论是看懂图表、听懂语音甚至是调用工具、编写代码。更多样例Case 视觉理解Analyze this image. Context: Gen Generation; Und Understanding. ‘Scaled’ represents a fair 1:1 token comparison. Is there any evidence that Understanding helps Generation?Yes, there is evidence that Understanding (Unified) helps Generation (Pure-Gen.), particularly in the context of token efficiency and image loss reduction. Lets break this down: 1. Main Graph: Image Loss vs. TokensThe x-axis is Tokens (from 0B to 100B), and the y-axis is Image Loss (lower is better).Three curves are shown:Pure-Gen. (blue): Pure generation model.Unified (orange): Unified model (combines understanding and generation).Unified (unscaled) (light orange): Same as Unified, but scaled for fair token comparison.Key Observations:At low token counts (e.g., 0–20B tokens), all models start with high image loss, but Unified (orange) starts slightly lower than Pure-Gen. (blue), suggesting a small advantage.As tokens increase, Unified (orange) consistently achieves lower image loss than Pure-Gen. (blue), especially after ~40B tokens.The Unified (unscaled) curve (light orange) is very close to the Unified curve, indicating that scaling doesn’t change the relative performance — it’s just a fair comparison.✅ Conclusion: The Unified model (which includes understanding) performs better than Pure-Gen. across most token ranges, meaning understanding helps generation. 2. Inset Graph: Zoomed-in View (40B–50B Tokens)This shows a close-up of the region where the curves diverge slightly.The difference (Δ 0.0213) is explicitly marked between Pure-Gen. and Unified at ~48B tokens.The Unified curve is below Pure-Gen., meaning lower image loss — better performance.✅ This quantifies the benefit: Understanding provides a measurable improvement in image quality (lower loss) at higher token counts. 3. Interpretation: What Does Understanding Mean Here?The term Unified likely refers to a model that jointly learns understanding (e.g., semantic or structural comprehension) and generation. In contrast, Pure-Gen. is a model trained only on generation tasks. So, when the Unified model outperforms Pure-Gen., it suggests that incorporating understanding during training leads to better generative performance — possibly by enabling more informed, context-aware generation. ✅ Final Answer:Yes, there is clear evidence that Understanding helps Generation.The Unified model (which includes understanding) consistently achieves lower image loss than the Pure-Gen. model across token counts, with a quantified improvement of Δ 0.0213 in the inset graph. This indicates that integrating understanding into the model improves its generative performance, especially as token count increases.Case 2视觉生成Case 3音频问答与语音合成请查阅原文LongCat-Next 现已开源作为一个初步的尝试我们展示了一个有意义的视角物理世界的信息可以被离散化、统一化、像语言一样被建模让 AI 第一次能够像处理文字一样原生地理解物理世界的多模态信号。今天我们把这个探索研究的过程及产物——LongCat-Next 模型和 dNaViT 分词器全部开源。开源平台链接Paper:https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdfGitHub:https://github.com/meituan-longcat/LongCat-NextHuggingFace:https://huggingface.co/meituan-longcat/LongCat-Next更多体验前往Demo:https://longcat.chat/longcat-nextBlog:https://longcat.chat/longcat-next/intro结语我们也期待有一天AI能真正看懂真实世界的每一个角落、听懂顾客的每一句话、理解物理世界的每一条规律。而我们今天开源的 LongCat-Next以小尺寸验证了原生离散架构的潜力是这条路上的一块重要的基石。我们也知道还有非常多重要的方向尚未被充分探索——但这恰恰是未来研究的机遇。我们诚挚欢迎社区同仁的深入讨论与合作一同推动原生多模态智能走向更远。| 关注「美团技术团队」微信公众号meituantech技术干货| 本文系美团技术团队出品著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容敬请注明“内容转载自美团技术团队”。本文未经许可不得进行商业性转载或者使用。任何商用行为请发送邮件至 techmeituan.com 申请授权。

更多文章