milan 好意思团发布开源原生多模态大模子LongCat-Next

米兰体育官方网站

米兰体育: 米兰体育; 米兰盘口; 米兰滚球; 亚洲盘; 欧洲盘; 2026世界杯

你的位置：米兰体育官方网站 > 米兰体育 > milan 好意思团发布开源原生多模态大模子LongCat-Next

发布日期：2026-03-29 07:30 点击次数：52

milan 好意思团发布开源原生多模态大模子LongCat-Next

IT 之家 3 月 27 日音书，好意思团本日发布原生多模态大模子 LongCat-Next，将图像、语音与文本和洽映射为同源的闹翻 Token，使模子从学习一语气空间的映射，转向学习闹翻 ID 之间的联系结构，并通过地谈的下一个 Token 展望（Next Token Prediction， NTP）范式，以一种和洽的容貌建模多样物理信号。

好意思团还晓谕把参议念念路的中枢 —— LongCat-Next 模子和它的闹翻分词器一齐开源，但愿更多设备者能基于它，构建果真能感知、不竭并作用于果真寰球的 AI。

好意思团构建了 DiNA（Discrete Native Autoregressive）闹翻原生自转头架构。其中枢等于将所有模态和洽为闹翻 Token，并用团结个自转头模子进行建模。DiNA 突破了模态间的隔膜。它通过极简的下一 Token 展望（NTP）范式，将图像、声息和翰墨和洽行化为同源的闹翻 Token。

浅易而言，好意思团把翰墨、图像、语音王人酿成团结种东西 —— 闹翻 Token。无论读翰墨、看图片依然听声息，对 AI 来说王人是团结件事：展望下一个 Token 是什么。

这种和洽缱绻，让模子在检察时更富厚，部署时更轻量。好意思团用 LongCat-Flash-Lite MoE（68.5B 总参数，3B 激活参数）动作基座，在这个框架基础上检察了 LongCat-Next。

实际标明，DiNA 的 MoE 路由在检察中逐步出现模态专精化，激活大众数目比较纯讲话竖立有所增多，米兰体育官方网站模子正在用更大容量补助智商膨大。

▲ LongCat-Next 架构概览，该架构基于 DiNA 范式缱绻

凭证好意思团官方测试，LongCat-Next 在视觉不竭、图像生成、音频、智能体等多个维度上，以一套闹翻原生框架展现出与多模专用模子极端以致最初的性能。

LongCat-Next 在 OmniDocBench（学术论文、财报、行政表格）上的发达（0.152 / 0.226）不仅卓著 Qwen3-Omni，还越过了专用视觉模子 Qwen3-VL。

消融实际对比中，LongCat-Next 和洽模子的不竭逝世仅比纯不竭模子高 0.006，而生成逝世比纯生成模子低 0.02。在图像生成上，LongCat-Next 在 LongText-Bench（英文 93.15）；在图像不竭上，MathVista（83.1）达到最初水平。

在纯文本任务上，LongCat-Next 的 MMLU-Pro（77.02）和 C-Eval（86.80）发达最初，讲授原生多模态检察未消弱讲话中枢智商。在器具调用上，τ² -Bench 零卖场景（73.68）大幅最初 Qwen3-Next-80B-A3B-Instruct（57.3）；在代码智商上，SWE-Bench（43.0）卓著同类模子。

在音频界限，TTS 任务上，SeedTTS 的中语和英文 WER 远隔低至 1.90 和 1.89；音频不竭上，MMAU（76.40）、TUT2017（43.09）均达到先进水平。更迫切的是，模子支抓低蔓延的并行文本语音生成与可定制的语音克隆，让语音交互更当然、更个性化。

IT 之家附 LongCat-Next 模子和 dNaViT 分词器开源地址如下：milan

滚球app官方网站

上一篇：米兰体育中国中小企业处事网上线“绿色低碳节能”板块赋能中小企业绿色转型

下一篇：milansports 2100万网红肥土官宣直播带货！网友：这钱就该他赚