milan 好意思团发布开源原生多模态大模子LongCat-Next

milan 好意思团发布开源原生多模态大模子LongCat-Next

  • 首页
  • 米兰体育
  • 米兰盘口
  • 米兰滚球
  • 亚洲盘
  • 欧洲盘
  • 2026世界杯
  • 米兰体育官方网站
    你的位置:米兰体育官方网站 > 米兰体育 > milan 好意思团发布开源原生多模态大模子LongCat-Next
    milan 好意思团发布开源原生多模态大模子LongCat-Next
    发布日期:2026-03-29 07:30    点击次数:52

    milan 好意思团发布开源原生多模态大模子LongCat-Next

    IT 之家 3 月 27 日音书,好意思团本日发布原生多模态大模子 LongCat-Next,将图像、语音与文本和洽映射为同源的闹翻 Token,使模子从学习一语气空间的映射,转向学习闹翻 ID 之间的联系结构,并通过地谈的下一个 Token 展望(Next Token Prediction, NTP)范式,以一种和洽的容貌建模多样物理信号。

    好意思团还晓谕把参议念念路的中枢 —— LongCat-Next 模子和它的闹翻分词器一齐开源,但愿更多设备者能基于它,构建果真能感知、不竭并作用于果真寰球的 AI。

    好意思团构建了 DiNA(Discrete Native Autoregressive)闹翻原生自转头架构。其中枢等于将所有模态和洽为闹翻 Token,并用团结个自转头模子进行建模。DiNA 突破了模态间的隔膜。它通过极简的下一 Token 展望(NTP)范式,将图像、声息和翰墨和洽行化为同源的闹翻 Token。

    浅易而言,好意思团把翰墨、图像、语音王人酿成团结种东西 —— 闹翻 Token。无论读翰墨、看图片依然听声息,对 AI 来说王人是团结件事:展望下一个 Token 是什么。

    这种和洽缱绻,让模子在检察时更富厚,部署时更轻量。好意思团用 LongCat-Flash-Lite MoE(68.5B 总参数,3B 激活参数)动作基座,在这个框架基础上检察了 LongCat-Next。

    实际标明,DiNA 的 MoE 路由在检察中逐步出现模态专精化,激活大众数目比较纯讲话竖立有所增多,米兰体育官方网站模子正在用更大容量补助智商膨大。

    ▲ LongCat-Next 架构概览,该架构基于 DiNA 范式缱绻

    凭证好意思团官方测试,LongCat-Next 在视觉不竭、图像生成、音频、智能体等多个维度上,以一套闹翻原生框架展现出与多模专用模子极端以致最初的性能。

    LongCat-Next 在 OmniDocBench(学术论文、财报、行政表格)上的发达(0.152 / 0.226)不仅卓著 Qwen3-Omni,还越过了专用视觉模子 Qwen3-VL。

    消融实际对比中,LongCat-Next 和洽模子的不竭逝世仅比纯不竭模子高 0.006,而生成逝世比纯生成模子低 0.02。在图像生成上,LongCat-Next 在 LongText-Bench(英文 93.15);在图像不竭上,MathVista(83.1)达到最初水平。

    在纯文本任务上,LongCat-Next 的 MMLU-Pro(77.02)和 C-Eval(86.80)发达最初,讲授原生多模态检察未消弱讲话中枢智商。在器具调用上,τ² -Bench 零卖场景(73.68)大幅最初 Qwen3-Next-80B-A3B-Instruct(57.3);在代码智商上,SWE-Bench(43.0)卓著同类模子。

    在音频界限,TTS 任务上,SeedTTS 的中语和英文 WER 远隔低至 1.90 和 1.89;音频不竭上,MMAU(76.40)、TUT2017(43.09)均达到先进水平。更迫切的是,模子支抓低蔓延的并行文本语音生成与可定制的语音克隆,让语音交互更当然、更个性化。

    IT 之家附 LongCat-Next 模子和 dNaViT 分词器开源地址如下:milan

    滚球app官方网站

    上一篇:米兰体育 中国中小企业处事网上线“绿色低碳节能”板块 赋能中小企业绿色转型
    下一篇:milansports 2100万网红肥土官宣直播带货!网友:这钱就该他赚