阿里发布下一代基础模型架构 Qwen3-Next9 月 12 日

阿里发布下一代基础模型架构 Qwen3-Next,开源基于该架构的 Qwen3-Next-80B-A3B 系列模型。该架构相比 Qwen3 的 MoE 模型结构有多项核心改进。Qwen3-Next-80B-A3B-Base 模型有 800 亿参数,激活参数仅 30 亿,性能与 Qwen3-32B dense 模型相近甚至略好,训练成本不到 Qwen3-32B 的十分之一。

企业微信二维码