Qwen3.5-397B-A17B中的A17B

半兽人 发表于: 2026-03-16   最后更新时间: 2026-03-16 15:18:47  
{{totalSubscript}} 订阅, 17 游览

A17BMoE(Mixture-of-Experts,专家混合模型)结构参数的标识。

完整名字:

Qwen3.5-397B-A17B

其实包含两个数字:

字段 含义
397B 模型总参数量
A17B 每次推理实际激活的参数量

一、为什么会有 A17B

这是 MoE 架构的特点。

普通模型(Dense):

70B 模型
推理 = 用全部 70B 参数

MoE 模型:

397B 模型
推理 ≠ 用全部参数
只用其中一部分

所以:

总参数:397B
实际参与计算:17B

因此叫:

A17B = Activated 17B

意思是:

每个 token 只激活 17B 参数参与计算

二、MoE是怎么做到的

MoE结构里有很多 专家网络(Experts)

例如:

64 个专家
每个专家 ~6B

推理时流程:

token
 ↓
router(路由器)
 ↓
选出 top2 专家
 ↓
只计算这2个专家

所以:

397B 总参数
但只算一小部分

三、为什么要这样设计

因为可以实现:

目标 结果
模型能力 接近 400B
推理成本 只有 17B
效果 更强

换句话说:

用 17B 的算力,获得接近 400B 的能力

四、一个直观类比

Dense模型:

70个专家
每次全部开会

MoE模型:

400个专家
但每次只叫2个开会

这样:

能力更强
计算更少

五、为什么 GPU 还是要很多

因为:

虽然 只激活 17B,但

397B 参数必须全部放在显存里

否则专家切换会非常慢。

所以部署:

模型 GPU需求
70B Dense 2~4卡
397B MoE 8~16卡

六、再看你那个名字就全懂了

Qwen3.5-397B-A17B

含义:

Qwen3.5        模型版本
397B           总参数
A17B           每次激活17B

七、为什么 Qwen 都喜欢这种结构

因为 MoE 有三个优势:

  1. 能力更强
  2. 推理更省算力
  3. 扩展性好

所以很多新模型都是:

模型 架构
DeepSeek-V3 MoE
Mixtral MoE
Qwen3.5-397B MoE
LLM
更新于 2026-03-16
在线,9小时前登录

查看LLM更多相关的文章或提一个关于LLM的问题,也可以与我们一起分享文章