A17B 是 MoE(Mixture-of-Experts,专家混合模型)结构参数的标识。
完整名字:
Qwen3.5-397B-A17B
其实包含两个数字:
| 字段 | 含义 |
|---|---|
| 397B | 模型总参数量 |
| A17B | 每次推理实际激活的参数量 |
一、为什么会有 A17B
这是 MoE 架构的特点。
普通模型(Dense):
70B 模型
推理 = 用全部 70B 参数
MoE 模型:
397B 模型
推理 ≠ 用全部参数
只用其中一部分
所以:
总参数:397B
实际参与计算:17B
因此叫:
A17B = Activated 17B
意思是:
每个 token 只激活 17B 参数参与计算
二、MoE是怎么做到的
MoE结构里有很多 专家网络(Experts)。
例如:
64 个专家
每个专家 ~6B
推理时流程:
token
↓
router(路由器)
↓
选出 top2 专家
↓
只计算这2个专家
所以:
397B 总参数
但只算一小部分
三、为什么要这样设计
因为可以实现:
| 目标 | 结果 |
|---|---|
| 模型能力 | 接近 400B |
| 推理成本 | 只有 17B |
| 效果 | 更强 |
换句话说:
用 17B 的算力,获得接近 400B 的能力
四、一个直观类比
Dense模型:
70个专家
每次全部开会
MoE模型:
400个专家
但每次只叫2个开会
这样:
能力更强
计算更少
五、为什么 GPU 还是要很多
因为:
虽然 只激活 17B,但
397B 参数必须全部放在显存里
否则专家切换会非常慢。
所以部署:
| 模型 | GPU需求 |
|---|---|
| 70B Dense | 2~4卡 |
| 397B MoE | 8~16卡 |
六、再看你那个名字就全懂了
Qwen3.5-397B-A17B
含义:
Qwen3.5 模型版本
397B 总参数
A17B 每次激活17B
七、为什么 Qwen 都喜欢这种结构
因为 MoE 有三个优势:
- 能力更强
- 推理更省算力
- 扩展性好
所以很多新模型都是:
| 模型 | 架构 |
|---|---|
| DeepSeek-V3 | MoE |
| Mixtral | MoE |
| Qwen3.5-397B | MoE |
