同一个模型的不同“权重格式 / 量化方式 / 运行生态”。

screenshot

模型本身还是 Qwen3.5-397B-A17B，但为了适配不同硬件和推理框架，会发布很多版本。

可以把它理解成：

同一部电影，不同分辨率 + 不同编码格式 + 不同播放器版本。

从工程角度拆开讲清楚。

一、原始模型（未量化）

第一个：

Qwen3.5-397B-A17B

特点：

权重精度：FP16 / BF16
大小：约 400GB
精度：最高
显存需求：极高

典型运行框架：

vLLM
SGLang
Transformers

一般需要：

8×H100
或更多

二、FP8 版本

Qwen3.5-397B-A17B-FP8

FP8 = 8bit 浮点量化

特点：

项	说明
精度	接近 FP16
显存	减少约 50%
速度	更快
支持	H100 / H200 / B100

适合：

vLLM
SGLang
TensorRT-LLM

典型运行：

vllm serve \
--quantization fp8

优点：

精度损失很小
速度快
推理稳定

缺点：

只有新 GPU 支持

例如：

H100
H200
Blackwell

三、GPTQ-Int4

你看到：

Qwen3.5-397B-A17B-GPTQ-Int4

GPTQ = 4bit 权重量化

特点：

项	说明
精度	有损
显存	约减少 75%
速度	较快
支持	普通 GPU

例如：

原始：

403GB

Int4：

约100GB

常用框架：

AutoGPTQ
exllama
vLLM（部分支持）

适合：

消费级 GPU
推理部署

缺点：

精度下降
长文本能力可能下降

四、GGUF

Qwen3.5-397B-A17B-GGUF

GGUF 是 llama.cpp 系列格式

特点：

项	说明
运行环境	CPU / GPU
框架	llama.cpp / ollama
量化	Q2 / Q3 / Q4 / Q5 / Q8
兼容	本地推理

典型用途：

Mac
CPU推理
轻量化部署

例如：

ollama run qwen

优点：

很方便
支持 CPU

缺点：

速度慢
不适合大规模服务

五、W8A8

w8a8

意思：

Weight = 8bit
Activation = 8bit

也叫：

INT8

特点：

项	说明
显存	减少约50%
精度	较好
框架	TensorRT-LLM

适合：

推理服务
企业部署

六、总结（最关键）

格式	精度	显存	用途
FP16/BF16	最高	最大	训练/标准推理
FP8	很高	中	H100 推理
GPTQ Int4	中	小	消费级 GPU
GGUF	低-中	很小	本地运行
W8A8	高	中	企业推理

七、如果现在是 8×H100

最推荐

Qwen3.5-397B-A17B-FP8

原因：

H100 原生支持 FP8
显存占用低
精度几乎不损失
vLLM / SGLang 都支持

八、很多人不知道的一点（很重要）

这些其实分三类：

1 模型精度

FP16
BF16
FP8
INT8
INT4

2 量化算法

GPTQ
AWQ
SmoothQuant
RTN

3 权重文件格式

safetensors
gguf
pt
bin

九、一个工程师视角的简单判断法

如果你看到：

safetensors + fp16/bf16

说明：

原始权重

GPTQ

说明：

4bit量化

GGUF

说明：

llama.cpp

FP8

说明：

H100推理优化

Qwen3.5-397B-A17B中FP8、Int4、GGUF怎么选