同一个模型的不同“权重格式 / 量化方式 / 运行生态”。

模型本身还是 Qwen3.5-397B-A17B,但为了适配不同硬件和推理框架,会发布很多版本。
可以把它理解成:
同一部电影,不同分辨率 + 不同编码格式 + 不同播放器版本。
从工程角度拆开讲清楚。
一、原始模型(未量化)
第一个:
Qwen3.5-397B-A17B
特点:
- 权重精度:FP16 / BF16
- 大小:约 400GB
- 精度:最高
- 显存需求:极高
典型运行框架:
- vLLM
- SGLang
- Transformers
一般需要:
- 8×H100
- 或更多
二、FP8 版本
Qwen3.5-397B-A17B-FP8
FP8 = 8bit 浮点量化
特点:
| 项 | 说明 |
|---|---|
| 精度 | 接近 FP16 |
| 显存 | 减少约 50% |
| 速度 | 更快 |
| 支持 | H100 / H200 / B100 |
适合:
- vLLM
- SGLang
- TensorRT-LLM
典型运行:
vllm serve \
--quantization fp8
优点:
- 精度损失很小
- 速度快
- 推理稳定
缺点:
- 只有新 GPU 支持
例如:
- H100
- H200
- Blackwell
三、GPTQ-Int4
你看到:
Qwen3.5-397B-A17B-GPTQ-Int4
GPTQ = 4bit 权重量化
特点:
| 项 | 说明 |
|---|---|
| 精度 | 有损 |
| 显存 | 约减少 75% |
| 速度 | 较快 |
| 支持 | 普通 GPU |
例如:
原始:
403GB
Int4:
约100GB
常用框架:
- AutoGPTQ
- exllama
- vLLM(部分支持)
适合:
- 消费级 GPU
- 推理部署
缺点:
- 精度下降
- 长文本能力可能下降
四、GGUF
Qwen3.5-397B-A17B-GGUF
GGUF 是 llama.cpp 系列格式
特点:
| 项 | 说明 |
|---|---|
| 运行环境 | CPU / GPU |
| 框架 | llama.cpp / ollama |
| 量化 | Q2 / Q3 / Q4 / Q5 / Q8 |
| 兼容 | 本地推理 |
典型用途:
- Mac
- CPU推理
- 轻量化部署
例如:
ollama run qwen
优点:
- 很方便
- 支持 CPU
缺点:
- 速度慢
- 不适合大规模服务
五、W8A8
w8a8
意思:
Weight = 8bit
Activation = 8bit
也叫:
INT8
特点:
| 项 | 说明 |
|---|---|
| 显存 | 减少约50% |
| 精度 | 较好 |
| 框架 | TensorRT-LLM |
适合:
- 推理服务
- 企业部署
六、总结(最关键)
| 格式 | 精度 | 显存 | 用途 |
|---|---|---|---|
| FP16/BF16 | 最高 | 最大 | 训练/标准推理 |
| FP8 | 很高 | 中 | H100 推理 |
| GPTQ Int4 | 中 | 小 | 消费级 GPU |
| GGUF | 低-中 | 很小 | 本地运行 |
| W8A8 | 高 | 中 | 企业推理 |
七、如果现在是 8×H100
最推荐
Qwen3.5-397B-A17B-FP8
原因:
- H100 原生支持 FP8
- 显存占用低
- 精度几乎不损失
- vLLM / SGLang 都支持
八、很多人不知道的一点(很重要)
这些其实分三类:
1 模型精度
FP16
BF16
FP8
INT8
INT4
2 量化算法
GPTQ
AWQ
SmoothQuant
RTN
3 权重文件格式
safetensors
gguf
pt
bin
九、一个工程师视角的简单判断法
如果你看到:
safetensors + fp16/bf16
说明:
原始权重
GPTQ
说明:
4bit量化
GGUF
说明:
llama.cpp
FP8
说明:
H100推理优化
