Cursor Skills 的位置
Cursor Skills 的位置存储 skill 的位置决定了谁可以使用它:位置| 路径| 适用于-----| -------| -------|个人 |`~/.claude/skills//SKILL.md`| 你的所有项目项目 | `.claude/skills//SKILL.md`| 仅...
OpenClaw配置大模型
配置大模型进入OpenClaw配置目录:```cd ~/.openclaw```编辑openclaw.json文件```vim openclaw.json```在文件中找到`models.providers`,添加/修改vLLM配置(替换成自己的服务器信息):```"vllm": { "base...
大模型跨节点部署
两台机器、每台 **8 张 H100(共 16 GPU)**,要把它们当成一个整体来运行大模型,本质上就是做 **分布式推理(Distributed Inference)**。核心机制是 **Tensor Parallel + 跨节点通信(NCCL)**。下面按实际工程步骤解释。 一、整体结构是什么...
Qwen3.5-397B-A17B中FP8、Int4、GGUF怎么选
**同一个模型的不同“权重格式 / 量化方式 / 运行生态”**。模型本身还是 **Qwen3.5-397B-A17B**,但为了适配不同硬件和推理框架,会发布很多版本。可以把它理解成:**同一部电影,不同分辨率 + 不同编码格式 + 不同播放器版本。**从工程角度拆开讲清楚。 一、原始模型(未量化...
模型的数值和量化
**数值表示(numeric precision)** 和 **量化(quantization)** 两个概念。模型权重本质上是一堆数字,而 **FP16 / INT8 / INT4 只是“数字如何存储”** 的方式。 一、先理解:模型其实就是大量数字神经网络里的权重本质上是:```0.183827...
模型精度 FP16 / FP8 / INT8 / INT4
精度(FP16 / FP8 / INT8 / INT4)到底谁好谁坏,为什么有的叫推理版、有的叫企业版。我把逻辑按**工程实践顺序**讲清楚,而不是随便给标签。 一、先记住一个核心原则模型精度从高到低通常是:```FP32 FP16 ≈ BF16 FP8 INT8 INT4```含义:* **越靠左...
Qwen3.5-397B-A17B中的A17B
**A17B** 是 **MoE(Mixture-of-Experts,专家混合模型)结构参数**的标识。完整名字:**Qwen3.5-397B-A17B**其实包含两个数字:| 字段 | 含义 || ---- | ---------------- || 397B |...
判断是否使用NVLink和RDMA
判断是否使用 **NVLink** 和 **RDMA**,只需要看 **两类信息**:1)GPU拓扑(是否有 NVLink)2)NCCL 日志(是否走 RDMA) 一、判断 GPU 之间是否使用 NVLink在每台服务器上执行:```bashnvidia-smi topo -m```输出类似:```...
网络带宽换算
先把概念说清楚,其实只有两种单位容易混淆:| 写法 | 含义 | 中文 || -- | -------- | ------- || Gb | gigabit | **吉比特** || GB | gigabyte | **吉字节** |关键区别是:```1 Byte = 8 b...