LLM

LLM（Large Language Model，大语言模型）是一种基于人工智能（AI）和深度学习的自然语言处理（NLP）模型，能够理解、生成和处理人类语言。它是 GPT-4、ChatGPT、Claude、Gemini、Llama 这些 AI 的核心技术。

{{totalSubscript}} 订阅，4,721 游览

类别：

文章问答动态工具视频

推荐

450

浏览

大模型跨节点部署

两台机器、每台 **8 张 H100（共 16 GPU）**，要把它们当成一个整体来运行大模型，本质上就是做 **分布式推理（Distributed Inference）**。核心机制是 **Tensor Parallel + 跨节点通信（NCCL）**。下面按实际工程步骤解释。一、整体结构是什么...

文章

半兽人发布于1月前

推荐

1.2k

浏览

Qwen3.5-397B-A17B中FP8、Int4、GGUF怎么选

**同一个模型的不同“权重格式 / 量化方式 / 运行生态”**。模型本身还是 **Qwen3.5-397B-A17B**，但为了适配不同硬件和推理框架，会发布很多版本。可以把它理解成：**同一部电影，不同分辨率 + 不同编码格式 + 不同播放器版本。**从工程角度拆开讲清楚。一、原始模型（未量化...

文章

半兽人发布于1月前

推荐

457

浏览

模型的数值和量化

**数值表示（numeric precision）** 和 **量化（quantization）** 两个概念。模型权重本质上是一堆数字，而 **FP16 / INT8 / INT4 只是“数字如何存储”** 的方式。一、先理解：模型其实就是大量数字神经网络里的权重本质上是：```0.183827...

文章

半兽人发布于1月前

推荐

641

浏览

模型精度 FP16 / FP8 / INT8 / INT4

精度（FP16 / FP8 / INT8 / INT4）到底谁好谁坏，为什么有的叫推理版、有的叫企业版。我把逻辑按**工程实践顺序**讲清楚，而不是随便给标签。一、先记住一个核心原则模型精度从高到低通常是：```FP32 FP16 ≈ BF16 FP8 INT8 INT4```含义：* **越靠左...

LLM 文章

半兽人发布于1月前

推荐

309

浏览

Qwen3.5-397B-A17B中的A17B

**A17B** 是 **MoE（Mixture-of-Experts，专家混合模型）结构参数**的标识。完整名字：**Qwen3.5-397B-A17B**其实包含两个数字：| 字段 | 含义 || ---- | ---------------- || 397B |...

LLM 文章

半兽人发布于1月前

推荐

408

浏览

判断是否使用NVLink和RDMA

判断是否使用 **NVLink** 和 **RDMA**，只需要看 **两类信息**：1）GPU拓扑（是否有 NVLink）2）NCCL 日志（是否走 RDMA）一、判断 GPU 之间是否使用 NVLink在每台服务器上执行：```bashnvidia-smi topo -m```输出类似：```...

LLM AI 文章

半兽人发布于1月前

推荐

23k

浏览

什么是MCP

MCP（Model Context Protocol，模型上下文协议），2024年11月底，由 Anthropic 推出的一种开放标准，**旨在统一大型语言模型（LLM）与外部数据源和工具之间的通信协议**。MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题，MCP 使...

MCP AI LLM 首页唯一

半兽人发布于10月前

推荐

604

浏览

AGI通用人工智能

**AGI**（Artificial General Intelligence，通用人工智能）是指具有人类一般智能水平的人工智能系统，能在**各种任务和领域中像人一样理解、学习、推理、适应和执行任务**，而不仅仅局限在某一个特定应用场景。一句话解释：AGI 就是能像人一样“通才”的人工智能，而不是...

LLM AI AGI 文章

半兽人发布于10月前

推荐

678

浏览

什么是“召回”

「**召回（Retrieval）**」这个词一般来自搜索系统或推荐系统的概念，例如在 Dify 中的应用也类似，用于**从知识库中找到与用户问题相关的内容**，作为大语言模型（LLM）回答问题的参考依据。一句话解释：**召回是从知识库中筛选出与用户问题最相关的内容（文本片段），提供给模型用于更准确...

LLM Dify 文章

半兽人发布于10月前

推荐

1.5k

浏览

什么是LoRA？

一、LoRALoRA，英文全称`Low-Rank Adaptation of Large Language Models`，直译为大语言模型的`低阶适配`，是微软的研究人员为了解决大语言模型微调而开发的一项技术。例如，GPT-3有1750亿参数，为了让它能干特定领域的活儿，需要做微调，但是如果直接...

LLM AI 文章

半兽人发布于1年前