LLM

LLM(Large Language Model,大语言模型) 是一种 基于人工智能(AI)和深度学习 的 自然语言处理(NLP)模型,能够理解、生成和处理人类语言。它是 GPT-4、ChatGPT、Claude、Gemini、Llama 这些 AI 的核心技术。

{{totalSubscript}} 订阅 ,4,044 游览
    0
    推荐
    54
    浏览
    大模型跨节点部署
    两台机器、每台 **8 张 H100(共 16 GPU)**,要把它们当成一个整体来运行大模型,本质上就是做 **分布式推理(Distributed Inference)**。核心机制是 **Tensor Parallel + 跨节点通信(NCCL)**。下面按实际工程步骤解释。 一、整体结构是什么...
     半兽人 发布于2天前
    0
    推荐
    84
    浏览
    Qwen3.5-397B-A17B中FP8、Int4、GGUF怎么选
    **同一个模型的不同“权重格式 / 量化方式 / 运行生态”**。模型本身还是 **Qwen3.5-397B-A17B**,但为了适配不同硬件和推理框架,会发布很多版本。可以把它理解成:**同一部电影,不同分辨率 + 不同编码格式 + 不同播放器版本。**从工程角度拆开讲清楚。 一、原始模型(未量化...
     半兽人 发布于2天前
    0
    推荐
    43
    浏览
    模型的数值和量化
    **数值表示(numeric precision)** 和 **量化(quantization)** 两个概念。模型权重本质上是一堆数字,而 **FP16 / INT8 / INT4 只是“数字如何存储”** 的方式。 一、先理解:模型其实就是大量数字神经网络里的权重本质上是:```0.183827...
     半兽人 发布于2天前
    0
    推荐
    52
    浏览
    模型精度 FP16 / FP8 / INT8 / INT4
    精度(FP16 / FP8 / INT8 / INT4)到底谁好谁坏,为什么有的叫推理版、有的叫企业版。我把逻辑按**工程实践顺序**讲清楚,而不是随便给标签。 一、先记住一个核心原则模型精度从高到低通常是:```FP32 FP16 ≈ BF16 FP8 INT8 INT4```含义:* **越靠左...
     半兽人 发布于2天前
    0
    推荐
    52
    浏览
    Qwen3.5-397B-A17B中的A17B
    **A17B** 是 **MoE(Mixture-of-Experts,专家混合模型)结构参数**的标识。完整名字:**Qwen3.5-397B-A17B**其实包含两个数字:| 字段 | 含义 || ---- | ---------------- || 397B |...
     半兽人 发布于2天前
    0
    推荐
    44
    浏览
    判断是否使用NVLink和RDMA
    判断是否使用 **NVLink** 和 **RDMA**,只需要看 **两类信息**:1)GPU拓扑(是否有 NVLink)2)NCCL 日志(是否走 RDMA) 一、判断 GPU 之间是否使用 NVLink在每台服务器上执行:```bashnvidia-smi topo -m```输出类似:```...
     半兽人 发布于2天前
    1
    推荐
    21k
    浏览
    什么是MCP
    MCP(Model Context Protocol,模型上下文协议),2024年11月底,由 Anthropic 推出的一种开放标准,**旨在统一大型语言模型(LLM)与外部数据源和工具之间的通信协议**。MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题,MCP 使...
     半兽人 发布于8月前
    0
    推荐
    494
    浏览
    AGI通用人工智能
    **AGI**(Artificial General Intelligence,通用人工智能)是指具有人类一般智能水平的人工智能系统,能在**各种任务和领域中像人一样理解、学习、推理、适应和执行任务**,而不仅仅局限在某一个特定应用场景。 一句话解释:AGI 就是能像人一样“通才”的人工智能,而不是...
     半兽人 发布于8月前
    0
    推荐
    548
    浏览
    什么是“召回”
    「**召回(Retrieval)**」这个词一般来自搜索系统或推荐系统的概念,例如在 Dify 中的应用也类似,用于**从知识库中找到与用户问题相关的内容**,作为大语言模型(LLM)回答问题的参考依据。 一句话解释:**召回是从知识库中筛选出与用户问题最相关的内容(文本片段),提供给模型用于更准确...
     半兽人 发布于8月前
    0
    推荐
    1.4k
    浏览
    什么是LoRA?
    一、LoRALoRA,英文全称`Low-Rank Adaptation of Large Language Models`,直译为大语言模型的`低阶适配`,是微软的研究人员为了解决大语言模型微调而开发的一项技术。例如,GPT-3有1750亿参数,为了让它能干特定领域的活儿,需要做微调,但是如果直接...
     半兽人 发布于10月前
1 / 2 跳转到