vLLM

vLLM 是一个开源的高性能 LLM 推理引擎，让大语言模型在 GPU 上运行得更快、更省显存。是大规模AI应用的理想之选。

{{totalSubscript}} 订阅，1,390 游览

类别：

文章问答动态工具视频

推荐

291

浏览

1. 安装 HuggingFace CLI在你的 vLLM 虚拟环境里执行：```bashsource vllm_env/bin/activate```执行：```bashpip install huggingface_hub```安装完成后，再确认命令是否存在：```bashhuggingfac...

vLLM 文章

半兽人发布于1月前

推荐

982

浏览

MacOS Silicon部署vLLM 部署

下面是**专门针对 macOS Apple Silicon（M1/M2/M3）** 的 vLLM 部署 + 运行的最简可执行方案。Apple Silicon 上体验很好，因为 vLLM 会调用 **Metal + MLX**，性能比 Intel 强得多。 1. 必备环境确认首先确认你的系统支持 Me...

vLLM 文章

半兽人发布于1月前

推荐

500

浏览

Python使用vLLM

安装依赖项：在命令行中输入`pip install vllm`，按提示完成安装。在LLaMA模型上运行推理：在Python环境中，输入以下代码：```from vllm import LLMdef main(): llm = LLM(model="Qwen/Qwen3-0.6B", max_n...

vLLM 文章

半兽人发布于3月前

推荐

243

浏览

通过pip安装vLLM

通过pip安装vLLM：```pip install vllm```加载和运行模型：```vllm serve "Qwen/Qwen3-0.6B"```使用curl调用服务：```curl -X POST "http://localhost:8000/v1/chat/completions" \-H...

vLLM 文章

半兽人发布于3月前

推荐

289

浏览

Docker运行vLLM

Docker运行vLLM：``` Deploy with docker on Linux:docker run --runtime nvidia --gpus all \--name my_vllm_container \-v ~/.cache/huggingface:/root/.cache/hu...

vLLM 文章

半兽人发布于3月前

推荐

335

浏览

vLLM介绍

vLLM（超大型语言模型）是SKYPILOT开发的推理优化框架，主要用于提升大语言模型在GPU上的运行效率。它的优势体现在以下几个方面：- **快速令牌生成**：采用连续批处理技术，让令牌生成速度大幅提升。- **高效内存利用**：借助PagedAttention技术，在处理大上下文窗口时，能有效控...

vLLM 文章

半兽人发布于3月前

推荐

1.1k

浏览

vLLM与Ollama对比

VLLM是一款经过优化的推理引擎，在令牌生成速度和内存管理效率上表现出色，是大规模AI应用的理想之选。Ollama则是一个轻量级、易上手的框架，让在本地电脑上运行开源大语言模型变得更加简单。区别对比维度 | Ollama | vLLM--------|--------|-------|核心定位 |...

vLLM Ollama 文章

半兽人发布于3月前

推荐

浏览

AI教程

AI（人工智能，Artificial Intelligence），让计算机或机器拥有类似人类的“智能”，能够**理解、学习、推理和解决问题**。更直白点：AI 就是让机器会“思考”，而不仅仅是执行死板的指令。从小白角度，可以拆成几个层次：1. **弱人工智能（Narrow AI）** * 只能做...

AI vLLM 首页唯一

半兽人发布于5月前