vLLM

vLLM 是一个开源的高性能 LLM 推理引擎,让大语言模型在 GPU 上运行得更快、更省显存。是大规模AI应用的理想之选。

{{totalSubscript}} 订阅 ,902 游览
    0
    推荐
    100
    浏览
    Mac 安装 HuggingFace CLI
    1. 安装 HuggingFace CLI在你的 vLLM 虚拟环境里执行:```bashsource vllm_env/bin/activate```执行:```bashpip install huggingface_hub```安装完成后,再确认命令是否存在:```bashhuggingfac...
     半兽人 发布于11天前
    0
    推荐
    149
    浏览
    macOS Silicon部署vLLM 部署
    下面是**专门针对 macOS Apple Silicon(M1/M2/M3)** 的 vLLM 部署 + 运行的最简可执行方案。Apple Silicon 上体验很好,因为 vLLM 会调用 **Metal + MLX**,性能比 Intel 强得多。 1. 必备环境确认首先确认你的系统支持 Me...
     半兽人 发布于11天前
    0
    推荐
    388
    浏览
    Python使用vLLM
    安装依赖项:在命令行中输入`pip install vllm`,按提示完成安装。在LLaMA模型上运行推理:在Python环境中,输入以下代码:```from vllm import LLMdef main(): llm = LLM(model="Qwen/Qwen3-0.6B", max_n...
     半兽人 发布于2月前
    0
    推荐
    165
    浏览
    通过pip安装vLLM
    通过pip安装vLLM:```pip install vllm```加载和运行模型:```vllm serve "Qwen/Qwen3-0.6B"```使用curl调用服务:```curl -X POST "http://localhost:8000/v1/chat/completions" \-H...
     半兽人 发布于2月前
    0
    推荐
    206
    浏览
    Docker运行vLLM
    Docker运行vLLM:``` Deploy with docker on Linux:docker run --runtime nvidia --gpus all \--name my_vllm_container \-v ~/.cache/huggingface:/root/.cache/hu...
     半兽人 发布于2月前
    0
    推荐
    236
    浏览
    VLLM介绍
    vLLM(超大型语言模型)是SKYPILOT开发的推理优化框架,主要用于提升大语言模型在GPU上的运行效率。它的优势体现在以下几个方面:- **快速令牌生成**:采用连续批处理技术,让令牌生成速度大幅提升。- **高效内存利用**:借助PagedAttention技术,在处理大上下文窗口时,能有效控...
     半兽人 发布于2月前
    0
    推荐
    920
    浏览
    vLLM与Ollama对比
    VLLM是一款经过优化的推理引擎,在令牌生成速度和内存管理效率上表现出色,是大规模AI应用的理想之选。Ollama则是一个轻量级、易上手的框架,让在本地电脑上运行开源大语言模型变得更加简单。 区别对比维度 | Ollama | vLLM--------|--------|-------|核心定位 |...
     半兽人 发布于2月前
    0
    推荐
    4.4k
    浏览
    AI教程
    AI(人工智能,Artificial Intelligence),让计算机或机器拥有类似人类的“智能”,能够**理解、学习、推理和解决问题**。更直白点:AI 就是让机器会“思考”,而不仅仅是执行死板的指令。从小白角度,可以拆成几个层次:1. **弱人工智能(Narrow AI)** * 只能做...
     半兽人 发布于4月前
1 / 1 跳转到