vLLM

vLLM 是一个开源的高性能 LLM 推理引擎,让大语言模型在 GPU 上运行得更快、更省显存。是大规模AI应用的理想之选。

{{totalSubscript}} 订阅 ,141 游览
    0
    推荐
    2.1k
    浏览
    AI教程
    AI(人工智能,Artificial Intelligence),让计算机或机器拥有类似人类的“智能”,能够**理解、学习、推理和解决问题**。更直白点:AI 就是让机器会“思考”,而不仅仅是执行死板的指令。从小白角度,可以拆成几个层次:1. **弱人工智能(Narrow AI)** * 只能做...
     半兽人 发布于2月前
    0
    推荐
    235
    浏览
    vLLM与Ollama对比
    VLLM是一款经过优化的推理引擎,在令牌生成速度和内存管理效率上表现出色,是大规模AI应用的理想之选。Ollama则是一个轻量级、易上手的框架,让在本地电脑上运行开源大语言模型变得更加简单。 区别对比维度 | Ollama | vLLM--------|--------|-------|核心定位 |...
     半兽人 发布于昨天
    0
    推荐
    18
    浏览
    VLLM介绍
    vLLM(超大型语言模型)是SKYPILOT开发的推理优化框架,主要用于提升大语言模型在GPU上的运行效率。它的优势体现在以下几个方面:- **快速令牌生成**:采用连续批处理技术,让令牌生成速度大幅提升。- **高效内存利用**:借助PagedAttention技术,在处理大上下文窗口时,能有效控...
     半兽人 发布于昨天
    0
    推荐
    16
    浏览
    Docker运行vLLM
    Docker运行vLLM:``` Deploy with docker on Linux:docker run --runtime nvidia --gpus all \--name my_vllm_container \-v ~/.cache/huggingface:/root/.cache/hu...
     半兽人 发布于昨天
    0
    推荐
    14
    浏览
    通过pip安装vLLM
    通过pip安装vLLM:```pip install vllm```加载和运行模型:```vllm serve "Qwen/Qwen3-0.6B"```使用curl调用服务:```curl -X POST "http://localhost:8000/v1/chat/completions" \-H...
     半兽人 发布于昨天
    0
    推荐
    27
    浏览
    Python使用vLLM
    安装依赖项:在命令行中输入`pip install vllm`,按提示完成安装。在LLaMA模型上运行推理:在Python环境中,输入以下代码:```from vllm import LLMdef main(): llm = LLM(model="Qwen/Qwen3-0.6B", max_n...
     半兽人 发布于昨天
1 / 1 跳转到