Python使用vLLM

半兽人 发表于: 2025-11-11 最后更新时间: 2025-11-11 15:03:42

{{totalSubscript}} 订阅， 382 游览

安装依赖项：在命令行中输入pip install vllm，按提示完成安装。

在LLaMA模型上运行推理：在Python环境中，输入以下代码：

from vllm import LLM

def main():
    llm = LLM(model="Qwen/Qwen3-0.6B", max_num_batched_tokens=40960)
    output = llm.generate("What is VLLM?")
    print(output[0].text)

if __name__ == "__main__":
    main()

安装依赖：

uv pip install vllm

运行：

uv run llm/vLLM.py

上述代码中，首先从vllm库中导入LLM类，然后创建LLM对象，并指定使用Qwen/Qwen3-0.6B模型。最后，使用generate方法输入问题“What is VLLM?”，就能得到模型的输出结果。

vLLM

分享
编辑此页

更新于 2025-11-11

半兽人

在线，37分钟前登录

查看vLLM更多相关的文章或提一个关于vLLM的问题，也可以与我们一起分享文章。

Python使用vLLM

昵称