安装依赖项:在命令行中输入pip install vllm,按提示完成安装。
在LLaMA模型上运行推理:在Python环境中,输入以下代码:
from vllm import LLM
def main():
llm = LLM(model="Qwen/Qwen3-0.6B", max_num_batched_tokens=40960)
output = llm.generate("What is VLLM?")
print(output[0].text)
if __name__ == "__main__":
main()
安装依赖:
uv pip install vllm
运行:
uv run llm/vLLM.py
上述代码中,首先从vllm库中导入LLM类,然后创建LLM对象,并指定使用Qwen/Qwen3-0.6B模型。最后,使用generate方法输入问题“What is VLLM?”,就能得到模型的输出结果。
