Docker运行vLLM

半兽人 发表于: 2025-11-11 最后更新时间: 2025-11-11 14:54:25

{{totalSubscript}} 订阅， 203 游览

Docker运行vLLM：

# Deploy with docker on Linux:
docker run --runtime nvidia --gpus all \
    --name my_vllm_container \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
     --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
    --model Qwen/Qwen3-0.6B

加载和运行模型:

docker exec -it my_vllm_container bash -c "vllm serve Qwen/Qwen3-0.6B"

使用curl调用：

curl -X POST "http://localhost:8000/v1/chat/completions" \
    -H "Content-Type: application/json" \
    --data '{
        "model": "Qwen/Qwen3-0.6B",
        "messages": [
            {
                "role": "user",
                "content": "What is the capital of France?"
            }
        ]
    }'

vLLM

更新于 2025-11-11

半兽人

在线，39分钟前登录

查看vLLM更多相关的文章或提一个关于vLLM的问题，也可以与我们一起分享文章。

Docker运行vLLM

昵称