1. 安装 HuggingFace CLI
在你的 vLLM 虚拟环境里执行:
source vllm_env/bin/activate
执行:
pip install huggingface_hub
安装完成后,再确认命令是否存在:
huggingface-cli --help
如果打印出帮助,则成功。
2. 再执行模型下载命令
命令如下:
huggingface-cli download meta-llama/Llama-3.1-8B-Instruct --local-dir ./models/llama3-8b
如果你还没登录 HuggingFace:
huggingface-cli login
登录后再执行下载。
3. 如果你想下载无需登录的模型(例如 Qwen)
你也可以测试一个不用登录的模型,下载速度快,简单:
huggingface-cli download Qwen/Qwen2.5-3B-Instruct --local-dir ./models/qwen25-3b
然后启动:
python -m vllm.entrypoints.api_server \
--model ./models/qwen25-3b \
--port 8000
