OrcHome
kafka教程
kubernetes教程
bootstrap5
java
资讯
问答
分享
创建
分享
写文章
问答
提问
kafka提问
kubernetes提问
全部标签
Linux
AI
KubeBiz
kubeadm
docker
Prometheus
istio
nginx
区块链
AngularJS
minikube
ethereumj
ElasticSearch
redis
jetty
Helm
logstash
zookeeper
ceph
etcd
gradle
shell
angular
webpack
RabbitMq
netty
dubbo
sbt教程
python
kubeflow
Yammer Metrics
NextJS
React
MCP
LLaMA-Factory
Tekton
kaniko
KubeVirt
Cephadm
OpenStack
vLLM
vLLM 是一个开源的高性能 LLM 推理引擎,让大语言模型在 GPU 上运行得更快、更省显存。是大规模AI应用的理想之选。
已订阅
订阅
{{totalSubscript}}
订阅 ,
141
游览
类别:
文章
问答
动态
工具
视频
最新
点击
推荐
付费
0
推荐
2.1k
浏览
AI教程
AI(人工智能,Artificial Intelligence),让计算机或机器拥有类似人类的“智能”,能够**理解、学习、推理和解决问题**。更直白点:AI 就是让机器会“思考”,而不仅仅是执行死板的指令。从小白角度,可以拆成几个层次:1. **弱人工智能(Narrow AI)** * 只能做...
AI
vLLM
首页唯一
半兽人
发布于2月前
0
推荐
235
浏览
vLLM与Ollama对比
VLLM是一款经过优化的推理引擎,在令牌生成速度和内存管理效率上表现出色,是大规模AI应用的理想之选。Ollama则是一个轻量级、易上手的框架,让在本地电脑上运行开源大语言模型变得更加简单。 区别对比维度 | Ollama | vLLM--------|--------|-------|核心定位 |...
vLLM
Ollama
文章
半兽人
发布于昨天
0
推荐
18
浏览
VLLM介绍
vLLM(超大型语言模型)是SKYPILOT开发的推理优化框架,主要用于提升大语言模型在GPU上的运行效率。它的优势体现在以下几个方面:- **快速令牌生成**:采用连续批处理技术,让令牌生成速度大幅提升。- **高效内存利用**:借助PagedAttention技术,在处理大上下文窗口时,能有效控...
vLLM
文章
半兽人
发布于昨天
0
推荐
16
浏览
Docker运行vLLM
Docker运行vLLM:``` Deploy with docker on Linux:docker run --runtime nvidia --gpus all \--name my_vllm_container \-v ~/.cache/huggingface:/root/.cache/hu...
vLLM
文章
半兽人
发布于昨天
0
推荐
14
浏览
通过pip安装vLLM
通过pip安装vLLM:```pip install vllm```加载和运行模型:```vllm serve "Qwen/Qwen3-0.6B"```使用curl调用服务:```curl -X POST "http://localhost:8000/v1/chat/completions" \-H...
vLLM
文章
半兽人
发布于昨天
0
推荐
27
浏览
Python使用vLLM
安装依赖项:在命令行中输入`pip install vllm`,按提示完成安装。在LLaMA模型上运行推理:在Python环境中,输入以下代码:```from vllm import LLMdef main(): llm = LLM(model="Qwen/Qwen3-0.6B", max_n...
vLLM
文章
半兽人
发布于昨天
1
/
1
跳转到
1
页