Ollama

Ollama 是一个在本地运行大语言模型(LLM)的工具和平台,主要特点是 简单易用、跨平台(支持 macOS、Windows、Linux)并且能快速部署和调用模型。

{{totalSubscript}} 订阅 ,2,482 游览
    0
    推荐
    177
    浏览
    Ollama 验证
    **11434** 是 Ollama 的 **默认 API 服务端口**。当 Ollama 运行时,会在本机启动一个 HTTP 服务:```http://localhost:11434```所有模型推理、模型管理其实都是通过这个端口完成的。 1 常见 API 地址 查看模型列表```GET http...
     半兽人 发布于10天前
    0
    推荐
    77
    浏览
    Ollama 显存占用
    Ollama,**查看显存占用通常有三种方式**,从最底层到 Ollama 自身。 一、最直接:用 `nvidia-smi` 看 GPU 显存这是最准确的方法。```bashnvidia-smi```示例输出:```+-----------------------------------------...
     半兽人 发布于10天前
    0
    推荐
    176
    浏览
    ollama 显存持续占用
    在 Ollama 或其他推理框架(如 vLLM、PyTorch)中,经常会看到一种现象:**请求结束了,但 GPU 显存还在被占用。**这其实不是异常,而是推理系统的设计策略。主要有 4 个原因。 1 模型权重仍然常驻 GPU(最主要原因)当模型第一次被调用时:1. 模型权重从磁盘加载2. 权重拷贝...
     半兽人 发布于10天前
    0
    推荐
    691
    浏览
    Python OpenAI 库调用 Ollama
    以下是一个简单的 Python 脚本,展示如何用 OpenAI 库调用 Ollama 的 qwen2.5 模型:```import asynciofrom openai import AsyncOpenAIclass LLM: def __init__(self): self.a...
     半兽人 发布于10月前
    0
    推荐
    1.2k
    浏览
    Python OpenAI 库调用 Ollama 实现多轮对话和上下文记忆的对话方法
    Python OpenAI 库调用 Ollama 实现多轮对话和上下文记忆的对话方法以下是一个简单的 Python 脚本,展示如何用 OpenAI 库调用 Ollama 的 qwen2.5 模型,实现多轮对话和上下文记忆的对话方法:```import asynciofrom openai impor...
     半兽人 发布于10月前
    0
    推荐
    1.2k
    浏览
    Python OpenAI库调用Ollama实现对工具的调用
    以下是一个简单的 Python 脚本,展示如何用 OpenAI 库调用 Ollama 的 qwen2.5 模型,实现对工具的调用:```import asynciofrom openai import AsyncOpenAIclass LLM: def __init__(self): ...
     半兽人 发布于10月前
    0
    推荐
    705
    浏览
    Python OpenAI库调用Ollama实现对Baidu的调用
    以下是一个简单的 Python 脚本,展示如何用 OpenAI 库调用 Ollama 的 qwen2.5 模型,实现对Baidu的调用:```import asyncioimport jsonfrom datetime import datetimeimport pytzfrom openai im...
     半兽人 发布于10月前
    0
    推荐
    1.1k
    浏览
    vLLM与Ollama对比
    VLLM是一款经过优化的推理引擎,在令牌生成速度和内存管理效率上表现出色,是大规模AI应用的理想之选。Ollama则是一个轻量级、易上手的框架,让在本地电脑上运行开源大语言模型变得更加简单。 区别对比维度 | Ollama | vLLM--------|--------|-------|核心定位 |...
     半兽人 发布于4月前
    0
    推荐
    514
    浏览
    Ollama介绍
    Ollama是一个本地大语言模型运行时环境,能简化开源AI模型的部署和使用流程。它具备以下特点:- **预打包模型丰富**:内置了LLaMA、Mistral、Falcon等多种模型。- **硬件适配性强**:针对日常使用的硬件进行了CPU和GPU推理优化,无论是MacBook、PC还是边缘设备,都能...
     半兽人 发布于4月前
    0
    推荐
    450
    浏览
    Python使用Ollama
    安装Ollama(Mac/Linux系统):在终端中输入`brew install ollama`,等待安装完成。下载并运行模型:在终端输入`ollama run mistral`,即可下载并运行Mistral模型。调用Ollama的API:在Python环境中,使用以下代码调用API:```imp...
     半兽人 发布于4月前
1 / 1 跳转到