跳到主要内容

容器运行

我们还可以使用容器来运行 AI 模型。

一个常用的选择是使用 llama.cpp 来运行模型。llama.cpp 提供了一个与 OpenAI 兼容的 API 来与模型进行交互。

在下面的 Docker Compose 文件中,我们从 Hugging Face 下载了 Qwen3-0.6B 模型文件,然后启动 llama.cpp 来运行该模型。

运行 AI 模型的 Compose 文件
services:
model-runner:
image: ghcr.io/ggml-org/llama.cpp:server
volumes:
- model-files:/models
command:
- "--host"
- "0.0.0.0"
- "--port"
- "8080"
- "-n"
- "512"
- "-m"
- "/models/Qwen3-0.6B-Q8_0.gguf"
ports:
- "8180:8080"
depends_on:
model-downloader:
condition: service_completed_successfully

model-downloader:
image: ghcr.io/alexcheng1982/model-downloader
restart: "no"
volumes:
- model-files:/models
command:
- "hf"
- "download"
- "unsloth/Qwen3-0.6B-GGUF"
- "Qwen3-0.6B-Q8_0.gguf"
- "--local-dir"
- "/models"

volumes:
model-files:

容器启动后,即可通过 http://localhost:8180 访问模型 API。

有关在容器中运行模型的更多详细信息,请参阅下面的 GitHub 代码库。