容器运行
我们还可以使用容器来运行 AI 模型。
一个常用的选择是使用 llama.cpp 来运行模型。llama.cpp 提供了一个与 OpenAI 兼容的 API 来与模型进行交互。
在下面的 Docker Compose 文件中,我们从 Hugging Face 下载了 Qwen3-0.6B 模型文件,然后启动 llama.cpp 来运行该模型。
运行 AI 模型的 Compose 文件
services:
model-runner:
image: ghcr.io/ggml-org/llama.cpp:server
volumes:
- model-files:/models
command:
- "--host"
- "0.0.0.0"
- "--port"
- "8080"
- "-n"
- "512"
- "-m"
- "/models/Qwen3-0.6B-Q8_0.gguf"
ports:
- "8180:8080"
depends_on:
model-downloader:
condition: service_completed_successfully
model-downloader:
image: ghcr.io/alexcheng1982/model-downloader
restart: "no"
volumes:
- model-files:/models
command:
- "hf"
- "download"
- "unsloth/Qwen3-0.6B-GGUF"
- "Qwen3-0.6B-Q8_0.gguf"
- "--local-dir"
- "/models"
volumes:
model-files:
容器启动后,即可通过 http://localhost:8180 访问模型 API。
有关在容器中运行模型的更多详细信息,请参阅下面的 GitHub 代码库。