GPUStack 是一个开源的 GPU 集群管理器,专为高效的 AI 模型部署而设计。它配置和编排推理引擎(vLLM、SGLang、TensorRT-LLM 或您自定义的引擎),以优化跨 GPU 集群的性能。其核心功能包括:
- 多集群 GPU 管理。 跨多个环境管理 GPU 集群。这包括本地服务器、Kubernetes 集群和云提供商。
- 可插拔推理引擎。 自动配置高性能推理引擎,如 vLLM、SGLang 和 TensorRT-LLM。您也可以根据需要添加自定义推理引擎。
- Day 0 模型支持。 GPUStack 的可插拔引擎架构使您能够在新模型发布当天即可部署。
- 性能优化配置。 提供预调优模式,用于低延迟或高吞吐量。GPUStack 支持扩展的 KV 缓存系统,如 LMCache 和 HiCache,以减少 TTFT。它还包括对推测性解码方法(如 EAGLE3、MTP 和 N-grams)的内置支持。
- 企业级运维能力。 支持自动故障恢复、负载均衡、监控、认证和访问控制。
GPUStack 使开发团队、IT 组织和服务提供商能够大规模地提供模型即服务。它支持用于 LLM、语音、图像和视频模型的行业标准 API。该平台内置用户认证和访问控制、GPU 性能和利用率的实时监控,以及令牌使用量和 API 请求率的详细计量。
下图展示了单个 GPUStack 服务器如何管理跨本地和云环境的多个 GPU 集群。GPUStack 调度器分配 GPU 以最大化资源利用率,并选择合适的推理引擎以实现最佳性能。管理员还可以通过集成的 Grafana 和 Prometheus 仪表板全面了解系统运行状况和指标。
GPUStack 的自动化引擎选择和参数优化可开箱即用地提供强大的推理性能。下图展示了相较于默认 vLLM 配置的吞吐量提升:
有关详细的基准测试方法和结果,请访问我们的 推理性能实验室。
GPUStack 支持多种 AI 推理加速器:
- NVIDIA GPU
- AMD GPU
- Ascend NPU
- Hygon DCU
- MThreads GPU
- Iluvatar GPU
- MetaX GPU
- Cambricon MLU
- T-Head PPU
有关详细的要求和设置说明,请参阅安装要求文档。
- 一个至少配备一块 NVIDIA GPU 的节点。对于其他类型的 GPU,请在 GPUStack UI 中添加 worker 时查看指南,或参阅安装文档获取更多详细信息。
- 确保 worker 节点上已安装 NVIDIA 驱动程序、Docker 和 NVIDIA Container Toolkit。
- (可选)一个用于托管 GPUStack server 的 CPU 节点。GPUStack server 不需要 GPU,可以在仅有 CPU 的机器上运行。必须安装 Docker。同时支持 Docker Desktop(适用于 Windows 和 macOS)。如果没有专用的 CPU 节点,可以将 GPUStack server 安装在 GPU worker 节点所在的同一台机器上。
- GPUStack worker 节点仅支持 Linux。如果你使用 Windows,可考虑使用 WSL2 并避免使用 Docker Desktop。macOS 不支持作为 GPUStack worker 节点。
运行以下命令,使用 Docker 安装并启动 GPUStack server:
sudo docker run -d --name gpustack
--restart unless-stopped
-p 80:80
--volume gpustack-data:/var/lib/gpustack
gpustack/gpustack
备选方案:使用 Quay 容器仓库镜像
如果你无法从 Docker Hub 拉取镜像或下载速度很慢,可以通过指向 quay.io 来使用我们的镜像:
sudo docker run -d --name gpustack
--restart unless-stopped
-p 80:80
--volume gpustack-data:/var/lib/gpustack
quay.io/gpustack/gpustack
--system-default-container-registry quay.io
检查 GPUStack 启动日志:
sudo docker logs -f gpustack
GPUStack 启动后,运行以下命令获取默认管理员密码:
sudo docker exec gpustack cat /var/lib/gpustack/initial_admin_password
打开浏览器,访问 http://你的主机IP 以进入 GPUStack UI。使用默认用户名 admin 和上面获取的密码登录。
- 在 GPUStack UI 中,导航到
集群页面。 - 点击
添加集群按钮。 - 选择
Docker作为集群提供商。 - 填写新集群的
名称和描述字段,然后点击保存按钮。 - 按照界面指南配置新的 worker 节点。你需要在 worker 节点上运行一个 Docker 命令以将其连接到 GPUStack server。命令将类似于以下内容:
sudo docker run -d --name gpustack-worker --restart=unless-stopped --privileged --network=host --volume /var/run/docker.sock:/var/run/docker.sock --volume gpustack-data:/var/lib/gpustack --runtime nvidia gpustack/gpustack --server-url http://你的_gpustack_server_url --token 你的_worker_token --advertise-address 192.168.1.2
- 在 worker 节点上执行该命令以连接到 GPUStack server。
- worker 节点成功连接后,它将出现在 GPUStack UI 的
Workers页面中。
- 在 GPUStack 用户界面中导航到
Catalog页面。 - 从可用模型列表中选择
Qwen3 0.6B模型。 - 部署兼容性检查通过后,点击
Save按钮部署模型。
- GPUStack 将开始下载模型文件并部署模型。当部署状态显示为
Running时,表示模型已成功部署。
- 点击导航菜单中的
Playground - Chat,检查右上角Model下拉菜单中是否选中了qwen3-0.6b模型。现在您可以在 UI playground 中与模型聊天了。
- 将鼠标悬停在用户头像上,导航到
API Keys页面,然后点击New API Key按钮。 - 填写
Name并点击Save按钮。 - 复制生成的 API 密钥并将其保存在安全的地方。请注意,该密钥仅在创建时可见一次。
- 您现在可以使用该 API 密钥访问 GPUStack 提供的 OpenAI 兼容 API 端点。例如,使用 curl 如下所示:
# 将 `your_api_key` 和 `your_gpustack_server_url`# 替换为您实际的 API 密钥和 GPUStack 服务器 URL。export GPUSTACK_API_KEY=your_api_keycurl http://your_gpustack_server_url/v1/chat/completions -H "Content-Type: application/json" -H "Authorization: Bearer $GPUSTACK_API_KEY" -d '{ "model": "qwen3-0.6b", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "Tell me a joke." } ], "stream": true }'请参阅 官方文档站点 获取完整文档。
- 安装 Python(版本 3.10 到 3.12)。
- 运行
make build。
您可以在 dist 目录中找到构建好的 wheel 包。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/ai/319372.html
