【昇腾推理】GPUStack 一键运行大语言模型推理

starwhisper92025年5月6日大约 2 分钟

前言

上期我们介绍了如何在昇腾环境下使用 vLLM 进行大语言模型的推理部署，但当前 vLLM 在昇腾环境下性能实在不理想。而本期将是使用 Llama.cpp 作为后端，使用 GPUStack 一键运行大模型的推理部署。若使用非容器环境，则除去 Llama.cpp，还可选择更为理想的华为 MindIE 框架进行部署。GPUStack 的本机安装官方仅支持 Llama.cpp，Docker 部署同时支持 MindIE 和 Llama.cpp。

部署

基础环境与下载模型

参阅上一篇文章，唯一的区别在于我们无需使用 Conda 或其他虚拟环境，安装脚本自有配置。

安装 GPUStack

官方文档

本文同样使用 AutoDL 实例进行部署，因此仅演示 本地安装。

# 在 AutoDL 实例上，你需要先自行安装 sudo 和 lsof
# apt-get install -y sudo lsof
curl -sfL https://get.gpustack.ai | sh -s -

一键脚本完成后，GPUStack 将自动运行为 systemd 服务，端口为 80。

若处于无 systemd 环境，可以尝试 /root/.local/bin/gpustack start 启动（默认安装位置），或 cat /etc/systemd/system/gpustack.service 检查 ExecStart 自行启动。

提示

使用 --port 9090 修改默认端口。

运行和管理模型

打开浏览器，访问 http://<ip>:<port>，即可看到 GPUStack 的图形界面。默认情况下端口号是 80，AutoDL 实例可以使用 SSH 隧道转发。 GPUStack 将会自动纳管本机的所有 NPU，本文不涉及多节点部署，多节点请自行参阅文档。

图形界面，不多做解释。参阅官方文档。注意，脚本安装在昇腾环境下仅支持 Llama Box 后端（一个封装的 Llama.cpp 和 Stable Diff），只能使用 GGUF 模型。

多 NPU 环境下需要使用手动指定模式，自动模式下多卡有问题，模型只能分到一张卡去。