前言
上期我们介绍了如何在昇腾环境下使用 vLLM 进行大语言模型的推理部署,但当前 vLLM 在昇腾环境下性能实在不理想。而本期将是使用 Llama.cpp
作为后端,使用 GPUStack
一键运行大模型的推理部署。若使用非容器环境,则除去 Llama.cpp
,还可选择更为理想的华为 MindIE
框架进行部署。GPUStack 的本机安装官方仅支持 Llama.cpp
,Docker 部署同时支持 MindIE
和 Llama.cpp
。
2025年5月6日大约 2 分钟