前言

上期我们介绍了如何在昇腾环境下使用 vLLM 进行大语言模型的推理部署，但当前 vLLM 在昇腾环境下性能实在不理想。而本期将是使用 Llama.cpp 作为后端，使用 GPUStack 一键运行大模型的推理部署。若使用非容器环境，则除去 Llama.cpp，还可选择更为理想的华为 MindIE 框架进行部署。GPUStack 的本机安装官方仅支持 Llama.cpp，Docker 部署同时支持 MindIE 和 Llama.cpp。

starwhisper92025年5月6日大约 2 分钟

【昇腾推理】使用 vLLM 运行大语言模型

距离上次认真写点什么已经近两个月了，咕咕真是抱歉呐……下次还敢！

回看此前的文章，实在不甚满意。未来的博文将会更注重 实用性 和 简洁明了，不再事无巨细地描述每一个细节。希望能给未来翻阅的自己留下些真正有用的宝藏，当然也希望能给你带来更好的阅读体验。

前言

这是昇腾推理系列文章的第一篇，在这个系列中我将会依次记录三个目前主流的大语言模型推理实现方式在昇腾环境下的部署过程，依次是 vLLM（针对非 GGUF 模型）、Llama Box(GPUStack，针对 GGUF 模型) 以及华为昇腾生态中的 MindIE 框架。

starwhisper92025年4月29日大约 4 分钟