本篇将以两个简单的应用场景——验证码识别(图文输入)和视频理解(视频文本输入),向你介绍如何使用 Qwen 2.5 VL 模型。我们将会使用 vLLM 作为推理框架,使用示例则使用 Python 代码和 Cherry Studio。因此同时,本篇也将会简单介绍 vLLM 部署 Qwen 2.5 VL。
相关信息
本文中使用的环境:
- 操作系统:Ubuntu 24.04
- Cuda:12.8
- GPU: NVIDIA Tesla V100 32G x8
本篇将以两个简单的应用场景——验证码识别(图文输入)和视频理解(视频文本输入),向你介绍如何使用 Qwen 2.5 VL 模型。我们将会使用 vLLM 作为推理框架,使用示例则使用 Python 代码和 Cherry Studio。因此同时,本篇也将会简单介绍 vLLM 部署 Qwen 2.5 VL。
相关信息
本文中使用的环境:
随着人工智能应用的普及,越来越多的开发者开始关注如何构建自己的 AI 应用。Model Context Protocol(MCP)作为一种新的协议标准,为 AI 应用的开发提供了更高效、更通用的方式。本文将以 Apache ECharts
+ TypeScript
为例,快速入手 MCP 服务器开发。
MCP (Model Context Protocol) 是一种用于 LLM 与应用程序之间交互的协议。它尽可能统一了 LLM 与外部应用(工具)之间的交互方式,让开发者可以注重于业务开发,而不是费心于与不同种类的 LLM 交互的细节。
Pandas 是 Python 中一个非常流行和成熟的数据分析库,而 PandasAI 是一个基于 Pandas 的人工智能工具,它可以帮助我们更轻松简单地进行较为简单的数据分析和简单的可视化工作。本文将介绍 PandasAI v3 的基本操作。
上期我们介绍了如何在昇腾环境下使用 vLLM 进行大语言模型的推理部署,但当前 vLLM 在昇腾环境下性能实在不理想。而本期将是使用 Llama.cpp
作为后端,使用 GPUStack
一键运行大模型的推理部署。若使用非容器环境,则除去 Llama.cpp
,还可选择更为理想的华为 MindIE
框架进行部署。GPUStack 的本机安装官方仅支持 Llama.cpp
,Docker 部署同时支持 MindIE
和 Llama.cpp
。
距离上次认真写点什么已经近两个月了,咕咕真是抱歉呐……下次还敢!
回看此前的文章,实在不甚满意。未来的博文将会更注重 实用性 和 简洁明了,不再事无巨细地描述每一个细节。希望能给未来翻阅的自己留下些真正有用的宝藏,当然也希望能给你带来更好的阅读体验。
这是昇腾推理系列文章的第一篇,在这个系列中我将会依次记录三个目前主流的大语言模型推理实现方式在昇腾环境下的部署过程,依次是 vLLM(针对非 GGUF 模型)
、Llama Box(GPUStack,针对 GGUF 模型)
以及华为昇腾生态中的 MindIE
框架。