本地大模型部署
约 685 字大约 2 分钟
2025-02-13
本地部署大型语言模型(LLM)的方式有很多种,可以根据自己的需求选择合适的方案。以下是一些常见的本地部署 LLM 的方法:
方案 | 特点 |
---|---|
Ollama | 简单易用、快速运行 |
LM Studio | 可视化管理、非技术用户 |
vLLM | 高性能推理、服务器端部署 |
llama.cpp | CPU 设备、本地轻量运行 |
text-generation-webui | 大模型微调、本地 Web UI |
GPTQ / AWQ | 低显存 GPU(8GB)运行 |
根据你的需求和资源,选择最适合你的方案。
Ollama
Ollama
是一个专注于本地化部署和运行大型语言模型(LLM
)的工具,旨在让用户能够在自己的设备上高效地运行和微调模型。
具体使用可以参考Ollama 使用
LM Studio
vLLM
llama.cpp
text-generation-webui
GPTQ / AWQ
Ollama、LM Studio、vLLM的区别
特性 | Ollama | LM Studio | vLLM |
---|---|---|---|
定位 | 轻量级、易用的本地 LLM 运行环境 | GUI 友好的本地 LLM 运行器 | 高性能推理引擎 |
主要特点 | 命令行工具,支持快速下载和运行模型,管理模型缓存 | 可视化界面,支持 OpenAI API 兼容,便于选择和运行模型 | 高吞吐量推理,专注高效并发请求 |
适用人群 | 开发者、终端用户,想要快速使用本地 LLM | 普通用户,需要 GUI 方便管理模型 | 需要高性能推理的开发者(如服务器端推理) |
支持模型 | Mistral, Llama, Gemma, Phi, Code Llama, etc. | Llama, Mistral, Gemma, Code Llama, etc. | Hugging Face Transformers 生态模型 |
API 兼容性 | 提供 OpenAI 兼容 API(可用于 ChatGPT 替代) | 提供 OpenAI 兼容 API,可本地化部署 | 提供 OpenAI 兼容 API,适用于高并发 |
性能优化 | 内置 GPU 加速、量化优化 | 主要依赖 GGUF 格式模型,支持 GPU 加速 | 专为 GPU 优化,支持 PagedAttention,提高推理速度 |
使用方式 | 终端命令 (ollama run llama3) | 图形界面,可视化管理模型 | 代码库,需要 Python 代码调用 |
部署难度 | 简单,开箱即用 | 非常简单 | 适用于开发者,需代码集成 |
GPU 加速 | 是(支持 CUDA/Metal) | 是(支持 GPU 推理) | 是(深度优化) |
社区支持 | 官方 + 开源社区 | 官方 + 开源社区 | 由开发者使用 |
总结
如果你需要本地运行 AI 聊天,Ollama / LM Studio
是最简单的方案。如果你要在服务器上高效推理 vLLM
是最佳选择。对于超低端设备 llama.cpp
是不错的选择。