本地大模型部署

约 685 字大约 2 分钟

2025-02-13

本地部署大型语言模型（LLM）的方式有很多种，可以根据自己的需求选择合适的方案。以下是一些常见的本地部署 LLM 的方法：

根据你的需求和资源，选择最适合你的方案。

Ollama

Ollama 是一个专注于本地化部署和运行大型语言模型（LLM）的工具，旨在让用户能够在自己的设备上高效地运行和微调模型。

具体使用可以参考Ollama 使用

特性	Ollama	LM Studio	vLLM
定位	轻量级、易用的本地 LLM 运行环境	GUI 友好的本地 LLM 运行器	高性能推理引擎
主要特点	命令行工具，支持快速下载和运行模型，管理模型缓存	可视化界面，支持 OpenAI API 兼容，便于选择和运行模型	高吞吐量推理，专注高效并发请求
适用人群	开发者、终端用户，想要快速使用本地 LLM	普通用户，需要 GUI 方便管理模型	需要高性能推理的开发者（如服务器端推理）
支持模型	Mistral, Llama, Gemma, Phi, Code Llama, etc.	Llama, Mistral, Gemma, Code Llama, etc.	Hugging Face Transformers 生态模型
API 兼容性	提供 OpenAI 兼容 API（可用于 ChatGPT 替代）	提供 OpenAI 兼容 API，可本地化部署	提供 OpenAI 兼容 API，适用于高并发
性能优化	内置 GPU 加速、量化优化	主要依赖 GGUF 格式模型，支持 GPU 加速	专为 GPU 优化，支持 PagedAttention，提高推理速度
使用方式	终端命令 (ollama run llama3)	图形界面，可视化管理模型	代码库，需要 Python 代码调用
部署难度	简单，开箱即用	非常简单	适用于开发者，需代码集成
GPU 加速	是（支持 CUDA/Metal）	是（支持 GPU 推理）	是（深度优化）
社区支持	官方 + 开源社区	官方 + 开源社区	由开发者使用

如果你需要本地运行 AI 聊天，Ollama / LM Studio 是最简单的方案。如果你要在服务器上高效推理 vLLM 是最佳选择。对于超低端设备 llama.cpp 是不错的选择。

版权归属：唐道勇