先做一个简单的成本对比,让数字说话:
| 方案 | 月成本 | 年成本 |
|---|---|---|
| ChatGPT Plus | $20 | $240 |
| OpenAI API(中等用量) | $50-200 | $600-2400 |
| 自建VPS(CPU推理) | $10-30 | $120-360 |
| 自建VPS(GPU) | $30-150 | $360-1800 |
用量越大,自建越划算。每天只用几次的话,订阅反而更经济;如果是高频使用、团队共享、或者涉及敏感数据不想经过第三方,自建的优势就出来了。
跑大模型需要什么配置?先把账算清楚
很多人踩的第一个坑是:买了VPS才发现内存不够跑不起来。
不同模型的硬件门槛
7B参数模型(入门级)
- CPU推理:8GB内存,无GPU
- 推理速度:1到5 tokens/秒(CPU),体验偏慢但可用
- 适合:个人AI助手、低频对话、Agent自动化任务
14B参数模型(主流)
- 最低配置:16GB内存,有GPU更好
- GPU推理:6GB以上显存
- 适合:AI客服、内容生成、需要更好语言质量的场景
32B+参数模型(高阶)
- 最低配置:32GB内存,GPU推理需16GB+显存
- 适合:企业级AI、复杂推理任务
核心规律:显存决定能不能跑GPU推理,内存决定能不能跑CPU推理,两个都不够就什么都跑不了。
CPU推理和GPU推理差距有多大?
这个差距是数量级的。同一个7B模型,CPU推理大约1到5 tokens/秒,A100 GPU推理可以到40到80 tokens/秒,差了10到50倍。
对于单人使用的个人助手,CPU推理1到5 tokens/秒勉强可以接受;对于多用户服务或者实时对话场景,这个速度基本不可用,必须上GPU。
四个值得考虑的平台
Vultr — GPU VPS中上手最快的选项
Vultr提供A100、L40等GPU实例,按小时计费,不需要长期承诺。全球30多个数据中心,镜像系统完善,CUDA环境和AI框架支持比较友好。
实测部署Ollama的流程:
# 连接GPU实例后
curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3.1:8b
整个过程不超过5分钟,没有额外环境配置。
GPU实例按小时计费,测试完可以立刻关机,不产生闲置费用。这是个人开发者和小团队的合理选择——需要的时候开,不需要的时候关,控制成本。
适合场景:想快速测试GPU推理效果、项目初期不确定用量、需要全球节点覆盖。
DigitalOcean — 新手最友好的GPU方案
DigitalOcean的GPU Droplets支持H100、L40S、RTX 6000 Ada等型号,预装了PyTorch、CUDA、常用AI框架,几乎不需要手动配置环境。
控制台界面和文档质量是这几家里最好的,出了问题找解决方案最容易。对完全没有GPU服务器运维经验的用户来说,DO的上手成本最低。
需要注意的是GPU资源有时候需要申请,不是立刻就能开,等待时间不确定。价格在同等GPU配置里不是最低的,但服务质量稳定。
适合场景:新手部署AI、想要稳定可靠的GPU环境、做SaaS产品需要长期运行的AI推理服务。
Hetzner — 没有GPU但大内存性价比最高
Hetzner没有GPU实例,但大内存CPU服务器的性价比在这几家里最好。64GB内存的机器月费在€60到€80之间,比同配置的美国服务商便宜40%到50%。
CPU推理7B量化模型在Hetzner的高配机器上速度还可以,配合并行推理框架(llama.cpp多线程)能跑到8到12 tokens/秒,满足低并发的个人使用场景。
适合场景:预算有限、接受CPU推理速度、主要面向欧洲用户、不需要GPU训练。
Hetzner上跑CPU推理怎么配置?
推荐用llama.cpp,CPU推理效率比Ollama高:
# 安装依赖
apt install build-essential cmake -y
# 编译llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DLLAMA_NATIVE=ON
cmake --build build --config Release -j$(nproc)
# 下载模型并运行
./build/bin/llama-server -m ./models/llama-3.1-8b-q4.gguf \
--host 0.0.0.0 --port 8080 \
--n-gpu-layers 0 \
--threads $(nproc)
--n-gpu-layers 0表示纯CPU推理,--threads设置为CPU核心数。
RunPod — 按需GPU,短期使用最灵活
RunPod是GPU算力市场,聚合了大量GPU资源,RTX 3090、A100、H100按小时租用,价格通常比主流云厂商低30%到50%。支持自定义Docker镜像,AI相关的预构建镜像选择很多。
适合场景:短期测试、偶发性的大模型推理任务、想用高端GPU但不需要长期持有。
不适合:需要稳定SLA的生产服务,RunPod的稳定性保障不如Vultr和DO。
快速部署:3分钟跑起来
不管选哪个平台,Ollama是目前最简单的本地模型运行方式:
# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取并运行模型
ollama run llama3.1:8b # 7B模型
ollama run qwen2.5:14b # 14B模型
Ollama会自动检测是否有GPU并使用,不需要手动配置CUDA。
启动后默认在11434端口提供API,可以用任何兼容OpenAI格式的客户端接入:
# 测试API是否正常
curl http://localhost:11434/api/generate \
-d '{"model": "llama3.1:8b", "prompt": "Hello", "stream": false}'
如果要从外部访问,用Nginx反代加认证,不要直接暴露11434端口:
# Nginx配置(加BasicAuth)
server {
listen 443 ssl;
server_name your-domain.com;
location / {
auth_basic "Restricted";
auth_basic_user_file /etc/nginx/.htpasswd;
proxy_pass http://localhost:11434;
}
}
推理速度实测参考
| 平台/配置 | 模型 | 推理速度(tokens/s) |
|---|---|---|
| Vultr A100 | 7B Q4 | 40-80 |
| DigitalOcean L40S | 7B Q4 | 35-70 |
| Hetzner 32核CPU | 7B Q4 | 8-15 |
| 普通4核VPS | 7B Q4 | 1-3 |
GPU和CPU之间的差距是数量级的,不是倍数。
什么时候自建,什么时候继续订阅
我个人觉得值得自建的情况:每天AI使用超过2小时、需要团队多人共享、涉及敏感数据不想经过OpenAI服务器、想部署特定微调模型。
继续订阅更合理的情况:偶尔使用每周不超过几次、不想处理任何运维问题、需要GPT-4o或Claude 3.5 Sonnet这个级别的能力而本地模型达不到。
目前开源模型的能力已经很强,Llama 3.1 70B在很多任务上接近GPT-4的水平,但这个模型需要至少40GB显存跑GPU推理,对应的硬件成本不低。7B和14B量化模型是目前个人自建的主流选择,能力够用但不是顶级。
一个实际建议
如果你在考虑自建但不确定是否值得,先用RunPod或Vultr的按小时GPU实例试一两天,算清楚实际使用量和对应成本,再决定要不要长期部署。不要在没有测试的情况下直接买大内存机器,需求和实际使用场景对上了再做长期投入。