我见过不少人买了VPS跑AI,踩的坑基本都一样:要么内存不够模型直接OOM,要么CPU是低频多核跑推理奇慢,要么标榜SSD实际是普通机械盘速度。这些坑在买之前看参数表是看不出来的,但只要搞清楚几个核心指标,选起来就容易得多。
跑AI和普通建站,VPS选型逻辑哪里不同
建站对VPS的要求相对宽松,1核1GB能跑个WordPress,网络稳定就行。但AI场景不一样:
本地推理吃内存,不够直接跑不起来,没有商量余地。推理速度吃CPU单核性能,不是核心数。模型文件加载频繁,磁盘IO直接影响响应延迟。调用外部API的场景,网络延迟比带宽更重要。
这四点是选AI VPS和选普通VPS最核心的区别。
5个决定AI体验的关键指标
内存:AI场景的硬门槛
这是最不能妥协的一个指标。模型加载需要把参数全部放进内存,内存不够就是跑不起来,不是跑慢,是直接OOM进程被杀。
实际参考:
- 跑API网关、不在本地运行模型:2GB够用
- 7B量化模型(Q4):至少8GB,推荐16GB
- 13B量化模型:16GB起步,推荐32GB
- 多个Agent同时运行:按实际情况叠加
很多人买了4GB内存的VPS想跑7B模型,发现根本不行。4GB内存,系统和Docker占掉1到2GB,剩下的根本装不下任何量化版本的7B模型。这不是配置高不高的问题,是基础数学问题。
跑不同大小的模型需要多少内存?
| 模型规模 | 最低内存 | 推荐内存 |
|---|---|---|
| API网关(不跑本地模型) | 1-2GB | 2-4GB |
| 3B量化模型 | 4GB | 8GB |
| 7B量化模型 | 8GB | 16GB |
| 13B量化模型 | 16GB | 32GB |
| 34B+模型 | 32GB+ | 64GB+ |
CPU:单核性能比核心数更重要
这里有个反直觉的点:AI推理,特别是LLM推理,主要是单线程密集计算,2核高频CPU跑推理速度可能比8核低频CPU快。
买VPS的时候要问清楚或者测试一下CPU主频,Geekbench单核分数是判断CPU推理能力最直接的指标。同价位下,高频CPU实例(比如Vultr的High Frequency系列)跑推理比标准CPU实例快30%到50%是正常的。
另外要确认VPS的虚拟化类型,只选KVM,不选OpenVZ。KVM资源独立,性能稳定;OpenVZ共享内核,超售严重,同样的配置实际可用资源差很多。
怎么测试VPS的CPU推理能力
跑Geekbench是最简单的方法:
curl -L -o gk5.sh https://rebrand.ly/gk5 && bash gk5.sh
单核分数800以上是基本线,1200以上跑推理体验不错,1500以上属于高频实例水平。
存储:NVMe不是可选项
模型文件动辄4GB到20GB,每次冷启动要把这些数据从磁盘加载进内存。普通SSD读取速度约300到500MB/s,NVMe可以到2000MB/s以上,加载时间差距2到5倍。
对推理服务来说,这直接影响服务重启后的恢复速度,以及向量数据库的查询性能。如果你在用RAG(检索增强生成),向量检索的IO压力更大,NVMe的优势更明显。
标榜NVMe但实际IO很慢的情况也存在,买之前用fio跑一下:
fio --name=test --size=1G --filename=testfile --bs=4k --rw=randrw --iodepth=64 --runtime=30 --time_based
随机4K读写速度低于100MB/s,说明不是真NVMe或者共享严重。
网络:API调用场景比你想的重要
如果你跑的是调用OpenAI、Claude、OpenRouter等外部API的方案,VPS到API服务器的延迟直接影响响应速度。从美国节点调用OpenAI的延迟通常在20到50ms,从亚洲节点可能要100到200ms。
对响应速度有要求的场景,节点选择很重要。面向美国用户选美国西海岸,调用Anthropic API(服务器在美国)也快;面向亚洲用户选新加坡或日本节点,同时调用API延迟相对低。
如果是纯本地推理不依赖外部API,网络延迟主要影响用户访问速度,重要性低一些。
虚拟化类型:KVM是底线
重复强调:跑AI只选KVM。
KVM的每个实例有独立分配的CPU和内存,不受其他租户影响。OpenVZ共享内核,内存分配有弹性,名义上给你2GB实际可用可能更少,CPU性能在高峰期会被其他用户抢占。
买VPS之前确认虚拟化类型,大多数服务商在产品页面会注明,不确定的可以问客服。RackNerd、Vultr、DigitalOcean、Hetzner都是KVM,一些极低价促销VPS可能是OpenVZ,注意辨别。
按预算的实际选型建议
$3到$8/月:只能"用AI",不能"跑AI"
这个价位的机器(1到2核,1到4GB内存),唯一适合的AI场景是做API网关或者跑轻量自动化工具——让VPS做请求转发和任务调度,实际推理交给外部API。
本地跑任何量化大模型在这个配置下基本是不可用的体验,不要浪费时间尝试。
$8到$20/月:AI部署的性价比甜点区
4核8GB到4核16GB的配置,可以跑7B量化模型做实验,部署轻量的AI Agent系统,运行OpenClaw、n8n这类AI自动化工具没有压力。
这是目前大多数个人AI项目的合理起点。Hetzner的CX32(4核8GB,€8.99/月)和Vultr的高频4GB实例都在这个范围,性价比不错。
$20以上:生产级AI部署
16GB以上内存可以稳定跑13B模型,多Agent并发,或者给中小规模的AI服务提供稳定底层。
如果要跑更大的模型,考虑GPU实例,Vultr和Lambda Labs都有按小时计费的GPU机器,不需要长期持有。
买之前先测试
不管选哪个预算段,买VPS前先测试官方IP:
# 测延迟
ping 服务商测试IP -c 20
# 看路由质量
mtr -r -c 50 服务商测试IP
买了之后在30天退款期内跑完整benchmark,确认CPU跑分、磁盘IO、网络实测符合预期再决定留还是退。
一个实际判断
跑AI选VPS,优先级排序是:内存 > CPU单核 > 存储类型(NVMe) > 网络 > 价格。
价格放在最后不是说不重要,而是说在前面几个硬指标不满足的前提下,便宜没有意义。内存不够的机器,再便宜也跑不起来你想跑的东西。