2026年跑AI怎么选VPS？5个关键指标直接决定能不能用

我见过不少人买了VPS跑AI，踩的坑基本都一样：要么内存不够模型直接OOM，要么CPU是低频多核跑推理奇慢，要么标榜SSD实际是普通机械盘速度。这些坑在买之前看参数表是看不出来的，但只要搞清楚几个核心指标，选起来就容易得多。

跑AI和普通建站，VPS选型逻辑哪里不同

建站对VPS的要求相对宽松，1核1GB能跑个WordPress，网络稳定就行。但AI场景不一样：

本地推理吃内存，不够直接跑不起来，没有商量余地。推理速度吃CPU单核性能，不是核心数。模型文件加载频繁，磁盘IO直接影响响应延迟。调用外部API的场景，网络延迟比带宽更重要。

这四点是选AI VPS和选普通VPS最核心的区别。

5个决定AI体验的关键指标

内存：AI场景的硬门槛

这是最不能妥协的一个指标。模型加载需要把参数全部放进内存，内存不够就是跑不起来，不是跑慢，是直接OOM进程被杀。

实际参考：

跑API网关、不在本地运行模型：2GB够用
7B量化模型（Q4）：至少8GB，推荐16GB
13B量化模型：16GB起步，推荐32GB
多个Agent同时运行：按实际情况叠加

很多人买了4GB内存的VPS想跑7B模型，发现根本不行。4GB内存，系统和Docker占掉1到2GB，剩下的根本装不下任何量化版本的7B模型。这不是配置高不高的问题，是基础数学问题。

跑不同大小的模型需要多少内存？

模型规模	最低内存	推荐内存
API网关（不跑本地模型）	1-2GB	2-4GB
3B量化模型	4GB	8GB
7B量化模型	8GB	16GB
13B量化模型	16GB	32GB
34B+模型	32GB+	64GB+

CPU：单核性能比核心数更重要

这里有个反直觉的点：AI推理，特别是LLM推理，主要是单线程密集计算，2核高频CPU跑推理速度可能比8核低频CPU快。

买VPS的时候要问清楚或者测试一下CPU主频，Geekbench单核分数是判断CPU推理能力最直接的指标。同价位下，高频CPU实例（比如Vultr的High Frequency系列）跑推理比标准CPU实例快30%到50%是正常的。

另外要确认VPS的虚拟化类型，只选KVM，不选OpenVZ。KVM资源独立，性能稳定；OpenVZ共享内核，超售严重，同样的配置实际可用资源差很多。

怎么测试VPS的CPU推理能力

跑Geekbench是最简单的方法：

curl -L -o gk5.sh https://rebrand.ly/gk5 && bash gk5.sh

单核分数800以上是基本线，1200以上跑推理体验不错，1500以上属于高频实例水平。

存储：NVMe不是可选项

模型文件动辄4GB到20GB，每次冷启动要把这些数据从磁盘加载进内存。普通SSD读取速度约300到500MB/s，NVMe可以到2000MB/s以上，加载时间差距2到5倍。

对推理服务来说，这直接影响服务重启后的恢复速度，以及向量数据库的查询性能。如果你在用RAG（检索增强生成），向量检索的IO压力更大，NVMe的优势更明显。

标榜NVMe但实际IO很慢的情况也存在，买之前用fio跑一下：

fio --name=test --size=1G --filename=testfile --bs=4k --rw=randrw --iodepth=64 --runtime=30 --time_based

随机4K读写速度低于100MB/s，说明不是真NVMe或者共享严重。

网络：API调用场景比你想的重要

如果你跑的是调用OpenAI、Claude、OpenRouter等外部API的方案，VPS到API服务器的延迟直接影响响应速度。从美国节点调用OpenAI的延迟通常在20到50ms，从亚洲节点可能要100到200ms。

对响应速度有要求的场景，节点选择很重要。面向美国用户选美国西海岸，调用Anthropic API（服务器在美国）也快；面向亚洲用户选新加坡或日本节点，同时调用API延迟相对低。

如果是纯本地推理不依赖外部API，网络延迟主要影响用户访问速度，重要性低一些。

虚拟化类型：KVM是底线

重复强调：跑AI只选KVM。

KVM的每个实例有独立分配的CPU和内存，不受其他租户影响。OpenVZ共享内核，内存分配有弹性，名义上给你2GB实际可用可能更少，CPU性能在高峰期会被其他用户抢占。

买VPS之前确认虚拟化类型，大多数服务商在产品页面会注明，不确定的可以问客服。RackNerd、Vultr、DigitalOcean、Hetzner都是KVM，一些极低价促销VPS可能是OpenVZ，注意辨别。

按预算的实际选型建议

$3到$8/月：只能"用AI"，不能"跑AI"

这个价位的机器（1到2核，1到4GB内存），唯一适合的AI场景是做API网关或者跑轻量自动化工具——让VPS做请求转发和任务调度，实际推理交给外部API。

本地跑任何量化大模型在这个配置下基本是不可用的体验，不要浪费时间尝试。

$8到$20/月：AI部署的性价比甜点区

4核8GB到4核16GB的配置，可以跑7B量化模型做实验，部署轻量的AI Agent系统，运行OpenClaw、n8n这类AI自动化工具没有压力。

这是目前大多数个人AI项目的合理起点。Hetzner的CX32（4核8GB，€8.99/月）和Vultr的高频4GB实例都在这个范围，性价比不错。

$20以上：生产级AI部署

16GB以上内存可以稳定跑13B模型，多Agent并发，或者给中小规模的AI服务提供稳定底层。

如果要跑更大的模型，考虑GPU实例，Vultr和Lambda Labs都有按小时计费的GPU机器，不需要长期持有。

买之前先测试

不管选哪个预算段，买VPS前先测试官方IP：

# 测延迟
ping 服务商测试IP -c 20

# 看路由质量
mtr -r -c 50 服务商测试IP

买了之后在30天退款期内跑完整benchmark，确认CPU跑分、磁盘IO、网络实测符合预期再决定留还是退。

一个实际判断

跑AI选VPS，优先级排序是：内存 > CPU单核 > 存储类型（NVMe） > 网络 > 价格。

价格放在最后不是说不重要，而是说在前面几个硬指标不满足的前提下，便宜没有意义。内存不够的机器，再便宜也跑不起来你想跑的东西。

2026年跑AI怎么选VPS？5个关键指标直接决定能不能用

💡 核心摘要

Hostwinds 官方推荐