TPM和RPM介绍

TPM和RPM介绍，和并发的关系：

跟“并发数”混在一起了。

它们不是一个东西。

一般 AI API 厂商限制是：

比如：

RPM \ approx \ frac{ 30 \ times 60 }{10} = 180

也就是：

如果：

那么 TPM：

TPM \ approx 180 \ times 4000 = 720000

即：

所以：

30 并发 ≠ 30 RPM。

很多人会误解。

你现在如果对方问你：

“TPM 和 RPM 有预估吗？”

你可以这样比较专业地回答：

当前系统实际稳定并发大约在 30 左右。
RPM 和 TPM 需要结合平均响应时长以及单次请求 Token 消耗来估算。
按目前场景粗略估计，RPM 大概在 100~200 区间，TPM 需要根据具体模型和上下文长度进一步统计。

如果你想再工程化一点，可以这我们目前关注的是实际在线并发样说：

，稳定值大概 30。
TPM/RPM 还没做精确压测，因为它和：

请求耗时

上下文长度

输出长度

是否流式返回
都强相关。
后续会根据真实 Token Usage 做容量模型。

这个说法在架构/运维/AI 平台里是合理的，显得更专业。