为什么要按用户规模拆 token 预算?

Solopreneur 早期不预算就裸跑,营收增长跟不上 API 账单的事故很常见。按 100 / 1000 / 10000 用户三档预算预先建模,可以让你提前知道下一阶段毛利率会。完整步骤、表格和例外情况请查看原文。

单付费用户月 token 消耗怎么估?

看场景。文档对话 SaaS 重度用户月消耗 500k-2M token,代码助手 1M-5M token,翻译 SaaS 200k-1M token。建议先按月活跑一周埋点数据,算。完整步骤、表格和例外情况请查看原文。

GPT-5.5 与 Claude Opus 4.7 单 token 价格大概什么档?

两家都属旗舰档,价格相对中端档(Sonnet 4.6 / GPT-5-mini)高一档,具体数字以官方 pricing 页为准。Solopreneur 阶段建议把旗舰档当 esca。完整步骤、表格和例外情况请查看原文。

GPT-5.5/Claude 4.7 月 token 预算实操 | 操作指南

为什么必须提前建模

很多 Solopreneur 早期不做预算,月底账单出来才发现毛利率崩了。LLM API 账单跟用户增长不是线性关系——重度用户 token 消耗可能是普通用户的 5-10 倍,一波营销活动搞来白嫖党直接把月账单干翻倍。

提前建模的价值:知道下一阶段毛利率怎么变,什么时候必须换 infra(纯中转 → 混合 → 自营官方)。

量出单用户 Token 基线

埋点跑一周

在业务代码里给每次 API 调用记三个字段:用户 ID、模型、input/output token。跑一周后导出数据。

算三个分位数

P50(中位数):普通用户单月 token 估算基准
P90:重度用户 token 估算基准,用来做预算
P99:异常重度用户,看是否需要单独限额

拆模型档位占比

如果你的 SaaS 已经做了模型分级,看不同档位 token 占比。没做分级的话,这一步顺便规划怎么拆。

规模一:100 用户(早期 PoC 阶段)

预算公式

月预算 = 付费用户数 × 月单付费用户 token × 加权单价

100 月活用户,假设付费转化 20% = 20 付费用户。文档对话 SaaS 单付费用户月 token P90 = 1M。

项	推荐
主路模型	Sonnet 4.6 或 GPT-5-mini
兜底模型	Opus 4.7 / GPT-5.5(只在复杂任务)
路径	纯中转
月预算上限	100-300 美金
单用户限额	不做(用户太少不值得)

风险点

营销爆款上来一批白嫖党,流量翻 5 倍直接爆预算
重度用户用免费档跑全天,API 成本超过付费用户带来的营收

应对

免费档加日 / 月 token 上限
中转方那边设当月预算上限,触顶自动暂停

规模二:1000 用户(增长阶段)

预算公式

1000 月活,付费转化 5-10% = 50-100 付费用户(早期免费引流多了,付费转化率会下降)。

项	推荐
主路模型	Sonnet 4.6 或 GPT-5-mini
兜底模型	Opus 4.7 / GPT-5.5
路径	中转 + 官方混合
月预算上限	1000-3000 美金
单用户限额	是
路由层	litellm / OneAPI 自托管

这个阶段必须做的事

Prompt Caching 全开(降本 20-40%)
模型分级落地(降本 60-75%)
单用户限额(防止重度白嫖)
主备路:中转主路 + 自己的官方 key 兜底

迁移窗口

这个阶段是从纯中转迁出的窗口期。如果还没办海外卡,借这个时机办——后续做 Stripe / Mercury 也要用。

规模三:10000 用户(放量阶段)

预算公式

10000 月活,付费转化 3-5% = 300-500 付费用户。客单价 19-49 美金,月营收 6000-25000 美金。月 API 预算 5000-15000 美金。

项	推荐
主路模型	Sonnet 4.6 或 GPT-5-mini
高端付费档	Opus 4.7 / GPT-5.5 主路
路径	自营官方为主 + 中转兜底
月预算上限	5000-15000 美金
单用户限额	强制
路由层	litellm / OneAPI + 多 provider 主备

这个阶段必须做的事

自营官方账号(Anthropic / OpenAI),量大可谈 Volume Discount
多 provider 主备路(官方 + 1-2 家中转)
用量看板 + 异常告警
单用户限额按付费档分级

中转还要不要

要。10000 用户规模,中转作为兜底有价值——官方账号偶尔限流、维护、误封,中转 fallback 能让 SaaS 保持可用。预算占比降到 10-20% 即可。

三档汇总对比

维度	100 用户	1000 用户	10000 用户
月 API 预算	100-300 美金	1000-3000 美金	5000-15000 美金
主路模型	Sonnet / GPT-5-mini	Sonnet / GPT-5-mini	Sonnet / GPT-5-mini
旗舰档	只在 escalation	高付费档主路	高付费档主路
路径	纯中转	中转 + 官方混合	自营官方 + 中转兜底
路由层	直接用聚合中转	litellm / OneAPI	litellm / OneAPI 多 provider
单用户限额	不做	做	强制
主备	不需要	1 主 1 备	1 主 2 备

超支告警设置

日级监控

每天定时算 (当月已用 token / 月预算 token) × (30 / 当月已过天数),大于 1.1 就告警。

流量异常告警

埋点单用户单日 token,P99 突然涨 3 倍就告警(可能是某个用户开始滥用,或者代码 bug 死循环调 API)。

临时降级方案

预算紧张时的应急策略:

把次要场景路由到 nano 档(GPT-5-nano / Haiku 4.5)
关闭实时 streaming,改异步 batch
提示重度用户升级付费档
临时降低 max_tokens 上限

国内访问与中转策略

100 / 1000 用户规模阶段,中转方稳定与价格是关键。Solopreneur 可以考虑一条独立开发者用得起的 Claude 4.7 / GPT-5.5 中转,把多模型聚合、按 key 限额、免外卡几件事一并解决,等营收上 5000 美金再迁官方账号。

GPT-5.5/Claude 4.7 月 token 预算实操 | 操作指南

为什么必须提前建模

量出单用户 Token 基线

埋点跑一周

算三个分位数

拆模型档位占比

规模一:100 用户(早期 PoC 阶段)

预算公式

推荐配置

风险点

应对

规模二:1000 用户(增长阶段)

预算公式

推荐配置

这个阶段必须做的事

迁移窗口

规模三:10000 用户(放量阶段)

预算公式

推荐配置

这个阶段必须做的事

中转还要不要

三档汇总对比

超支告警设置

日级监控

流量异常告警

临时降级方案

国内访问与中转策略

相关阅读

参考来源

常见问题