为什么必须提前建模

很多 Solopreneur 早期不做预算,月底账单出来才发现毛利率崩了。LLM API 账单跟用户增长不是线性关系——重度用户 token 消耗可能是普通用户的 5-10 倍,一波营销活动搞来白嫖党直接把月账单干翻倍。

提前建模的价值:知道下一阶段毛利率怎么变,什么时候必须换 infra(纯中转 → 混合 → 自营官方)

量出单用户 Token 基线

埋点跑一周

在业务代码里给每次 API 调用记三个字段:用户 ID、模型、input/output token。跑一周后导出数据。

算三个分位数

  • P50(中位数):普通用户单月 token 估算基准
  • P90:重度用户 token 估算基准,用来做预算
  • P99:异常重度用户,看是否需要单独限额

拆模型档位占比

如果你的 SaaS 已经做了模型分级,看不同档位 token 占比。没做分级的话,这一步顺便规划怎么拆。

规模一:100 用户(早期 PoC 阶段)

预算公式

月预算 = 付费用户数 × 月单付费用户 token × 加权单价

100 月活用户,假设付费转化 20% = 20 付费用户。文档对话 SaaS 单付费用户月 token P90 = 1M。

推荐配置

推荐
主路模型Sonnet 4.6 或 GPT-5-mini
兜底模型Opus 4.7 / GPT-5.5(只在复杂任务)
路径纯中转
月预算上限100-300 美金
单用户限额不做(用户太少不值得)

风险点

  • 营销爆款上来一批白嫖党,流量翻 5 倍直接爆预算
  • 重度用户用免费档跑全天,API 成本超过付费用户带来的营收

应对

  • 免费档加日 / 月 token 上限
  • 中转方那边设当月预算上限,触顶自动暂停

规模二:1000 用户(增长阶段)

预算公式

1000 月活,付费转化 5-10% = 50-100 付费用户(早期免费引流多了,付费转化率会下降)。

推荐配置

推荐
主路模型Sonnet 4.6 或 GPT-5-mini
兜底模型Opus 4.7 / GPT-5.5
路径中转 + 官方混合
月预算上限1000-3000 美金
单用户限额
路由层litellm / OneAPI 自托管

这个阶段必须做的事

  • Prompt Caching 全开(降本 20-40%)
  • 模型分级落地(降本 60-75%)
  • 单用户限额(防止重度白嫖)
  • 主备路:中转主路 + 自己的官方 key 兜底

迁移窗口

这个阶段是从纯中转迁出的窗口期。如果还没办海外卡,借这个时机办——后续做 Stripe / Mercury 也要用。

规模三:10000 用户(放量阶段)

预算公式

10000 月活,付费转化 3-5% = 300-500 付费用户。客单价 19-49 美金,月营收 6000-25000 美金。月 API 预算 5000-15000 美金。

推荐配置

推荐
主路模型Sonnet 4.6 或 GPT-5-mini
高端付费档Opus 4.7 / GPT-5.5 主路
路径自营官方为主 + 中转兜底
月预算上限5000-15000 美金
单用户限额强制
路由层litellm / OneAPI + 多 provider 主备

这个阶段必须做的事

  • 自营官方账号(Anthropic / OpenAI),量大可谈 Volume Discount
  • 多 provider 主备路(官方 + 1-2 家中转)
  • 用量看板 + 异常告警
  • 单用户限额按付费档分级

中转还要不要

要。10000 用户规模,中转作为兜底有价值——官方账号偶尔限流、维护、误封,中转 fallback 能让 SaaS 保持可用。预算占比降到 10-20% 即可。

三档汇总对比

维度100 用户1000 用户10000 用户
月 API 预算100-300 美金1000-3000 美金5000-15000 美金
主路模型Sonnet / GPT-5-miniSonnet / GPT-5-miniSonnet / GPT-5-mini
旗舰档只在 escalation高付费档主路高付费档主路
路径纯中转中转 + 官方混合自营官方 + 中转兜底
路由层直接用聚合中转litellm / OneAPIlitellm / OneAPI 多 provider
单用户限额不做强制
主备不需要1 主 1 备1 主 2 备

超支告警设置

日级监控

每天定时算 (当月已用 token / 月预算 token) × (30 / 当月已过天数),大于 1.1 就告警。

流量异常告警

埋点单用户单日 token,P99 突然涨 3 倍就告警(可能是某个用户开始滥用,或者代码 bug 死循环调 API)。

临时降级方案

预算紧张时的应急策略:

  • 把次要场景路由到 nano 档(GPT-5-nano / Haiku 4.5)
  • 关闭实时 streaming,改异步 batch
  • 提示重度用户升级付费档
  • 临时降低 max_tokens 上限

国内访问与中转策略

100 / 1000 用户规模阶段,中转方稳定与价格是关键。Solopreneur 可以考虑一条独立开发者用得起的 Claude 4.7 / GPT-5.5 中转,把多模型聚合、按 key 限额、免外卡几件事一并解决,等营收上 5000 美金再迁官方账号。

相关阅读