为什么必须提前建模
很多 Solopreneur 早期不做预算,月底账单出来才发现毛利率崩了。LLM API 账单跟用户增长不是线性关系——重度用户 token 消耗可能是普通用户的 5-10 倍,一波营销活动搞来白嫖党直接把月账单干翻倍。
提前建模的价值:知道下一阶段毛利率怎么变,什么时候必须换 infra(纯中转 → 混合 → 自营官方)。
量出单用户 Token 基线
埋点跑一周
在业务代码里给每次 API 调用记三个字段:用户 ID、模型、input/output token。跑一周后导出数据。
算三个分位数
- P50(中位数):普通用户单月 token 估算基准
- P90:重度用户 token 估算基准,用来做预算
- P99:异常重度用户,看是否需要单独限额
拆模型档位占比
如果你的 SaaS 已经做了模型分级,看不同档位 token 占比。没做分级的话,这一步顺便规划怎么拆。
规模一:100 用户(早期 PoC 阶段)
预算公式
月预算 = 付费用户数 × 月单付费用户 token × 加权单价
100 月活用户,假设付费转化 20% = 20 付费用户。文档对话 SaaS 单付费用户月 token P90 = 1M。
推荐配置
| 项 | 推荐 |
|---|---|
| 主路模型 | Sonnet 4.6 或 GPT-5-mini |
| 兜底模型 | Opus 4.7 / GPT-5.5(只在复杂任务) |
| 路径 | 纯中转 |
| 月预算上限 | 100-300 美金 |
| 单用户限额 | 不做(用户太少不值得) |
风险点
- 营销爆款上来一批白嫖党,流量翻 5 倍直接爆预算
- 重度用户用免费档跑全天,API 成本超过付费用户带来的营收
应对
- 免费档加日 / 月 token 上限
- 中转方那边设当月预算上限,触顶自动暂停
规模二:1000 用户(增长阶段)
预算公式
1000 月活,付费转化 5-10% = 50-100 付费用户(早期免费引流多了,付费转化率会下降)。
推荐配置
| 项 | 推荐 |
|---|---|
| 主路模型 | Sonnet 4.6 或 GPT-5-mini |
| 兜底模型 | Opus 4.7 / GPT-5.5 |
| 路径 | 中转 + 官方混合 |
| 月预算上限 | 1000-3000 美金 |
| 单用户限额 | 是 |
| 路由层 | litellm / OneAPI 自托管 |
这个阶段必须做的事
- Prompt Caching 全开(降本 20-40%)
- 模型分级落地(降本 60-75%)
- 单用户限额(防止重度白嫖)
- 主备路:中转主路 + 自己的官方 key 兜底
迁移窗口
这个阶段是从纯中转迁出的窗口期。如果还没办海外卡,借这个时机办——后续做 Stripe / Mercury 也要用。
规模三:10000 用户(放量阶段)
预算公式
10000 月活,付费转化 3-5% = 300-500 付费用户。客单价 19-49 美金,月营收 6000-25000 美金。月 API 预算 5000-15000 美金。
推荐配置
| 项 | 推荐 |
|---|---|
| 主路模型 | Sonnet 4.6 或 GPT-5-mini |
| 高端付费档 | Opus 4.7 / GPT-5.5 主路 |
| 路径 | 自营官方为主 + 中转兜底 |
| 月预算上限 | 5000-15000 美金 |
| 单用户限额 | 强制 |
| 路由层 | litellm / OneAPI + 多 provider 主备 |
这个阶段必须做的事
- 自营官方账号(Anthropic / OpenAI),量大可谈 Volume Discount
- 多 provider 主备路(官方 + 1-2 家中转)
- 用量看板 + 异常告警
- 单用户限额按付费档分级
中转还要不要
要。10000 用户规模,中转作为兜底有价值——官方账号偶尔限流、维护、误封,中转 fallback 能让 SaaS 保持可用。预算占比降到 10-20% 即可。
三档汇总对比
| 维度 | 100 用户 | 1000 用户 | 10000 用户 |
|---|---|---|---|
| 月 API 预算 | 100-300 美金 | 1000-3000 美金 | 5000-15000 美金 |
| 主路模型 | Sonnet / GPT-5-mini | Sonnet / GPT-5-mini | Sonnet / GPT-5-mini |
| 旗舰档 | 只在 escalation | 高付费档主路 | 高付费档主路 |
| 路径 | 纯中转 | 中转 + 官方混合 | 自营官方 + 中转兜底 |
| 路由层 | 直接用聚合中转 | litellm / OneAPI | litellm / OneAPI 多 provider |
| 单用户限额 | 不做 | 做 | 强制 |
| 主备 | 不需要 | 1 主 1 备 | 1 主 2 备 |
超支告警设置
日级监控
每天定时算 (当月已用 token / 月预算 token) × (30 / 当月已过天数),大于 1.1 就告警。
流量异常告警
埋点单用户单日 token,P99 突然涨 3 倍就告警(可能是某个用户开始滥用,或者代码 bug 死循环调 API)。
临时降级方案
预算紧张时的应急策略:
- 把次要场景路由到 nano 档(GPT-5-nano / Haiku 4.5)
- 关闭实时 streaming,改异步 batch
- 提示重度用户升级付费档
- 临时降低 max_tokens 上限
国内访问与中转策略
100 / 1000 用户规模阶段,中转方稳定与价格是关键。Solopreneur 可以考虑一条独立开发者用得起的 Claude 4.7 / GPT-5.5 中转,把多模型聚合、按 key 限额、免外卡几件事一并解决,等营收上 5000 美金再迁官方账号。