配置前的环境检查
- 已有 PMF 信号(付费用户 ≥ 30、留存率 > 30%)
- 月 API 成本 ≥ $100(低于此优化 ROI 小)
- 能改代码 + 能 A/B 测试
国内访问 LLM endpoint 不稳是优化路上的隐藏变量——「调用失败重试」会把成本曲线拉乱。先备一条AI SaaS 出海可用的 API 中转稳住基础设施。
三板斧详解
板斧 1:Prompt Caching(ROI 最高)
何时适用
- system prompt 长(> 1024 tokens)
- 多用户共享同一份 system / few-shot
- 客服 / 文档对话 / Agent / RAG 类应用
落地代码
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
system=[
{
"type": "text",
"text": load_system_prompt(), # 几千 tokens
"cache_control": {"type": "ephemeral"},
},
],
messages=conversation_history,
)
量化效果
Before Caching:
100 用户 × 30 次对话 × 1500 system tokens × $3/MTok = $13.5/月
After Caching(85% hit rate):
写入 100 次 × 1500 × $3.75/MTok = $0.56
读取 2900 次 × 1500 × $0.30/MTok = $1.31
小计 $1.87/月
省:$11.6/月(86%)
落地优先级
最高。半天落地、零客户感知、立竿见影。
板斧 2:模型降级
何时适用
- 应用有多种任务复杂度(分类 / 摘要 / 对话 / 推理)
- 已能 A/B 对照测试质量
模型分级标准
| 任务复杂度 | 推荐模型 | 单价(vs Sonnet) |
|---|---|---|
| 极简(分类 / 标签) | Haiku | 0.1× |
| 简单(短摘要 / 翻译) | Haiku / DeepSeek V3 | 0.1-0.3× |
| 中等(对话 / RAG) | Sonnet | 1× |
| 复杂(代码 / 长推理) | Opus / GPT-5 | 5× |
A/B 测试设计
import random
def pick_model(task_type, user):
if user.tier == "free":
return "claude-3-5-haiku-20241022"
# A/B 实验:core chat 任务 50% Sonnet vs 50% Haiku
if task_type == "chat":
if user.id % 2 == 0: # 稳定分组
return "claude-3-5-haiku-20241022"
else:
return "claude-3-5-sonnet-20241022"
return "claude-3-5-sonnet-20241022"
跑 1 周,对比两组:
- 用户评分(点赞 / 点踩比例)
- 重试率
- 留存
任一指标降幅 > 5% 回退原模型,否则保留降级。
量化效果
Before(全部 Sonnet):
20% chat 任务 × 1k tokens × $3 = $0.6/单用户/月
After(chat 任务 50% Sonnet + 50% Haiku,A/B 验证质量无显著差异):
20% × 1k × (0.5 × $3 + 0.5 × $0.3) = $0.33/单用户/月
省:45%
板斧 3:中转选型
何时适用
- 月 API 成本 > $200
- 已经压完前两板斧
中转方比价矩阵
| 中转方 | 主流模型加价 | 国内访问 | 推荐 |
|---|---|---|---|
| AnyRouter | 10-20% | 稳 | 国内主路 |
| OpenRouter | 5%(充值费) | 一般 | 多模型场景 |
| 老张中转 | 10-20% | 稳 | 国内备路 |
| OneAPI + 自己官方 key | 0% 加价 | 取决于服务器 | 月用量 $500+ |
量化效果
月用量 $500 场景:
Before(A 家 25% 加价):$500
After(B 家 10% 加价):$400
省:$100/月(20%)
中等杠杆,但季度对比一次价格表 + 切换 endpoint 半小时搞定,ROI 不错。
三板斧组合效果
文档对话 SaaS 真实案例:
优化前:
月 API 成本:$280
月营收:$950
毛利率:53%
只开 Caching:
月 API 成本:$95
毛利率:80%
Caching + 模型降级:
月 API 成本:$58
毛利率:87%
Caching + 降级 + 中转换:
月 API 成本:$48
毛利率:89%
注:固定成本(服务器 / Vector DB / Stripe)未变。
不止压成本:客单价拉升组合拳
毛利率提升不只是「分母」(成本),还有「分子」(营收)。
增值功能加客单价
- 基础版 $19 → 添加「Premium 模型」「批量处理」「API 调用」→ Pro $49
- Pro 用户客单价高 2.5×,单用户 API 成本最多 +20%
- Pro 毛利率 = ($49 - $1.5) / $49 = 97% > 基础版 91%
用量计费
基础订阅 $19/月(含 500 次对话)
+ 超量按 $0.05/次
重度用户自然付更多。Stripe Metered Billing 支持。
Enterprise tier
少数大客户客单价 $500-2000/月,毛利率 95%+。一个 enterprise 用户的毛利 = 50 个基础用户。
三板斧落地优先级
Week 1:Prompt Caching 上线(半天落地 + 一周观察)
Week 2-3:模型降级 A/B(同时跑 2-3 个 feature)
Month 2:中转方比价 + 切换
Month 3:客单价拉升试验
常见失败原因
- 没数据先优化:每次 API 调用要先记日志,没数据靠感觉优化是赌博
- Caching 用错场景:单次独立 prompt 加 cache_control 不仅不省钱,写入还贵 25%
- 降级太激进:核心 feature 用 Haiku 用户流失,A/B 数据没看完就上线
- 换中转方频繁:每月换中转方导致用户报告异常飙升,挑两家长期合作即可
跨地区使用
优化逻辑是后端代码,与地区无关。但成本测算的准确性依赖网络稳定性——大量 429 / 503 重试会让 token 用量曲线异常。配一条稳定的网络出海路径让数据更可信。