配置前的环境检查

  • 已有 PMF 信号(付费用户 ≥ 30、留存率 > 30%)
  • 月 API 成本 ≥ $100(低于此优化 ROI 小)
  • 能改代码 + 能 A/B 测试

国内访问 LLM endpoint 不稳是优化路上的隐藏变量——「调用失败重试」会把成本曲线拉乱。先备一条AI SaaS 出海可用的 API 中转稳住基础设施。

三板斧详解

板斧 1:Prompt Caching(ROI 最高)

何时适用

  • system prompt 长(> 1024 tokens)
  • 多用户共享同一份 system / few-shot
  • 客服 / 文档对话 / Agent / RAG 类应用

落地代码

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    system=[
        {
            "type": "text",
            "text": load_system_prompt(),  # 几千 tokens
            "cache_control": {"type": "ephemeral"},
        },
    ],
    messages=conversation_history,
)

量化效果

Before Caching:
  100 用户 × 30 次对话 × 1500 system tokens × $3/MTok = $13.5/月
After Caching(85% hit rate):
  写入 100 次 × 1500 × $3.75/MTok = $0.56
  读取 2900 次 × 1500 × $0.30/MTok = $1.31
  小计 $1.87/月
省:$11.6/月(86%)

落地优先级

最高。半天落地、零客户感知、立竿见影。

板斧 2:模型降级

何时适用

  • 应用有多种任务复杂度(分类 / 摘要 / 对话 / 推理)
  • 已能 A/B 对照测试质量

模型分级标准

任务复杂度推荐模型单价(vs Sonnet)
极简(分类 / 标签)Haiku0.1×
简单(短摘要 / 翻译)Haiku / DeepSeek V30.1-0.3×
中等(对话 / RAG)Sonnet
复杂(代码 / 长推理)Opus / GPT-5

A/B 测试设计

import random

def pick_model(task_type, user):
    if user.tier == "free":
        return "claude-3-5-haiku-20241022"
    
    # A/B 实验:core chat 任务 50% Sonnet vs 50% Haiku
    if task_type == "chat":
        if user.id % 2 == 0:  # 稳定分组
            return "claude-3-5-haiku-20241022"
        else:
            return "claude-3-5-sonnet-20241022"
    
    return "claude-3-5-sonnet-20241022"

跑 1 周,对比两组:

  • 用户评分(点赞 / 点踩比例)
  • 重试率
  • 留存

任一指标降幅 > 5% 回退原模型,否则保留降级。

量化效果

Before(全部 Sonnet):
  20% chat 任务 × 1k tokens × $3 = $0.6/单用户/月

After(chat 任务 50% Sonnet + 50% Haiku,A/B 验证质量无显著差异):
  20% × 1k × (0.5 × $3 + 0.5 × $0.3) = $0.33/单用户/月
省:45%

板斧 3:中转选型

何时适用

  • 月 API 成本 > $200
  • 已经压完前两板斧

中转方比价矩阵

中转方主流模型加价国内访问推荐
AnyRouter10-20%国内主路
OpenRouter5%(充值费)一般多模型场景
老张中转10-20%国内备路
OneAPI + 自己官方 key0% 加价取决于服务器月用量 $500+

量化效果

月用量 $500 场景:

Before(A 家 25% 加价):$500
After(B 家 10% 加价):$400
省:$100/月(20%)

中等杠杆,但季度对比一次价格表 + 切换 endpoint 半小时搞定,ROI 不错。

三板斧组合效果

文档对话 SaaS 真实案例:

优化前:
  月 API 成本:$280
  月营收:$950
  毛利率:53%

只开 Caching:
  月 API 成本:$95
  毛利率:80%

Caching + 模型降级:
  月 API 成本:$58
  毛利率:87%

Caching + 降级 + 中转换:
  月 API 成本:$48
  毛利率:89%

注:固定成本(服务器 / Vector DB / Stripe)未变。

不止压成本:客单价拉升组合拳

毛利率提升不只是「分母」(成本),还有「分子」(营收)。

增值功能加客单价

  • 基础版 $19 → 添加「Premium 模型」「批量处理」「API 调用」→ Pro $49
  • Pro 用户客单价高 2.5×,单用户 API 成本最多 +20%
  • Pro 毛利率 = ($49 - $1.5) / $49 = 97% > 基础版 91%

用量计费

基础订阅 $19/月(含 500 次对话)
+ 超量按 $0.05/次

重度用户自然付更多。Stripe Metered Billing 支持。

Enterprise tier

少数大客户客单价 $500-2000/月,毛利率 95%+。一个 enterprise 用户的毛利 = 50 个基础用户。

三板斧落地优先级

Week 1:Prompt Caching 上线(半天落地 + 一周观察)
Week 2-3:模型降级 A/B(同时跑 2-3 个 feature)
Month 2:中转方比价 + 切换
Month 3:客单价拉升试验

常见失败原因

  1. 没数据先优化:每次 API 调用要先记日志,没数据靠感觉优化是赌博
  2. Caching 用错场景:单次独立 prompt 加 cache_control 不仅不省钱,写入还贵 25%
  3. 降级太激进:核心 feature 用 Haiku 用户流失,A/B 数据没看完就上线
  4. 换中转方频繁:每月换中转方导致用户报告异常飙升,挑两家长期合作即可

跨地区使用

优化逻辑是后端代码,与地区无关。但成本测算的准确性依赖网络稳定性——大量 429 / 503 重试会让 token 用量曲线异常。配一条稳定的网络出海路径让数据更可信。

关联文章