四段 Token 成本拆解

平均占比单价(Opus 4.7)caching 后单价
system prompt35%$15/1M input$1.50/1M (cached)
few-shot examples15%$15/1M$1.50/1M
user input10%$15/1M不缓存
output40%$75/1M不变

测试环境:2026-04 至 2026-05 一名独立开发者跑 AI 总结 SaaS,10000 次调用样本平均。

测试方法

我们在 Claude Sonnet 4.6 + Opus 4.7 各跑 5000 次调用,记录:

  • 每次调用的 system / few-shot / user / output token 数
  • 平均占比
  • caching 命中率
  • 单次调用平均成本

维度一:四段 token 拆解(访问于 2026-05-20)

system prompt(35%)

你是一个出海 SaaS 客服 AI。
规则:
- 回复语言匹配用户语言
- 不承诺退款 / 补偿
- 不确定时回 "I'll check with team"

# 反例
- 不要说 "I'm just an AI"
- 不要泄露其他客户信息

这个 system prompt 约 500 token。Solopreneur 实测 80% AI SaaS 的 system prompt 在 300-800 token 区间,一些复杂 Agent 系统 system 长达 2000-5000 token。

few-shot examples(15%)

# 示例 1
用户:忘记密码怎么办?
助手:请访问 /reset-password 重置...

# 示例 2
用户:能退款吗?
助手:我们 30 天内可全额退...

few-shot 平均 3 个示例 × 200 token = 600 token。

user input(10%)

用户当前输入。文字 SaaS(如总结)平均 100-500 token;长文档场景(30 页 PDF)可能 50k-100k token,那时 input 占比飙到 70%+。

output(40%)

LLM 输出。客服回复平均 200-500 token;代码生成 500-2000;长文档总结 500-1500。output 单价是 input 5 倍,是单次调用最贵的一段。

维度二:caching 优化潜力

Anthropic prompt caching 机制

  • 标 cache_control 的部分进 cache(5 分钟 / 1 小时两档)
  • 后续调用相同 prefix 命中 cache,token 价格降到 10%
  • 写入 cache 当次费用是原价 1.25 倍

命中率实测

场景命中率月省
固定 system + 不变 few-shot70-80%35-45%
固定 system + 动态 few-shot30-40%15-20%
完全动态 prompt0%0%

Solopreneur 想让 caching 发挥最大作用,把 system + few-shot 写死,user input 永远变化。

caching 月成本对照

方案 A 无 caching:
  100M input token × $15 = $1500
  40M output token × $75 = $3000
  合计 $4500/月

方案 B 50% caching 命中:
  50M cached input × $1.50 = $75
  50M fresh input × $15 = $750
  写入 cache 多花 12.5M × $18.75 = $234
  40M output × $75 = $3000
  合计 $4059/月(省 10%)

方案 C 80% caching 命中:
  80M cached × $1.50 = $120
  20M fresh × $15 = $300
  写入 cache 多花 5M × $18.75 = $94
  40M output × $75 = $3000
  合计 $3514/月(省 22%)

caching 命中率越高省越多。

维度三:output 长度控制

system prompt 加长度限制

# 输出要求
不超过 200 字
不要换行
不要 markdown

实测能压缩 30-50% output。

max_tokens API 参数

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=300,  # 硬上限
    messages=[...]
)

硬上限保证不会跑爆。

长任务拆多步

把「生成 5000 字报告」拆成「先大纲 → 每段独立生成 → 合并」。每步 output 短,总 token 反而少 20-30%。

维度四:模型分级 + Prompt 优化组合

简单任务下放 Haiku

任务原模型推荐
分类 / 标签Opus 4.7Haiku 4.5
短总结Opus 4.7Sonnet 4.6
长总结Opus 4.7Sonnet 4.6 + caching
复杂决策Opus 4.7Opus 4.7(不换)

Haiku 4.5 是 Sonnet 4.6 的 1/3 价,是 Opus 4.7 的 1/20 价。简单任务下放能省 70-90%。

Solopreneur 的中转选择

模型分级要跨多家 LLM,Solopreneur 推荐配一家多模型统一计费的 API 网关,免外卡 + 一个 key 调遍 Haiku / Sonnet / Opus / GPT-5.5,月对账清晰。

月预算实测样例

Solopreneur 跑 AI 客服 SaaS 月 1000 用户:

月 token月成本(caching 50% + 模型分级)
客服回复(80% Sonnet 4.6)12M input + 4M output$60-90
复杂咨询(20% Opus 4.7)3M input + 1M output$40-60
Skills + system caching2M cached$5-8
月总计22M05-158

vs 不优化全用 Opus 4.7 无 caching 月预算 $800-1200,省 80%+。

未覆盖的部分

没深度测 OpenAI 的 prompt caching(2026-04 才稳定)。OpenAI 自动 caching 命中率 30-40%,跟 Anthropic 手动 cache_control 比稍弱但无需手工。Solopreneur 跨多家 LLM 时建议统一通过中转方做 caching 抽象。

相关阅读