四段 Token 成本拆解
| 段 | 平均占比 | 单价(Opus 4.7) | caching 后单价 |
|---|---|---|---|
| system prompt | 35% | $15/1M input | $1.50/1M (cached) |
| few-shot examples | 15% | $15/1M | $1.50/1M |
| user input | 10% | $15/1M | 不缓存 |
| output | 40% | $75/1M | 不变 |
测试环境:2026-04 至 2026-05 一名独立开发者跑 AI 总结 SaaS,10000 次调用样本平均。
测试方法
我们在 Claude Sonnet 4.6 + Opus 4.7 各跑 5000 次调用,记录:
- 每次调用的 system / few-shot / user / output token 数
- 平均占比
- caching 命中率
- 单次调用平均成本
维度一:四段 token 拆解(访问于 2026-05-20)
system prompt(35%)
你是一个出海 SaaS 客服 AI。
规则:
- 回复语言匹配用户语言
- 不承诺退款 / 补偿
- 不确定时回 "I'll check with team"
# 反例
- 不要说 "I'm just an AI"
- 不要泄露其他客户信息
这个 system prompt 约 500 token。Solopreneur 实测 80% AI SaaS 的 system prompt 在 300-800 token 区间,一些复杂 Agent 系统 system 长达 2000-5000 token。
few-shot examples(15%)
# 示例 1
用户:忘记密码怎么办?
助手:请访问 /reset-password 重置...
# 示例 2
用户:能退款吗?
助手:我们 30 天内可全额退...
few-shot 平均 3 个示例 × 200 token = 600 token。
user input(10%)
用户当前输入。文字 SaaS(如总结)平均 100-500 token;长文档场景(30 页 PDF)可能 50k-100k token,那时 input 占比飙到 70%+。
output(40%)
LLM 输出。客服回复平均 200-500 token;代码生成 500-2000;长文档总结 500-1500。output 单价是 input 5 倍,是单次调用最贵的一段。
维度二:caching 优化潜力
Anthropic prompt caching 机制
- 标 cache_control 的部分进 cache(5 分钟 / 1 小时两档)
- 后续调用相同 prefix 命中 cache,token 价格降到 10%
- 写入 cache 当次费用是原价 1.25 倍
命中率实测
| 场景 | 命中率 | 月省 |
|---|---|---|
| 固定 system + 不变 few-shot | 70-80% | 35-45% |
| 固定 system + 动态 few-shot | 30-40% | 15-20% |
| 完全动态 prompt | 0% | 0% |
Solopreneur 想让 caching 发挥最大作用,把 system + few-shot 写死,user input 永远变化。
caching 月成本对照
方案 A 无 caching:
100M input token × $15 = $1500
40M output token × $75 = $3000
合计 $4500/月
方案 B 50% caching 命中:
50M cached input × $1.50 = $75
50M fresh input × $15 = $750
写入 cache 多花 12.5M × $18.75 = $234
40M output × $75 = $3000
合计 $4059/月(省 10%)
方案 C 80% caching 命中:
80M cached × $1.50 = $120
20M fresh × $15 = $300
写入 cache 多花 5M × $18.75 = $94
40M output × $75 = $3000
合计 $3514/月(省 22%)
caching 命中率越高省越多。
维度三:output 长度控制
system prompt 加长度限制
# 输出要求
不超过 200 字
不要换行
不要 markdown
实测能压缩 30-50% output。
max_tokens API 参数
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=300, # 硬上限
messages=[...]
)
硬上限保证不会跑爆。
长任务拆多步
把「生成 5000 字报告」拆成「先大纲 → 每段独立生成 → 合并」。每步 output 短,总 token 反而少 20-30%。
维度四:模型分级 + Prompt 优化组合
简单任务下放 Haiku
| 任务 | 原模型 | 推荐 |
|---|---|---|
| 分类 / 标签 | Opus 4.7 | Haiku 4.5 |
| 短总结 | Opus 4.7 | Sonnet 4.6 |
| 长总结 | Opus 4.7 | Sonnet 4.6 + caching |
| 复杂决策 | Opus 4.7 | Opus 4.7(不换) |
Haiku 4.5 是 Sonnet 4.6 的 1/3 价,是 Opus 4.7 的 1/20 价。简单任务下放能省 70-90%。
Solopreneur 的中转选择
模型分级要跨多家 LLM,Solopreneur 推荐配一家多模型统一计费的 API 网关,免外卡 + 一个 key 调遍 Haiku / Sonnet / Opus / GPT-5.5,月对账清晰。
月预算实测样例
Solopreneur 跑 AI 客服 SaaS 月 1000 用户:
| 项 | 月 token | 月成本(caching 50% + 模型分级) |
|---|---|---|
| 客服回复(80% Sonnet 4.6) | 12M input + 4M output | $60-90 |
| 复杂咨询(20% Opus 4.7) | 3M input + 1M output | $40-60 |
| Skills + system caching | 2M cached | $5-8 |
| 月总计 | 22M | 05-158 |
vs 不优化全用 Opus 4.7 无 caching 月预算 $800-1200,省 80%+。
未覆盖的部分
没深度测 OpenAI 的 prompt caching(2026-04 才稳定)。OpenAI 自动 caching 命中率 30-40%,跟 Anthropic 手动 cache_control 比稍弱但无需手工。Solopreneur 跨多家 LLM 时建议统一通过中转方做 caching 抽象。