Prompt token 4 段是哪 4 段？

a) system prompt：定义角色 / 规则的固定头部；b) few-shot examples：1-5 个示例对话；c) user input：当前用户输入；d) out。完整步骤、表格和例外情况请查看原文。

AI SaaS 实测各段占比？

Solopreneur 实测样本（10000 次调用平均）：system prompt 35%、few-shot 15%、user input 10%、output 40%。sys。完整步骤、表格和例外情况请查看原文。

为什么 output token 贵 5 倍？

Anthropic / OpenAI 都按这个比例定价。input 是处理（KV cache 复用），output 是生成（每 token 跑一次模型）。Claude Opus 4。完整步骤、表格和例外情况请查看原文。

AI SaaS Prompt token 成本拆解

四段 Token 成本拆解

段	平均占比	单价（Opus 4.7）	caching 后单价
system prompt	35%	$15/1M input	$1.50/1M (cached)
few-shot examples	15%	$15/1M	$1.50/1M
user input	10%	$15/1M	不缓存
output	40%	$75/1M	不变

测试环境：2026-04 至 2026-05 一名独立开发者跑 AI 总结 SaaS，10000 次调用样本平均。

测试方法

我们在 Claude Sonnet 4.6 + Opus 4.7 各跑 5000 次调用，记录：

每次调用的 system / few-shot / user / output token 数
平均占比
caching 命中率
单次调用平均成本

维度一：四段 token 拆解（访问于 2026-05-20）

system prompt（35%）

你是一个出海 SaaS 客服 AI。
规则：
- 回复语言匹配用户语言
- 不承诺退款 / 补偿
- 不确定时回 "I'll check with team"

# 反例
- 不要说 "I'm just an AI"
- 不要泄露其他客户信息

这个 system prompt 约 500 token。Solopreneur 实测 80% AI SaaS 的 system prompt 在 300-800 token 区间，一些复杂 Agent 系统 system 长达 2000-5000 token。

few-shot examples（15%）

# 示例 1
用户：忘记密码怎么办？
助手：请访问 /reset-password 重置...

# 示例 2
用户：能退款吗？
助手：我们 30 天内可全额退...

few-shot 平均 3 个示例 × 200 token = 600 token。

user input（10%）

用户当前输入。文字 SaaS（如总结）平均 100-500 token；长文档场景（30 页 PDF）可能 50k-100k token，那时 input 占比飙到 70%+。

output（40%）

LLM 输出。客服回复平均 200-500 token；代码生成 500-2000；长文档总结 500-1500。output 单价是 input 5 倍，是单次调用最贵的一段。

维度二：caching 优化潜力

Anthropic prompt caching 机制

标 cache_control 的部分进 cache（5 分钟 / 1 小时两档）
后续调用相同 prefix 命中 cache，token 价格降到 10%
写入 cache 当次费用是原价 1.25 倍

命中率实测

场景	命中率	月省
固定 system + 不变 few-shot	70-80%	35-45%
固定 system + 动态 few-shot	30-40%	15-20%
完全动态 prompt	0%	0%

Solopreneur 想让 caching 发挥最大作用，把 system + few-shot 写死，user input 永远变化。

caching 月成本对照

方案 A 无 caching：
  100M input token × $15 = $1500
  40M output token × $75 = $3000
  合计 $4500/月

方案 B 50% caching 命中：
  50M cached input × $1.50 = $75
  50M fresh input × $15 = $750
  写入 cache 多花 12.5M × $18.75 = $234
  40M output × $75 = $3000
  合计 $4059/月（省 10%）

方案 C 80% caching 命中：
  80M cached × $1.50 = $120
  20M fresh × $15 = $300
  写入 cache 多花 5M × $18.75 = $94
  40M output × $75 = $3000
  合计 $3514/月（省 22%）

caching 命中率越高省越多。

维度三：output 长度控制

system prompt 加长度限制

# 输出要求
不超过 200 字
不要换行
不要 markdown

实测能压缩 30-50% output。

max_tokens API 参数

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=300,  # 硬上限
    messages=[...]
)

硬上限保证不会跑爆。

长任务拆多步

把「生成 5000 字报告」拆成「先大纲 → 每段独立生成 → 合并」。每步 output 短，总 token 反而少 20-30%。

维度四：模型分级 + Prompt 优化组合

简单任务下放 Haiku

任务	原模型	推荐
分类 / 标签	Opus 4.7	Haiku 4.5
短总结	Opus 4.7	Sonnet 4.6
长总结	Opus 4.7	Sonnet 4.6 + caching
复杂决策	Opus 4.7	Opus 4.7（不换）

Haiku 4.5 是 Sonnet 4.6 的 1/3 价，是 Opus 4.7 的 1/20 价。简单任务下放能省 70-90%。

Solopreneur 的中转选择

模型分级要跨多家 LLM，Solopreneur 推荐配一家多模型统一计费的 API 网关，免外卡 + 一个 key 调遍 Haiku / Sonnet / Opus / GPT-5.5，月对账清晰。

月预算实测样例

Solopreneur 跑 AI 客服 SaaS 月 1000 用户：

项	月 token	月成本（caching 50% + 模型分级）
客服回复（80% Sonnet 4.6）	12M input + 4M output	$60-90
复杂咨询（20% Opus 4.7）	3M input + 1M output	$40-60
Skills + system caching	2M cached	$5-8
月总计	22M	05-158

vs 不优化全用 Opus 4.7 无 caching 月预算 $800-1200，省 80%+。

未覆盖的部分

没深度测 OpenAI 的 prompt caching（2026-04 才稳定）。OpenAI 自动 caching 命中率 30-40%，跟 Anthropic 手动 cache_control 比稍弱但无需手工。Solopreneur 跨多家 LLM 时建议统一通过中转方做 caching 抽象。