5min vs 1hour 两档对比
两档单价
按 Anthropic Pricing(访问于 2026-05-19)与 Prompt Caching Docs(访问于 2026-05-19)2026 年 5 月公开数据,以 Sonnet 4.6 为例(base input $3/MTok):
| 操作 | 5min ephemeral | 1h ephemeral |
|---|---|---|
| cache_write 单价 | $3.75/MTok(1.25x) | $6.00/MTok(2x) |
| cache_read 单价 | $0.30/MTok(0.1x) | $0.30/MTok(0.1x) |
| TTL | 5 分钟(每次读取重置) | 1 小时(每次读取重置) |
注:Anthropic 2024 年 11 月起所有 ephemeral cache 都「每次读取重置 TTL」,即「滑动窗口」语义,不是「固定窗口」。这个细节很多团队踩坑。
决策树
单缓存块在 1 小时窗口内复用次数 N
│
├── N = 1 ──> 不缓存(写入费 > 节省的读取费)
│
├── N 在 2-5 之间
│ │
│ ├── 复用间隔 < 5 分钟 ──> 5min cache
│ └── 复用间隔 > 5 分钟 ──> 1h cache
│
├── N 在 6-20 之间
│ │
│ ├── 复用集中(5min 内多次) ──> 5min cache
│ └── 复用分散(贯穿 1h) ──> 1h cache
│
└── N > 20 ──> 5min cache(高频对话场景,自然续 TTL)
5 个场景实测
按 Anthropic Messages API(访问于 2026-05-19),Solopreneur SaaS 典型场景:
场景 1:客服 SaaS 工作时间(单用户 30min 一会话,日间断断续续)
- 5K token system prompt,日内复用 50 次,平均间隔 10 分钟
- 5min cache:每次都过期 → 50 次都是 cache_write → 50×5K×$3.75/M = $0.94
- 1h cache:每小时写一次,日内约 9 次写入 + 41 次 cache_read → 9×5K×$6/M + 41×5K×$0.3/M = $0.27 + $0.062 = $0.33
- 1h 省 65%
场景 2:活跃用户密集对话(10 分钟内连续 8 次)
- 5K token system,8 次调用间隔均 1 分钟
- 5min cache:首次 cache_write + 7 次 cache_read → 5K×$3.75/M + 7×5K×$0.3/M = $0.019 + $0.011 = $0.030
- 1h cache:首次 cache_write(贵)+ 7 次 cache_read → 5K×$6/M + 7×5K×$0.3/M = $0.030 + $0.011 = $0.041
- 5min 省 27%
场景 3:每 30 分钟一次 cron 任务(单日 48 次,每次同一 prompt)
- 10K token system,48 次,间隔均 30 分钟
- 5min cache:每次都过期 → 48 次都 cache_write → 48×10K×$3.75/M = $1.80
- 1h cache:每小时写一次,48 次中 24 次写、24 次读 → 24×10K×$6/M + 24×10K×$0.3/M = $1.44 + $0.072 = $1.51
- 1h 省 16%
场景 4:Agent 单 session 15 分钟内 12 次工具调用
- tools 4K + system 3K 共 7K cache 块,12 次调用,间隔均 1-2 分钟
- 5min cache:首次写 + 11 次读 → 7K×$3.75/M + 11×7K×$0.3/M = $0.026 + $0.023 = $0.049
- 1h cache:首次写贵 + 11 次读 → 7K×$6/M + 11×7K×$0.3/M = $0.042 + $0.023 = $0.065
- 5min 省 25%
场景 5:多用户共享 brand prompt(全天 1000 用户、每用户 3 次会话)
- 3K brand prompt(用户间共享、session 内复用)
- 5min cache:活跃高峰每分钟新用户进入续 TTL,基本全天命中
- 总复用 3000 次,假设 cache 全天不过期 → 1 次 cache_write + 2999 次 cache_read → 3K×$3.75/M + 2999×3K×$0.3/M = $0.011 + $2.70 = $2.71
- 1h cache:也基本全天命中,但写入贵 → 3K×$6/M + 2999×3K×$0.3/M = $0.018 + $2.70 = $2.72
- 几乎一样,选 5min(便宜 ¢0.7)
单位差异:实际月账单
把上面单次成本乘以「单 SaaS 月复用次数」就能看出年化差异。
| 场景 | 选错档月度损失 |
|---|---|
| 客服 SaaS(50 用户 × 30 天) | 选 5min 多花 $30/月 |
| 活跃对话(200 用户 × 30 天) | 选 1h 多花 $66/月 |
| 30 分钟 cron(每月 1440 次) | 选 5min 多花 $8.7/月 |
| Agent(每月 5000 session) | 选 1h 多花 $80/月 |
5 个场景全选错 → 月白扔 $50-200。Solopreneur 一年 $600-2400,值得花 30 分钟读这篇决策。
怎么落地
第一步:测一个典型路径的复用次数与间隔
按 Anthropic Messages API(访问于 2026-05-19)规范,在 SaaS 后端打日志:
log = {
"user_id": uid,
"session_id": sid,
"ts": now,
"cache_block_id": "brand-system-v3", # 标识哪个 cache 块
"cache_creation_tokens": resp.usage.cache_creation_input_tokens,
"cache_read_tokens": resp.usage.cache_read_input_tokens,
}
跑 1 周,SQL 算:
SELECT
cache_block_id,
user_id,
date_trunc('hour', ts) AS hour,
count(*) AS calls,
avg(extract(epoch from ts - lag(ts) over (partition by user_id order by ts))/60.0) AS avg_gap_min
FROM api_log
GROUP BY 1, 2, 3;
第二步:按决策树挑档
如果 avg_gap_min < 5:5min。如果 avg_gap_min 在 5-30 且 hour 内 calls ≥ 3:1h。其他情况默认 5min。
第三步:分层缓存
复杂 SaaS 可以同一请求里设多个 cache_control:
system=[
{"type": "text", "text": TOOLS_BLOCK,
"cache_control": {"type": "ephemeral", "ttl": "1h"}}, # tools 几乎不变,1h
{"type": "text", "text": BRAND_SYSTEM,
"cache_control": {"type": "ephemeral", "ttl": "1h"}}, # 品牌也少变,1h
{"type": "text", "text": USER_INSTRUCTION,
"cache_control": {"type": "ephemeral"}}, # 用户私有,5min
]
这样 tools 和 brand 享 1h 长期复用,用户私有段不浪费写入费。
中转方支持 1h 的实测办法
按 Anthropic Prompt Caching Announcement(访问于 2026-05-19),1h ttl 是 2024 年底新增能力。部分中转方协议没透传,签约前必测:
- 发一条带
"ttl": "1h"的请求 - 看响应 200 而不是 400(协议透传)
- 看账单 cache_write 行的单价是否按 2x 计(说明真走了 1h)
- 6 分钟后再发同 prompt,看 cache_read 命中(5min 早过期,只有 1h 还在)
如果三步都通过,这家中转支持 1h。Solopreneur 部署 production 前建议挑一条主推 GPT-5.5 / Claude 4.7 的低价 API 中转跑上面 4 个测试,半小时验证完。
局限
- 数据基于 2026 年 5 月 Anthropic 公开价格,Anthropic 改价时需重算
- 没区分 Sonnet 4.6 / Opus 4.7 / Haiku 4.5——三档单价不同,但倍率(1.25x / 2x / 0.1x)相同,结论一致
- 5min/1h 是当前公开档,未来可能新增档位
谁该看这篇
- 月 Claude API 账单 $100+ 的 Solopreneur
- 跑客服 SaaS / 文档 SaaS / Agent 类产品的团队
- 已经开 Prompt Caching 但还没分 TTL 的开发者
谁不该看这篇
- 月账单 < $20:省下来的钱不值得 30 分钟阅读
- 全部跑 GPT 系列:OpenAI 的 caching 没有这两档区分
- 还没开 Prompt Caching:先开 5min 跑 1 周再说