5min 与 1h 两档具体差什么?

按 [Anthropic Prompt Caching Docs](https://docs.claude.com/en/docs/build-with-claude/prompt。完整步骤、表格和例外情况请查看原文。

什么时候 1h 比 5min 更省?

复用间隔超过 5 分钟但低于 1 小时,且总复用次数足够摊薄那 0.75x 的额外写入成本时。简单公式:1h 比 5min 优势 = 「5min 重复写入次数 × 1.25x」vs。完整步骤、表格和例外情况请查看原文。

Solopreneur 默认选哪档?

默认 5min。理由:a) 大部分 SaaS 是「用户活跃期内密集对话」模式,5min 内 10+ 次调用很常见;b) 1h 写入贵 60%,选错档反而吃亏;c) 5min 倍率。完整步骤、表格和例外情况请查看原文。

Claude Cache 5min vs 1hour 选型决策树 | 对比判断

5min vs 1hour 两档对比

两档单价

按 Anthropic Pricing(访问于 2026-05-19)与 Prompt Caching Docs(访问于 2026-05-19)2026 年 5 月公开数据,以 Sonnet 4.6 为例(base input $3/MTok):

操作	5min ephemeral	1h ephemeral
cache_write 单价	$3.75/MTok(1.25x)	$6.00/MTok(2x)
cache_read 单价	$0.30/MTok(0.1x)	$0.30/MTok(0.1x)
TTL	5 分钟(每次读取重置)	1 小时(每次读取重置)

注:Anthropic 2024 年 11 月起所有 ephemeral cache 都「每次读取重置 TTL」,即「滑动窗口」语义,不是「固定窗口」。这个细节很多团队踩坑。

决策树

单缓存块在 1 小时窗口内复用次数 N
│
├── N = 1 ──> 不缓存(写入费 > 节省的读取费)
│
├── N 在 2-5 之间
│   │
│   ├── 复用间隔 < 5 分钟 ──> 5min cache
│   └── 复用间隔 > 5 分钟 ──> 1h cache
│
├── N 在 6-20 之间
│   │
│   ├── 复用集中(5min 内多次) ──> 5min cache
│   └── 复用分散(贯穿 1h) ──> 1h cache
│
└── N > 20 ──> 5min cache(高频对话场景,自然续 TTL)

5 个场景实测

按 Anthropic Messages API(访问于 2026-05-19),Solopreneur SaaS 典型场景:

场景 1:客服 SaaS 工作时间(单用户 30min 一会话,日间断断续续)

5K token system prompt,日内复用 50 次,平均间隔 10 分钟
5min cache:每次都过期 → 50 次都是 cache_write → 50×5K×$3.75/M = $0.94
1h cache:每小时写一次,日内约 9 次写入 + 41 次 cache_read → 9×5K×$6/M + 41×5K×$0.3/M = $0.27 + $0.062 = $0.33
1h 省 65%

场景 2:活跃用户密集对话(10 分钟内连续 8 次)

5K token system,8 次调用间隔均 1 分钟
5min cache:首次 cache_write + 7 次 cache_read → 5K×$3.75/M + 7×5K×$0.3/M = $0.019 + $0.011 = $0.030
1h cache:首次 cache_write(贵)+ 7 次 cache_read → 5K×$6/M + 7×5K×$0.3/M = $0.030 + $0.011 = $0.041
5min 省 27%

场景 3:每 30 分钟一次 cron 任务(单日 48 次,每次同一 prompt)

10K token system,48 次,间隔均 30 分钟
5min cache:每次都过期 → 48 次都 cache_write → 48×10K×$3.75/M = $1.80
1h cache:每小时写一次,48 次中 24 次写、24 次读 → 24×10K×$6/M + 24×10K×$0.3/M = $1.44 + $0.072 = $1.51
1h 省 16%

场景 4:Agent 单 session 15 分钟内 12 次工具调用

tools 4K + system 3K 共 7K cache 块,12 次调用,间隔均 1-2 分钟
5min cache:首次写 + 11 次读 → 7K×$3.75/M + 11×7K×$0.3/M = $0.026 + $0.023 = $0.049
1h cache:首次写贵 + 11 次读 → 7K×$6/M + 11×7K×$0.3/M = $0.042 + $0.023 = $0.065
5min 省 25%

场景 5:多用户共享 brand prompt(全天 1000 用户、每用户 3 次会话)

3K brand prompt(用户间共享、session 内复用)
5min cache:活跃高峰每分钟新用户进入续 TTL,基本全天命中
总复用 3000 次,假设 cache 全天不过期 → 1 次 cache_write + 2999 次 cache_read → 3K×$3.75/M + 2999×3K×$0.3/M = $0.011 + $2.70 = $2.71
1h cache:也基本全天命中,但写入贵 → 3K×$6/M + 2999×3K×$0.3/M = $0.018 + $2.70 = $2.72
几乎一样,选 5min(便宜 ¢0.7)

单位差异:实际月账单

把上面单次成本乘以「单 SaaS 月复用次数」就能看出年化差异。

场景	选错档月度损失
客服 SaaS(50 用户 × 30 天)	选 5min 多花 $30/月
活跃对话(200 用户 × 30 天)	选 1h 多花 $66/月
30 分钟 cron(每月 1440 次)	选 5min 多花 $8.7/月
Agent(每月 5000 session)	选 1h 多花 $80/月

5 个场景全选错 → 月白扔 $50-200。Solopreneur 一年 $600-2400,值得花 30 分钟读这篇决策。

怎么落地

第一步：测一个典型路径的复用次数与间隔

按 Anthropic Messages API(访问于 2026-05-19)规范,在 SaaS 后端打日志:

log = {
    "user_id": uid,
    "session_id": sid,
    "ts": now,
    "cache_block_id": "brand-system-v3",  # 标识哪个 cache 块
    "cache_creation_tokens": resp.usage.cache_creation_input_tokens,
    "cache_read_tokens": resp.usage.cache_read_input_tokens,
}

跑 1 周,SQL 算:

SELECT
  cache_block_id,
  user_id,
  date_trunc('hour', ts) AS hour,
  count(*) AS calls,
  avg(extract(epoch from ts - lag(ts) over (partition by user_id order by ts))/60.0) AS avg_gap_min
FROM api_log
GROUP BY 1, 2, 3;

第二步：按决策树挑档

如果 avg_gap_min < 5:5min。如果 avg_gap_min 在 5-30 且 hour 内 calls ≥ 3:1h。其他情况默认 5min。

第三步：分层缓存

复杂 SaaS 可以同一请求里设多个 cache_control:

system=[
    {"type": "text", "text": TOOLS_BLOCK,
     "cache_control": {"type": "ephemeral", "ttl": "1h"}},  # tools 几乎不变,1h
    {"type": "text", "text": BRAND_SYSTEM,
     "cache_control": {"type": "ephemeral", "ttl": "1h"}},  # 品牌也少变,1h
    {"type": "text", "text": USER_INSTRUCTION,
     "cache_control": {"type": "ephemeral"}},  # 用户私有,5min
]

这样 tools 和 brand 享 1h 长期复用,用户私有段不浪费写入费。

中转方支持 1h 的实测办法

按 Anthropic Prompt Caching Announcement(访问于 2026-05-19),1h ttl 是 2024 年底新增能力。部分中转方协议没透传,签约前必测:

发一条带 "ttl": "1h" 的请求
看响应 200 而不是 400(协议透传)
看账单 cache_write 行的单价是否按 2x 计(说明真走了 1h)
6 分钟后再发同 prompt,看 cache_read 命中(5min 早过期,只有 1h 还在)

如果三步都通过,这家中转支持 1h。Solopreneur 部署 production 前建议挑一条主推 GPT-5.5 / Claude 4.7 的低价 API 中转跑上面 4 个测试,半小时验证完。

局限

数据基于 2026 年 5 月 Anthropic 公开价格,Anthropic 改价时需重算
没区分 Sonnet 4.6 / Opus 4.7 / Haiku 4.5——三档单价不同,但倍率(1.25x / 2x / 0.1x)相同,结论一致
5min/1h 是当前公开档,未来可能新增档位