5min vs 1hour 两档对比

两档单价

Anthropic Pricing(访问于 2026-05-19)与 Prompt Caching Docs(访问于 2026-05-19)2026 年 5 月公开数据,以 Sonnet 4.6 为例(base input $3/MTok):

操作5min ephemeral1h ephemeral
cache_write 单价$3.75/MTok(1.25x)$6.00/MTok(2x)
cache_read 单价$0.30/MTok(0.1x)$0.30/MTok(0.1x)
TTL5 分钟(每次读取重置)1 小时(每次读取重置)

注:Anthropic 2024 年 11 月起所有 ephemeral cache 都「每次读取重置 TTL」,即「滑动窗口」语义,不是「固定窗口」。这个细节很多团队踩坑。

决策树

单缓存块在 1 小时窗口内复用次数 N

├── N = 1 ──> 不缓存(写入费 > 节省的读取费)

├── N 在 2-5 之间
│   │
│   ├── 复用间隔 < 5 分钟 ──> 5min cache
│   └── 复用间隔 > 5 分钟 ──> 1h cache

├── N 在 6-20 之间
│   │
│   ├── 复用集中(5min 内多次) ──> 5min cache
│   └── 复用分散(贯穿 1h) ──> 1h cache

└── N > 20 ──> 5min cache(高频对话场景,自然续 TTL)

5 个场景实测

Anthropic Messages API(访问于 2026-05-19),Solopreneur SaaS 典型场景:

场景 1:客服 SaaS 工作时间(单用户 30min 一会话,日间断断续续)

  • 5K token system prompt,日内复用 50 次,平均间隔 10 分钟
  • 5min cache:每次都过期 → 50 次都是 cache_write → 50×5K×$3.75/M = $0.94
  • 1h cache:每小时写一次,日内约 9 次写入 + 41 次 cache_read → 9×5K×$6/M + 41×5K×$0.3/M = $0.27 + $0.062 = $0.33
  • 1h 省 65%

场景 2:活跃用户密集对话(10 分钟内连续 8 次)

  • 5K token system,8 次调用间隔均 1 分钟
  • 5min cache:首次 cache_write + 7 次 cache_read → 5K×$3.75/M + 7×5K×$0.3/M = $0.019 + $0.011 = $0.030
  • 1h cache:首次 cache_write(贵)+ 7 次 cache_read → 5K×$6/M + 7×5K×$0.3/M = $0.030 + $0.011 = $0.041
  • 5min 省 27%

场景 3:每 30 分钟一次 cron 任务(单日 48 次,每次同一 prompt)

  • 10K token system,48 次,间隔均 30 分钟
  • 5min cache:每次都过期 → 48 次都 cache_write → 48×10K×$3.75/M = $1.80
  • 1h cache:每小时写一次,48 次中 24 次写、24 次读 → 24×10K×$6/M + 24×10K×$0.3/M = $1.44 + $0.072 = $1.51
  • 1h 省 16%

场景 4:Agent 单 session 15 分钟内 12 次工具调用

  • tools 4K + system 3K 共 7K cache 块,12 次调用,间隔均 1-2 分钟
  • 5min cache:首次写 + 11 次读 → 7K×$3.75/M + 11×7K×$0.3/M = $0.026 + $0.023 = $0.049
  • 1h cache:首次写贵 + 11 次读 → 7K×$6/M + 11×7K×$0.3/M = $0.042 + $0.023 = $0.065
  • 5min 省 25%

场景 5:多用户共享 brand prompt(全天 1000 用户、每用户 3 次会话)

  • 3K brand prompt(用户间共享、session 内复用)
  • 5min cache:活跃高峰每分钟新用户进入续 TTL,基本全天命中
  • 总复用 3000 次,假设 cache 全天不过期 → 1 次 cache_write + 2999 次 cache_read → 3K×$3.75/M + 2999×3K×$0.3/M = $0.011 + $2.70 = $2.71
  • 1h cache:也基本全天命中,但写入贵 → 3K×$6/M + 2999×3K×$0.3/M = $0.018 + $2.70 = $2.72
  • 几乎一样,选 5min(便宜 ¢0.7)

单位差异:实际月账单

把上面单次成本乘以「单 SaaS 月复用次数」就能看出年化差异。

场景选错档月度损失
客服 SaaS(50 用户 × 30 天)选 5min 多花 $30/月
活跃对话(200 用户 × 30 天)选 1h 多花 $66/月
30 分钟 cron(每月 1440 次)选 5min 多花 $8.7/月
Agent(每月 5000 session)选 1h 多花 $80/月

5 个场景全选错 → 月白扔 $50-200。Solopreneur 一年 $600-2400,值得花 30 分钟读这篇决策。

怎么落地

第一步:测一个典型路径的复用次数与间隔

Anthropic Messages API(访问于 2026-05-19)规范,在 SaaS 后端打日志:

log = {
    "user_id": uid,
    "session_id": sid,
    "ts": now,
    "cache_block_id": "brand-system-v3",  # 标识哪个 cache 块
    "cache_creation_tokens": resp.usage.cache_creation_input_tokens,
    "cache_read_tokens": resp.usage.cache_read_input_tokens,
}

跑 1 周,SQL 算:

SELECT
  cache_block_id,
  user_id,
  date_trunc('hour', ts) AS hour,
  count(*) AS calls,
  avg(extract(epoch from ts - lag(ts) over (partition by user_id order by ts))/60.0) AS avg_gap_min
FROM api_log
GROUP BY 1, 2, 3;

第二步:按决策树挑档

如果 avg_gap_min < 5:5min。如果 avg_gap_min 在 5-30 且 hour 内 calls ≥ 3:1h。其他情况默认 5min。

第三步:分层缓存

复杂 SaaS 可以同一请求里设多个 cache_control:

system=[
    {"type": "text", "text": TOOLS_BLOCK,
     "cache_control": {"type": "ephemeral", "ttl": "1h"}},  # tools 几乎不变,1h
    {"type": "text", "text": BRAND_SYSTEM,
     "cache_control": {"type": "ephemeral", "ttl": "1h"}},  # 品牌也少变,1h
    {"type": "text", "text": USER_INSTRUCTION,
     "cache_control": {"type": "ephemeral"}},  # 用户私有,5min
]

这样 tools 和 brand 享 1h 长期复用,用户私有段不浪费写入费。

中转方支持 1h 的实测办法

Anthropic Prompt Caching Announcement(访问于 2026-05-19),1h ttl 是 2024 年底新增能力。部分中转方协议没透传,签约前必测:

  1. 发一条带 "ttl": "1h" 的请求
  2. 看响应 200 而不是 400(协议透传)
  3. 看账单 cache_write 行的单价是否按 2x 计(说明真走了 1h)
  4. 6 分钟后再发同 prompt,看 cache_read 命中(5min 早过期,只有 1h 还在)

如果三步都通过,这家中转支持 1h。Solopreneur 部署 production 前建议挑一条主推 GPT-5.5 / Claude 4.7 的低价 API 中转跑上面 4 个测试,半小时验证完。

局限

  • 数据基于 2026 年 5 月 Anthropic 公开价格,Anthropic 改价时需重算
  • 没区分 Sonnet 4.6 / Opus 4.7 / Haiku 4.5——三档单价不同,但倍率(1.25x / 2x / 0.1x)相同,结论一致
  • 5min/1h 是当前公开档,未来可能新增档位

谁该看这篇

  • 月 Claude API 账单 $100+ 的 Solopreneur
  • 跑客服 SaaS / 文档 SaaS / Agent 类产品的团队
  • 已经开 Prompt Caching 但还没分 TTL 的开发者

谁不该看这篇

  • 月账单 < $20:省下来的钱不值得 30 分钟阅读
  • 全部跑 GPT 系列:OpenAI 的 caching 没有这两档区分
  • 还没开 Prompt Caching:先开 5min 跑 1 周再说

关联文章