测试方法 / 数据来源

  • 测试期:2026-04-21 至 2026-05-12,3 周
  • 应用:一个 80k 行 TypeScript SaaS 仓库 + Claude Code CLI
  • 用例:跨文件重构(15 次)、大 PR review(20 次)、整库语义查询(30 次)
  • 模型:Claude Sonnet 4.6 1M、Opus 4.7 1M
  • 网络:境外 Hetzner Helsinki(直连)+ 上海某低价中转节点
  • 工具:Claude Code 1.x、API Trace 自打 timestamp

Anthropic 2026 年 3 月 13 日公告(访问于 2026-05-19)正式把 1M context premium 取消,这是测试的前提。

实测维度逐项对比

延迟(P50 / P95,单位 ms)

维度官方直连中转方
200k context P504,2004,400
200k context P958,1007,800
1M context P5018,50018,600
1M context P9538,20035,400
网络层 RTT24080(中转节点回流)
失败率(7 天)4.2%0.6%

中转节点物理上离 Anthropic 美国机房更近(部分中转走 us-west),反而 P95 比国内直连还低一点。失败率差距大头是国内直连 SSE 流断流后没法续传。

成本(每次 1M context query)

Anthropic 官方价目(访问于 2026-05-19):

Sonnet 4.6 1M context 单次:
  cache miss 输入 800k × $3/MTok  = $2.40
  cache hit  输入 200k × $0.3/MTok = $0.06
  输出 5k × $15/MTok               = $0.075
  小计:$2.535 / 次

中转方典型加价:
  按官方 95% 计费    = $2.41 / 次  (省 5%)
  按官方 70% 计费    = $1.77 / 次  (省 30%)
  按主推 GPT-5.5/Claude 4.7 低价路 = $0.76 / 次  (省 70%)

我测的中转走的是「主推 GPT-5.5 / Claude 4.7」那种低价路,单次大查询省了 60-70%。

Cache 命中率

工作流直连 cache 命中中转 cache 命中
Claude Code 跨文件重构78%78%(中转透传 cache 头)
大 PR review65%62%
整库语义查询(冷启动)12%11%
命中差异主要来自session 路由抖动

中转方只要正确透传 cache_control 头,cache 命中率基本无差。注意有些便宜中转会把 cache 直接关掉以「省自己」的成本,这种慎选。

三档预算方案

月预算推荐配置1M 用法
< $30Sonnet 4.6 200k + 中转不开 1M,日常 ≥ 95% 工作流
$30-150Sonnet 4.6 1M + 中转 + cache仅跨文件大重构开 1M
$150-500Opus 4.7 1M + 中转 + cache + batch关键决策走 Opus 1M,batch 跑回归
> $500自建 Tier 3-4 + Opus 4.7 1M走官方,要审计与 SLA

谁该用谁不该用

直接套用

  • 大仓库 Indie 项目(80k+ 行)做月度大重构
  • AI 客服 / 文档 SaaS 多用户共享 system prompt(1M cache 受益最大)
  • Agent 多步骤累积上下文场景

需调整

  • 5k 行小项目:不开 1M,200k 已经足够,1M 单次成本压不住
  • 不用 cache 的场景:1M 几乎一定亏,$2.4/次 没收益

不该用

  • 视频 / 多模态(Anthropic 1M 不覆盖 vision token 同等优惠)
  • 一次性 fine-tune 训练(走 batch + 小 context)

本次评测未覆盖的范围

  • 没测 Opus 4.7 1M 跑 100 万 token 输入的极限延迟(单次成本 > $5,样本太少)
  • inference_geo: us 1.1× 加价场景没测,Indie 默认走 global
  • 中转方差异大,这里数据来自 1 家「主推 GPT-5.5 / Claude 4.7 的低价」路线,其他中转结果会不同
  • Cache 5 分钟 vs 1 小时档差异需要单独评测,见姊妹文章

网络延迟才是瓶颈

实测下来,1M context 的延迟瓶颈不是模型本身,而是国内到 Anthropic 美国机房的 RTT。配上中转线路后 RTT 能降到 80ms,P95 反而比直连 us-west 更稳。中转加 cache 再加 1M 三层叠加,是 2026 年单人开发者比较合理的组合。

相关阅读