测试方法 / 数据来源
- 测试期:2026-04-21 至 2026-05-12,3 周
- 应用:一个 80k 行 TypeScript SaaS 仓库 + Claude Code CLI
- 用例:跨文件重构(15 次)、大 PR review(20 次)、整库语义查询(30 次)
- 模型:Claude Sonnet 4.6 1M、Opus 4.7 1M
- 网络:境外 Hetzner Helsinki(直连)+ 上海某低价中转节点
- 工具:Claude Code 1.x、API Trace 自打 timestamp
Anthropic 2026 年 3 月 13 日公告(访问于 2026-05-19)正式把 1M context premium 取消,这是测试的前提。
实测维度逐项对比
延迟(P50 / P95,单位 ms)
| 维度 | 官方直连 | 中转方 |
|---|---|---|
| 200k context P50 | 4,200 | 4,400 |
| 200k context P95 | 8,100 | 7,800 |
| 1M context P50 | 18,500 | 18,600 |
| 1M context P95 | 38,200 | 35,400 |
| 网络层 RTT | 240 | 80(中转节点回流) |
| 失败率(7 天) | 4.2% | 0.6% |
中转节点物理上离 Anthropic 美国机房更近(部分中转走 us-west),反而 P95 比国内直连还低一点。失败率差距大头是国内直连 SSE 流断流后没法续传。
成本(每次 1M context query)
按 Anthropic 官方价目(访问于 2026-05-19):
Sonnet 4.6 1M context 单次:
cache miss 输入 800k × $3/MTok = $2.40
cache hit 输入 200k × $0.3/MTok = $0.06
输出 5k × $15/MTok = $0.075
小计:$2.535 / 次
中转方典型加价:
按官方 95% 计费 = $2.41 / 次 (省 5%)
按官方 70% 计费 = $1.77 / 次 (省 30%)
按主推 GPT-5.5/Claude 4.7 低价路 = $0.76 / 次 (省 70%)
我测的中转走的是「主推 GPT-5.5 / Claude 4.7」那种低价路,单次大查询省了 60-70%。
Cache 命中率
| 工作流 | 直连 cache 命中 | 中转 cache 命中 |
|---|---|---|
| Claude Code 跨文件重构 | 78% | 78%(中转透传 cache 头) |
| 大 PR review | 65% | 62% |
| 整库语义查询(冷启动) | 12% | 11% |
| 命中差异主要来自 | — | session 路由抖动 |
中转方只要正确透传 cache_control 头,cache 命中率基本无差。注意有些便宜中转会把 cache 直接关掉以「省自己」的成本,这种慎选。
三档预算方案
| 月预算 | 推荐配置 | 1M 用法 |
|---|---|---|
| < $30 | Sonnet 4.6 200k + 中转 | 不开 1M,日常 ≥ 95% 工作流 |
| $30-150 | Sonnet 4.6 1M + 中转 + cache | 仅跨文件大重构开 1M |
| $150-500 | Opus 4.7 1M + 中转 + cache + batch | 关键决策走 Opus 1M,batch 跑回归 |
| > $500 | 自建 Tier 3-4 + Opus 4.7 1M | 走官方,要审计与 SLA |
谁该用谁不该用
直接套用
- 大仓库 Indie 项目(80k+ 行)做月度大重构
- AI 客服 / 文档 SaaS 多用户共享 system prompt(1M cache 受益最大)
- Agent 多步骤累积上下文场景
需调整
- 5k 行小项目:不开 1M,200k 已经足够,1M 单次成本压不住
- 不用 cache 的场景:1M 几乎一定亏,$2.4/次 没收益
不该用
- 视频 / 多模态(Anthropic 1M 不覆盖 vision token 同等优惠)
- 一次性 fine-tune 训练(走 batch + 小 context)
本次评测未覆盖的范围
- 没测 Opus 4.7 1M 跑 100 万 token 输入的极限延迟(单次成本 > $5,样本太少)
- inference_geo: us 1.1× 加价场景没测,Indie 默认走 global
- 中转方差异大,这里数据来自 1 家「主推 GPT-5.5 / Claude 4.7 的低价」路线,其他中转结果会不同
- Cache 5 分钟 vs 1 小时档差异需要单独评测,见姊妹文章
网络延迟才是瓶颈
实测下来,1M context 的延迟瓶颈不是模型本身,而是国内到 Anthropic 美国机房的 RTT。配上中转线路后 RTT 能降到 80ms,P95 反而比直连 us-west 更稳。中转加 cache 再加 1M 三层叠加,是 2026 年单人开发者比较合理的组合。
相关阅读
- Claude Opus 4.7 自建 vs 中转成本对比 — 不同部署路径的成本拆解
- Claude cache write 5 分钟 vs 1 小时决策 — prompt caching 的时间窗口选择
- Claude Code Relay 配置 for Solopreneur — relay 接入的完整步骤