Prompt Caching 对 Claude 4.7 / GPT-5.5 真能省那么多吗?

Anthropic Prompt Caching 文档里给出的省钱杠杆,对重复 system prompt 在合适场景能压缩 50-90%。OpenAI 这一侧也有 prompt 。完整步骤、表格和例外情况请查看原文。

模型分级具体怎么落地?

三档:简单任务(标签 / 摘要 / 格式化)用 Haiku 4.5 或 GPT-5-nano,通用对话用 Sonnet 4.6 或 GPT-5-mini,复杂推理 / Agent 。完整步骤、表格和例外情况请查看原文。

路由层用什么组件最省心?

Solopreneur 阶段三选一:a) litellm proxy 自托管,完全可控但要运维;b) OneAPI 自托管,聚合多家中转和官方账号统一计费;c) 直接用一家聚合好的。完整步骤、表格和例外情况请查看原文。

低价跑 Claude 4.7/GPT-5.5 实测

测试方法与数据来源

数据期:2026-02 至 2026-05,3 个月独立开发者真实流量
应用类型:文档对话 SaaS(月活 250 用户) + 代码 Review PoC(月活 80 用户)
数据来源:自营数据 + 6 位 Solopreneur 朋友脱敏数据
模型范围:Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5、GPT-5.5 / GPT-5 / GPT-5-mini / GPT-5-nano

杠杆一:Prompt Caching

它解决什么问题

Solopreneur SaaS 的 system prompt 一般 2-8k token,每次请求都重复发送一遍,占总 token 比例高。Anthropic Prompt Caching 与 OpenAI 这边的 prompt caching 都允许把重复部分缓存,后续请求只计费一小部分。

实测压缩比

文档对话 SaaS(system prompt 4k token + 用户输入 500 token + 检索内容 6k token):打开 caching 后单请求 token 计费降 35-45%
代码 Review PoC(system prompt 6k token + 代码片段 3-12k token):降 25-40%
总 SaaS 月账单平均降 20-40%

适用与不适用

适合 system prompt 稳定、长度大、重复使用的场景。不适合每次 system prompt 都变(比如完全个性化系统)的场景。

杠杆二:模型分级

它解决什么问题

旗舰档 Opus 4.7 / GPT-5.5 跑全量请求很贵,但 SaaS 里其实 60-70% 任务是简单分类、摘要、格式化,用中端档甚至小档就够。模型分级 = 在请求入口做任务复杂度判断,路由到不同档位。

实测压缩比

把流量按 7:2:1 拆到 nano / mini / 旗舰三档,平均单 token 单价比全量旗舰直跑降 60-75%。这是这 6 个杠杆里 ROI 最高的一个。

怎么落地

简单方案:按「请求路径」硬编码路由(摘要走 nano,对话走 mini,复杂 Agent 走 Opus 4.7)
进阶方案:用 nano 档跑一个 classifier 判任务复杂度,动态路由

杠杆三:路由层

它解决什么问题

模型分级落地需要一个统一的请求入口。Solopreneur 直接在业务代码里写 if/else 调多家 API,代码很快变屎山。引入路由层把「provider 选择 + 模型选择 + 重试 + 降级」抽出来。

三种选择

方案	起步成本	灵活度	适合阶段
litellm proxy 自托管	中	高	月用量 500-2000 美金
OneAPI 自托管	中	高	月用量 500-2000 美金
直接用聚合中转	低	中	月用量 0-500 美金

实测影响

路由层本身不直接省钱,但它让其他杠杆更容易落地。Solopreneur PoC 阶段直接用聚合中转,营收上 500 美金后部署 litellm 或 OneAPI 是值得的投资。

杠杆四:max_tokens 截断

它解决什么问题

默认 max_tokens 设很大(4096 甚至 8192),Claude / GPT 偶尔会输出冗长内容,token 浪费严重。Solopreneur 按场景拆配置,把短回复场景的 max_tokens 卡到 800-1500。

实测压缩比

文档对话 SaaS 把 max_tokens 从 4096 卡到 1200(实际业务需求),月输出 token 账单降 10-25%(因为大部分回复实际只用 300-600 token,但偶尔会冲到 max)。

注意事项

不要全局设一个值。Coding 场景、长文生成场景需要保留高 max_tokens。

杠杆五:Batch API

它解决什么问题

OpenAI Batch API、Anthropic Batches 给非实时任务半价折扣。Solopreneur SaaS 里有不少异步任务:每天定时跑文档 embedding、回放对话分析、邮件摘要生成,这些都不需要秒回。

实测压缩比

把异步任务从实时 API 切到 batch,这部分账单直接降 50%。但如果 batch 任务在 SaaS 总账单里占比小(< 10%),整体影响就小。

适合谁

有定时 / 离线任务的 SaaS:必上
全部任务都是实时聊天的 SaaS:跳过这个杠杆

杠杆六:中转方选型

它解决什么问题

中转方加价不一样。同样调 Opus 4.7 / GPT-5.5,有的中转方加价 5%,有的加 30%。Solopreneur 货比三家就能省钱。

评估维度

维度	重要度
价格(相对官方加价百分比)	高
模型覆盖(是否支持 Opus 4.7 / GPT-5.5)	高
国内访问稳定性	高
是否免外卡	中
是否一个 key 调多家	中
是否提供用量统计与限额	中
SLA 与故障历史	低(早期阶段)

实测建议

PoC 阶段选「价格低 + 免外卡 + 多模型聚合」的中转,营收稳定后再评估自建 OneAPI 走官方账号。

6 种杠杆组合实测

组合	实测降本幅度
单独 Prompt Caching	20-40%
单独模型分级	60-75%
Caching + 模型分级	70-85%
Caching + 分级 + max_tokens 截断	75-88%
全 6 个杠杆叠加	80-92%(理论极限)

注意:80% 以上的极限组合一般会带来代码复杂度和质量风险,建议 Solopreneur 阶段先把前 3 个杠杆做扎实。

局限与未覆盖部分

价格随时变,各家 pricing 页是唯一权威
没有覆盖私有部署、本地开源模型方案
没有做盲测,质量评价基于真实业务反馈
没有覆盖企业合规审计场景

网络稳定性对省钱的隐性影响

省钱的前提是网络稳定。Solopreneur 早期阶段可以考虑一条主推 GPT-5.5 / Claude 4.7 的低价 API 中转,把模型分级、路由、免外卡几件事一次解决,把精力留给产品本身。

低价跑 Claude 4.7/GPT-5.5 实测

测试方法与数据来源

杠杆一:Prompt Caching

它解决什么问题

实测压缩比

适用与不适用

杠杆二:模型分级

它解决什么问题

实测压缩比

怎么落地

杠杆三:路由层

它解决什么问题

三种选择

实测影响

杠杆四:max_tokens 截断

它解决什么问题

实测压缩比

注意事项

杠杆五:Batch API

它解决什么问题

实测压缩比

适合谁

杠杆六:中转方选型

它解决什么问题

评估维度

实测建议

6 种杠杆组合实测

局限与未覆盖部分

网络稳定性对省钱的隐性影响

相关阅读

参考来源

常见问题