测试方法与数据来源
- 数据期:2026-02 至 2026-05,3 个月独立开发者真实流量
- 应用类型:文档对话 SaaS(月活 250 用户) + 代码 Review PoC(月活 80 用户)
- 数据来源:自营数据 + 6 位 Solopreneur 朋友脱敏数据
- 模型范围:Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5、GPT-5.5 / GPT-5 / GPT-5-mini / GPT-5-nano
杠杆一:Prompt Caching
它解决什么问题
Solopreneur SaaS 的 system prompt 一般 2-8k token,每次请求都重复发送一遍,占总 token 比例高。Anthropic Prompt Caching 与 OpenAI 这边的 prompt caching 都允许把重复部分缓存,后续请求只计费一小部分。
实测压缩比
- 文档对话 SaaS(system prompt 4k token + 用户输入 500 token + 检索内容 6k token):打开 caching 后单请求 token 计费降 35-45%
- 代码 Review PoC(system prompt 6k token + 代码片段 3-12k token):降 25-40%
- 总 SaaS 月账单平均降 20-40%
适用与不适用
适合 system prompt 稳定、长度大、重复使用的场景。不适合每次 system prompt 都变(比如完全个性化系统)的场景。
杠杆二:模型分级
它解决什么问题
旗舰档 Opus 4.7 / GPT-5.5 跑全量请求很贵,但 SaaS 里其实 60-70% 任务是简单分类、摘要、格式化,用中端档甚至小档就够。模型分级 = 在请求入口做任务复杂度判断,路由到不同档位。
实测压缩比
把流量按 7:2:1 拆到 nano / mini / 旗舰三档,平均单 token 单价比全量旗舰直跑降 60-75%。这是这 6 个杠杆里 ROI 最高的一个。
怎么落地
- 简单方案:按「请求路径」硬编码路由(摘要走 nano,对话走 mini,复杂 Agent 走 Opus 4.7)
- 进阶方案:用 nano 档跑一个 classifier 判任务复杂度,动态路由
杠杆三:路由层
它解决什么问题
模型分级落地需要一个统一的请求入口。Solopreneur 直接在业务代码里写 if/else 调多家 API,代码很快变屎山。引入路由层把「provider 选择 + 模型选择 + 重试 + 降级」抽出来。
三种选择
| 方案 | 起步成本 | 灵活度 | 适合阶段 |
|---|---|---|---|
| litellm proxy 自托管 | 中 | 高 | 月用量 500-2000 美金 |
| OneAPI 自托管 | 中 | 高 | 月用量 500-2000 美金 |
| 直接用聚合中转 | 低 | 中 | 月用量 0-500 美金 |
实测影响
路由层本身不直接省钱,但它让其他杠杆更容易落地。Solopreneur PoC 阶段直接用聚合中转,营收上 500 美金后部署 litellm 或 OneAPI 是值得的投资。
杠杆四:max_tokens 截断
它解决什么问题
默认 max_tokens 设很大(4096 甚至 8192),Claude / GPT 偶尔会输出冗长内容,token 浪费严重。Solopreneur 按场景拆配置,把短回复场景的 max_tokens 卡到 800-1500。
实测压缩比
文档对话 SaaS 把 max_tokens 从 4096 卡到 1200(实际业务需求),月输出 token 账单降 10-25%(因为大部分回复实际只用 300-600 token,但偶尔会冲到 max)。
注意事项
不要全局设一个值。Coding 场景、长文生成场景需要保留高 max_tokens。
杠杆五:Batch API
它解决什么问题
OpenAI Batch API、Anthropic Batches 给非实时任务半价折扣。Solopreneur SaaS 里有不少异步任务:每天定时跑文档 embedding、回放对话分析、邮件摘要生成,这些都不需要秒回。
实测压缩比
把异步任务从实时 API 切到 batch,这部分账单直接降 50%。但如果 batch 任务在 SaaS 总账单里占比小(< 10%),整体影响就小。
适合谁
- 有定时 / 离线任务的 SaaS:必上
- 全部任务都是实时聊天的 SaaS:跳过这个杠杆
杠杆六:中转方选型
它解决什么问题
中转方加价不一样。同样调 Opus 4.7 / GPT-5.5,有的中转方加价 5%,有的加 30%。Solopreneur 货比三家就能省钱。
评估维度
| 维度 | 重要度 |
|---|---|
| 价格(相对官方加价百分比) | 高 |
| 模型覆盖(是否支持 Opus 4.7 / GPT-5.5) | 高 |
| 国内访问稳定性 | 高 |
| 是否免外卡 | 中 |
| 是否一个 key 调多家 | 中 |
| 是否提供用量统计与限额 | 中 |
| SLA 与故障历史 | 低(早期阶段) |
实测建议
PoC 阶段选「价格低 + 免外卡 + 多模型聚合」的中转,营收稳定后再评估自建 OneAPI 走官方账号。
6 种杠杆组合实测
| 组合 | 实测降本幅度 |
|---|---|
| 单独 Prompt Caching | 20-40% |
| 单独模型分级 | 60-75% |
| Caching + 模型分级 | 70-85% |
| Caching + 分级 + max_tokens 截断 | 75-88% |
| 全 6 个杠杆叠加 | 80-92%(理论极限) |
注意:80% 以上的极限组合一般会带来代码复杂度和质量风险,建议 Solopreneur 阶段先把前 3 个杠杆做扎实。
局限与未覆盖部分
- 价格随时变,各家 pricing 页是唯一权威
- 没有覆盖私有部署、本地开源模型方案
- 没有做盲测,质量评价基于真实业务反馈
- 没有覆盖企业合规审计场景
网络稳定性对省钱的隐性影响
省钱的前提是网络稳定。Solopreneur 早期阶段可以考虑一条主推 GPT-5.5 / Claude 4.7 的低价 API 中转,把模型分级、路由、免外卡几件事一次解决,把精力留给产品本身。