为什么需要混合方案
企业出海 AI 团队通常被三个目标同时拉扯:
- 合规限制:含 PII / 商业机密的请求必须留在企业控制的网络与账户内
- 主路质量:核心产品体验依赖旗舰模型(Claude Opus 4.7 / GPT-5.5)
- 预算弹性:实验性流量、突发高峰、小项目原型不能把主预算撑爆
单一方案各有死穴。纯自托管把所有合规问题包圆,但旗舰 Claude / GPT 闭源拿不到;纯 Bedrock 解决质量与运营,但部分行业的「数据不离开 VPC」要求 Bedrock 自家也满足不了完全私有部署;纯中转便宜灵活,但合规审计基本过不去。混合架构是绕不开的现实。
AWS 官方文档(访问于 2026-05-19)明确指出 Bedrock 不提供 on-prem 安装,但通过 PrivateLink + VPC Endpoint 可以把 API 调用锁在企业 VPC 内,不走公网。
三层架构总览
┌────────────────────────────────────────────────────┐
│ 应用层(router / LiteLLM / 自研网关) │
└────────────────────┬───────────────────────────────┘
┌─────────────┼─────────────┐
│ │ │
▼ ▼ ▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│ VPC GLM-5│ │ Bedrock │ │ 中转方 │
│ S 流量 │ │ Claude │ │ L 流量 / │
│ (敏感) │ │ 4.7 主路 │ │ 兜底 │
└──────────┘ └──────────┘ └──────────┘
In-Region Anthropic 多厂聚合
PrivateLink 价持平 一个 key
| 层 | 模型 | 处理流量 | 网络路径 |
|---|---|---|---|
| L1 VPC | GLM-5(Bedrock In-Region)/ 自托管 Llama | S 级:含 PII / 商业机密 | PrivateLink 全程私网 |
| L2 Bedrock | Claude Opus 4.7 / Sonnet 4.6 | M 级:合规可放单 Region | VPC Endpoint 出 AWS 骨干 |
| L3 中转 | 多厂聚合 | L 级:无敏感数据 + 兜底 + 实验 | 公网 / 中转方专线 |
梳理流量分级
合规先于工程,把请求按数据敏感度分三档,再决定走哪一层:
| 档位 | 内容样本 | 路由层 |
|---|---|---|
| S 级 | 用户简历 / 合同 / 内部代码 / 医疗影像描述 | L1 VPC |
| M 级 | 客服对话 / 一般文档 RAG / 公开知识问答 | L2 Bedrock |
| L 级 | 营销文案 / 公开数据摘要 / Demo / 内部实验 | L3 中转 |
档位定下后,在请求入口打 x-data-sensitivity header,router 按 header 决定走哪条路。
VPC 内 GLM-5 推理面
GLM-5 是 AWS 在 2026-04 加进 Bedrock 的中文友好模型(访问于 2026-05-19),支持 Converse API + 工具调用。出海 SaaS 面向亚太用户时,主路用 GLM-5 处理 S 级中文敏感请求性价比比 Claude 高。
VPC Endpoint 配置:
# Terraform 示例
resource "aws_vpc_endpoint" "bedrock_runtime" {
vpc_id = aws_vpc.main.id
service_name = "com.amazonaws.ap-southeast-1.bedrock-runtime"
vpc_endpoint_type = "Interface"
subnet_ids = aws_subnet.private[*].id
private_dns_enabled = true
security_group_ids = [aws_security_group.bedrock_endpoint.id]
}
调用端固定 In-Region 推理参数:
import boto3
client = boto3.client(
"bedrock-runtime",
region_name="ap-southeast-1",
endpoint_url="https://bedrock-runtime.ap-southeast-1.amazonaws.com",
)
resp = client.converse(
modelId="zai.glm-5-v1:0",
messages=[...],
inferenceConfig={"maxTokens": 4096, "temperature": 0.3},
)
IAM principal 级别成本归因(2026-04 后新功能):每次调用自动写入 CUR 2.0,按 IAM tag 拆 team / project / cost center 的账单。
Bedrock Claude 4.7 主路
Claude Opus 4.7 在 2026-04 上线 Bedrock(访问于 2026-05-19),1M 上下文,与 Anthropic 官方 API 价持平——这一点是关键,意味着把主路放 Bedrock 没有「云溢价惩罚」。
主路 router 逻辑示例:
def route_main(prompt_complexity, user_tier):
if prompt_complexity == "high" or user_tier == "enterprise":
return ("bedrock", "anthropic.claude-opus-4-7-20260416-v1:0")
elif prompt_complexity == "medium":
return ("bedrock", "anthropic.claude-sonnet-4-6-20260201-v1:0")
else:
return ("bedrock", "anthropic.claude-haiku-4-5-20251101-v1:0")
Bedrock 三档:Standard 按需付费、Priority 时段承诺、Reserved 预留容量。出海创业期建议先 Standard 跑 1-2 个月看实际曲线,再决定要不要 Priority。
中转兜底层
中转层挂在 router 后面做两件事:
- fallback:Bedrock 区域临时不可用 / 限速触顶时,降级走中转 same-model
- L 级流量:无敏感数据的实验、Demo、市场文案,跑独立中转 key,与主预算隔离
国内研发同事访问 Bedrock 控制台与 Anthropic console 经常被风控,稳定运维需要一条主推 GPT-5.5 / Claude 4.7 的低价 API 中转做并行通道,与 Bedrock 主路价差还能用于成本审计的参照基线。
LiteLLM 配置示例:
model_list:
- model_name: opus-main
litellm_params:
model: bedrock/anthropic.claude-opus-4-7-20260416-v1:0
aws_region_name: ap-southeast-1
- model_name: opus-fallback
litellm_params:
model: anthropic/claude-opus-4-7
api_base: https://你的中转域名
api_key: os.environ/RELAY_API_KEY
router_settings:
fallbacks:
- opus-main: ["opus-fallback"]
num_retries: 2
timeout: 30
统一成本归因
三层各自的账单来源:
| 层 | 账单来源 | 维度 |
|---|---|---|
| L1 VPC | CUR 2.0 + IAM principal tag | team / project |
| L2 Bedrock | CUR 2.0 + IAM principal tag | team / project |
| L3 中转 | 中转方 dashboard 导出 | 子 key / 应用 |
每月跑一次归一化脚本,按 (team, project, layer, model, tokens, cost_usd) 五元组入仓,做毛利率比对:
team=growth, project=copywriter
L1 GLM-5 : $0 (无敏感数据,不用 L1)
L2 Sonnet 4.6: $124
L3 中转 Opus : $38
合计 : $162
营收占比 : 9.2%
Solopreneur 简化版
全套企业架构对一人公司过重,但思路同样适用:
| 企业层 | Solopreneur 等价 |
|---|---|
| L1 VPC GLM-5 | 本地 dev 跑 Ollama / 不存敏感数据 |
| L2 Bedrock 主路 | Anthropic / OpenAI 官方账号(海外卡) |
| L3 中转兜底 | 独立中转 key,fallback + 小实验流量 |
月成本 100-300 美金的 Solopreneur,也能从「主路 + 中转兜底」结构里拿到 30% 左右的弹性收益。
落地节奏
Week 1-2:流量分级 + S/M/L 档位定义、IAM tag 设计
Week 3-4:VPC Endpoint + GLM-5 接入 + In-Region 测试
Week 5-6:Bedrock Claude 4.7 主路上线,router 灰度 10%
Week 7-8:中转兜底 + LiteLLM 接入 + fallback 演练
Week 9+:成本归因 dashboard + 月度复盘流程