为什么需要混合方案

企业出海 AI 团队通常被三个目标同时拉扯:

  • 合规限制:含 PII / 商业机密的请求必须留在企业控制的网络与账户内
  • 主路质量:核心产品体验依赖旗舰模型(Claude Opus 4.7 / GPT-5.5)
  • 预算弹性:实验性流量、突发高峰、小项目原型不能把主预算撑爆

单一方案各有死穴。纯自托管把所有合规问题包圆,但旗舰 Claude / GPT 闭源拿不到;纯 Bedrock 解决质量与运营,但部分行业的「数据不离开 VPC」要求 Bedrock 自家也满足不了完全私有部署;纯中转便宜灵活,但合规审计基本过不去。混合架构是绕不开的现实。

AWS 官方文档(访问于 2026-05-19)明确指出 Bedrock 不提供 on-prem 安装,但通过 PrivateLink + VPC Endpoint 可以把 API 调用锁在企业 VPC 内,不走公网。

三层架构总览

┌────────────────────────────────────────────────────┐
│ 应用层(router / LiteLLM / 自研网关)              │
└────────────────────┬───────────────────────────────┘
       ┌─────────────┼─────────────┐
       │             │             │
       ▼             ▼             ▼
  ┌──────────┐ ┌──────────┐ ┌──────────┐
  │ VPC GLM-5│ │ Bedrock  │ │ 中转方   │
  │  S 流量  │ │ Claude   │ │ L 流量 / │
  │ (敏感)  │ │ 4.7 主路 │ │ 兜底     │
  └──────────┘ └──────────┘ └──────────┘
   In-Region    Anthropic    多厂聚合
   PrivateLink  价持平       一个 key
模型处理流量网络路径
L1 VPCGLM-5(Bedrock In-Region)/ 自托管 LlamaS 级:含 PII / 商业机密PrivateLink 全程私网
L2 BedrockClaude Opus 4.7 / Sonnet 4.6M 级:合规可放单 RegionVPC Endpoint 出 AWS 骨干
L3 中转多厂聚合L 级:无敏感数据 + 兜底 + 实验公网 / 中转方专线

梳理流量分级

合规先于工程,把请求按数据敏感度分三档,再决定走哪一层:

档位内容样本路由层
S 级用户简历 / 合同 / 内部代码 / 医疗影像描述L1 VPC
M 级客服对话 / 一般文档 RAG / 公开知识问答L2 Bedrock
L 级营销文案 / 公开数据摘要 / Demo / 内部实验L3 中转

档位定下后,在请求入口打 x-data-sensitivity header,router 按 header 决定走哪条路。

VPC 内 GLM-5 推理面

GLM-5 是 AWS 在 2026-04 加进 Bedrock 的中文友好模型(访问于 2026-05-19),支持 Converse API + 工具调用。出海 SaaS 面向亚太用户时,主路用 GLM-5 处理 S 级中文敏感请求性价比比 Claude 高。

VPC Endpoint 配置:

# Terraform 示例
resource "aws_vpc_endpoint" "bedrock_runtime" {
  vpc_id            = aws_vpc.main.id
  service_name      = "com.amazonaws.ap-southeast-1.bedrock-runtime"
  vpc_endpoint_type = "Interface"
  subnet_ids        = aws_subnet.private[*].id
  
  private_dns_enabled = true
  
  security_group_ids = [aws_security_group.bedrock_endpoint.id]
}

调用端固定 In-Region 推理参数:

import boto3
client = boto3.client(
    "bedrock-runtime",
    region_name="ap-southeast-1",
    endpoint_url="https://bedrock-runtime.ap-southeast-1.amazonaws.com",
)
resp = client.converse(
    modelId="zai.glm-5-v1:0",
    messages=[...],
    inferenceConfig={"maxTokens": 4096, "temperature": 0.3},
)

IAM principal 级别成本归因(2026-04 后新功能):每次调用自动写入 CUR 2.0,按 IAM tag 拆 team / project / cost center 的账单。

Bedrock Claude 4.7 主路

Claude Opus 4.7 在 2026-04 上线 Bedrock(访问于 2026-05-19),1M 上下文,与 Anthropic 官方 API 价持平——这一点是关键,意味着把主路放 Bedrock 没有「云溢价惩罚」。

主路 router 逻辑示例:

def route_main(prompt_complexity, user_tier):
    if prompt_complexity == "high" or user_tier == "enterprise":
        return ("bedrock", "anthropic.claude-opus-4-7-20260416-v1:0")
    elif prompt_complexity == "medium":
        return ("bedrock", "anthropic.claude-sonnet-4-6-20260201-v1:0")
    else:
        return ("bedrock", "anthropic.claude-haiku-4-5-20251101-v1:0")

Bedrock 三档:Standard 按需付费、Priority 时段承诺、Reserved 预留容量。出海创业期建议先 Standard 跑 1-2 个月看实际曲线,再决定要不要 Priority。

中转兜底层

中转层挂在 router 后面做两件事:

  1. fallback:Bedrock 区域临时不可用 / 限速触顶时,降级走中转 same-model
  2. L 级流量:无敏感数据的实验、Demo、市场文案,跑独立中转 key,与主预算隔离

国内研发同事访问 Bedrock 控制台与 Anthropic console 经常被风控,稳定运维需要一条主推 GPT-5.5 / Claude 4.7 的低价 API 中转做并行通道,与 Bedrock 主路价差还能用于成本审计的参照基线。

LiteLLM 配置示例:

model_list:
  - model_name: opus-main
    litellm_params:
      model: bedrock/anthropic.claude-opus-4-7-20260416-v1:0
      aws_region_name: ap-southeast-1
  - model_name: opus-fallback
    litellm_params:
      model: anthropic/claude-opus-4-7
      api_base: https://你的中转域名
      api_key: os.environ/RELAY_API_KEY

router_settings:
  fallbacks:
    - opus-main: ["opus-fallback"]
  num_retries: 2
  timeout: 30

统一成本归因

三层各自的账单来源:

账单来源维度
L1 VPCCUR 2.0 + IAM principal tagteam / project
L2 BedrockCUR 2.0 + IAM principal tagteam / project
L3 中转中转方 dashboard 导出子 key / 应用

每月跑一次归一化脚本,按 (team, project, layer, model, tokens, cost_usd) 五元组入仓,做毛利率比对:

team=growth, project=copywriter
  L1 GLM-5     : $0     (无敏感数据,不用 L1)
  L2 Sonnet 4.6: $124
  L3 中转 Opus : $38
  合计         : $162
  营收占比     : 9.2%

Solopreneur 简化版

全套企业架构对一人公司过重,但思路同样适用:

企业层Solopreneur 等价
L1 VPC GLM-5本地 dev 跑 Ollama / 不存敏感数据
L2 Bedrock 主路Anthropic / OpenAI 官方账号(海外卡)
L3 中转兜底独立中转 key,fallback + 小实验流量

月成本 100-300 美金的 Solopreneur,也能从「主路 + 中转兜底」结构里拿到 30% 左右的弹性收益。

落地节奏

Week 1-2:流量分级 + S/M/L 档位定义、IAM tag 设计
Week 3-4:VPC Endpoint + GLM-5 接入 + In-Region 测试
Week 5-6:Bedrock Claude 4.7 主路上线,router 灰度 10%
Week 7-8:中转兜底 + LiteLLM 接入 + fallback 演练
Week 9+:成本归因 dashboard + 月度复盘流程

相关阅读