2026 年 5 月的最后一周,大公司的 AI 预算一个接一个爆了。
5 月 21 日,微软内部邮件流出:近 10 万名工程师的 Claude Code 许可将在 6 月 30 日前被取消,迁移目标是自己家的 GitHub Copilot CLI。5 月 26 日,Uber CTO 在内部全员会上承认,全年 34 亿美元的 AI 预算在 4 个月内就烧完了——而且他「还没看到 token 支出和产品功能产出之间的清晰关联」。
更早的 4 月 28 日,NVIDIA VP Bryan Catanzaro 在接受 Axios 采访时说了一句后来被反复引用的话:「我团队的算力成本远超员工成本」。英伟达是卖 GPU 的,这句话从他们自己高管嘴里出来,比任何分析报告都直接。
三个事件的时间线与数字
| 事件 | 日期 | 核心数据 | 驱动因素 |
|---|---|---|---|
| NVIDIA VP 警告 | 4 月 28 日 | 算力成本 > 员工成本 | 内部 AI 研究团队的真实账单 |
| 微软取消 Claude Code | 5 月 21 日 | 10 万工程师受影响,限期 6/30 迁移 | 财务部门「紧急刹车」 |
| Uber 预算烧穿 | 5 月 26 日 | 34 亿美元 4 个月耗尽 | 5000 工程师月均 $500-$2000 API 费 |
| Copilot 转向用量计费 | 6 月 1 日生效 | 从固定订阅切换为 AI Credits | 全行业从订阅制定价转向用量制定价 |
这三件事不是巧合。它们指向同一个结构性问题:token 计费模型下,AI 工具用得越多账单越贵——这和传统软件「工程师产出越多团队价值越高」的线性逻辑完全相反。
微软的算盘:省钱、清场和产品换装
微软取消 Claude Code 的决策有三个层面的逻辑:
财务层面:5000 名活跃工程师,每人月度 Claude Code 费用在 $500-$2000 之间。按中位数 $1000 算,一年烧掉 6000 万美元。这还只是已知的活跃用户——10 万工程师全员开放的潜在成本是数亿美元级别。微软再有钱,财务部在看到年度账单后也会踩刹车。
产品层面:微软将在 6 月 2 日 Build 2026 发布自研代码模型。如果自己的工程师还在用竞争对手的产品,这个自研故事讲不圆。取消 Claude Code 的时间节点(6 月 30 日)紧贴在 Build 大会(6 月 2-3 日)后面,显然不是巧合。
战略层面:微软与 OpenAI 的协议允许它在 2032 年前免费使用 OpenAI 模型,但 Anthropic 不在这个协议范围内。用 Claude Code 的每一分 token 费都是纯支出。削减 Anthropic 依赖、把 Copilot 从多模型调用转向自研为主,是一箭双雕——既省 Anthropic 的钱、又减轻 OpenAI 协议到期后的模型依赖风险。
Uber 的问题:钱花了,产出在哪里?
Uber 的困境更反映本质问题。COO Andrew Macdonald 在内部会议上说的原话是:「token 消耗增长与面向用户的功能产出之间的关联尚未建立。」 这不是在否定 AI 的价值,而是在说他们还没找到测量 AI 投入产出比的方法。
几个具体数字:
- 约 5000 名工程师使用 Claude Code,月度使用率 85%-95%
- 84% 的工程师进入了「智能体编码」模式——让 AI Agent 自主执行多步编程任务
- 70% 的线上提交代码由 AI 生成
- 一次两小时的深度编码会话,API 费用接近 $1200
问题不在 Claude Code 本身——工程师满意度高达 91%。问题在于 token 计费的线性叠加效应:当 5000 个工程师同时跑 Agent 模式时,token 消耗是指数级的。
Uber CTO Praveen Neppalli Naga 在全员会上的结束语是「I’m back to the drawing board」——一切推倒重来。这意味着 Uber 可能在 6-7 月推出新的 AI 工具使用策略,可能包括限制 Agent 模式时长、引入内部模型替代方案、或对 token 消耗做强制配额管理。
NVIDIA 的悖论:卖铲子的人也觉得铲子太贵
Bryan Catanzaro 是 NVIDIA 的 VP of Applied Deep Learning Research。他的团队是 NVIDIA 内部的 AI 研究团队——用 NVIDIA 自家 GPU 跑模型,按理说成本应该是最低的。
但他在 4 月 Axios 采访中的原话是:「For my team, the cost of compute is far beyond the costs of the employees.」
这句话在 5 月底被大量引用,因为它戳破了一个行业假设:大家默认卖算力的公司自己用算力不要钱或者很便宜。但实际账单表明,即便对 NVIDIA 来说,大规模运行 AI 推理的费用也超过了雇佣人类工程师的费用。
Gartner 预测到 2030 年推理成本将下降 90%,但 Catanzaro 的评论指向一个反直觉的可能性:成本可以下降 90%,但如果 Agent 工作流的 token 消耗增加了 100 倍,企业的实际账单不会变少。
对独立开发者和 SaaS 创业者的三个直接信号
第一,API 成本传导预计在 Q3 出现。大客户(微软、Uber 级别)在削减 API 支出时,云厂商和模型提供商会把收入压力通过提价传导到中小客户。如果你在 AWS Bedrock、Azure OpenAI Service 或直接调用 OpenAI API,建议在 Q3 复查一次 API 单价,并在定价模型里留足 20-30% 的成本缓冲。
第二,用量计费是大趋势。GitHub Copilot 6 月 1 日起全面切换 AI Credits 计费,Cursor 和 Claude Code 本就按 token 用量收费。固定订阅制在 AI 工具领域正在消失。对创业者来说,这意味着工具支出从「固定的 $X/月」变成「不确定的 $Y/月」——需要开始做月度预算跟踪,而不是设一个年费就忘了。
第三,算力效率比模型大小更重要。微软推自研模型主打「高性价比」,NVIDIA 高管说算力贵,Uber 烧穿预算——这些都在指向同一个方向:哪个工具在单位成本下产出更多,而不是哪个模型参数最多、benchmark 最高。选 AI 工具的标准正在从「哪个最聪明」转向「哪个在 $20/月以内的产出最稳定」。