Cloudflare Workers AI 超时最常见的原因是什么？

我见得最多的是同步请求里塞了太多编排，读库、再拉文件、再调用 Workers AI、失败后立刻重试。只要其中一段变慢，用户看到的就是整体超时。

所有 Workers AI 任务都应该放进队列吗？

不是。短分类、轻量摘要可以同步返回；批量生成、长文本处理、多模型 fallback 更适合进队列。判断标准是用户是否必须在当前页面等结果。

我的默认上限是 2 次，并且只对网络错误、临时 5xx 或明确可重试状态做退避。参数错误、鉴权错误和内容过长不要重试，重试只会增加成本。

我会先把一次调用拆成四段看，而不是直接怪模型。

先补日志。我的最小字段是 requestId、taskType、model、inputSize、attempt、durationMs、errorClass、fallbackModel。没有这些字段时，讨论「该不该换模型」通常是在猜。

Cloudflare 官方文档把 Workers AI 放在 Workers 生态里使用，适合边缘侧推理和应用编排；Cloudflare Queues 则适合把异步工作从用户请求里拆出去。这个限制很关键：不是所有 AI 任务都应该在一次 HTTP 请求里完成。

第一步，先给同步请求定一个硬限制。我的做法是：用户当前页面必须看到的结果才同步，例如一句标签分类、一段短摘要、一个轻量 embedding。长报告、批量改写、批量图片描述，一律只返回任务 id。

第二步，给 Workers AI 调用加业务级超时。不要让 Worker 无限等模型。超过你设定的时间后，返回结构化状态：queued、retryable 或 failed，而不是让前端拿到一个模糊的 500。

第三步，把重试从「立即再来一次」改成退避。第一次失败后等 1-2 秒，第二次等 4-8 秒，并带上同一个幂等键。没有幂等键的重试最危险：用户刷新一次，你可能创建两份任务、扣两次额度、写两条结果。

第四步，立刻关掉无脑 fallback。很多独立开发者会把「A 模型失败就换 B 模型」写得很顺手，但没有成本表。fallback 应该是配置项：哪些任务允许、最多几次、替代模型是谁、单次预算多少。

我用三个判断条件。

满足两个条件，我就放进 Cloudflare Queues。前端拿到 jobId 后轮询 /api/jobs/:id，状态只给五个：received、queued、running、succeeded、failed。不要发明十几个状态，客服和用户都记不住。

队列消费者里再调用 Workers AI，并把每一次 attempt 写进日志或数据库。失败时只让 worker 自己重试，不让浏览器刷新触发新任务。

我的规则很保守：

重试次数我一般设 2 次。超过以后进入失败队列，给后台一个「人工重跑」按钮。自动系统要有刹车，不然凌晨某个上游波动，会把所有失败任务排成第二天的成本账单。

把任务分级，不要按模型分级。

任务	默认模型	fallback	成本策略
标签分类	轻量模型	同级模型	允许自动 fallback
客服草稿	中等模型	更强模型	只对付费用户开启
长报告	队列任务	人工重跑或异步强模型	需要预算上限
批量处理	队列 + 分片	降级输出	禁止无限 fallback

每个 job 存一个 estimatedCost 和 actualCost，哪怕一开始只是估算也比没有强。等你看到某类任务的 fallback 率超过 10%，不要急着加预算，看是不是输入过长、prompt 太散、模型选择不对。

如果你的 AI SaaS 既要接 OpenAI 又要接 Claude，模型切换和账单口径会更复杂。我一般会把高成本路径接到稳定调用 Claude / OpenAI 的中转服务，至少让多模型调用、余额和失败重跑在同一套记录里，不要散在三四个后台。

做降级，不要硬扛。

如果这五步之后还是慢，再考虑换模型、换地区或拆服务。很多时候真正的问题不是 Workers AI，而是你把同步产品体验、异步任务、成本控制写在了一段函数里。