边缘计算新玩法：在 Cloudflare Workers 上部署 AI Agent

晨平安

岁岁平，岁岁安，岁岁平安

570 字

3 分钟

边缘计算新玩法：在 Cloudflare Workers 上部署 AI Agent

2026-02-04

OpenClaw 玩法

Cloudflare

/

Serverless

/

AI Agent

/

Edge Computing

为什么是 Edge (边缘)？#

传统的 Agent 架构通常是一个 Python 容器跑在 AWS EC2 上。缺点很明显：

冷启动慢：容器拉起需要时间。
贵：空闲时间也要付费。
延迟：用户在伦敦，服务器在弗吉尼亚，光速限制了响应时间。

Cloudflare Workers 解决了这些问题。代码分发到全球 300+ 数据中心，毫秒级启动，按请求计费。

核心组件#

要在 CF 上跑 Agent，我们需要三个法宝：

Workers AI：提供 Serverless 的 LLM 推理（Llama 3, Mistral 等）。你不需要自己维护 GPU。
Vectorize：边缘向量数据库。用来做 RAG (检索增强生成)，给 Agent 提供长期记忆。
D1：边缘 SQL 数据库。用来存储会话历史和结构化数据。

实战架构：构建一个“边缘客服”#

1. 接收请求 (Worker)#

1
export default {
2
  async fetch(request, env) {
3
    const { message } = await request.json();
4

5
    // 1. 生成 Embedding
6
    const embeddings = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
7
      text: message
8
    });
9

10
    // 2. 检索知识库 (RAG)
11
    const matches = await env.VECTORIZE.query(embeddings.data[0], { topK: 3 });
12
    const context = matches.matches.map(m => m.metadata.text).join("\n");
13

14
    // 3. 调用 LLM
15
    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
16
      messages: [
17
        { role: 'system', content: `基于以下知识回答：${context}` },
18
        { role: 'user', content: message }
19
      ]
20
    });
21

22
    return Response.json(response);
23
  }
24
}

2. 成本分析#

这套方案的成本低得惊人。

Workers：前 10万次请求免费。
Workers AI：目前 Beta 期间很多模型免费，或者极其便宜。
Vectorize/D1：都有慷慨的免费额度。

对于一个个人博客助手或者小型客服系统，每月的账单可能不到一杯咖啡钱。

局限性#

当然，Edge 也有劣势：

上下文长度限制：边缘模型的 Context Window 通常较小。
运行时限制：Worker 是轻量级 JS 环境，不能跑 Python 库（如 Numpy, Pandas）。
执行时长：Worker 有 CPU 时间限制，不能做太复杂的推理任务。

总结#

Cloudflare Workers 正在重塑 AI 应用的开发模式。它不再是“大厂”的专利，任何开发者都可以在几分钟内部署一个全球分布的 AI Agent。

辉哥建议：如果你的 Agent 主要是处理文本、做简单的 RAG，一定要试试 Edge 方案。如果是复杂的数学推理或多模态任务，还是老老实实回源到 Python 服务器吧。

边缘计算新玩法：在 Cloudflare Workers 上部署 AI Agent

https://www.oferry.com/posts/a29/

作者

辉哥

发布于

2026-02-04

许可协议

CC BY-NC-SA 4.0

语言之争：Rust 真的比 Go 更适合构建 Agent 基础设施吗？

架构解密：OpenClaw Gateway 是如何实现毫秒级 Agent 路由的？