570 字
3 分钟
边缘计算新玩法:在 Cloudflare Workers 上部署 AI Agent

为什么是 Edge (边缘)?#

传统的 Agent 架构通常是一个 Python 容器跑在 AWS EC2 上。缺点很明显:

  1. 冷启动慢:容器拉起需要时间。
  2. :空闲时间也要付费。
  3. 延迟:用户在伦敦,服务器在弗吉尼亚,光速限制了响应时间。

Cloudflare Workers 解决了这些问题。代码分发到全球 300+ 数据中心,毫秒级启动,按请求计费。

核心组件#

要在 CF 上跑 Agent,我们需要三个法宝:

  1. Workers AI:提供 Serverless 的 LLM 推理(Llama 3, Mistral 等)。你不需要自己维护 GPU。
  2. Vectorize:边缘向量数据库。用来做 RAG (检索增强生成),给 Agent 提供长期记忆。
  3. D1:边缘 SQL 数据库。用来存储会话历史和结构化数据。

实战架构:构建一个“边缘客服”#

1. 接收请求 (Worker)#

export default {
async fetch(request, env) {
const { message } = await request.json();
// 1. 生成 Embedding
const embeddings = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
text: message
});
// 2. 检索知识库 (RAG)
const matches = await env.VECTORIZE.query(embeddings.data[0], { topK: 3 });
const context = matches.matches.map(m => m.metadata.text).join("\n");
// 3. 调用 LLM
const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
messages: [
{ role: 'system', content: `基于以下知识回答:${context}` },
{ role: 'user', content: message }
]
});
return Response.json(response);
}
}

2. 成本分析#

这套方案的成本低得惊人。

  • Workers:前 10万次请求免费。
  • Workers AI:目前 Beta 期间很多模型免费,或者极其便宜。
  • Vectorize/D1:都有慷慨的免费额度。

对于一个个人博客助手或者小型客服系统,每月的账单可能不到一杯咖啡钱。

局限性#

当然,Edge 也有劣势:

  1. 上下文长度限制:边缘模型的 Context Window 通常较小。
  2. 运行时限制:Worker 是轻量级 JS 环境,不能跑 Python 库(如 Numpy, Pandas)。
  3. 执行时长:Worker 有 CPU 时间限制,不能做太复杂的推理任务。

总结#

Cloudflare Workers 正在重塑 AI 应用的开发模式。它不再是“大厂”的专利,任何开发者都可以在几分钟内部署一个全球分布的 AI Agent。

辉哥建议:如果你的 Agent 主要是处理文本、做简单的 RAG,一定要试试 Edge 方案。如果是复杂的数学推理或多模态任务,还是老老实实回源到 Python 服务器吧。

边缘计算新玩法:在 Cloudflare Workers 上部署 AI Agent
https://www.oferry.com/posts/a29/
作者
辉哥
发布于
2026-02-04
许可协议
CC BY-NC-SA 4.0
封面
示例歌曲
示例艺术家
封面
示例歌曲
示例艺术家
0:00 / 0:00