570 字
3 分钟
边缘计算新玩法:在 Cloudflare Workers 上部署 AI Agent
为什么是 Edge (边缘)?
传统的 Agent 架构通常是一个 Python 容器跑在 AWS EC2 上。缺点很明显:
- 冷启动慢:容器拉起需要时间。
- 贵:空闲时间也要付费。
- 延迟:用户在伦敦,服务器在弗吉尼亚,光速限制了响应时间。
Cloudflare Workers 解决了这些问题。代码分发到全球 300+ 数据中心,毫秒级启动,按请求计费。
核心组件
要在 CF 上跑 Agent,我们需要三个法宝:
- Workers AI:提供 Serverless 的 LLM 推理(Llama 3, Mistral 等)。你不需要自己维护 GPU。
- Vectorize:边缘向量数据库。用来做 RAG (检索增强生成),给 Agent 提供长期记忆。
- D1:边缘 SQL 数据库。用来存储会话历史和结构化数据。
实战架构:构建一个“边缘客服”
1. 接收请求 (Worker)
export default { async fetch(request, env) { const { message } = await request.json();
// 1. 生成 Embedding const embeddings = await env.AI.run('@cf/baai/bge-base-en-v1.5', { text: message });
// 2. 检索知识库 (RAG) const matches = await env.VECTORIZE.query(embeddings.data[0], { topK: 3 }); const context = matches.matches.map(m => m.metadata.text).join("\n");
// 3. 调用 LLM const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', { messages: [ { role: 'system', content: `基于以下知识回答:${context}` }, { role: 'user', content: message } ] });
return Response.json(response); }}2. 成本分析
这套方案的成本低得惊人。
- Workers:前 10万次请求免费。
- Workers AI:目前 Beta 期间很多模型免费,或者极其便宜。
- Vectorize/D1:都有慷慨的免费额度。
对于一个个人博客助手或者小型客服系统,每月的账单可能不到一杯咖啡钱。
局限性
当然,Edge 也有劣势:
- 上下文长度限制:边缘模型的 Context Window 通常较小。
- 运行时限制:Worker 是轻量级 JS 环境,不能跑 Python 库(如 Numpy, Pandas)。
- 执行时长:Worker 有 CPU 时间限制,不能做太复杂的推理任务。
总结
Cloudflare Workers 正在重塑 AI 应用的开发模式。它不再是“大厂”的专利,任何开发者都可以在几分钟内部署一个全球分布的 AI Agent。
辉哥建议:如果你的 Agent 主要是处理文本、做简单的 RAG,一定要试试 Edge 方案。如果是复杂的数学推理或多模态任务,还是老老实实回源到 Python 服务器吧。
边缘计算新玩法:在 Cloudflare Workers 上部署 AI Agent
https://www.oferry.com/posts/a29/