AI 的第三拐点：从"能聊天"到"能干活"，2026 年是 Agent 元年

晨平安

岁岁平，岁岁安，岁岁平安

3105 字

16 分钟

AI 的第三拐点：从"能聊天"到"能干活"，2026 年是 Agent 元年

2026-06-10

原创

AI

/

Agent

/

LLM

/

Claude

/

GPT

/

多Agent协作

引言#

兄弟们，如果你还觉得 AI 只是个”聊天机器人”，那你真的 out 了。

2026 年是 AI 行业的一个关键转折点。Deep|LLM 的报告里说得很清楚：AI 进入了第三个重大拐点——从”能聊天”（ChatGPT 时代）到”能推理”（o1/o3 时代），再到现在的”能干活”（Agent 时代）。

不是”能帮你写写代码”那种干活，是真的能把一个任务从头到尾做完那种干活。你告诉它”帮我调研一下市面上最好的 Rust Web 框架，写个对比报告，再跑个性能测试”，它真的会自己搜索、分析、编码、测试，最后输出一份完整的报告给你。

2026 年的模型格局#

先来看看今年的模型江湖。经过 2025 年的大洗牌，2026 年的 LLM 格局已经基本确定：

厂商	旗舰模型	发布时间	关键特性
OpenAI	GPT-5.1	2025.11	多模态推理、代码能力顶级
Anthropic	Claude Opus 4.6	2026	Agent Teams、自适应思考
Google DeepMind	Gemini 3 Pro	2025.11	超长上下文 200 万 token
xAI	Grok 4.1	2025.11	编码能力领先，三倍参数量
DeepSeek	DeepSeek-V3.1	2025.08	完全开源、极致低成本
Alibaba	Qwen 3	2025.04	235B 参数、多语言能力出色

其中最引人注目的是 Claude Opus 4.6 引入的 Agent Teams——多个 AI Agent 协同工作，每个 Agent 专精不同的任务，像人类团队一样分工合作。Anthropic 正在把”AI 程序员”的概念从单兵作战升级为团队协作。

值得注意的是，这个格局相比 2025 年有了明显的变化。开源模型（DeepSeek、Qwen）的能力已经逼近闭源模型，但闭源模型在 Agent 能力和生态整合上仍然领先。市场不再是”哪个模型更聪明”的竞争，而是”哪个模型能帮你干更多活”的竞争。

Agent Teams：多 Agent 协作的里程碑#

Claude Opus 4.6 的 Agent Teams 是我今年看到的最有意思的 AI 特性之一。

它的原理很简单：不再用一个模型做完所有事，而是让多个专门的 Agent 组成一个”团队”，各司其职。

1
# 概念示例：Claude Opus 4.6 Agent Teams
2
from anthropic import AgentTeam
3

4
team = AgentTeam.create(
5
    agents=[
6
        {"name": "researcher", "role": "搜索和分析信息", "model": "claude-sonnet-4"},
7
        {"name": "coder", "role": "编写和调试代码", "model": "claude-opus-4.6"},
8
        {"name": "reviewer", "role": "代码审查和测试", "model": "claude-sonnet-4"},
9
        {"name": "writer", "role": "文档和报告生成", "model": "claude-haiku-4"},
10
    ],
11
    coordinator="claude-opus-4.6",
12
)
13

14
# 交给团队一个复杂任务
15
result = team.execute("""
16
在 GitHub 上搜索最新的 Rust Web 框架，
17
对比它们的性能、生态成熟度和学习曲线，
18
输出一份详细的对比报告，
19
并写一个使用最佳框架的 demo 应用。
20
""")

这个团队会自动分解任务：Researcher 去搜索信息，Coder 写 demo，Reviewer 审查代码质量，Writer 整理报告。整个过程不需要人工干预。每个 Agent 都有自己擅长的领域，协作时通过一个共享的工作空间交换中间结果。

自适应思考：该快则快，该慢则慢#

Claude Opus 4.6 的另一个重大更新是自适应思考（Adaptive Thinking）。

以前的大模型要么快速回答（可能不够准确），要么深度思考（可能过度计算浪费资源）。自适应思考让模型能够根据任务复杂度动态调整推理深度：

1
// 自适应思考的 API 调用
2
const response = await anthropic.messages.create({
3
  model: "claude-opus-4.6",
4
  max_tokens: 4096,
5
  thinking: {
6
    type: "adaptive",  // 自适应模式
7
    budget_tokens: 16000,  // 最大思考预算
8
  },
9
  messages: [
10
    {
11
      role: "user",
12
      content: "设计一个高并发 WebSocket 服务器的架构"
13
    }
14
  ]
15
});

简单的问题模型会快速回答（比如”什么是 WebSocket”可能只花 200 token 思考），复杂的问题模型会花更多时间深度推理（比如设计架构可能要花 5000 token 思考）。从用户体验上来说，这意味着响应速度和回答质量的动态平衡，不再需要开发者手动选择”快速模式”还是”深度模式”。

Agent-Protocol：Agent 们的”通用语言”#

Agent-Protocol 是一个让我眼前一亮的标准。它定义了一套 Agent 之间通信的协议，让不同厂商、不同框架的 Agent 能够互相协作。

1
# Agent-Protocol 的通信消息格式
2
protocol: "agent-protocol/v1"
3
from: "research-agent@team-a"
4
to: "code-agent@team-b"
5
message_id: "msg_abc123"
6
timestamp: "2026-06-10T10:00:00Z"
7
payload:
8
  type: "task_delegation"
9
  task:
10
    id: "task_456"
11
    description: "实现一个用户认证模块"
12
    specifications:
13
      - "使用 JWT token"
14
      - "支持 OAuth 2.0"
15
      - "60 分钟过期时间"
16
    context:
17
      previous_research: "推荐使用 Auth.js 库"
18
      dependencies: ["Next.js 15", "Prisma"]
19
    deadline: "2026-06-10T12:00:00Z"

这套协议的意义在于——Agent 不再是孤岛。你的爬虫 Agent 可以和我的分析 Agent 对话，只要大家都遵循 Agent-Protocol。这有点像 HTTP 协议对于 Web 的意义——在 HTTP 出现之前，不同系统之间通信要靠各种专有协议，HTTP 统一了 Web 通信。Agent-Protocol 正在做同样的事情，它让不同厂商的 Agent 可以无缝协作。

open-hands：开源的多 Agent 框架#

开源社区也没有闲着。2026 年最火的 Agent 框架之一是 open-hands，它让开发者可以快速搭建自己的多 Agent 系统：

1
# 安装 open-hands
2
pip install open-hands
3

4
# 启动一个 Agent 集群
5
open-hands serve --config agents.yaml

1
# agents.yaml - 定义你的 Agent 团队
2
version: "1.0"
3
coordinator:
4
  model: "gpt-5.1"
5
  strategy: "round_robin"
6

7
agents:
8
  - name: "frontend-dev"
9
    model: "claude-sonnet-4"
10
    tools: ["react", "tailwind", "typescript"]
11
    max_concurrent_tasks: 3
12

13
  - name: "backend-dev"
14
    model: "claude-opus-4.6"
15
    tools: ["python", "fastapi", "postgres"]
16
    max_concurrent_tasks: 2
17

18
  - name: "qa-engineer"
19
    model: "gpt-5.1"
20
    tools: ["playwright", "pytest"]
21
    max_concurrent_tasks: 5
22

23
memory:
24
  type: "vector_store"
25
  path: "./memory"
26
  retention: "30d"

AI 编程的范式变化#

2026 年，AI 编程已经完成了从”尝鲜”到”标配”的转变。根据行业数据显示：

指标	2024	2025	2026
AI 编程工具采用率	28%	35%	38%
本地/开源方案占比	5%	12%	22%
PR 审查时间（AI 辅助）	45min	20min	12min
开发者入门时间	6-12月	3-6月	2-4周

最明显的变化是：本地和开源 AI 方案的占比从 5% 飙升到 22%。越来越多开发者选择在本地跑模型，而不是依赖云端 API。驱动这个变化的主要有三个因素：一是开源模型质量的大幅提升（Qwen2.5-Coder、DeepSeek-Coder 已经接近 GPT-4 水平），二是硬件成本的下降（一块 RTX 4090 就能跑 32B 模型），三是对数据隐私的担忧。

PR 审查时间从 45 分钟降到了 12 分钟——AI 预审 30 秒生成审查报告，人工只需要确认。这在以前是不可想象的效率提升。

AI 编程能力演进时间线#

回顾过去几年 AI 编程能力的发展历程，可以清晰地看到一条进化路径：

2023-2024：AI 是”自动补全器”。Copilot 帮你补全一行或几行代码，开发者仍然是主要的编码者。
2024-2025：AI 是”结对编程员”。Cursor、Claude Code 可以理解整个文件的上下文，生成完整函数或组件。
2025-2026：AI 是”独立程序员”。多 Agent 系统可以完成从需求分析到编码测试到部署的完整流程。

2026 年我们正处在第三阶段。这意味着开发者的角色正在从”编码者”向”架构师”转变——你不再是写每一行代码的人，而是设计系统架构、定义需求和评审 AI 输出的人。

写在最后#

2026 年的 AI 行业给我的感觉就是——Agent 时代真的来了。

模型层面的竞争还在继续（GPT-5.1 vs Claude Opus 4.6 vs Gemini 3 Pro），但更有意思的变化发生在应用层。多 Agent 协作、自适应思考、Agent 通信协议……这些不再是论文里的概念，而是可以直接上手的工具。

对于咱们开发者来说，现在要思考的问题不是”AI 能不能替代我”，而是**“我能不能用 AI 做更多的事”**。搭一个多 Agent 团队，让 Researcher 查资料、让 Coder 写代码、让 Reviewer 审查、让 Writer 写文档——你只需要做那个”拍板”的人。这才是 2026 年开发者该有的工作方式。

关于 Agent 安全性#

Agent 的普及也带来了新的安全问题。如果一个 Agent 可以访问你的代码库、数据库甚至生产环境，那它的安全性就变得至关重要。目前行业里比较常见的做法是给 Agent 设置最小权限原则——每个 Agent 只能访问完成自己任务所需的最小资源集。比如代码审查 Agent 只需要读取权限，不需要写权限。部署 Agent 只能访问 CI/CD 系统，不能直接操作数据库。还有一个重要的原则是”人在回路中”，也就是所有关键操作（比如删除数据、修改配置、上线发布）都需要人工确认。Agent 可以提建议、可以执行非破坏性操作，但关键决策必须由人来做出。这个原则虽然不是新技术，但在 Agent 时代它的重要性被放大了很多倍。

开源 Agent 生态的快速发展#

2026 年的开源 Agent 生态发展得非常快。除了前面提到的 open-hands，还有几个项目值得关注。Hermes Agent 是一个具备学习能力的 Agent 框架，它可以从每次交互中学习并创建新的技能，下次遇到类似问题时可以直接复用。RAG-Anything 是香港大学开源的项目，它把 RAG 的能力封装成了开箱即用的 Agent 工具，你可以用自然语言告诉它去搜索哪些数据源。还有一个叫 RuView 的项目，它提供了一个可视化的 Agent 协作界面，你可以像拖拽流程图一样编排多个 Agent 的工作流程。这些开源项目的百花齐放，大大降低了开发者构建 Agent 应用的门槛。

开发者应该如何准备#

面对 Agent 时代的到来，我建议开发者从三个方面做好准备。第一是学习 Agent 框架的使用，至少要熟悉一个主流框架的 API 和设计理念。第二是学会分解任务，把复杂问题拆解成多个可以由 Agent 独立完成的子任务。第三是建立评估机制，Agent 的输出不总是正确的，你需要有办法验证和衡量它的工作质量。这三项能力不是学校里教的，而是在实际使用中积累的。我建议你可以从一个简单的个人项目开始，比如搭一个每天帮你整理技术新闻的 Agent，然后在实践中逐步提升。

大模型的选择策略#

2026 年选择大模型已经不再是简单地看排行榜数字了。排行榜上的分数虽然能反映模型的通用能力，但实际使用中还有很多需要考虑的因素。比如延迟和成本：GPT-5.1 很强大，但每次调用都要几十毫秒，而且价格不便宜。如果你只是做文本摘要或者分类这种简单任务，用一个更小的模型（比如 Claude Haiku 或者 GPT-4o-mini）反而更划算。还有一个重要的因素是生态兼容性。Claude 的 MCP 协议正在成为 Agent 领域的事实标准，选择支持 MCP 的工具和服务会大大降低你的集成成本。另外，本地模型（如 Qwen 和 DeepSeek）在数据隐私要求高的场景中有不可替代的优势。总的来说，不要只看模型的能力，还要看它在你的具体场景中的表现，以及你能不能有效地使用它。

我的日常工作流#

最后分享一个我自己的实际工作流。每天早上我会启动一个由四个 Agent 组成的团队：一个 Researcher Agent 去 Hacker News、Reddit 和 GitHub Trending 上抓取今天的技术热点；一个 Writer Agent 根据抓取到的内容生成一篇技术简报；一个 Code Agent 检查我项目的依赖更新和安全漏洞；一个 Schedule Agent 帮我整理今天的会议和任务优先级。整个过程大概需要三分钟，我喝杯咖啡的功夫就完成了。这份简报内容比我花半小时手动翻网站整理出来的还要全面。这就是 2026 年的工作方式——不是 AI 替代人类，而是会用 AI 的人替代不会用 AI 的人。

AI 的第三拐点：从"能聊天"到"能干活"，2026 年是 Agent 元年

https://www.oferry.com/posts/a174/

作者

晨平安

发布于

2026-06-10

许可协议

CC BY-NC-SA 4.0

Odysseus：周增 3.7 万星的自托管 AI 工作空间，你还不试试？

TanStack 生态2026：前端瑞士军刀是怎样炼成的？