《自我进化 Agent 综述》超详细深度解读

论文全名A Survey of Self-Evolving Agents: What, When, How, and Where to Evolve on the Path to Artificial Super Intelligence
发表刊物:Transactions on Machine Learning Research(TMLR,2026年1月)
论文页数:77页,含9张图、大量表格
Githubhttps://github.com/CharlesQ9/Self-Evolving-Agents
OpenReviewhttps://openreview.net/forum?id=CTr3bovS5F
参与机构:Princeton、Tsinghua、CMU、SJTU、Penn State、Fudan、HKUST、UMich、UCSB、UCSD、Edinburgh、UIUC 等

这篇综述的核心问题很明确:如果大模型是静态的,那么 Agent 如何在真实环境中持续学习、自主修正并逐步进化?整篇论文围绕 What / When / How / Where 四个维度,把“自我进化 Agent”作为一个独立研究范式完整梳理出来。


第一章:背景与动机

1.1 根本问题:LLM 的静态瓶颈

当前的大型语言模型(LLM)存在一个根本性限制:它们是静态的(fundamentally static)。一旦训练完成,模型参数就被固定,无法在以下场景中自我适应:

  • 遭遇全新任务类型(novel tasks)
  • 知识领域持续演化(evolving knowledge domains)
  • 动态交互上下文(dynamic interaction contexts)

随着 LLM 越来越多地被部署在开放式、交互式环境中(如 smolagents、Manus、ChatGPT agent),这一静态本质成为了关键瓶颈

1.2 范式转变:从静态缩放到自我进化

论文提出了一个范式转变:

从”缩放静态模型”(scaling static models)→ 开发”自我进化 Agent”(self-evolving agents)

这一转变驱动着一条通往人工超级智能(ASI)的希望之路,其中 Agent 不仅能以不可预测的速度学习和进化,还能在广泛的任务中达到或超越人类水平。

1.3 论文的核心贡献

  1. 建立统一理论框架:围绕 What/When/How/Where 四个基础维度组织全域
  2. 第一篇系统性综述:首次将自我进化 Agent 作为一级研究范式进行专项全面调研
  3. 评估体系梳理:深入分析专为自我进化 Agent 定制的评估指标与 Benchmark
  4. 实际应用展示:覆盖代码工程、个性化教育、医疗健康、智能助手等领域
  5. 开放挑战识别:安全性、可扩展性、多 Agent 协同进化、个性化等方向

第二章:形式化定义与数学基础

2.1 环境定义(POMDP 框架)

论文将 Agent 的运行环境定义为一个部分可观测马尔可夫决策过程(POMDP),表示为八元组:

$$\mathcal{E} = (\mathcal{G}, \mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \Omega, \mathcal{O}, \gamma)$$

符号 含义
$\mathcal{G}$ 潜在目标集合,每个 $g \in \mathcal{G}$ 是一个任务目标(如用户查询)
$\mathcal{S}$ 状态集合,$s \in \mathcal{S}$ 表示环境的内部状态
$\mathcal{A}$ 动作集合,可以是文本推理、外部知识检索、工具调用的组合
$\mathcal{T}$ 状态转移概率函数,$\mathcal{T}(s’
$\mathcal{R}: \mathcal{S} \times \mathcal{A} \times \mathcal{G} \rightarrow \mathbb{R}$ 奖励/反馈函数,以目标 $g$ 为条件,$r = \mathcal{R}(s,a,g)$ 可以是标量或文本
$\Omega$ Agent 可访问的观测集合
$\mathcal{O}$ 观测概率函数,$\mathcal{O}(o’
$\gamma$ 折扣因子

2.2 Agent 系统定义

定义一个(多)Agent 系统为:

$$\Pi = (\Gamma, {\psi_i}, {C_i}, {W_i})$$

其中:

  • $\Gamma$:架构(控制流或多 Agent 协作结构),通常表示为节点序列 $(N_1, N_2, \ldots)$
  • $\psi_i$:每个节点的底层 LLM/MLLM
  • $C_i$:上下文信息,包括 Prompt $P_i$ 和记忆 $M_i$
  • $W_i$:可用工具/API 集合

每个节点的 Agent 策略为:

$$\pi_{\theta_i}(\cdot | o) \quad \text{其中} \quad \theta_i = (\psi_i, C_i)$$

实际动作空间是自然语言空间与工具空间 $W_i$ 的并集

2.3 自我进化策略(核心公式)

公式 1:进化变换

一个自我进化策略是一个变换函数 $f$,将当前 Agent 系统映射到新状态:

$$f(\Pi, \tau, r) = \Pi’ = (\Gamma’, {\psi’_i}, {C’_i}, {W’_i}) \tag{1}$$

其中 $\tau$ 是生成的轨迹,$r$ 是内外部反馈。

公式 2:迭代进化序列

给定任务序列 $(T_0, T_1, \ldots, T_n)$ 和初始 Agent 系统 $\Pi_0$,自我进化策略 $f$ 递归生成:

$$\Pi_{j+1} = f(\Pi_j, \tau_j, r_j) \tag{2}$$

其中 $\tau_j$ 和 $r_j$ 分别是任务 $T_j$ 上的轨迹和反馈。

公式 3:最终优化目标

设计自我进化 Agent 的最终目标是构造策略 $f$,使得所有任务上的累积效用最大化

$$\max_f \sum_{j=0}^{n} U(\Pi_j, T_j) \tag{3}$$

其中 $U(\Pi, T)$ 是效用函数,衡量 Agent 系统 $\Pi$ 在任务 $T$ 上的性能(标量分数)。

2.4 自我进化 Agent 的操作性定义

一个自我进化 Agent 是指:基于自身轨迹或反馈信号,修改其内部参数、上下文状态、工具集或架构拓扑,以显式提升未来表现的 Agent。

三个必要条件

  1. 经验依赖性:更新必须由轨迹、自生成数据或环境反馈驱动,专门针对策略局限或能力边界
  2. 持久性效果:更新必须产生持久的策略变化,而非短暂的指令遵循行为
  3. 自主探索机制:系统必须具备自主探索或自发学习的机制

2.5 与其他范式的对比

范式 运行时上下文 动态工具集 动态测试任务 测试时适应 主动探索 结构变化 自我反思与评估
课程学习
终身学习
模型编辑
自我进化 Agent

第三章:What to Evolve —— 进化什么?

Agent 系统 $\Pi = (\Gamma, {\psi_i}, {C_i}, {W_i})$ 的四大进化支柱:

3.1 模型(Model ${\psi_i}$)

3.1.1 Policy(策略参数)

模型参数可通过自生成监督信号持续更新。

SCA(Self-Challenging Agent):模型在挑战者(生成 Code-as-Task 问题)和执行者(求解问题)之间交替角色,使用成功解法的轨迹微调参数。

SCoRe(Self-Correction via RL):通过强化学习训练模型自我纠错,使用数值外部奖励,更新全部参数(pre-test time)。

TextGrad:通过文本”自动微分”进行梯度式优化,支持 pre-test/test-time 双阶段。

PAG(Policy as Generative Verifier):多轮强化 LLM 自我纠错,策略同时充当生成型验证器。

3.1.2 Lesson(经验教训)

从交互轨迹中提炼和抽象经验。

  • Reflexion:语言型强化学习,将错误反思存储为上下文经验
  • AgentGen:自动生成 Agent 训练环境,提炼行动经验
  • RAGEN:多轮 RL 中的自我进化,同时进化 Policy 和 Lesson

3.2 上下文(Context ${C_i}$)

3.2.1 Memory(记忆系统)

方法 核心机制
Mem0 智能记忆层,在 LLM 之上动态存储/检索个性化信息
SAGE 上下文感知的记忆管理
Expel 从多个轨迹中提炼可泛化的经验规则
Agent Workflow Memory (AWM) 将可重用工作流存入记忆,跨任务复用
MemInsight 基于洞察的记忆增强
ICE 自适应上下文记忆提取

3.2.2 Prompt(提示词优化)

方法 优化策略
APE 自动提示工程,搜索最优指令
PromptBreeder 受进化算法启发,种群式迭代优化提示词
DSPy 将提示词声明式编程化,自动编译优化
SPO 结构化提示词优化
ProTeGi 基于梯度的文本提示词优化
LLM-AutoDiff 将 LLM 视为可微模块进行端到端提示优化
EvoAgent Agent 进化式提示搜索

3.3 工具(Tool ${W_i}$)

3.3.1 Creation(工具创建)

方法 机制
Voyager 在 Minecraft 中自主创建技能库(JavaScript 函数)
CREATOR 将问题分解为工具创建 + 工具使用两阶段
SkillWeaver 网络任务中动态编织技能,构建技能图谱
Alita 最小化先验下的工具自动生成与管理
CRAFT 自定义工具检索与微调
ATLASS 自适应工具学习与选择

3.3.2 Mastery(工具掌握)

方法 机制
ToolLLM 基于 RapidAPI 的 16000+ 真实 API 工具使用学习
Gorilla 大规模 API 调用微调
Toolformer 自监督方式学习何时/如何调用工具
LearnAct 从与环境交互的行动轨迹中学习
DRAFT 动态工具检索与微调

3.3.3 Selection(工具选择)

方法 机制
ToolGen 将工具检索统一为生成式任务
AgentSquare Agent 模块化搜索与组合优化
DGM Darwin Godel Machine,开放式进化自选工具
TOOLRET 工具检索增强
SSO 语义工具选择优化

3.4 架构(Architecture $\Gamma$)

3.4.1 单 Agent 架构进化

方法 机制
Gödel Agent 自我反思并重写自身代码,实现递归自我改进
AlphaEvolve 演化式编程框架,自动发现并优化算法
DGM(Darwin Gödel Machine) 开放式进化,将自身进化过程编码为可执行代码
EvoFlow 流程结构进化优化
MASS 多 Agent 系统设计的自我进化
ADAS 自适应架构搜索
AFlow 工作流图结构自动优化

3.4.2 多 Agent 架构进化

方法 机制
AutoGen-Builder 自动构建多 Agent 协作系统
MetaGPT 软件工程型多 Agent 工作流
AgentVerse 多 Agent 协作与任务分解平台
GPTSwarm 图结构多 Agent 协作优化

第四章:When to Evolve —— 何时进化?

4.1 测试时内部自我进化(Intra-test-time Self-Evolution)

单个任务内部边执行边进化。核心特点:

  • 更新发生在同一任务求解过程中
  • 利用中间反馈、自我反思或工具结果即时修正
  • 更强调 test-time adaptation

常见方式包括:

  • 自我纠错(self-correction)
  • 反思后重试(reflection + retry)
  • 测试时参数更新
  • 动态提示词/记忆调整

代表方法:

  • Reflexion
  • Self-Refine
  • TextGrad
  • RAGEN

4.2 跨测试时间自我进化(Inter-test-time Self-Evolution)

多个任务之间积累经验,再迁移到未来任务。核心特点:

  • 更新跨任务持久保留
  • 强调长期学习与能力沉淀
  • 更接近 continual/online evolution

代表方法:

  • Voyager
  • Mem0
  • Expel
  • Agent Workflow Memory

第五章:How to Evolve —— 如何进化?

5.1 基于奖励的自我进化

通过外部或内部奖励信号驱动更新。

方法 反馈类型 反馈来源 学习方式 更新组件 更新时机
LADDER 数值 External RL 全参数 Pre-test
RAGEN 数值 External RL 全参数 Test-time
SPIRAL 数值 Internal RL 全参数 Pre-test
MATH-SHEPHERD 数值 External RL 全参数 Pre-test
AgentPRM 数值 External SFT+RL 全参数 Pre-test
Agent Q 数值 External RL 全参数 Pre-test
GiGPO 数值 External RL 全参数 Pre-test
SPA-RL 数值 External RL 全参数 Pre-test
Voyager 语言 External ICL Context Test-time
WebRL 语言 External SFT+RL 全参数 Pre-test
DigiRL 语言 External RL 部分参数 Pre-test
DistRL 语言 External RL 全参数 Pre+Test
UI-Genie 数值 External SFT 部分参数 Pre-test
GUI-R1 数值 External SFT+RL 全参数 Pre-test
InfiGUI-R1 数值 External SFT+RL 全参数 Pre-test

5.2 模仿与演示学习

方法 反馈类型 反馈来源 学习方式 更新组件 更新时机
STaR 语言+数值 Internal SFT 全参数 Pre-test
V-STaR 数值 Ext+Int SFT+RL 部分参数 Pre-test
AdaSTaR 数值 Internal SFT 全参数 Pre-test
STIC 语言 Internal RL+SFT 部分参数 Pre-test
GENIXER 语言 External SFT 全参数 Pre-training
SiriuS 语言+数值 Internal SFT 全参数 Pre-test
SOFT 语言 Internal SFT 未指定 Pre-test
RISE 语言+数值 Int+Ext SFT 全参数 Pre-test

5.3 种群与进化算法

方法 反馈类型 反馈来源 学习方式 更新组件 更新时机
DGM 数值 External ICL 代码库 Test-time
EvoMAC 语言 External ICL 团队+工作流 Test-time
SPIN 语言 Internal RL 全参数 Pre-test
GENOME 数值 External 进化算法 部分参数 Pre-test
SPC 数值 Internal SFT+RL Critic参数 Pre+Test
Puppeteer 数值 External RL 规划器策略 Pre/跨任务
MedAgentSim 语言 External ICL 知识库 Test-time
STL 语言+数值 Internal SFT 价值模型 Pre-test
MDTeamGPT 语言 External ICL 知识库 Test-time

第六章:评估体系与 Benchmark

6.1 评估目标与指标体系

论文提出了专为自我进化 Agent 设计的五大评估维度:

6.1.1 适应性(Adaptivity)

衡量 Agent 在任务上的持续改进速度与幅度

  • 进化速率:$\Delta U = U(\Pi_{j+1}, T) - U(\Pi_j, T)$
  • 适应性曲线:随交互轮数的性能增长曲线
  • 收敛性:最终性能是否趋于稳定上界

6.1.2 泛化性(Generalization)

衡量进化是否跨任务/域可迁移

  • 域内泛化:相似任务上的改进迁移
  • 域外泛化:未见领域上的零样本迁移
  • 负迁移检测:进化是否导致已有能力退化

6.1.3 效率(Efficiency)

衡量进化的资源消耗

  • 样本效率:达到目标性能所需的交互次数
  • 计算效率:进化步骤的 FLOPs/时间开销
  • 内存效率:上下文/记忆存储开销

6.1.4 安全性(Safety)

衡量进化过程的可控性与无害性

  • 进化稳定性:避免有害或意外行为的进化路径
  • 目标对齐保持:进化后是否仍保持价值对齐
  • 可审计性:进化轨迹是否可解释和追踪

6.1.5 记忆保持(Retention)

衡量进化是否引发灾难性遗忘

  • 旧任务保留率:进化后在历史任务上的性能降幅
  • 知识稳定性:核心能力是否被破坏

6.2 三类评估范式

范式 特征 适用场景
静态评估(Static) 固定数据集,一次性测试 基础能力测量
短时序评估(Short-horizon) 数轮交互后测试适应性 快速适应能力
长时序评估(Long-horizon) 长期持续交互与进化 真实自主部署场景

6.3 主要 Benchmark 一览

数学推理类

Benchmark 说明 评估重点
MATH 竞赛数学,5个难度级别 数学推理准确率
GSM8K 小学数学文字题 初级推理
MATH-500 MATH子集精选500题 全面数学能力
AMC/AIME 竞赛级数学 高难度推理
OlympiadBench 奥林匹克竞赛题 极限推理

代码工程类

Benchmark 说明 评估重点
HumanEval 164个Python编程题 代码生成 Pass@k
MBPP 基础Python编程题库 代码生成
SWE-bench 真实 GitHub Issue 修复 软件工程 Agent
SWE-bench Verified 人工验证子集 精准软件工程
SWE-Dev 功能驱动软件开发 自主特性开发
LiveCodeBench 动态实时代码挑战 持续代码能力

Web/GUI 操控类

Benchmark 说明 评估重点
WebArena 真实网站任务(810个) Web Agent 成功率
WebArena-Lite WebArena 精简版 快速 Web 评估
Mind2Web 跨网站泛化 Web 任务 Web 泛化能力
AndroidWorld Android 真实设备任务 移动 GUI Agent
AndroidBench Android 操控基准 移动设备控制
OSWorld 桌面操作系统任务 桌面 GUI Agent
ScreenSpot GUI 元素定位 视觉 GUI 感知

工具调用类

Benchmark 说明 评估重点
ToolBench 16000+ 真实 API 工具调用 工具调用成功率
API-Bank 分层 API 能力评估 工具规划与调用
τ-bench 真实工具调用场景基准 端到端工具使用

具身/游戏类

Benchmark 说明 评估重点
MineDojo / Minecraft Minecraft 开放世界 持续技能学习
TextWorld 文字冒险游戏 规划与探索
ALFWorld 家务任务仿真 具身规划
BabyAI 简化 GridWorld 指令跟随

多任务综合类

Benchmark 说明 评估重点
AgentBench 8个不同环境的综合评估 多场景 Agent
GAIA 真实世界通用 AI 助手任务 综合 Agent 能力
AgentTrek Agent 轨迹自动生成评估 轨迹质量
AutoEval 自动化多维 Agent 评估 自适应评估

医疗/科研类

Benchmark 说明 评估重点
MedQA 医学执照考试问答 医学知识
PubMedQA 生物医学文献问答 科研文献理解
MedAgentBench 医疗 Agent 综合评估 临床 Agent

第七章:Where to Evolve —— 在哪进化?

7.1 通用领域

自我进化 Agent 在通用场景中的代表应用包括:

  • 代码工程
  • 通用任务规划
  • 长周期网页交互
  • 开放世界游戏环境
  • 智能助手

7.2 专业领域

论文还展示了其在专业领域的潜力,包括:

  • 个性化教育
  • 医疗健康
  • 科研助手
  • 企业知识系统
  • 网络与系统运维

第八章:方法全量对比表

奖励驱动方法

方法 反馈类型 反馈来源 学习方式 更新组件 更新时机
LADDER 数值 External RL 全参数 Pre-test
RAGEN 数值 External RL 全参数 Test-time
SPIRAL 数值 Internal RL 全参数 Pre-test
MATH-SHEPHERD 数值 External RL 全参数 Pre-test
AgentPRM 数值 External SFT+RL 全参数 Pre-test
Agent Q 数值 External RL 全参数 Pre-test
GiGPO 数值 External RL 全参数 Pre-test
SPA-RL 数值 External RL 全参数 Pre-test
Voyager 语言 External ICL Context Test-time
WebRL 语言 External SFT+RL 全参数 Pre-test
DigiRL 语言 External RL 部分参数 Pre-test
DistRL 语言 External RL 全参数 Pre+Test
UI-Genie 数值 External SFT 部分参数 Pre-test
GUI-R1 数值 External SFT+RL 全参数 Pre-test
InfiGUI-R1 数值 External SFT+RL 全参数 Pre-test

模仿与演示学习方法

方法 反馈类型 反馈来源 学习方式 更新组件 更新时机
STaR 语言+数值 Internal SFT 全参数 Pre-test
V-STaR 数值 Ext+Int SFT+RL 部分参数 Pre-test
AdaSTaR 数值 Internal SFT 全参数 Pre-test
STIC 语言 Internal RL+SFT 部分参数 Pre-test
GENIXER 语言 External SFT 全参数 Pre-training
SiriuS 语言+数值 Internal SFT 全参数 Pre-test
SOFT 语言 Internal SFT 未指定 Pre-test
RISE 语言+数值 Int+Ext SFT 全参数 Pre-test

种群与进化方法

方法 反馈类型 反馈来源 学习方式 更新组件 更新时机
DGM 数值 External ICL 代码库 Test-time
EvoMAC 语言 External ICL 团队+工作流 Test-time
SPIN 语言 Internal RL 全参数 Pre-test
GENOME 数值 External 进化算法 部分参数 Pre-test
SPC 数值 Internal SFT+RL Critic参数 Pre+Test
Puppeteer 数值 External RL 规划器策略 Pre/跨任务
MedAgentSim 语言 External ICL 知识库 Test-time
STL 语言+数值 Internal SFT 价值模型 Pre-test
MDTeamGPT 语言 External ICL 知识库 Test-time

第九章:代表方法的维度覆盖矩阵

(● = 该维度主动进化,○ = 不进化)

方法 Policy Experience Prompt Memory Tool-Create Tool-Mastery Tool-Select Single-Arch Multi-Arch
SCA
RAGEN
AgentGen
PromptBreeder
Expel
AWM
Mem0
SPO
Alita
TextGrad
DGM
AlphaEvolve
ADAS
AFlow
SkillWeaver
Voyager

第十章:挑战与未来方向

10.1 安全性挑战

  • 进化稳定性:如何保证自我修改的 Agent 不产生有害行为?
  • 目标对齐保持:随着迭代进化,如何防止目标偏移(Goal Drift)?
  • 可解释进化轨迹:如何审计和追踪 Agent 的自我修改过程?
  • 对抗性进化:如何防止被对手操控,引导 Agent 朝有害方向进化?

10.2 可扩展性挑战

  • 计算开销:测试时参数更新的推理延迟与显存压力
  • 分布式进化:DistRL 等方案下的大规模分布式协同
  • 知识蒸馏瓶颈:进化获得的能力如何高效蒸馏传承

10.3 协同进化动态

  • 多 Agent 竞合:协同进化中如何避免纳什均衡陷阱或集体退化?
  • 涌现行为:大规模多 Agent 系统的涌现行为如何预测与控制?
  • 模型-Agent 解耦进化:底层 LLM 与上层 Agent 策略如何协同且解耦地进化?

10.4 个性化挑战

  • 如何在用户个性化进化(记忆、偏好)与通用能力保留之间取得平衡?
  • 个人化记忆的隐私保护问题

10.5 评估体系不成熟

  • 缺乏长时序自我进化能力的标准化评估框架
  • 需要专门设计的动态评估 Benchmark:任务难度随 Agent 能力同步提升

总结:通往 ASI 的路线图

1
2
3
4
5
6
7
8
9
10
11
LLM(语言理解与生成)
GPT-4 / Claude / DeepSeek-R1
↓ 增加规划、工具调用、工作流构建
Foundation Agent(执行式 Agent)
smolagents / Manus / ChatGPT agent
↓ 增加学习与进化机制
Self-Evolving Agent(自我进化 Agent)← 本综述聚焦
Alita / Gödel Agent / Voyager
↓ 待探索...
??? → ASI(人工超级智能)
自主进化 + 跨域超人类性能

这篇论文的核心洞见是:通往 ASI 的关键不仅仅是更大的模型,而是赋予 Agent 自主学习、反思和进化的能力。从 What/When/How/Where 四个维度系统梳理这一范式,为未来的研究提供了清晰的地图。