《自我进化 Agent 综述》超详细深度解读

论文全名：A Survey of Self-Evolving Agents: What, When, How, and Where to Evolve on the Path to Artificial Super Intelligence
发表刊物：Transactions on Machine Learning Research（TMLR，2026年1月）
论文页数：77页，含9张图、大量表格
Github：https://github.com/CharlesQ9/Self-Evolving-Agents
OpenReview：https://openreview.net/forum?id=CTr3bovS5F
参与机构：Princeton、Tsinghua、CMU、SJTU、Penn State、Fudan、HKUST、UMich、UCSB、UCSD、Edinburgh、UIUC 等

这篇综述的核心问题很明确：如果大模型是静态的，那么 Agent 如何在真实环境中持续学习、自主修正并逐步进化？整篇论文围绕 What / When / How / Where 四个维度，把“自我进化 Agent”作为一个独立研究范式完整梳理出来。

第一章：背景与动机

1.1 根本问题：LLM 的静态瓶颈

当前的大型语言模型（LLM）存在一个根本性限制：它们是静态的（fundamentally static）。一旦训练完成，模型参数就被固定，无法在以下场景中自我适应：

遭遇全新任务类型（novel tasks）
知识领域持续演化（evolving knowledge domains）
动态交互上下文（dynamic interaction contexts）

随着 LLM 越来越多地被部署在开放式、交互式环境中（如 smolagents、Manus、ChatGPT agent），这一静态本质成为了关键瓶颈。

1.2 范式转变：从静态缩放到自我进化

论文提出了一个范式转变：

从”缩放静态模型”（scaling static models）→ 开发”自我进化 Agent”（self-evolving agents）

这一转变驱动着一条通往人工超级智能（ASI）的希望之路，其中 Agent 不仅能以不可预测的速度学习和进化，还能在广泛的任务中达到或超越人类水平。

1.3 论文的核心贡献

建立统一理论框架：围绕 What/When/How/Where 四个基础维度组织全域
第一篇系统性综述：首次将自我进化 Agent 作为一级研究范式进行专项全面调研
评估体系梳理：深入分析专为自我进化 Agent 定制的评估指标与 Benchmark
实际应用展示：覆盖代码工程、个性化教育、医疗健康、智能助手等领域
开放挑战识别：安全性、可扩展性、多 Agent 协同进化、个性化等方向

第二章：形式化定义与数学基础

2.1 环境定义（POMDP 框架）

论文将 Agent 的运行环境定义为一个部分可观测马尔可夫决策过程（POMDP），表示为八元组：

$$\mathcal{E} = (\mathcal{G}, \mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \Omega, \mathcal{O}, \gamma)$$

符号	含义
$\mathcal{G}$	潜在目标集合，每个 $g \in \mathcal{G}$ 是一个任务目标（如用户查询）
$\mathcal{S}$	状态集合，$s \in \mathcal{S}$ 表示环境的内部状态
$\mathcal{A}$	动作集合，可以是文本推理、外部知识检索、工具调用的组合
$\mathcal{T}$	状态转移概率函数，$\mathcal{T}(s’
$\mathcal{R}: \mathcal{S} \times \mathcal{A} \times \mathcal{G} \rightarrow \mathbb{R}$	奖励/反馈函数，以目标 $g$ 为条件，$r = \mathcal{R}(s,a,g)$ 可以是标量或文本
$\Omega$	Agent 可访问的观测集合
$\mathcal{O}$	观测概率函数，$\mathcal{O}(o’
$\gamma$	折扣因子

2.2 Agent 系统定义

定义一个（多）Agent 系统为：

$$\Pi = (\Gamma, {\psi_i}, {C_i}, {W_i})$$

其中：

$\Gamma$：架构（控制流或多 Agent 协作结构），通常表示为节点序列 $(N_1, N_2, \ldots)$
$\psi_i$：每个节点的底层 LLM/MLLM
$C_i$：上下文信息，包括 Prompt $P_i$ 和记忆 $M_i$
$W_i$：可用工具/API 集合

每个节点的 Agent 策略为：

$$\pi_{\theta_i}(\cdot | o) \quad \text{其中} \quad \theta_i = (\psi_i, C_i)$$

实际动作空间是自然语言空间与工具空间 $W_i$ 的并集。

2.3 自我进化策略（核心公式）

公式 1：进化变换

一个自我进化策略是一个变换函数 $f$，将当前 Agent 系统映射到新状态：

$$f(\Pi, \tau, r) = \Pi’ = (\Gamma’, {\psi’_i}, {C’_i}, {W’_i}) \tag{1}$$

其中 $\tau$ 是生成的轨迹，$r$ 是内外部反馈。

公式 2：迭代进化序列

给定任务序列 $(T_0, T_1, \ldots, T_n)$ 和初始 Agent 系统 $\Pi_0$，自我进化策略 $f$ 递归生成：

$$\Pi_{j+1} = f(\Pi_j, \tau_j, r_j) \tag{2}$$

其中 $\tau_j$ 和 $r_j$ 分别是任务 $T_j$ 上的轨迹和反馈。

公式 3：最终优化目标

设计自我进化 Agent 的最终目标是构造策略 $f$，使得所有任务上的累积效用最大化：

$$\max_f \sum_{j=0}^{n} U(\Pi_j, T_j) \tag{3}$$

其中 $U(\Pi, T)$ 是效用函数，衡量 Agent 系统 $\Pi$ 在任务 $T$ 上的性能（标量分数）。

2.4 自我进化 Agent 的操作性定义

一个自我进化 Agent 是指：基于自身轨迹或反馈信号，修改其内部参数、上下文状态、工具集或架构拓扑，以显式提升未来表现的 Agent。

三个必要条件：

经验依赖性：更新必须由轨迹、自生成数据或环境反馈驱动，专门针对策略局限或能力边界
持久性效果：更新必须产生持久的策略变化，而非短暂的指令遵循行为
自主探索机制：系统必须具备自主探索或自发学习的机制

2.5 与其他范式的对比

范式	运行时上下文	动态工具集	动态测试任务	测试时适应	主动探索	结构变化	自我反思与评估
课程学习	✗	✗	✗	✗	✗	✗	✗
终身学习	✗	✗	✓	✗	✗	✗	✗
模型编辑	✗	✗	✓	✓	✗	✗	✗
自我进化 Agent	✓	✓	✓	✓	✓	✓	✓

第三章：What to Evolve —— 进化什么？

Agent 系统 $\Pi = (\Gamma, {\psi_i}, {C_i}, {W_i})$ 的四大进化支柱：

3.1 模型（Model ${\psi_i}$）

3.1.1 Policy（策略参数）

模型参数可通过自生成监督信号持续更新。

SCA（Self-Challenging Agent）：模型在挑战者（生成 Code-as-Task 问题）和执行者（求解问题）之间交替角色，使用成功解法的轨迹微调参数。

SCoRe（Self-Correction via RL）：通过强化学习训练模型自我纠错，使用数值外部奖励，更新全部参数（pre-test time）。

TextGrad：通过文本”自动微分”进行梯度式优化，支持 pre-test/test-time 双阶段。

PAG（Policy as Generative Verifier）：多轮强化 LLM 自我纠错，策略同时充当生成型验证器。

3.1.2 Lesson（经验教训）

从交互轨迹中提炼和抽象经验。

Reflexion：语言型强化学习，将错误反思存储为上下文经验
AgentGen：自动生成 Agent 训练环境，提炼行动经验
RAGEN：多轮 RL 中的自我进化，同时进化 Policy 和 Lesson

3.2 上下文（Context ${C_i}$）

3.2.1 Memory（记忆系统）

方法	核心机制
Mem0	智能记忆层，在 LLM 之上动态存储/检索个性化信息
SAGE	上下文感知的记忆管理
Expel	从多个轨迹中提炼可泛化的经验规则
Agent Workflow Memory (AWM)	将可重用工作流存入记忆，跨任务复用
MemInsight	基于洞察的记忆增强
ICE	自适应上下文记忆提取

3.2.2 Prompt（提示词优化）

方法	优化策略
APE	自动提示工程，搜索最优指令
PromptBreeder	受进化算法启发，种群式迭代优化提示词
DSPy	将提示词声明式编程化，自动编译优化
SPO	结构化提示词优化
ProTeGi	基于梯度的文本提示词优化
LLM-AutoDiff	将 LLM 视为可微模块进行端到端提示优化
EvoAgent	Agent 进化式提示搜索

3.3 工具（Tool ${W_i}$）

3.3.1 Creation（工具创建）

方法	机制
Voyager	在 Minecraft 中自主创建技能库（JavaScript 函数）
CREATOR	将问题分解为工具创建 + 工具使用两阶段
SkillWeaver	网络任务中动态编织技能，构建技能图谱
Alita	最小化先验下的工具自动生成与管理
CRAFT	自定义工具检索与微调
ATLASS	自适应工具学习与选择

3.3.2 Mastery（工具掌握）

方法	机制
ToolLLM	基于 RapidAPI 的 16000+ 真实 API 工具使用学习
Gorilla	大规模 API 调用微调
Toolformer	自监督方式学习何时/如何调用工具
LearnAct	从与环境交互的行动轨迹中学习
DRAFT	动态工具检索与微调

3.3.3 Selection（工具选择）

方法	机制
ToolGen	将工具检索统一为生成式任务
AgentSquare	Agent 模块化搜索与组合优化
DGM	Darwin Godel Machine，开放式进化自选工具
TOOLRET	工具检索增强
SSO	语义工具选择优化

3.4 架构（Architecture $\Gamma$）

3.4.1 单 Agent 架构进化

方法	机制
Gödel Agent	自我反思并重写自身代码，实现递归自我改进
AlphaEvolve	演化式编程框架，自动发现并优化算法
DGM（Darwin Gödel Machine）	开放式进化，将自身进化过程编码为可执行代码
EvoFlow	流程结构进化优化
MASS	多 Agent 系统设计的自我进化
ADAS	自适应架构搜索
AFlow	工作流图结构自动优化

3.4.2 多 Agent 架构进化

方法	机制
AutoGen-Builder	自动构建多 Agent 协作系统
MetaGPT	软件工程型多 Agent 工作流
AgentVerse	多 Agent 协作与任务分解平台
GPTSwarm	图结构多 Agent 协作优化

第四章：When to Evolve —— 何时进化？

4.1 测试时内部自我进化（Intra-test-time Self-Evolution）

在单个任务内部边执行边进化。核心特点：

更新发生在同一任务求解过程中
利用中间反馈、自我反思或工具结果即时修正
更强调 test-time adaptation

常见方式包括：

自我纠错（self-correction）
反思后重试（reflection + retry）
测试时参数更新
动态提示词/记忆调整

代表方法：

Reflexion
Self-Refine
TextGrad
RAGEN

4.2 跨测试时间自我进化（Inter-test-time Self-Evolution）

在多个任务之间积累经验，再迁移到未来任务。核心特点：

更新跨任务持久保留
强调长期学习与能力沉淀
更接近 continual/online evolution

代表方法：

Voyager
Mem0
Expel
Agent Workflow Memory

第五章：How to Evolve —— 如何进化？

5.1 基于奖励的自我进化

通过外部或内部奖励信号驱动更新。

方法	反馈类型	反馈来源	学习方式	更新组件	更新时机
LADDER	数值	External	RL	全参数	Pre-test
RAGEN	数值	External	RL	全参数	Test-time
SPIRAL	数值	Internal	RL	全参数	Pre-test
MATH-SHEPHERD	数值	External	RL	全参数	Pre-test
AgentPRM	数值	External	SFT+RL	全参数	Pre-test
Agent Q	数值	External	RL	全参数	Pre-test
GiGPO	数值	External	RL	全参数	Pre-test
SPA-RL	数值	External	RL	全参数	Pre-test
Voyager	语言	External	ICL	Context	Test-time
WebRL	语言	External	SFT+RL	全参数	Pre-test
DigiRL	语言	External	RL	部分参数	Pre-test
DistRL	语言	External	RL	全参数	Pre+Test
UI-Genie	数值	External	SFT	部分参数	Pre-test
GUI-R1	数值	External	SFT+RL	全参数	Pre-test
InfiGUI-R1	数值	External	SFT+RL	全参数	Pre-test

5.2 模仿与演示学习

方法	反馈类型	反馈来源	学习方式	更新组件	更新时机
STaR	语言+数值	Internal	SFT	全参数	Pre-test
V-STaR	数值	Ext+Int	SFT+RL	部分参数	Pre-test
AdaSTaR	数值	Internal	SFT	全参数	Pre-test
STIC	语言	Internal	RL+SFT	部分参数	Pre-test
GENIXER	语言	External	SFT	全参数	Pre-training
SiriuS	语言+数值	Internal	SFT	全参数	Pre-test
SOFT	语言	Internal	SFT	未指定	Pre-test
RISE	语言+数值	Int+Ext	SFT	全参数	Pre-test

5.3 种群与进化算法

方法	反馈类型	反馈来源	学习方式	更新组件	更新时机
DGM	数值	External	ICL	代码库	Test-time
EvoMAC	语言	External	ICL	团队+工作流	Test-time
SPIN	语言	Internal	RL	全参数	Pre-test
GENOME	数值	External	进化算法	部分参数	Pre-test
SPC	数值	Internal	SFT+RL	Critic参数	Pre+Test
Puppeteer	数值	External	RL	规划器策略	Pre/跨任务
MedAgentSim	语言	External	ICL	知识库	Test-time
STL	语言+数值	Internal	SFT	价值模型	Pre-test
MDTeamGPT	语言	External	ICL	知识库	Test-time

第六章：评估体系与 Benchmark

6.1 评估目标与指标体系

论文提出了专为自我进化 Agent 设计的五大评估维度：

6.1.1 适应性（Adaptivity）

衡量 Agent 在任务上的持续改进速度与幅度：

进化速率：$\Delta U = U(\Pi_{j+1}, T) - U(\Pi_j, T)$
适应性曲线：随交互轮数的性能增长曲线
收敛性：最终性能是否趋于稳定上界

6.1.2 泛化性（Generalization）

衡量进化是否跨任务/域可迁移：

域内泛化：相似任务上的改进迁移
域外泛化：未见领域上的零样本迁移
负迁移检测：进化是否导致已有能力退化

6.1.3 效率（Efficiency）

衡量进化的资源消耗：

样本效率：达到目标性能所需的交互次数
计算效率：进化步骤的 FLOPs/时间开销
内存效率：上下文/记忆存储开销

6.1.4 安全性（Safety）

衡量进化过程的可控性与无害性：

进化稳定性：避免有害或意外行为的进化路径
目标对齐保持：进化后是否仍保持价值对齐
可审计性：进化轨迹是否可解释和追踪

6.1.5 记忆保持（Retention）

衡量进化是否引发灾难性遗忘：

旧任务保留率：进化后在历史任务上的性能降幅
知识稳定性：核心能力是否被破坏

6.2 三类评估范式

范式	特征	适用场景
静态评估（Static）	固定数据集，一次性测试	基础能力测量
短时序评估（Short-horizon）	数轮交互后测试适应性	快速适应能力
长时序评估（Long-horizon）	长期持续交互与进化	真实自主部署场景

6.3 主要 Benchmark 一览

数学推理类

Benchmark	说明	评估重点
MATH	竞赛数学，5个难度级别	数学推理准确率
GSM8K	小学数学文字题	初级推理
MATH-500	MATH子集精选500题	全面数学能力
AMC/AIME	竞赛级数学	高难度推理
OlympiadBench	奥林匹克竞赛题	极限推理

代码工程类

Benchmark	说明	评估重点
HumanEval	164个Python编程题	代码生成 Pass@k
MBPP	基础Python编程题库	代码生成
SWE-bench	真实 GitHub Issue 修复	软件工程 Agent
SWE-bench Verified	人工验证子集	精准软件工程
SWE-Dev	功能驱动软件开发	自主特性开发
LiveCodeBench	动态实时代码挑战	持续代码能力

Web/GUI 操控类

Benchmark	说明	评估重点
WebArena	真实网站任务（810个）	Web Agent 成功率
WebArena-Lite	WebArena 精简版	快速 Web 评估
Mind2Web	跨网站泛化 Web 任务	Web 泛化能力
AndroidWorld	Android 真实设备任务	移动 GUI Agent
AndroidBench	Android 操控基准	移动设备控制
OSWorld	桌面操作系统任务	桌面 GUI Agent
ScreenSpot	GUI 元素定位	视觉 GUI 感知

工具调用类

Benchmark	说明	评估重点
ToolBench	16000+ 真实 API 工具调用	工具调用成功率
API-Bank	分层 API 能力评估	工具规划与调用
τ-bench	真实工具调用场景基准	端到端工具使用

具身/游戏类

Benchmark	说明	评估重点
MineDojo / Minecraft	Minecraft 开放世界	持续技能学习
TextWorld	文字冒险游戏	规划与探索
ALFWorld	家务任务仿真	具身规划
BabyAI	简化 GridWorld	指令跟随

多任务综合类

Benchmark	说明	评估重点
AgentBench	8个不同环境的综合评估	多场景 Agent
GAIA	真实世界通用 AI 助手任务	综合 Agent 能力
AgentTrek	Agent 轨迹自动生成评估	轨迹质量
AutoEval	自动化多维 Agent 评估	自适应评估

医疗/科研类

Benchmark	说明	评估重点
MedQA	医学执照考试问答	医学知识
PubMedQA	生物医学文献问答	科研文献理解
MedAgentBench	医疗 Agent 综合评估	临床 Agent

第七章：Where to Evolve —— 在哪进化？

7.1 通用领域

自我进化 Agent 在通用场景中的代表应用包括：

代码工程
通用任务规划
长周期网页交互
开放世界游戏环境
智能助手

7.2 专业领域

论文还展示了其在专业领域的潜力，包括：

个性化教育
医疗健康
科研助手
企业知识系统
网络与系统运维

第八章：方法全量对比表

奖励驱动方法

方法	反馈类型	反馈来源	学习方式	更新组件	更新时机
LADDER	数值	External	RL	全参数	Pre-test
RAGEN	数值	External	RL	全参数	Test-time
SPIRAL	数值	Internal	RL	全参数	Pre-test
MATH-SHEPHERD	数值	External	RL	全参数	Pre-test
AgentPRM	数值	External	SFT+RL	全参数	Pre-test
Agent Q	数值	External	RL	全参数	Pre-test
GiGPO	数值	External	RL	全参数	Pre-test
SPA-RL	数值	External	RL	全参数	Pre-test
Voyager	语言	External	ICL	Context	Test-time
WebRL	语言	External	SFT+RL	全参数	Pre-test
DigiRL	语言	External	RL	部分参数	Pre-test
DistRL	语言	External	RL	全参数	Pre+Test
UI-Genie	数值	External	SFT	部分参数	Pre-test
GUI-R1	数值	External	SFT+RL	全参数	Pre-test
InfiGUI-R1	数值	External	SFT+RL	全参数	Pre-test

模仿与演示学习方法

方法	反馈类型	反馈来源	学习方式	更新组件	更新时机
STaR	语言+数值	Internal	SFT	全参数	Pre-test
V-STaR	数值	Ext+Int	SFT+RL	部分参数	Pre-test
AdaSTaR	数值	Internal	SFT	全参数	Pre-test
STIC	语言	Internal	RL+SFT	部分参数	Pre-test
GENIXER	语言	External	SFT	全参数	Pre-training
SiriuS	语言+数值	Internal	SFT	全参数	Pre-test
SOFT	语言	Internal	SFT	未指定	Pre-test
RISE	语言+数值	Int+Ext	SFT	全参数	Pre-test

种群与进化方法

方法	反馈类型	反馈来源	学习方式	更新组件	更新时机
DGM	数值	External	ICL	代码库	Test-time
EvoMAC	语言	External	ICL	团队+工作流	Test-time
SPIN	语言	Internal	RL	全参数	Pre-test
GENOME	数值	External	进化算法	部分参数	Pre-test
SPC	数值	Internal	SFT+RL	Critic参数	Pre+Test
Puppeteer	数值	External	RL	规划器策略	Pre/跨任务
MedAgentSim	语言	External	ICL	知识库	Test-time
STL	语言+数值	Internal	SFT	价值模型	Pre-test
MDTeamGPT	语言	External	ICL	知识库	Test-time

第九章：代表方法的维度覆盖矩阵

（● = 该维度主动进化，○ = 不进化）

方法	Policy	Experience	Prompt	Memory	Tool-Create	Tool-Mastery	Tool-Select	Single-Arch	Multi-Arch
SCA	●	●	○	○	●	○	○	○	○
RAGEN	●	●	●	○	○	○	○	●	○
AgentGen	○	●	●	●	●	○	○	●	○
PromptBreeder	○	○	●	○	○	○	○	●	○
Expel	○	●	○	●	○	○	○	○	○
AWM	○	○	○	●	○	○	●	○	○
Mem0	○	○	○	●	○	○	○	○	○
SPO	○	○	●	○	○	○	○	○	○
Alita	○	○	○	○	●	○	●	○	○
TextGrad	○	○	●	○	○	●	●	●	○
DGM	○	○	●	○	○	○	○	●	○
AlphaEvolve	○	○	●	○	●	●	○	●	○
ADAS	○	○	●	○	●	○	○	●	●
AFlow	○	○	●	○	●	○	●	●	●
SkillWeaver	○	○	○	●	●	●	●	○	○
Voyager	○	○	●	●	●	●	●	○	●

第十章：挑战与未来方向

10.1 安全性挑战

进化稳定性：如何保证自我修改的 Agent 不产生有害行为？
目标对齐保持：随着迭代进化，如何防止目标偏移（Goal Drift）？
可解释进化轨迹：如何审计和追踪 Agent 的自我修改过程？
对抗性进化：如何防止被对手操控，引导 Agent 朝有害方向进化？

10.2 可扩展性挑战

计算开销：测试时参数更新的推理延迟与显存压力
分布式进化：DistRL 等方案下的大规模分布式协同
知识蒸馏瓶颈：进化获得的能力如何高效蒸馏传承

10.3 协同进化动态

多 Agent 竞合：协同进化中如何避免纳什均衡陷阱或集体退化？
涌现行为：大规模多 Agent 系统的涌现行为如何预测与控制？
模型-Agent 解耦进化：底层 LLM 与上层 Agent 策略如何协同且解耦地进化？

10.4 个性化挑战

如何在用户个性化进化（记忆、偏好）与通用能力保留之间取得平衡？
个人化记忆的隐私保护问题

10.5 评估体系不成熟

缺乏长时序自我进化能力的标准化评估框架
需要专门设计的动态评估 Benchmark：任务难度随 Agent 能力同步提升

总结：通往 ASI 的路线图

LLM（语言理解与生成）
  GPT-4 / Claude / DeepSeek-R1
        ↓ 增加规划、工具调用、工作流构建
Foundation Agent（执行式 Agent）
  smolagents / Manus / ChatGPT agent
        ↓ 增加学习与进化机制
Self-Evolving Agent（自我进化 Agent）← 本综述聚焦
  Alita / Gödel Agent / Voyager
        ↓ 待探索...
??? → ASI（人工超级智能）
  自主进化 + 跨域超人类性能

这篇论文的核心洞见是：通往 ASI 的关键不仅仅是更大的模型，而是赋予 Agent 自主学习、反思和进化的能力。从 What/When/How/Where 四个维度系统梳理这一范式，为未来的研究提供了清晰的地图。