自我进化 Agent 综述:超详细深度解读
《自我进化 Agent 综述》超详细深度解读
论文全名:A Survey of Self-Evolving Agents: What, When, How, and Where to Evolve on the Path to Artificial Super Intelligence
发表刊物:Transactions on Machine Learning Research(TMLR,2026年1月)
论文页数:77页,含9张图、大量表格
Github:https://github.com/CharlesQ9/Self-Evolving-Agents
OpenReview:https://openreview.net/forum?id=CTr3bovS5F
参与机构:Princeton、Tsinghua、CMU、SJTU、Penn State、Fudan、HKUST、UMich、UCSB、UCSD、Edinburgh、UIUC 等
这篇综述的核心问题很明确:如果大模型是静态的,那么 Agent 如何在真实环境中持续学习、自主修正并逐步进化?整篇论文围绕 What / When / How / Where 四个维度,把“自我进化 Agent”作为一个独立研究范式完整梳理出来。
第一章:背景与动机
1.1 根本问题:LLM 的静态瓶颈
当前的大型语言模型(LLM)存在一个根本性限制:它们是静态的(fundamentally static)。一旦训练完成,模型参数就被固定,无法在以下场景中自我适应:
- 遭遇全新任务类型(novel tasks)
- 知识领域持续演化(evolving knowledge domains)
- 动态交互上下文(dynamic interaction contexts)
随着 LLM 越来越多地被部署在开放式、交互式环境中(如 smolagents、Manus、ChatGPT agent),这一静态本质成为了关键瓶颈。
1.2 范式转变:从静态缩放到自我进化
论文提出了一个范式转变:
从”缩放静态模型”(scaling static models)→ 开发”自我进化 Agent”(self-evolving agents)
这一转变驱动着一条通往人工超级智能(ASI)的希望之路,其中 Agent 不仅能以不可预测的速度学习和进化,还能在广泛的任务中达到或超越人类水平。
1.3 论文的核心贡献
- 建立统一理论框架:围绕 What/When/How/Where 四个基础维度组织全域
- 第一篇系统性综述:首次将自我进化 Agent 作为一级研究范式进行专项全面调研
- 评估体系梳理:深入分析专为自我进化 Agent 定制的评估指标与 Benchmark
- 实际应用展示:覆盖代码工程、个性化教育、医疗健康、智能助手等领域
- 开放挑战识别:安全性、可扩展性、多 Agent 协同进化、个性化等方向
第二章:形式化定义与数学基础
2.1 环境定义(POMDP 框架)
论文将 Agent 的运行环境定义为一个部分可观测马尔可夫决策过程(POMDP),表示为八元组:
$$\mathcal{E} = (\mathcal{G}, \mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \Omega, \mathcal{O}, \gamma)$$
| 符号 | 含义 |
|---|---|
| $\mathcal{G}$ | 潜在目标集合,每个 $g \in \mathcal{G}$ 是一个任务目标(如用户查询) |
| $\mathcal{S}$ | 状态集合,$s \in \mathcal{S}$ 表示环境的内部状态 |
| $\mathcal{A}$ | 动作集合,可以是文本推理、外部知识检索、工具调用的组合 |
| $\mathcal{T}$ | 状态转移概率函数,$\mathcal{T}(s’ |
| $\mathcal{R}: \mathcal{S} \times \mathcal{A} \times \mathcal{G} \rightarrow \mathbb{R}$ | 奖励/反馈函数,以目标 $g$ 为条件,$r = \mathcal{R}(s,a,g)$ 可以是标量或文本 |
| $\Omega$ | Agent 可访问的观测集合 |
| $\mathcal{O}$ | 观测概率函数,$\mathcal{O}(o’ |
| $\gamma$ | 折扣因子 |
2.2 Agent 系统定义
定义一个(多)Agent 系统为:
$$\Pi = (\Gamma, {\psi_i}, {C_i}, {W_i})$$
其中:
- $\Gamma$:架构(控制流或多 Agent 协作结构),通常表示为节点序列 $(N_1, N_2, \ldots)$
- $\psi_i$:每个节点的底层 LLM/MLLM
- $C_i$:上下文信息,包括 Prompt $P_i$ 和记忆 $M_i$
- $W_i$:可用工具/API 集合
每个节点的 Agent 策略为:
$$\pi_{\theta_i}(\cdot | o) \quad \text{其中} \quad \theta_i = (\psi_i, C_i)$$
实际动作空间是自然语言空间与工具空间 $W_i$ 的并集。
2.3 自我进化策略(核心公式)
公式 1:进化变换
一个自我进化策略是一个变换函数 $f$,将当前 Agent 系统映射到新状态:
$$f(\Pi, \tau, r) = \Pi’ = (\Gamma’, {\psi’_i}, {C’_i}, {W’_i}) \tag{1}$$
其中 $\tau$ 是生成的轨迹,$r$ 是内外部反馈。
公式 2:迭代进化序列
给定任务序列 $(T_0, T_1, \ldots, T_n)$ 和初始 Agent 系统 $\Pi_0$,自我进化策略 $f$ 递归生成:
$$\Pi_{j+1} = f(\Pi_j, \tau_j, r_j) \tag{2}$$
其中 $\tau_j$ 和 $r_j$ 分别是任务 $T_j$ 上的轨迹和反馈。
公式 3:最终优化目标
设计自我进化 Agent 的最终目标是构造策略 $f$,使得所有任务上的累积效用最大化:
$$\max_f \sum_{j=0}^{n} U(\Pi_j, T_j) \tag{3}$$
其中 $U(\Pi, T)$ 是效用函数,衡量 Agent 系统 $\Pi$ 在任务 $T$ 上的性能(标量分数)。
2.4 自我进化 Agent 的操作性定义
一个自我进化 Agent 是指:基于自身轨迹或反馈信号,修改其内部参数、上下文状态、工具集或架构拓扑,以显式提升未来表现的 Agent。
三个必要条件:
- 经验依赖性:更新必须由轨迹、自生成数据或环境反馈驱动,专门针对策略局限或能力边界
- 持久性效果:更新必须产生持久的策略变化,而非短暂的指令遵循行为
- 自主探索机制:系统必须具备自主探索或自发学习的机制
2.5 与其他范式的对比
| 范式 | 运行时上下文 | 动态工具集 | 动态测试任务 | 测试时适应 | 主动探索 | 结构变化 | 自我反思与评估 |
|---|---|---|---|---|---|---|---|
| 课程学习 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| 终身学习 | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ |
| 模型编辑 | ✗ | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ |
| 自我进化 Agent | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
第三章:What to Evolve —— 进化什么?
Agent 系统 $\Pi = (\Gamma, {\psi_i}, {C_i}, {W_i})$ 的四大进化支柱:
3.1 模型(Model ${\psi_i}$)
3.1.1 Policy(策略参数)
模型参数可通过自生成监督信号持续更新。
SCA(Self-Challenging Agent):模型在挑战者(生成 Code-as-Task 问题)和执行者(求解问题)之间交替角色,使用成功解法的轨迹微调参数。
SCoRe(Self-Correction via RL):通过强化学习训练模型自我纠错,使用数值外部奖励,更新全部参数(pre-test time)。
TextGrad:通过文本”自动微分”进行梯度式优化,支持 pre-test/test-time 双阶段。
PAG(Policy as Generative Verifier):多轮强化 LLM 自我纠错,策略同时充当生成型验证器。
3.1.2 Lesson(经验教训)
从交互轨迹中提炼和抽象经验。
- Reflexion:语言型强化学习,将错误反思存储为上下文经验
- AgentGen:自动生成 Agent 训练环境,提炼行动经验
- RAGEN:多轮 RL 中的自我进化,同时进化 Policy 和 Lesson
3.2 上下文(Context ${C_i}$)
3.2.1 Memory(记忆系统)
| 方法 | 核心机制 |
|---|---|
| Mem0 | 智能记忆层,在 LLM 之上动态存储/检索个性化信息 |
| SAGE | 上下文感知的记忆管理 |
| Expel | 从多个轨迹中提炼可泛化的经验规则 |
| Agent Workflow Memory (AWM) | 将可重用工作流存入记忆,跨任务复用 |
| MemInsight | 基于洞察的记忆增强 |
| ICE | 自适应上下文记忆提取 |
3.2.2 Prompt(提示词优化)
| 方法 | 优化策略 |
|---|---|
| APE | 自动提示工程,搜索最优指令 |
| PromptBreeder | 受进化算法启发,种群式迭代优化提示词 |
| DSPy | 将提示词声明式编程化,自动编译优化 |
| SPO | 结构化提示词优化 |
| ProTeGi | 基于梯度的文本提示词优化 |
| LLM-AutoDiff | 将 LLM 视为可微模块进行端到端提示优化 |
| EvoAgent | Agent 进化式提示搜索 |
3.3 工具(Tool ${W_i}$)
3.3.1 Creation(工具创建)
| 方法 | 机制 |
|---|---|
| Voyager | 在 Minecraft 中自主创建技能库(JavaScript 函数) |
| CREATOR | 将问题分解为工具创建 + 工具使用两阶段 |
| SkillWeaver | 网络任务中动态编织技能,构建技能图谱 |
| Alita | 最小化先验下的工具自动生成与管理 |
| CRAFT | 自定义工具检索与微调 |
| ATLASS | 自适应工具学习与选择 |
3.3.2 Mastery(工具掌握)
| 方法 | 机制 |
|---|---|
| ToolLLM | 基于 RapidAPI 的 16000+ 真实 API 工具使用学习 |
| Gorilla | 大规模 API 调用微调 |
| Toolformer | 自监督方式学习何时/如何调用工具 |
| LearnAct | 从与环境交互的行动轨迹中学习 |
| DRAFT | 动态工具检索与微调 |
3.3.3 Selection(工具选择)
| 方法 | 机制 |
|---|---|
| ToolGen | 将工具检索统一为生成式任务 |
| AgentSquare | Agent 模块化搜索与组合优化 |
| DGM | Darwin Godel Machine,开放式进化自选工具 |
| TOOLRET | 工具检索增强 |
| SSO | 语义工具选择优化 |
3.4 架构(Architecture $\Gamma$)
3.4.1 单 Agent 架构进化
| 方法 | 机制 |
|---|---|
| Gödel Agent | 自我反思并重写自身代码,实现递归自我改进 |
| AlphaEvolve | 演化式编程框架,自动发现并优化算法 |
| DGM(Darwin Gödel Machine) | 开放式进化,将自身进化过程编码为可执行代码 |
| EvoFlow | 流程结构进化优化 |
| MASS | 多 Agent 系统设计的自我进化 |
| ADAS | 自适应架构搜索 |
| AFlow | 工作流图结构自动优化 |
3.4.2 多 Agent 架构进化
| 方法 | 机制 |
|---|---|
| AutoGen-Builder | 自动构建多 Agent 协作系统 |
| MetaGPT | 软件工程型多 Agent 工作流 |
| AgentVerse | 多 Agent 协作与任务分解平台 |
| GPTSwarm | 图结构多 Agent 协作优化 |
第四章:When to Evolve —— 何时进化?
4.1 测试时内部自我进化(Intra-test-time Self-Evolution)
在单个任务内部边执行边进化。核心特点:
- 更新发生在同一任务求解过程中
- 利用中间反馈、自我反思或工具结果即时修正
- 更强调 test-time adaptation
常见方式包括:
- 自我纠错(self-correction)
- 反思后重试(reflection + retry)
- 测试时参数更新
- 动态提示词/记忆调整
代表方法:
- Reflexion
- Self-Refine
- TextGrad
- RAGEN
4.2 跨测试时间自我进化(Inter-test-time Self-Evolution)
在多个任务之间积累经验,再迁移到未来任务。核心特点:
- 更新跨任务持久保留
- 强调长期学习与能力沉淀
- 更接近 continual/online evolution
代表方法:
- Voyager
- Mem0
- Expel
- Agent Workflow Memory
第五章:How to Evolve —— 如何进化?
5.1 基于奖励的自我进化
通过外部或内部奖励信号驱动更新。
| 方法 | 反馈类型 | 反馈来源 | 学习方式 | 更新组件 | 更新时机 |
|---|---|---|---|---|---|
| LADDER | 数值 | External | RL | 全参数 | Pre-test |
| RAGEN | 数值 | External | RL | 全参数 | Test-time |
| SPIRAL | 数值 | Internal | RL | 全参数 | Pre-test |
| MATH-SHEPHERD | 数值 | External | RL | 全参数 | Pre-test |
| AgentPRM | 数值 | External | SFT+RL | 全参数 | Pre-test |
| Agent Q | 数值 | External | RL | 全参数 | Pre-test |
| GiGPO | 数值 | External | RL | 全参数 | Pre-test |
| SPA-RL | 数值 | External | RL | 全参数 | Pre-test |
| Voyager | 语言 | External | ICL | Context | Test-time |
| WebRL | 语言 | External | SFT+RL | 全参数 | Pre-test |
| DigiRL | 语言 | External | RL | 部分参数 | Pre-test |
| DistRL | 语言 | External | RL | 全参数 | Pre+Test |
| UI-Genie | 数值 | External | SFT | 部分参数 | Pre-test |
| GUI-R1 | 数值 | External | SFT+RL | 全参数 | Pre-test |
| InfiGUI-R1 | 数值 | External | SFT+RL | 全参数 | Pre-test |
5.2 模仿与演示学习
| 方法 | 反馈类型 | 反馈来源 | 学习方式 | 更新组件 | 更新时机 |
|---|---|---|---|---|---|
| STaR | 语言+数值 | Internal | SFT | 全参数 | Pre-test |
| V-STaR | 数值 | Ext+Int | SFT+RL | 部分参数 | Pre-test |
| AdaSTaR | 数值 | Internal | SFT | 全参数 | Pre-test |
| STIC | 语言 | Internal | RL+SFT | 部分参数 | Pre-test |
| GENIXER | 语言 | External | SFT | 全参数 | Pre-training |
| SiriuS | 语言+数值 | Internal | SFT | 全参数 | Pre-test |
| SOFT | 语言 | Internal | SFT | 未指定 | Pre-test |
| RISE | 语言+数值 | Int+Ext | SFT | 全参数 | Pre-test |
5.3 种群与进化算法
| 方法 | 反馈类型 | 反馈来源 | 学习方式 | 更新组件 | 更新时机 |
|---|---|---|---|---|---|
| DGM | 数值 | External | ICL | 代码库 | Test-time |
| EvoMAC | 语言 | External | ICL | 团队+工作流 | Test-time |
| SPIN | 语言 | Internal | RL | 全参数 | Pre-test |
| GENOME | 数值 | External | 进化算法 | 部分参数 | Pre-test |
| SPC | 数值 | Internal | SFT+RL | Critic参数 | Pre+Test |
| Puppeteer | 数值 | External | RL | 规划器策略 | Pre/跨任务 |
| MedAgentSim | 语言 | External | ICL | 知识库 | Test-time |
| STL | 语言+数值 | Internal | SFT | 价值模型 | Pre-test |
| MDTeamGPT | 语言 | External | ICL | 知识库 | Test-time |
第六章:评估体系与 Benchmark
6.1 评估目标与指标体系
论文提出了专为自我进化 Agent 设计的五大评估维度:
6.1.1 适应性(Adaptivity)
衡量 Agent 在任务上的持续改进速度与幅度:
- 进化速率:$\Delta U = U(\Pi_{j+1}, T) - U(\Pi_j, T)$
- 适应性曲线:随交互轮数的性能增长曲线
- 收敛性:最终性能是否趋于稳定上界
6.1.2 泛化性(Generalization)
衡量进化是否跨任务/域可迁移:
- 域内泛化:相似任务上的改进迁移
- 域外泛化:未见领域上的零样本迁移
- 负迁移检测:进化是否导致已有能力退化
6.1.3 效率(Efficiency)
衡量进化的资源消耗:
- 样本效率:达到目标性能所需的交互次数
- 计算效率:进化步骤的 FLOPs/时间开销
- 内存效率:上下文/记忆存储开销
6.1.4 安全性(Safety)
衡量进化过程的可控性与无害性:
- 进化稳定性:避免有害或意外行为的进化路径
- 目标对齐保持:进化后是否仍保持价值对齐
- 可审计性:进化轨迹是否可解释和追踪
6.1.5 记忆保持(Retention)
衡量进化是否引发灾难性遗忘:
- 旧任务保留率:进化后在历史任务上的性能降幅
- 知识稳定性:核心能力是否被破坏
6.2 三类评估范式
| 范式 | 特征 | 适用场景 |
|---|---|---|
| 静态评估(Static) | 固定数据集,一次性测试 | 基础能力测量 |
| 短时序评估(Short-horizon) | 数轮交互后测试适应性 | 快速适应能力 |
| 长时序评估(Long-horizon) | 长期持续交互与进化 | 真实自主部署场景 |
6.3 主要 Benchmark 一览
数学推理类
| Benchmark | 说明 | 评估重点 |
|---|---|---|
| MATH | 竞赛数学,5个难度级别 | 数学推理准确率 |
| GSM8K | 小学数学文字题 | 初级推理 |
| MATH-500 | MATH子集精选500题 | 全面数学能力 |
| AMC/AIME | 竞赛级数学 | 高难度推理 |
| OlympiadBench | 奥林匹克竞赛题 | 极限推理 |
代码工程类
| Benchmark | 说明 | 评估重点 |
|---|---|---|
| HumanEval | 164个Python编程题 | 代码生成 Pass@k |
| MBPP | 基础Python编程题库 | 代码生成 |
| SWE-bench | 真实 GitHub Issue 修复 | 软件工程 Agent |
| SWE-bench Verified | 人工验证子集 | 精准软件工程 |
| SWE-Dev | 功能驱动软件开发 | 自主特性开发 |
| LiveCodeBench | 动态实时代码挑战 | 持续代码能力 |
Web/GUI 操控类
| Benchmark | 说明 | 评估重点 |
|---|---|---|
| WebArena | 真实网站任务(810个) | Web Agent 成功率 |
| WebArena-Lite | WebArena 精简版 | 快速 Web 评估 |
| Mind2Web | 跨网站泛化 Web 任务 | Web 泛化能力 |
| AndroidWorld | Android 真实设备任务 | 移动 GUI Agent |
| AndroidBench | Android 操控基准 | 移动设备控制 |
| OSWorld | 桌面操作系统任务 | 桌面 GUI Agent |
| ScreenSpot | GUI 元素定位 | 视觉 GUI 感知 |
工具调用类
| Benchmark | 说明 | 评估重点 |
|---|---|---|
| ToolBench | 16000+ 真实 API 工具调用 | 工具调用成功率 |
| API-Bank | 分层 API 能力评估 | 工具规划与调用 |
| τ-bench | 真实工具调用场景基准 | 端到端工具使用 |
具身/游戏类
| Benchmark | 说明 | 评估重点 |
|---|---|---|
| MineDojo / Minecraft | Minecraft 开放世界 | 持续技能学习 |
| TextWorld | 文字冒险游戏 | 规划与探索 |
| ALFWorld | 家务任务仿真 | 具身规划 |
| BabyAI | 简化 GridWorld | 指令跟随 |
多任务综合类
| Benchmark | 说明 | 评估重点 |
|---|---|---|
| AgentBench | 8个不同环境的综合评估 | 多场景 Agent |
| GAIA | 真实世界通用 AI 助手任务 | 综合 Agent 能力 |
| AgentTrek | Agent 轨迹自动生成评估 | 轨迹质量 |
| AutoEval | 自动化多维 Agent 评估 | 自适应评估 |
医疗/科研类
| Benchmark | 说明 | 评估重点 |
|---|---|---|
| MedQA | 医学执照考试问答 | 医学知识 |
| PubMedQA | 生物医学文献问答 | 科研文献理解 |
| MedAgentBench | 医疗 Agent 综合评估 | 临床 Agent |
第七章:Where to Evolve —— 在哪进化?
7.1 通用领域
自我进化 Agent 在通用场景中的代表应用包括:
- 代码工程
- 通用任务规划
- 长周期网页交互
- 开放世界游戏环境
- 智能助手
7.2 专业领域
论文还展示了其在专业领域的潜力,包括:
- 个性化教育
- 医疗健康
- 科研助手
- 企业知识系统
- 网络与系统运维
第八章:方法全量对比表
奖励驱动方法
| 方法 | 反馈类型 | 反馈来源 | 学习方式 | 更新组件 | 更新时机 |
|---|---|---|---|---|---|
| LADDER | 数值 | External | RL | 全参数 | Pre-test |
| RAGEN | 数值 | External | RL | 全参数 | Test-time |
| SPIRAL | 数值 | Internal | RL | 全参数 | Pre-test |
| MATH-SHEPHERD | 数值 | External | RL | 全参数 | Pre-test |
| AgentPRM | 数值 | External | SFT+RL | 全参数 | Pre-test |
| Agent Q | 数值 | External | RL | 全参数 | Pre-test |
| GiGPO | 数值 | External | RL | 全参数 | Pre-test |
| SPA-RL | 数值 | External | RL | 全参数 | Pre-test |
| Voyager | 语言 | External | ICL | Context | Test-time |
| WebRL | 语言 | External | SFT+RL | 全参数 | Pre-test |
| DigiRL | 语言 | External | RL | 部分参数 | Pre-test |
| DistRL | 语言 | External | RL | 全参数 | Pre+Test |
| UI-Genie | 数值 | External | SFT | 部分参数 | Pre-test |
| GUI-R1 | 数值 | External | SFT+RL | 全参数 | Pre-test |
| InfiGUI-R1 | 数值 | External | SFT+RL | 全参数 | Pre-test |
模仿与演示学习方法
| 方法 | 反馈类型 | 反馈来源 | 学习方式 | 更新组件 | 更新时机 |
|---|---|---|---|---|---|
| STaR | 语言+数值 | Internal | SFT | 全参数 | Pre-test |
| V-STaR | 数值 | Ext+Int | SFT+RL | 部分参数 | Pre-test |
| AdaSTaR | 数值 | Internal | SFT | 全参数 | Pre-test |
| STIC | 语言 | Internal | RL+SFT | 部分参数 | Pre-test |
| GENIXER | 语言 | External | SFT | 全参数 | Pre-training |
| SiriuS | 语言+数值 | Internal | SFT | 全参数 | Pre-test |
| SOFT | 语言 | Internal | SFT | 未指定 | Pre-test |
| RISE | 语言+数值 | Int+Ext | SFT | 全参数 | Pre-test |
种群与进化方法
| 方法 | 反馈类型 | 反馈来源 | 学习方式 | 更新组件 | 更新时机 |
|---|---|---|---|---|---|
| DGM | 数值 | External | ICL | 代码库 | Test-time |
| EvoMAC | 语言 | External | ICL | 团队+工作流 | Test-time |
| SPIN | 语言 | Internal | RL | 全参数 | Pre-test |
| GENOME | 数值 | External | 进化算法 | 部分参数 | Pre-test |
| SPC | 数值 | Internal | SFT+RL | Critic参数 | Pre+Test |
| Puppeteer | 数值 | External | RL | 规划器策略 | Pre/跨任务 |
| MedAgentSim | 语言 | External | ICL | 知识库 | Test-time |
| STL | 语言+数值 | Internal | SFT | 价值模型 | Pre-test |
| MDTeamGPT | 语言 | External | ICL | 知识库 | Test-time |
第九章:代表方法的维度覆盖矩阵
(● = 该维度主动进化,○ = 不进化)
| 方法 | Policy | Experience | Prompt | Memory | Tool-Create | Tool-Mastery | Tool-Select | Single-Arch | Multi-Arch |
|---|---|---|---|---|---|---|---|---|---|
| SCA | ● | ● | ○ | ○ | ● | ○ | ○ | ○ | ○ |
| RAGEN | ● | ● | ● | ○ | ○ | ○ | ○ | ● | ○ |
| AgentGen | ○ | ● | ● | ● | ● | ○ | ○ | ● | ○ |
| PromptBreeder | ○ | ○ | ● | ○ | ○ | ○ | ○ | ● | ○ |
| Expel | ○ | ● | ○ | ● | ○ | ○ | ○ | ○ | ○ |
| AWM | ○ | ○ | ○ | ● | ○ | ○ | ● | ○ | ○ |
| Mem0 | ○ | ○ | ○ | ● | ○ | ○ | ○ | ○ | ○ |
| SPO | ○ | ○ | ● | ○ | ○ | ○ | ○ | ○ | ○ |
| Alita | ○ | ○ | ○ | ○ | ● | ○ | ● | ○ | ○ |
| TextGrad | ○ | ○ | ● | ○ | ○ | ● | ● | ● | ○ |
| DGM | ○ | ○ | ● | ○ | ○ | ○ | ○ | ● | ○ |
| AlphaEvolve | ○ | ○ | ● | ○ | ● | ● | ○ | ● | ○ |
| ADAS | ○ | ○ | ● | ○ | ● | ○ | ○ | ● | ● |
| AFlow | ○ | ○ | ● | ○ | ● | ○ | ● | ● | ● |
| SkillWeaver | ○ | ○ | ○ | ● | ● | ● | ● | ○ | ○ |
| Voyager | ○ | ○ | ● | ● | ● | ● | ● | ○ | ● |
第十章:挑战与未来方向
10.1 安全性挑战
- 进化稳定性:如何保证自我修改的 Agent 不产生有害行为?
- 目标对齐保持:随着迭代进化,如何防止目标偏移(Goal Drift)?
- 可解释进化轨迹:如何审计和追踪 Agent 的自我修改过程?
- 对抗性进化:如何防止被对手操控,引导 Agent 朝有害方向进化?
10.2 可扩展性挑战
- 计算开销:测试时参数更新的推理延迟与显存压力
- 分布式进化:DistRL 等方案下的大规模分布式协同
- 知识蒸馏瓶颈:进化获得的能力如何高效蒸馏传承
10.3 协同进化动态
- 多 Agent 竞合:协同进化中如何避免纳什均衡陷阱或集体退化?
- 涌现行为:大规模多 Agent 系统的涌现行为如何预测与控制?
- 模型-Agent 解耦进化:底层 LLM 与上层 Agent 策略如何协同且解耦地进化?
10.4 个性化挑战
- 如何在用户个性化进化(记忆、偏好)与通用能力保留之间取得平衡?
- 个人化记忆的隐私保护问题
10.5 评估体系不成熟
- 缺乏长时序自我进化能力的标准化评估框架
- 需要专门设计的动态评估 Benchmark:任务难度随 Agent 能力同步提升
总结:通往 ASI 的路线图
1 | LLM(语言理解与生成) |
这篇论文的核心洞见是:通往 ASI 的关键不仅仅是更大的模型,而是赋予 Agent 自主学习、反思和进化的能力。从 What/When/How/Where 四个维度系统梳理这一范式,为未来的研究提供了清晰的地图。
