从 RL Agent 到 LLM Agent:The Second Half 之后的范式转移与不确定性建模
博客列表 主页

AGI 的实现的标志是 AI 能够从人类社会获得钱(如果货币还存在),如果可以那就去提高 ROI。直到它获得这个世界 99% 的财富。

Make money from human –> Create value for humanity

从 RL Agent 到 LLM Agent:The Second Half 之后的范式转移与不确定性建模

人机交互和软件工程的发展,是对人的不确定性建模的过程。从 DOS 界面到 GUI,再到语音与动作输入。技术的进步让计算机能够理解人越来越复杂和模糊的意图,从而更好地服务于人。

Large Language Model 的诞生,是对人类不确定性建模的另一次跃进,机器拥有了理解人类自然语言的能力,具备了类似人类的视觉能力以及综合信息进行思考的能力,这意味着人机交互的全新模式,将会催生新时代的操作系统(旧时代的操作系统用于将人类的模糊指令转换为精确的计算机指令),自然语言将会是新时代的操作系统语言。而 LLM Agent,这种让对人类不确定性的精确建模手段更好地去服务于人本身的技术,可能就是这个操作系统的雏形。

在语言模型智能体出现之前,Agent 并不是一个陌生的概念;在强化学习领域,通过环境奖励反馈训练得到的如 AlphaGo、AlphaZero 以及 OpenAI Five(Dota)都属于强化学习智能体的范畴。但实验表明,单独依靠环境奖励的 Agent 泛化能力有限。随着环境复杂程度的上升和 Action Space 的增大,传统的 RL 强化学习算法越来越难以收敛。

语言模型 Agent 的出现具备划时代的意义。虽然 LLM Agent 和传统智能体有着完全不同的输入空间和 Action Space,并且前者的空间更大、更难收敛和泛化,但是自然语言和图像预训练带来的先验知识,让泛化成为了可能,也允许我们去进一步地建模不确定性。

从 RL Agent 到 LLM Agent,不是一个“旧模型被新模型替代”的故事,而是一次更深的迁移:学习信号从数值空间迁移到了语言空间,泛化机制从环境内的盲目试错迁移到了预训练先验、推理、反馈与记忆构成的闭环中。

如果说 The First Half 解决的是“如何获得一个真正泛化的模型”,那么 The Second Half 要解决的就是“如何让这种泛化能力在真实世界中被正确评估、正确使用,并最终沉淀为持续进化的智能体系统”。

纯 RL Agent 为什么在开放世界中撞墙

强化学习并不弱。恰恰相反,它在那些规则明确、反馈充分、状态转移稳定的封闭环境里展现过极其惊人的力量。无论是 DeepBlue、AlphaGo、AlphaZero,还是 OpenAI Five,它们都说明:在一个可以被精确模拟、可被海量采样、奖励机制相对清晰的环境中,RL 完全可以逼近甚至超过人类的策略水平。

问题在于,开放世界不是围棋,也不是一个足够干净的竞技场。以 Minecraft 这类环境为例,智能体面对的不是一个有限且高度规则化的状态空间,而是程序化生成、长时程、任务依赖复杂、奖励极其稀疏的世界。一个看似简单的目标——比如“合成一把铁镐”——背后往往包含数十个前置条件和成千上万步原子动作。最终奖励只在任务完成时才出现,而在此前的几乎所有动作上,环境都无法告诉智能体“你刚刚那一步是不是朝着正确方向前进了”。这就是长程任务中的 credit assignment 问题。

与此同时,开放世界的动作空间又过于庞大。状态不再是有限棋盘,动作也不再只是离散落子,而是连续视角控制、离散操作组合、物品使用、路径选择、资源依赖与工具链构造的混合空间。纯 RL 在这里很容易退化为高成本、低效率的随机游走:它也许能学会“跳跃”或者“挖掘”这样的局部行为,却难以自动形成“先造工具再获取资源”的抽象因果链条。

这也是为什么分层强化学习长期以来被寄予厚望,但始终难以在开放世界上彻底破局。根本问题不只是“层次不够深”,而是纯 RL 系统缺乏原生的符号化抽象与语义规划能力。它很难从环境反馈中直接长出“如果要资源 B,就必须先有工具 A”这样的结构化知识。于是,开放世界在某种意义上暴露了 RL Agent 的真正边界:它不是不能学,而是当任务需要常识、抽象规划和语义压缩时,仅靠环境内的数值反馈并不够。

The Second Half

本节讨论从语言模型到语言模型智能体,主要基于 Shunyu Yao 的 The Second Half。讨论 LLM Agent 的产生以及在新时代更重要的问题。

为什么进入 The Second Half——从研究 Model 到研究 Evaluation?其根本原因在于,算法、模型与 RL 都已经表现出了某种意义上的 Generalization。之前我们需要研究 Model 去解决通用问题;现在,由于前者已经获得了泛化能力,我们更需要转向研究 Dataset 和 Evaluation,去解决领域内真实存在的问题。

在讨论后半场之前,先简单回顾前半场我们在做什么以及进入下半场的原因。从表面上,Pretraining、Scaling up、Reasoning、ReAct 使构造语言模型智能体成为了可能,并且它们真实有效地解决了问题。但其根本原因在于 RL 的 Generalization。

只有 RL 能通向 AGI,实现可能存在的完全泛化模型。从 21 世纪初的 DeepBlue,到 AlphaGo / AlphaZero,再到 OpenAI Five,这些都是对 RL-AGI 的尝试,并且确实取得了不错的效果。但在 OpenAI 的尝试中,哪怕构建了非常完善的 Environment 让 RL 去学习,RL 确实可以解决很多问题,却始终无法泛化到“能够使用整个计算机”的能力——it does not work.

GPT 系列模型最终的泛化解释了我们缺少的那块拼图——Pretraining。事实上,环境和算法不是最重要的那一块,Pretraining 带来的 Priors 才是泛化的核心。它与 RL 无关,却是构建 AGI 的关键。仅仅拥有大规模的 Priors 也无法实现在最终 Action 上的 Generalization。人类的能力源自 Planning,或者说 Thinking;而 test-time compute 最终为预训练语言模型带来了更好的能力,并且和 Agent 的结合,让它拥有了在更广阔空间泛化的可能。

在语言空间上思考,对于传统 RL 是不可行的。广阔的 Action Space 让 RL 算法无从决策。但现在我们拥有 Priors,这样的语言知识让决策前的推理变得可能且有效。The First Half 在此结束,我们找到了一个可以泛化的模型(预训练语言模型),并且知道如何通过算法强化其能力(RL)以及将其应用到真实世界的关键(ReAct)。From Next Token Prediction to Language Model Agent 的基础在此奠定,下一步是让它继续泛化,直到解决一切问题。

在 The First Half,我们创建了更好的算法和基准测试,并在它们之上不断循环:解决基准测试,然后创造更难的基准测试。现在,RL 的 Generalization 将会摧毁这个循环。

在 The Second Half,重新去评估和解决现实问题变得更加必要。AI 在过去的几年变得无比强大:它在各种标化考试里取得接近满分的成绩,在代表人类顶尖水平的竞赛中获得冠军,我们得到了一个近乎全能的专家(相较于人类本身的培养成本还非常廉价)。但是人类社会没有因此发生巨大改变。这是利用 AI 的问题,也是现在最重要的问题;而这个问题的根源,在于现有评估技术和真实世界不符,也在人们对“如何利用 AI”本身存在误解。

我们给出两个非常简单的例子

  • 现在的评估技术使用自动化 reward,但真实的场景需要多轮真人对话,而不是一个思考很久后的回复,甚至不是一次多轮决策后的答案。LMArena 和 Tau-bench 一定程度上缓解了这个问题,但和幻觉研究一样,构造相关的 Benchmark 不解决问题,重点是更换所有 Benchmark。
  • 现在的评估技术相信 I.I.D——这个已经被认为是法规的古老假设。各个任务被独立地执行,然后平均结果,但现实世界并不如此,紧密耦合才是常态。

在 First Half,这些评估运行得很好,它们确实改进了模型的智能。但在 The Second Half,新的评估——也就是面向现实世界问题的评估——必须被提出;新的通用方法也必须围绕这些评估被构建出来,从而再次进入循环,去获取解决真实世界问题的更高水平智能。

我们将迎来从解决问题到定义问题的阶段:算法的泛化意味着我们不需要全新的结构与方法去获取智能;从提高指标到将现实世界的复杂问题转换为指标;从算法在固定数据集(如 ImageNet)上的改进,转向模型能力在真实任务中的提升。而现实世界交互就是最大的评估,世界模型将会取代从真实世界获取数据,从世界模型出发实现数据与模型的最终 Generalization。

也正因为如此,研究模型去玩Minecraft游戏不在于游戏本身,就和DOta等游戏一样, 在于它提供了一个足够复杂、足够长程、足够接近真实任务结构的试验场:如果一个智能体体系能在这里证明自己不再依赖纯粹的环境内盲目探索,而是开始依赖先验知识、规划、文本反馈和外部记忆,那么范式转移就已经发生了。

另一个视角:Era of Experience 与路线之争

The Second Half 从 RL 泛化和评估的角度解释了范式为什么要转移。几乎同一时间,David Silver 和 Richard Sutton 在 Welcome to the Era of Experience 中从另一个角度做了方向性判断:AI 研究的核心问题正在从「如何从人类数据中学更多」变成「如何让 agent 在世界中行动并从后果中学习」。

他们的核心论证是:高质量人类数据的增量收益正在变小,而很多真正重要的新能力——超人水平的数学、科学发现、复杂规划——按定义就还没写进现有数据里。下一阶段的核心数据源,是 agent 自己在环境里行动、观察、试错、获取反馈之后产生的经验(experience)。他们把新阶段拆成四个核心变化:

  1. Streams:agent 不再是一问一答的聊天模型,而是活在一条持续的经验流里,跨越数月甚至数年地积累知识和修正策略。
  2. Grounded Actions / Observations:输入输出不再局限于文本,而是真正落在环境中——网页、代码执行器、API、机器人传感器。
  3. Grounded Rewards:奖励不再只是”人类觉得这个回答好不好”,而是来自环境后果——代码有没有跑通、实验结果是否更好、任务是否完成。
  4. Planning Beyond Human Traces:推理不必永远像人类写 chain-of-thought 那样进行;agent 可以发展出不同于人类表述的内部计算与规划方式。

这个框架和 The Second Half 指向的目标一致——去定义新的有价值的问题并给出有价值的 reward——但路径不同。需要先说清楚一个判断:这篇短文更像研究宣言而不是已验证的定律。 最好的读法是把它当作一种新总纲,思考它如何影响我们该做什么的研究。

2024-2026:从观点到现实

这些方向性判断已经开始在一批系统中变成现实:

系统 时间 代表什么
OpenAI o1 2024 推理能力提升越来越依赖 RL 与推理计算,而非继续堆预训练数据
DeepSeek-R1 2025 纯 RL 先冒出推理行为,证明经验能长出新能力
AlphaProof 2025 形式化证明器提供高质量验证信号,是环境反馈驱动学习的最理想场景
AlphaEvolve 2025 用自动评估器驱动代码/算法搜索,agent 在”试-评-改”循环里进化方案
Operator 2025 agent 直接在 GUI 中完成任务,从答题转成行动
Gemini Robotics 2025 多模态模型进入实体环境,视觉-动作闭环

其中 DeepSeek-R1 尤其值得注意:R1-Zero 先做大规模 RL,不做 SFT 冷启动,纯 RL 的确涌现了 self-verification、reflection、long CoT。但同时也出现了 endless repetition、language mixing 等问题。这恰好说明:经验可以长出新能力,但经验本身不会自动带来好用性和稳定对齐。 经验时代不是替代一切人类数据,而是减弱人类数据的必须性——预训练先验仍然不可或缺。

AlphaProof 在 2024 年 IMO 上拿到银牌水平,包括只有 5 名选手做出的最难题目。它的成功核心不在于 RL 有多强,而在于一旦高质量环境反馈存在,经验学习就可能迅速超越纯人类数据路线。形式化证明器提供的是可执行、可重复、可规模化的验证信号——这比”人类觉得你回答不错”强得多。

路线之争:这件事远没有共识

围绕”用什么去补人类数据的天花板”,至少存在三条竞争路线:

  • Silver / Sutton:RL + 经验 + 标量奖励。核心信念是 Reward is Enough——所有目标都可被表达为累积标量奖励最大化。Sutton 在 2025 年甚至将 LLM 称为”世界的瞬间痴迷”(a passing fad)。
  • LeCun:世界模型 + JEPA。构建编码物理、因果关系和时间演化的世界模型,在抽象表示空间中预测未来。2025 年底 LeCun 创立 AMI Labs 全面押注这条路线,核心论证是人脑用极少数据就能学会理解世界,说明架构比数据量更重要。
  • Hassabis:务实折中。DeepMind 在实践中混合使用——AlphaProof 用 Gemini + AlphaZero,Gemini Robotics 混合大模型和控制策略。

答案可能是辩证的:纯 RL 路线低估了预训练先验的价值——正是 Pretraining 带来的 Priors 让 RL 在语言空间的泛化成为可能,这在本文前面已经论证过。但 Silver 和 Sutton 对 agent 在环境中行动、获取反馈、用环境后果 reward 自己这一核心循环的强调是完全正确的。LLM 提供先验和语义规划能力,RL 提供环境反馈驱动的持续优化——两者的融合才是可能的智能路线。 这也是下面即将讨论的 Plan4MC、Voyager 等混合架构已经在验证的方向。

无论哪条路线胜出,有一件事是共识:纯粹依赖人类已有数据的路线正在接近天花板。 分歧只在于用什么去补。而 The Second Half 和 Era of Experience 从不同角度给出的答案是一致的:定义问题比研究解决问题的方法更重要——只要你有一个完美的 Rewarder 可以近似人类的需求,RL 就能将模型带到那个位置。

开放世界中的范式证据:Plan4MC / GITM / Voyager

在利用 LLM 赋能智能体的探索浪潮中,学术界演化出了三条截然不同但各具启发性的技术路线。这三条路线分别代表了如何将 LLM 的先验与不同层级的动作空间相结合:以 Plan4MC 为代表的“混合架构(RL 底层微调 + LLM 技能图谱)”、以 GITM 为代表的“文本动作闭环 + 记忆检索”,以及以 Voyager 为代表的“代码即策略(Code-as-Policies)+ 自动课程”。

Plan4MC:LLM 负责高层规划,RL 保留在底层执行

Plan4MC 是将 LLM 的高级规划能力与 RL 的底层连续控制能力结合起来的典型代表。它并没有简单地宣布 RL 过时,而是做了一个非常重要的职责划分:LLM 负责宏观目标的拆解,RL 负责底层技能的强化与执行。

为了避免在复杂环境中高频在线调用 LLM 带来的延迟与逻辑幻觉,Plan4MC 借助 LLM 在离线阶段生成技能依赖图谱(Skill Graph),把原子技能及其前置条件固化成图结构;在线执行时,再通过图搜索进行任务规划。这一设计本质上是在说:真正困难的部分已经不再是“如何从零学会所有动作”,而是“如何把世界知识转化为可执行的层次结构”。

更关键的是奖励问题。Plan4MC 使用预训练视觉-语言模型去塑造密集奖励,让 RL 不再只能等待终点处的一个稀疏奖励信号。这说明即便在仍然需要 RL 的地方,系统也开始借助预训练先验来缓解其最根本的困境。换言之,Plan4MC 并没有否定 RL,而是证明了 RL 需要被更强的先验和更清晰的分层结构包裹起来,才能在开放世界里有效工作。

GITM:文本接口闭环与外置记忆

如果说 Plan4MC 还保留了 RL 作为底层神经控制器的核心位置,那么 Ghost in the Minecraft(GITM)则代表了一次更加激进的转向:它几乎完全抛弃了底层的梯度更新,转而构建一个纯文本交互闭环。

GITM 的关键做法有两点。第一,它把底层键鼠操作映射为受限的结构化自然语言动作,让环境从像素和控制信号被重新表达为语义接口。第二,它让 LLM 直接利用互联网知识和任务依赖关系,把“获取钻石”这类宏大目标递归拆解成结构化子目标树,再通过反馈消息持续重规划。

真正的转折点在于学习方式。GITM 不是通过参数更新积累经验,而是把成功的动作序列总结为长期文本记忆,写入外部数据库,再通过检索增强生成(RAG)在未来任务中复用。也就是说,它用文本记忆替代了参数梯度,用经验检索替代了重新训练。 这是从 RL Agent 到 LLM Agent 过程中最关键的变化之一:学习开始从模型权重内部,迁移到可读、可检索、可组合的外部记忆之中。

Voyager:代码即策略与自动课程

Voyager 展示了当前 LLM 智能体的一种更强形态:动作空间既不是连续控制,也不是受限的纯文本动作,而是直接生成图灵完备的执行代码。

相比于 GITM 每次都要让模型生成一步一步的文本动作,Voyager 让 GPT-4 直接编写调用环境 API 的 JavaScript 代码片段来控制智能体。代码天然支持复杂控制流,例如 while 循环、if-else 分支和可组合函数调用。一段代码可以自主运行数分钟而无需模型反复介入,这意味着策略不再只是单步动作,而是可以被打包为一个可复用、可组合、可长期积累的程序单元。

更进一步,Voyager 内置自动课程机制:它根据当前资源状态、地形和历史经验,自主提出位于“舒适区边缘”的新任务;模型写代码、执行代码、读取环境反馈与解释器报错、再自我修正。一旦代码验证成功,它就会被写入外部技能库,未来通过向量检索被零样本复用。此时“学习”已经不再主要表现为参数更新,而表现为技能库的横向扩展、代码策略的积累与经验的非参数化沉淀。

小结:开放世界证明了什么

Plan4MC、GITM 与 Voyager 并不是三篇彼此孤立的论文,它们构成了一个非常清晰的演进方向:从让 RL 在开放世界里继续工作,到把环境翻译成 LLM 可以理解的语义空间”,再到直接把策略写成可以执行和复用的代码。它们共同证明了一个更大的判断:Agent 的主范式正在从环境内的数值试错,转向语言、代码、反馈与记忆组成的分层系统。

从开放世界回到语言空间:ReAct / ToT / Reflexion

开放世界研究证明了范式转移的必要性,但它还没有完全解释这种转移在语言空间里究竟是如何发生的。真正把这件事讲清楚的,是 ReAct、Tree of Thoughts 与 Reflexion 这些工作。它们并不是附属技巧,而是在语言空间里重新实现 Agent 核心机制的关键节点。

ReAct: Synergizing Reasoning and Acting in Language Models

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao. arXiv:2210.03629, 2022.

核心洞察:人类智能的独特之处在于能够无缝地将以任务为导向的行动与语言推理相结合——这种紧密的协同使人类能够快速学习新任务,并在未见过的环境或信息不确定的情况下进行稳健的决策。然而在 ReAct 之前,LLM 的推理能力(如 CoT)和行动能力被分别研究。CoT 可以进行复杂推理但容易产生幻觉和错误累积,因为它完全在语言模型内部闭环,缺乏与外部世界的交互来校验事实;而纯行动的方法虽然能与环境交互,但缺乏推理来制定和调整计划。ReAct 的核心贡献在于将两者交错融合——让 LLM 在同一条轨迹中交替生成推理痕迹(Thought)和任务行动(Action),形成 Thought-Action-Observation 的循环。

为什么这是 Agent 的起点:ReAct 首次为语言智能体建立了完整的感知-思考-行动闭环——

  • 推理驱动行动(Reasoning to Act):推理痕迹帮助模型制定行动计划、追踪当前状态、处理异常情况。模型不再是盲目地执行动作,而是先思考再行动,如果愿意的话,可以将推理这个行为本身看作是语言空间上的Action 与 Feedback,这样就可以单纯的使用一套思路来理解推理与行动的共同底层。
  • 行动反哺推理(Acting to Reason):通过与外部环境(如 Wikipedia API、网页、编译器)的交互获取真实信息,将观测结果注入推理过程,纠正语言模型自身的知识幻觉。
  • 可解释性与人类对齐:推理痕迹让整个决策过程对人类可读、可诊断、可信赖。这也是 Human in the Loop 的前提——人必须能理解 Agent 在想什么,才能有效地在中间步骤进行查看和编辑。

ReAct 之所以可行,根本原因在于 LLM 强大的语言先验知识。否则在多步引入外部知识的推理中,找到合适的下一步行动是极其困难的。正因为有了预训练带来的 Priors,模型才能在极少的上下文学习样本下就展现出通用、灵活且高效的表现。

局限与演进:ReAct 存在一种典型的错误模式——模型反复生成先前的想法和行动,陷入推理循环而无法跳出。这揭示了纯 ReAct 在推理深度上的不足。一种有效的改进是将 ReAct 与纯 CoT 结合:当 ReAct 在规定步骤内未找到答案时,回退到 CoT 让模型用内部知识多次推理;当 CoT 无法得出稳定答案时,再用 ReAct 从外部获取信息。这种互补策略指向了一个更深层的洞察——如果推理与行动不出错,利用外部信息应该总是优于只依赖内部知识。 此外,对于具有大动作空间的复杂任务,ReAct 需要更多的演示样本来学习,这容易超出上下文长度限制——这也是后续 Memory 研究的动力之一。

Agent 视角的本质:ReAct 解决的核心问题是如何让语言模型从生成器变为行动者。纯 CoT 是在语言空间内思考但不行动,传统 RL Agent 是行动但不思考(至少不在语言空间思考),且依赖大量昂贵的人工反馈数据。ReAct 以更低成本的方式学习策略——因为决策过程只需要推理过程的语言描述。它将两者统一:在语言空间思考,在真实环境行动,用环境反馈校准思考,再用思考指导下一步行动。正如论文所预见的,随着 LLM 的发展,语言作为一种基本的认知机制,在交互和决策中将发挥越来越关键的作用。这种 Thought-Action-Observation 循环就是语言智能体最基础的结构——LLM 提供智能,Thinking 提供推理,Action 提供与世界的接口,Feedback 闭合整个回路。

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan. arXiv:2305.10601, 2023.

核心洞察:标准 LLM 的 token 级自回归生成本质上是 System 1——快速、线性、不可回退的直觉式决策。ToT 的核心灵感来自认知科学的双过程理论和经典 AI 的搜索范式:为 LLM 引入 System 2 式的慎思(Deliberation),让模型能够探索多条推理路径、自我评估,并在必要时回退

从推理策略到 Agent 思想:ToT 表面上是一种推理策略的升级(从 CoT 的线性链到树状搜索),但其背后蕴含的是完整的 Agent 思想——

  • 规划(Planning):将问题分解为若干思维步骤(Thought Steps),每一步是一个语义连贯的中间状态,而非单个 token。思维的粒度由任务决定——可以是一个词、一道算式,或一整段写作计划。
  • 评估(Evaluation):LLM 充当自身的启发式函数(Heuristic),对每个中间状态进行价值判断。传统搜索中的启发式要么是人工编写的,要么是训练学习的,而 ToT 首次让 LLM 通过语言推理来完成这一功能。
  • 搜索与回退(Search & Backtracking):在思维树上执行 BFS 或 DFS,允许模型在发现当前路径不可行时回退,这打破了自回归生成“一条路走到黑”的限制。

Agent 视角的本质:ToT 与 SC-CoT 的共同点在于,它们不只是推理技巧,而是将经典 AI 中搜索—评估—决策的 Agent 循环移植到了语言空间。CoT 是在语言空间的线性 Action,SC-CoT 是在语言空间的并行采样,而 ToT 则实现了在语言空间的规划、评估与回退——一个完整的决策闭环。这与 Reflexion 所代表的反思能力一起,构成了语言智能体从生成器走向问题求解器的两个核心维度:ToT 侧重生成过程中的规划与搜索,Reflexion 侧重生成结果后的反思与改进。 两者合在一起,正是一个 Agent 系统必须具备的完整能力——规划,行动,反思,再行动。ToT也可以被看作是在语言空间上的ReAct。

Reflexion: Language Agents with Verbal Reinforcement Learning

Noah Shinn, Federico Cassano, Ashwin Gopinath, Karthik Narasimhan, Shunyu Yao. arXiv:2303.11366, 2023.

核心洞察:传统 RL 通过梯度更新权重来学习,但这对语言智能体来说代价高昂且不够高效。Reflexion 提出了一个根本性的范式转换——用自然语言反思替代参数更新,将 RL 中的梯度信号转化为语义信号。Agent 不再通过反向传播优化策略,而是通过语言化的自我反思来积累经验。

从参数学习到记忆学习:Reflexion 的 Agent 架构由三个模块构成:

  • Actor:基于 LLM 的策略模型,负责与环境交互产生行动轨迹(可采用 CoT 或 ReAct 等策略)。
  • Evaluator:评估轨迹质量,输出标量奖励——这与传统 RL 的奖励函数对应。
  • Self-Reflection:核心创新所在。它将稀疏的标量奖励放大为具体的、可操作的自然语言反思,回答哪里出了错、为什么、下次该怎么做,并将反思存入情景记忆(Episodic Memory)。

三者构成行动 → 评估 → 反思 → 记忆 → 改进行动的迭代闭环。Agent 的策略不编码在模型权重中,而是编码在不断积累的反思文本里——这实现了一种无需微调的策略优化。

Agent 视角的本质:Reflexion 解决的是语言智能体的学习问题:如何在不更新参数的前提下,让 Agent 从失败中获得可迁移的经验。它将传统 RL 的信用分配(Credit Assignment)问题从数值空间搬到了语言空间——不再是哪个参数该增大,而是哪个行动导致了失败,下次应该怎么做。这正是预训练 Priors 使得在语言空间上学习成为可能的直接体现。同时,Reflexion 也拓展了 Feedback 的来源——反馈不再仅限于外部环境奖励,模型的自我评估本身就是一种有效的反馈信号。

从方法到主线

如果说开放世界中的三条路线告诉我们,传统 RL Agent 的主范式已经开始被分层架构、文本接口、代码策略与外置记忆改写;那么 ReAct、ToT 与 Reflexion 则进一步说明:这种改写并不是偶然的工程技巧,而是在语言空间中重建 Agent 的最小闭环、搜索机制与学习机制。ReAct 解决行动闭环,ToT 解决规划与回退,Reflexion 解决语言化学习;它们合起来,才让 The Second Half 之后的 LLM Agent 真正成为一种可持续演化的系统,而不是一个只会对话的模型。

从 RL Agent 到 LLM Agent:职责重排与混合架构

现在

一个完整的语言智能体包含什么?从 CoALA 架构的考虑出发,可能包含下面的几个部分:

  • LLM(intelligence):大规模预训练的用于 Next Token Prediction 的 LLM。
  • Thinking(Reasoning):在行动前进行推理是人类解决复杂问题的关键,也是 LLM Agent 走向通用的另一个重要因素。
  • Action(Feedback):执行行动,获取反馈,再进一步思考接下来的多轮行动,是人类完成复杂任务的方式。
  • Memory(Learning):具备长期记忆和学习的能力,才能去长程地解决复杂问题。

现在我们就可以考虑一下目前的智能体结构都实现了什么:

  1. ReAct:作为 Agent 技术的开创性工作,它融合了 LLM、Thinking,以及 Action 和对应的 Feedback,在思考后行动,依据结果反馈再回答,在复杂问题上极好地进行了泛化。
  2. CoT:在推理侧进行 Time Scaling,CoT 极大程度地增强了模型的能力,而其能力一方面来自 Thinking 和 LLM,另一方面则来自语言上的 Action 和 Feedback。
  3. RL Agent:在语言模型出现之前的 Agent 技术,它缺少 LLM、Thinking 和 Memory,依赖环境反馈的 Reward 进行学习,只拥有 Action 以及 Feedback。
  4. LLM:移除 CoT 以后的 LLM,它是智能的来源,但不是一切(起码现在不是)。
  5. Human in the loop:这很难被传统 RL 使用,但是语言模型 Agent 可以很好地处理这个问题,人工可以轻松地去寻找推理出错的地方并且修改。
  6. Reflexion:从修改参数到修改提示词,这是对长程 Memory 的尝试,也是对反馈来源的一次思考。Feedback 可以来源于外界,也可以是语言模型的自我反思。
  7. Tree of Thoughts:ToT 的作用是让原本只能单向推理的结构可以进行思维的回滚,这是对推理策略的思考,也是对智能体构建的思考。ToT 可以理解为 CoT 的扩展,一种在语言空间的 Action 和 Feedback。

从这个意义上说,今天的语言智能体已经不再缺少大部分核心零件。LLM、Thinking、Action 与 Feedback 都已经得到了充分的探索和验证,甚至连 Learning 也已经以 Reflexion、RAG、Skill Library 这样的非参数化形式开始出现。真正悬而未决的,不是这些组件是否存在,而是如何让它们在真实世界任务中长程、稳定地协作。

未来

从前面的讨论中可以观察到,除了 Memory 以外,语言智能体的各个核心组件——LLM、Thinking、Action 与 Feedback——都已经得到了充分的探索和验证。现有的生成式模型及其附属组件已经足够强大,具备解决复杂问题的能力。因此对于更长程的研究,核心问题收敛为两个方向:

  1. Better Model:在 The Second Half,算法和模型已经足够强大。下一步是利用 RL 让现有技术泛化到对人类真正有用的问题上,构建 Better 且 Useful 的 Model。这要求我们重新思考环境与评估。
  2. Dynamic Memory:构建分层的动态记忆系统和学习机制,让 Context 永远只包含最关键的信息,是现有技术限制下不可或缺的附加组件。

Environment and Evaluation

构建 Better Model 的前提是找到合适的环境。在 RL 泛化以后,Evaluation 比算法更重要。这个环境需要同时满足两个条件——有用且可规模化。真实的物理环境和人机协作环境太昂贵,无法获得规模化数据;虚拟世界和游戏环境虽然便宜,但难以迁移到真实场景,智能体会被局限在封闭环境中。因此,与数字世界(互联网、代码、软件)进行交互是更优的选择——它既足够真实,又能低成本地规模化。从更长远的视角来看,世界模型将会是结束一切环境研究的环境。

有了环境,下一个问题是如何评估。评估存在三条路径:人工评估(最准确但昂贵)、机器评估(便宜但质量较差)、以及基于人工设计规则的评估(介于两者之间)。以 Collie 和 Webshop 为例,它们通过规则生成可供模型进行 Self-Evaluation 的 Prompt,同时也提供基于规则的外部评价——这与 ReAct 和 Reflexion 的思路一脉相承。但设计好的规则本身需要大量的领域知识,这是不可回避的代价。

更进一步,我们可以用智能体本身充当环境——研究智能体之间的交互。但此时评估问题变得更加棘手:无论是社会模型还是社交模拟,都很难用单一指标加以衡量。一种可能的方向是使用被大量规则约束的智能体作为评估者(从 Rule-based Environment 演进到 Rule-based Agent),或许能评估那些我们曾经认为只有人类才能判断的内容。但这仍然需要大量的领域知识来设计规则。

这构成了一个循环迭代的结构:环境产生数据,评估驱动改进,改进后的模型又需要更好的环境和评估。而对于生成类任务,一个根本性的困难在于——很难严格确定终止状态,我们不总是知道什么时候任务算是完成了。但是只要模型在变得更好,解决了我们想要解决的问题,那 Agent 就是有价值的。

Memory

Memory 是语言智能体中最未被解决的组件。如何构建真正有效的长程记忆系统——让 Agent 能够在跨任务、跨时间的尺度上积累和检索经验——仍然是一个开放且困难的问题。我们选择不在此处展开讨论,将其留给后续更专门的探索。

因此,未来不是 RL 消失,而是职责重排:RL 退回低层控制、连续动作和局部优化,LLM 主导高层规划、语义推理、工具/代码生成与记忆协同。 The Second Half 真正开始之后,决定 Agent 上限的就不再只是参数规模,而是环境、评估、反馈工程与外部记忆如何共同组织成一个可以在真实世界里不断创造价值的系统。

附录:Agent Dev 工业界实战指南

无论是 Plan4MC 对多模态奖励的重塑,还是 Voyager 将代码作为策略空间的创举,这些前沿研究为当前致力于构建复杂业务场景(如软件工程、自动化运营、机器人控制)的 AI Agent 开发者,抽象出了一套极具价值且经过验证的通用工程设计模式(Design Patterns)。这些内容并不是本文的主线,但它们很可能会成为下一阶段真正把智能体落地到工业界时最先遇到的问题。

动作空间解耦架构(Action Space Decoupling)

在复杂智能体系统的落地中,强行要求单一 LLM 完成从意图理解到像素级控制的全栈任务是低效且高风险的。“动作空间解耦”是当前最成熟的设计原则:

  • 认知与逻辑隔离:将任务的意图识别、复杂依赖拆解与长程规划完全交由 LLM(或基于 LLM 的多智能体协作框架)负责。LLM 应作为“大脑”,不应直接输出易出错的底层指令序列。
  • 代码 / 脚本处理确定性任务:如果所处的工业环境提供了稳定可靠的 API 体系(例如云计算控制台、Web DOM 树接口、终端 CLI 等),应全面转向代码即策略(Code-as-Policies)范式。依靠 LLM 编写 Python 或脚本执行控制流(循环与异常捕获),能大幅降低幻觉率,并彻底根除长程任务中单步交互带来的巨大 API 成本和高昂的延迟。
  • RL 处理非结构化物理控制:仅在系统面临极低容错率、缺乏精确 API 且需要高频传感器闭环反馈的场景(如机器人姿态平衡、连续视觉避障)时,才应引入强化学习策略网络进行底层控制微调。在混合架构中,LLM 应仅负责下发高层语义指令。

环境观测的文本化与反馈工程(Observation Textualization & Feedback Engineering)

既然 LLM 的原生模态是自然语言,那么环境观测接口的设计质量就直接决定了 Agent 的智力上限。

  • 高维状态的语义降维:切忌将原始的、未经处理的数组矩阵或杂乱日志直接扔给 LLM。开发团队必须构建精密的中间件(Parser),将环境状态(如剩余资源、当前节点健康度、拓扑结构)翻译为高度结构化的 JSON 或精炼的自然语言文本。
  • 细粒度的闭环反馈设计:在智能体交互的每一步,反馈(Feedback)的质量比初始指令更重要。当环境执行报错时,底层执行器绝不能简单返回一个 False。接口必须捕获并回传包含丰富上下文的解释(例如详细的 Stack Trace、缺失的依赖关系或资源差值)。这种细粒度的报错文本,是激发大语言模型进行反思重试(Self-correction / Reflection)和修正逻辑的唯一依赖。

基于记忆库的持续演进架构(Memory-based Continuous Learning)

面对微调(Fine-tuning)带来高昂算力成本以及引发灾难性遗忘的风险,为智能体挂载非参数化的“外挂记忆系统”是实现持续学习的最佳工程实践。

  • 经验外置化与 RAG 检索:为 Agent 标配高性能的向量数据库(Vector DB)。系统应记录解决特定复杂业务场景的成功思路、有效 API 调用模板或验证过的代码片段,将其向量化并作为专属的领域技能库。
  • 严密的自我验证与沉淀机制:写入记忆库的数据必须是被证实有效的。系统中必须引入独立的评估器(Critic / Evaluator)模块(可由另一独立调优的 LLM 实例担任)。只有当执行逻辑真实促成了环境状态正向转变并完成既定子目标时,才能将该工作流沉淀为记忆模块。
  • 技能的组合与涌现:通过优质的 Prompt 引导,促使 LLM 在进行新任务规划时,主动检索记忆库并像调用标准库函数一样组合历史技能。随着业务经验的累积,系统能力将突破线性增长,实现从“机械执行”到“自动解决未知问题”的智能涌现。

综上所述,大语言模型的先验知识与非参数化的外挂记忆架构,已经为解决极长程、开放世界下的复杂决策任务提供了一条切实可行的路径。从传统强化学习在数值特征空间中的盲目摸索,全面跃升至 LLM 在语义和逻辑空间中的思考与行动,这场范式转移不仅拉高了复杂任务中智能体性能的上限,更为工业界构建具备泛化性、可解释性与持续成长性的通用人工智能系统,奠定了技术基石。