← Wiki
概念

ReAct:推理与行动的协同范式

论文信息

核心思想

ReAct提出将LLM的推理(Reasoning)行动(Acting)协同结合。核心洞察:

> LLM不仅可以通过推理生成思考链来解决问题,还可以在推理过程中采取实际行动(如查询Wikipedia、调用搜索引擎),将两种能力融合产生1+1>2的效果。

工作流程

┌─────────────────────────────────────────┐
│              ReAct 循环                  │
│                                         │
│  ┌──────┐    ┌──────┐    ┌───────────┐ │
│  │Thought│───→│Action│───→│Observation│ │
│  │(思考) │    │(行动)│    │ (观察结果) │ │
│  └──────┘    └──────┘    └───────────┘ │
│       ↑                        │        │
│       └────────────────────────┘        │
│                                         │
│  重复循环直到得出最终答案                  │
└─────────────────────────────────────────┘

步骤: 1. Thought(思考):LLM分析当前状态,决定下一步 2. Action(行动):调用外部工具(搜索、查表等) 3. Observation(观察):获取工具返回的结果 4. 循环直到得出 Final Answer

与Chain-of-Thought的关键区别

维度Chain-of-Thought (CoT)ReAct
推理方式纯内部推理内部推理 + 外部交互
信息来源仅依赖模型参数知识可查询外部知识库/工具
输出格式Thought→Thought→...→AnswerThought→Action→Observation→循环→Answer
可验证性较低(幻觉风险高)较高(基于外部事实验证)
错误纠正难以自我纠正可通过行动获取反馈纠正
幻觉问题严重显著缓解
为什么需要行动? CoT的主要问题:1)模型可能编造看似合理但错误的事实;2)知识有训练截止日期;3)错误推理链一旦开始难以回头。ReAct通过外部行动使推理建立在真实信息基础上。

实验验证

对后续Agent架构的影响

ReAct的 Thought→Action→Observation 循环成为几乎所有Agent框架的核心模式:

局限与后续改进

局限后续解决方案
对模型能力要求高模型能力持续提升(GPT-4、Claude 3.5+)
每步LLM推理成本高模型降价 + 缓存机制
依赖Prompt Engineeringfunction-calling\Function Calling原生支持
工具定义有限mcp\MCP协议统一工具连接

相关页面