概念
Planning与Reflection增强机制
概述
react-paradigm\|ReAct提供了基础的思考-行动循环,但线性推理在面对复杂任务时容易走入死胡同。2023-2025年,Planning(规划)和Reflection(反思)机制成为Agent能力增强的核心方向。
Planning机制
Tree of Thoughts (ToT)
- 将线性推理(CoT)扩展为树状搜索结构
- LLM在每步生成多个候选思路,通过评估器打分选择最优路径
- 支持BFS/DFS搜索策略
- 成熟度:★★★★ 已成为复杂推理任务的标准技术
Graph of Thoughts (GoT)
- 将推理过程建模为有向图(DAG),允许合并、分解、精炼思维节点
- 超越树结构局限,能建模更复杂的推理关系
- 成熟度:★★★ 学术验证充分,工程应用在增长
Plan-and-Solve Prompting
- 将复杂任务显式分为"制定计划"和"执行计划"两阶段
- 减少CoT中常见的步骤遗漏和计算错误
- 成熟度:★★★★★ 已高度成熟,被多种Agent框架采用
MCTS + LLM
- 将蒙特卡洛树搜索与LLM推理结合
- o1/o3/o4系列模型的"思考链"本质上融合了类似搜索的机制
- 推理时计算(Inference-Time Compute)成为热点
Self-Reflection机制
Reflexion
- 机制:执行任务 → 获得环境反馈 → 自然语言自我评价 → 存入episodic memory → 下次改进
- 优势:无需修改模型权重,纯通过"语言反思"实现自我改进
- 效果:研究表明可提升推理准确率高达20%
Self-Refine
- 机制:生成初始输出 → 自我反馈 → 根据反馈精炼 → 迭代直到满意
- 特点:单模型完成全流程,无需外部模型或监督
成熟度
- ★★★★ 自反思已成为几乎所有主流Agent框架的标配组件
- 2025-2026趋势:从"简单重试"进化为"结构化反思+长期记忆+策略更新"
Planning → Reflection → Action 闭环
┌──────────────┐
│ Planning │ ← 将任务分解为子计划
└──────┬───────┘
▼
┌──────────────┐
│ Action │ ← 执行当前步骤(react-paradigm|ReAct循环)
└──────┬───────┘
▼
┌──────────────┐
│ Reflection │ ← 评估结果,更新策略
└──────┬───────┘
│
┌──────┴───────┐
│ 满意? │
│ Yes → 继续/结束 │
│ No → 回到Planning │
└──────────────┘相关页面
- react-paradigm — 基础ReAct范式
- agent-timeline — 时间线
- code-agent — Code Agent深度使用Planning+Reflection