Agent 架构设计模式 - AI 伙伴咨询资料汇总

整理时间：2026-03-18 来源：豆包、DeepSeek、Qwen

一、ReAct 架构模式（Reasoning + Acting）

核心原理

ReAct由论文《ReAct: Synergizing Reasoning and Acting in Language Models》提出，核心思想是交替进行推理与行动，通过"思考→行动→观察"的循环逐步解决问题。

工作流程（TAO循环）

Thought（思考）：分析问题，确定下一步策略
Action（行动）：选择工具 + 构造参数 + 执行调用
Observation（观察）：获取工具返回结果，更新上下文
判断终止条件：答案明确 → 输出Final Answer；否则继续循环

优缺点

优点：

减少幻觉：行动前强制思考，避免盲目调用工具
错误可追溯：每步Observation提供外部验证
知识增强：通过工具调用获取实时信息

缺点：

Token消耗大：每轮循环追加上下文
响应时间长：多次LLM调用串行
无限循环风险：相同Action反复执行

适用场景

知识问答（需联网检索）
多步计算任务
网页导航/表单填写
需要可解释性的决策场景

面试高频问题

ReAct原理是什么？ 答：将推理（Reason）和动作（Act）交替执行，先思考"要做什么、为什么"，再调用工具/执行，提升可解释性与正确性。
ReAct如何避免无限循环？ 答：设置max_iterations、动作去重检测、进度监控。

二、Plan-and-Execute 模式

核心原理

Plan-and-Execute采用两阶段分离架构：先由规划器生成完整的多步计划，再由执行器按序执行子任务，支持执行中动态调整计划。

设计哲学：规划(Planning) ≠ 执行(Execution)，解耦提升可维护性。

工作流程

Phase 1: Planning（规划阶段）

任务理解 → 提取关键信息
子任务分解 → DAG/序列
依赖分析 → 确定执行顺序
工具匹配 → 预分配资源

Phase 2: Execution（执行阶段）

检查前置依赖是否完成
调用对应工具执行
记录结果 + 更新状态
[可选] 动态调整后续计划

关键优势（对比ReAct）

✅ 规划可预验证：执行前检查计划合理性
✅ 并行执行友好：无依赖子任务可并发
✅ 调试定位清晰：问题可追溯到具体步骤
✅ Token效率更高：避免ReAct的重复思考

适用场景

复杂工作流（如数据清洗→分析→报告）
多工具协同任务（搜索+计算+格式化）
需要审计追踪的企业级应用
对执行确定性要求高的场景

面试高频问题

Plan-and-Execute相比ReAct，在什么场景下优势更明显？ 答：任务可结构化拆解、需要并行执行、审计合规要求、成本控制敏感的场景。

三、Reflexion 反思模式

核心原理

Reflexion是一种基于语言反馈的强化学习框架，通过"执行→评估→反思→改进"的闭环，让Agent从失败经验中学习，无需微调底层模型。

三组件架构

Actor（参与者）：根据当前状态生成动作 + 自我批判陈述
Evaluator（评估者）：对执行轨迹打分（规则/LLM-based奖励函数）
Self-Reflector（反思器）：结合奖励信号+历史轨迹+长期记忆，生成改进建议

工作流程

Initial Response：Actor生成初始答案 + Critique
Tool Execution & Evaluation：执行工具获取外部验证，Evaluator输出奖励信号
Reflection Generation：Self-Reflector分析失败原因，生成结构化反思
Memory Update & Retry：反思内容存入滑动窗口记忆，Actor参考历史反思重新规划
Convergence Check：达到成功标准/最大重试次数 → 输出

适用场景

需要试错学习的决策任务（如策略优化）
代码生成/调试（从编译错误中学习）
复杂推理任务（多跳问答、数学证明）
传统RL数据稀缺的场景

面试高频问题

Reflexion如何实现"无需微调的强化学习"？ 答：用语言反馈替代标量奖励，Evaluator输出自然语言反馈，比0/1奖励提供更多信息。

四、RAG + Agent 架构

核心原理

RAG（Retrieval-Augmented Generation）与Agent结合，通过检索增强生成的知识边界。

工作流程

用户Query → 向量检索相关文档
检索结果注入Agent上下文
Agent基于检索内容进行推理和工具调用
生成最终答案

适用场景

企业知识库问答
文档分析任务
需要领域知识的Agent应用

五、DAG 工作流架构

核心原理

DAG（Directed Acyclic Graph）工作流将任务组织为有向无环图，支持并行执行和依赖管理。

特点

无依赖任务可并行执行
有依赖任务按拓扑序执行
支持条件分支和循环

适用场景

数据管道处理
ETL任务编排
复杂工作流自动化

六、状态机架构（State Machine）

核心原理

将Agent行为建模为有限状态机，定义状态集合、转换条件和动作。

特点

状态转换明确可控
易于调试和验证
适合固定流程场景

适用场景

对话系统
游戏AI
业务流程自动化

七、层次化 Agent 架构（Hierarchical Agent）

核心原理

采用树状结构组织Agent，高层负责战略规划，中层负责任务分解，底层负责具体执行。

三层架构

战略层（Strategic）：制定高层计划
战术层（Tactical）：转换战略为执行计划
执行层（Execution）：具体操作执行

优点

清晰的权责划分
可控性强，便于管理
决策效率高，减少通信
易于扩展和维护

缺点

层级过多可能导致延迟
上层可能成为瓶颈
灵活性受限，适应慢

适用场景

大型复杂系统（自动驾驶、智慧工厂）
组织管理系统
军事指挥系统

架构模式对比总结

维度	ReAct	Plan-Execute	Reflexion	层次化
决策粒度	步级	任务级	迭代级	层级
适应性	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐
可解释性	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐
Token效率	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
开发复杂度	中等	需设计规划器	需评估+反思模块	高

混合架构实践（工业级推荐）

# 示例：Plan-ReAct-Reflexion 混合架构
def hybrid_agent(task):
    # Phase 1: 高层规划
    plan = planner.generate(task)  # Plan-and-Execute
    
    results = []
    for step in plan:
        # Phase 2: 步级执行（ReAct）
        step_result = react_executor.execute(step)
        
        # Phase 3: 关键步骤反思
        if step.is_critical:
            reflection = reflexion.analyze(step_result)
            if reflection.needs_retry:
                step_result = react_executor.execute(step, context=reflection)
        results.append(step_result)
    
    # Phase 4: 全局反思优化
    final_reflection = reflexion.global_review(results, task)
    return aggregate(results, final_reflection)

资料来源：豆包、DeepSeek、Qwen 三大 AI 伙伴咨询整理

层次化 Agent 架构章节首页