7.1 经典 Agent 架构
从 STRIPS 到 BDI,梳理 LLM 之前的经典 Agent 架构谱系,识别它们在今天仍然管用的部分
智能体的形式化定义
在 Russell 与 Norvig 的 Artificial Intelligence: A Modern Approach(AIMA,第 4 版 2020)中,智能体被定义为"通过传感器(sensors)感知环境、通过执行器(actuators)作用于环境的实体"。他们用 PEAS 框架——Performance(性能度量)、Environment(环境)、Actuators(执行器)、Sensors(传感器)——来描述一个 agent 的设计问题,并把 agent 按能力分为五类:
| 类型 | 核心机制 | 典型例子 |
|---|---|---|
| 简单反射(Simple Reflex) | 条件-动作规则:if percept then action | 恒温器、扫地机器人的碰撞反射 |
| 基于模型(Model-Based Reflex) | 维护内部状态以应对部分可观察 | 带地图的路径跟随机器人 |
| 目标驱动(Goal-Based) | 通过搜索/规划达成显式目标 | 导航系统、棋类引擎 |
| 效用驱动(Utility-Based) | 在不确定性下最大化效用函数 | 自动驾驶、投资决策 |
| 学习型(Learning) | 性能元素 + 学习元素 + 评判器 + 问题生成器 | AlphaGo、强化学习 agent |
这套分类并非仅是历史,它直接对应到 LLM Agent 的抽象层次:一个没有记忆、每次独立回答的 ChatGPT 是"简单反射";一个带 ReAct 循环、能调用工具的 agent 是"目标驱动";一个能根据奖励自我改进的 agent(如 Reflexion)则更接近"学习型"。
三种经典范式
审慎式(Deliberative):STRIPS 与规划
审慎式范式以 STRIPS(Fikes & Nilsson, 1971)为代表。它把世界状态表示为一阶谓词逻辑公式,把动作表示为 (precondition, add-list, delete-list) 的三元组,然后用 手段-目的分析(means-ends analysis)搜索把初始状态转化为目标状态的动作序列。STRIPS 最初是为 SRI 的 SHAKEY 机器人(1966–1972)开发的——人类历史上第一个把感知、规划与行动集成的移动机器人。
审慎式 agent 的优势是可解释、可验证(逻辑推理),劣势是封闭世界假设——一旦环境状态超出逻辑表达,规划立即失效。
反应式(Reactive):包容式架构
1986 年,Rodney Brooks 在 MIT 提出 包容式架构(Subsumption Architecture),它走到另一极端:完全拒绝内部表征。Brooks 在名篇 Intelligence Without Representation(1991)中主张:"世界就是它自己的模型"。包容式架构把 agent 分成若干行为层(避障 → 漫游 → 探索 → 识别),高层可以抑制(subsume)低层输出,但每一层都是纯反射式的。
Brooks 的类昆虫机器人证明:复杂智能行为可以从简单反射层的叠加中涌现。这一思想在今天的 agent 设计中仍然活着——例如 工具路由层 → 任务规划层 → 目标管理层 的分层 prompt 设计。
BDI:信念-欲望-意图
BDI 模型(Rao & Georgeff, 1991;1995)把审慎与反应的优点桥接起来,它基于哲学家 Michael Bratman 的实践推理理论,提出 agent 应当同时维护三类心智状态:
- 信念(Belief):关于世界的认知(真假可变)
- 欲望(Desire):动机状态,想要达成的目标
- 意图(Intention):已经承诺去执行的行动方案(committed plan)
BDI 的核心推理循环是:
观察(Observe)
更新信念 (来自感知)
审议(Deliberate)
根据信念选择欲望 作为当前目标
规划(Plan)
把欲望转化为意图 (具体行动计划)
执行(Execute)
按意图行动,可被新的感知打断
BDI 的经典部署是悉尼机场的 OASIS 空中交通管理系统,至今仍有超过 5,000 次学术引用。它的价值在于显式区分"相信什么"与"要做什么"——这正是今天 LLM Agent 中 system prompt(信念)、user goal(欲望)、tool calls(意图)的雏形。
分层架构与黑板架构
分层架构(Layered Architecture)——以 TouringMachines(Ferguson, 1992)和 InteRRaP(Müller, 1996)为代表——把 agent 纵向切分为若干层:最底层是反应层(毫秒级响应),中层是本地规划层(秒级),顶层是协作/社会推理层(分钟级)。层与层之间通过控制流传递信息。
黑板架构(Blackboard Architecture)则是把各路知识源围绕一个共享的"黑板"数据结构协同工作的方式。经典案例是 HEARSAY-II 语音理解系统:不同的 knowledge source(声学、音素、语法、语义)并行监听黑板,根据自己的专长往黑板上写结果,直到共识达成。
黑板 = 多 Agent 的共享 memory。今天 LangGraph 中的 State 对象、AutoGen 中的 group chat 消息历史、CrewAI 的 shared context,本质上都是黑板的 LLM 版本。
多 Agent 协调:合同网与 KQML
经典多智能体系统建立的两项基础机制至今仍在使用:
- 合同网协议(Contract Net Protocol,Smith, 1980):通过管理者—承包者竞标实现去中心化任务分配。管理者广播任务,候选承包者根据自身能力竞标,管理者择优授予合同。今天的 multi-agent routing(如 CrewAI 的 delegation)本质是合同网的变体。
- KQML / FIPA-ACL(1994–1996):基于言语行为理论(speech act theory)的 agent 通信语言,定义了
tell、ask、subscribe、achieve等performative原语。今天 MCP 的tools/list、resources/read请求就是这一思路的继承。
今天仍然管用的部分
经典架构并没有被 LLM 扫进历史垃圾桶,以下原则在当下 agent 设计中依然锋利:
| 经典概念 | 今天的形态 |
|---|---|
| PEAS 框架 | 写 agent spec 时的基本工具(性能/环境/动作/观察) |
| 简单反射 vs 目标驱动 | 区分"聊天机器人"与"真正的 agent" |
| 包容式架构 | 分层 prompt(工具层 / 规划层 / 反思层) |
| BDI 三元组 | system prompt / user goal / tool call plan |
| 黑板 | LangGraph State / group chat history |
| 合同网 | Multi-agent task delegation |
| 环境分类(可观察性、确定性、动态性) | 判断 agent 任务难度的第一步 |
陷阱提醒:不要把 LLM Agent 当成"会说话的 STRIPS"。LLM 没有封闭世界假设、没有完备的逻辑推理,它的强项是模式补全与自然语言工具调用。把经典范式的思想拿来用,但不要照搬它的实现。
本节小结
- Russell & Norvig 的五类 agent 分类是描述 agent 能力层次的通用词汇
- 审慎式(STRIPS) 用逻辑规划,反应式(Brooks) 用分层反射,BDI 把两者桥接
- 分层架构 把 agent 纵向切分;黑板架构 提供共享工作区——二者都在 LLM Agent 中复活
- 合同网 与 KQML 奠定了多 agent 通信与任务分配的基础
- 学习经典架构的目的不是"考古",而是把 LLM Agent 放在两千年 AI 史的脉络里看清楚它新在哪里、不变的又是什么