Agent（智能体）：通往AGI的必经之路

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

2024-02-26

0 评论 9526 浏览 37 收藏

Agent被看作是通往通用人工智能（AGI）的必经之路。那么不同于传统的人工智能，Agent的独特之处在于哪里？怎么理解Agent这一概念？本文作者对其关键组成、特点和局限性等方面做了分析，一起来看一下。

上文介绍了AI大模型连接外部世界的重大意义，今天我们来了解一下Agent（智能体）。

Agent可以更好地理解和应对复杂多变的现实世界场景，具备更强的智能和自适应能力，因此被认为是通往通用人工智能（AGI）的必经之路。

一、基本概念

Agent（智能体）是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能，Agent 具备通过主动思考、调用工具去逐步完成给定目标的能力。

我们知道，大模型与人类之间的交互是基于prompt实现的，用户prompt是否清晰明确会影响大模型回答的效果，在此过程中，人类主动提问，而大模型是“被动”回答。而Agent的工作仅需给定一个目标，它就能够针对目标独立思考并做出行动。

从大模型的角度来看，Agent其实就是基于大模型的语义理解和推理能力，让大模型拥有解决复杂问题时的任务规划能力，并调用外部工具来执行各种任务，利用向量数据库保留“记忆”的一个智能体。

Agent = 大模型 + 任务规划（Planning） + 使用外部工具执行任务（Tools&Action） + 记忆（Memory）

把Agent比作一个人的话，他应该有大脑（语义理解、存储记忆、推理规划、专业知识）、五官（接收文本、视觉输入、听觉输入等）、四肢（使用工具完成各种具体任务）等主要部件。

其实我们在上文中举的例子，就是Agent的极简版工作模式：

我们还是参照该示例，从大模型的角度来看一下Agent的组成。

Agent最核心的组成部分就是任务规划（Planning）：

Agent需要提前将一项复杂任务拆解为多个更小、更易于处理的子任务，从而实现对复杂任务的高效处理。
Agent可以从错误中吸取教训，并通过自我反思来优化结果，提高最终结果的质量。
任务规划能力是通过提示工程来引导大模型实现的，可以去翻阅《提示工程（Prompt Engineering）：指导AI大模型完成任务的艺术》，里面那段自动优化提示词的“咒语”，其实就是Planning的体现。

Agent还要拥有长短期记忆（Memory）：

短期记忆：短期记忆一般也是通过提示工程来实现，最常见的短期记忆可能是聊天上下文，在Agent中，思考过程、任务规划内容、子任务返回的结果也都属于短期记忆。
长期记忆：长期记忆一般通过向量数据库进行外部向量存储和快速检索来实现，可以长期保留和回忆信息。最常见的长期记忆可能是私有知识库和私人信息（家庭住址等），也可以把大模型的所有记录存储起来，让Agent拥有长期记忆。RAG相关内容可参考《检索增强生成（RAG）：如何让AI大模型更懂我？》。
压缩记忆：通过对记忆进行压缩，以提高记忆检索效率。

工具&执行（Tools&Action）：

Agent会根据拆分好的子任务，调用外部提供好的专业API解决专业问题，完成一个个具体的子任务，并把处理结果返回给大模型。详情可参考上文《AI大模型如何连接外部世界：深入解析GPTs、Assistant API和Function Calling》。