Agent(智能体):通往AGI的必经之路

0 评论 8113 浏览 33 收藏 8 分钟

Agent被看作是通往通用人工智能(AGI)的必经之路。那么不同于传统的人工智能,Agent的独特之处在于哪里?怎么理解Agent这一概念?本文作者对其关键组成、特点和局限性等方面做了分析,一起来看一下。

上文介绍了AI大模型连接外部世界的重大意义,今天我们来了解一下Agent(智能体)。

Agent可以更好地理解和应对复杂多变的现实世界场景,具备更强的智能和自适应能力,因此被认为是通往通用人工智能(AGI)的必经之路。

一、基本概念

Agent(智能体)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,Agent 具备通过主动思考、调用工具去逐步完成给定目标的能力。

我们知道,大模型与人类之间的交互是基于prompt实现的,用户prompt是否清晰明确会影响大模型回答的效果,在此过程中,人类主动提问,而大模型是“被动”回答。而Agent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。

从大模型的角度来看,Agent其实就是基于大模型的语义理解和推理能力,让大模型拥有解决复杂问题时的任务规划能力,并调用外部工具来执行各种任务,利用向量数据库保留“记忆”的一个智能体

Agent = 大模型 + 任务规划(Planning) + 使用外部工具执行任务(Tools&Action) + 记忆(Memory)

把Agent比作一个人的话,他应该有大脑(语义理解、存储记忆、推理规划、专业知识)、五官(接收文本、视觉输入、听觉输入等)、四肢(使用工具完成各种具体任务)等主要部件

其实我们在上文中举的例子,就是Agent的极简版工作模式:

我们还是参照该示例,从大模型的角度来看一下Agent的组成。

二、Agent的关键组成部分

Agent最核心的组成部分就是 任务规划(Planning):

  • Agent需要提前将一项复杂任务拆解为多个更小、更易于处理的子任务,从而实现对复杂任务的高效处理。
  • Agent可以从错误中吸取教训,并通过自我反思来优化结果,提高最终结果的质量。
  • 任务规划能力是通过提示工程来引导大模型实现的,可以去翻阅《提示工程(Prompt Engineering):指导AI大模型完成任务的艺术》,里面那段自动优化提示词的“咒语”,其实就是Planning的体现。

Agent还要拥有长短期记忆(Memory):

  • 短期记忆:短期记忆一般也是通过提示工程来实现,最常见的短期记忆可能是聊天上下文,在Agent中,思考过程、任务规划内容、子任务返回的结果也都属于短期记忆。
  • 长期记忆:长期记忆一般通过向量数据库进行外部向量存储和快速检索来实现,可以长期保留和回忆信息。最常见的长期记忆可能是私有知识库和私人信息(家庭住址等),也可以把大模型的所有记录存储起来,让Agent拥有长期记忆。RAG相关内容可参考《检索增强生成(RAG):如何让AI大模型更懂我?》
  • 压缩记忆:通过对记忆进行压缩,以提高记忆检索效率。

工具&执行(Tools&Action):

Agent会根据拆分好的子任务,调用外部提供好的专业API解决专业问题,完成一个个具体的子任务,并把处理结果返回给大模型。详情可参考上文《AI大模型如何连接外部世界:深入解析GPTs、Assistant API和Function Calling》

三、Agent vs 大模型 vs 传统软件

传统软件的特点:

  • 非常稳定,极具确定性。
  • 不适合解决灵活的问题,必须提前预设好情境才行,略显死板。

大模型的特点:

  • 强大的语义理解能力。
  • 强大的推理能力。
  • 高效的数据处理。
  • 更舒适的交互方式(自然语言交互)。
  • 输出结果不稳定,缺乏确定性。

Agent的特点:

  • 比传统软件更灵活,同时比大模型更可靠。
  • 具备大模型的良好体验,并尽可能解决其可靠性问题。
  • 但无论怎么优化,它的稳定性和可靠性短期内是无法和传统软件相比的。

总之,Agent目前会损失一定的可靠性,换来可观的创造力,这种情况大概率会持续较长时间,但是一旦取得突破性进展,可能会彻底颠覆现有的交互方式,从GUI进入到自然语言交互的时代,到时候就可以真正用上那句“所有系统都值得用AI重做一遍”了。

四、局限性

虽然Agent让我们看到了AGI的曙光,但目前它依然有很大的局限性:

  • 严重依赖大模型的核心能力,所以大模型底座必须足够强
  • Agent多次与外界交互,效率不高,资源消耗大,成本较高
  • 执行链路过长,某一中间环节出错,就会导致前功尽弃

五、总结

本文主要介绍了AI Agent的基本概念,Agent让我们看到通用人工智能(AGI)的曙光。

虽然目前依然有很多局限性,导致Agent无法大面积应用,但随着技术底座快速升级,Agent的规划能力会越来越强,成本会快速降低,很可能会彻底颠覆现有的交互方式,并最终实现AGI。

本文由 @AI小当家 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!