大模型下半场,AI Agent 的里子和面子
大模型发展到现在,大家都开始比拼AI应用和AI Agent了。而作者的观点是:AI Agent 将是下一个超级平台。这话怎么说起?请看作者的分析。
刺客甲:
陛下,我们也是人啊。
麦克白:
是啊,说起来,你们也算是人,正像家狗、野狗、猎狗、叭儿狗、狮子狗、杂种狗、癞皮狗,统称为狗一样。
——引自威廉·莎士比亚《麦克白》
一、AI Agent 将是下一个超级平台
缓慢的生物进化和急速的科技进化
宇宙大爆炸距今138亿年,宇宙元老星系银河系有130亿寿命,距今约5万年到10万年间智人迁移出非洲大陆,从此科技发展进入高速通道。
单独来讲,生物进化是狭隘和缓慢的,达尔文的进化论进化不出无线电、电磁波、火车和手机。
而科技延展了宇宙进化的圈层,优秀的AI Agent是科技未来新的交互形式。
2023年11月9日,比尔盖茨在其个人博客中,《人工智能即将彻底改变你使用计算机的方式》一文中说,:
“Android、iOS 和 Windows 都是平台。AI Agent 将是下一个平台。”
正如本文开头中所提,麦克白回复的一样,狗有很多种,也会各种不的AI Agent。
AI大模型的发散性大于精确性,而AI Agent相反
大模型的一直的诟病是会出现“幻觉”,前不久,OpenAI首席执行官萨姆·奥特曼在比尔·盖茨在个人播客《为我解惑》说:
“GPT模型的幻觉是一个特性,而不是缺陷,它能让你发现一些新事物。”
很有哲学上否定之否定的味道。
可以把大模型幻觉理解成“猜想”,而猜想的发散性,是科技范式转移的核心关键。
哲学家卡尔波普尔对“猜想”的哲学解释是:“创造性批评和创造性猜想交织在一起,是人类学习彼此行为,包括语言,并从彼此话语中提取意义的方式”。
可以说,没有大模型的幻觉,就没有发展可言。
而AI Agent 更要求精确性。
比如我想要一个给我规划行程的Agent,或是某个行业的最新资讯和报告,幻觉就真的是缺陷。
但当下,即使在ChatGpt的GPTs应用或是字节的Coze平台,你会发现很少有真正可用的,更好解决问题的Agent。
所以,AI Agent会只是一时的泡沫么?
二、开发AI Agent犹如造人
神话里的女娲造人很简单,用泥巴捏一捏就出现了小人,而造一个优秀的AI Agent底层会复杂很多。
合格的Agent应该是一个可以可以自主思维和规划纠错的智能体。
描述一个人,可以从外表、性格、年龄、出生背景、学历、兴趣爱好、思维逻辑、情感处理等等方面去描述。
定义一个AI Agent也相似,不过更多的是隐性的部分。
OpenAI的安全团队的负责人Lilian Weng在其博客,《LLM 支持的自主代理》一文中,用6000字详细解释下AI Agent的组成部分。
AI Agent被定义3个组成部分:规划(Planning) 记忆(Memory) 工具使用(Tool Use) 。
规划可以理解是思维逻辑,记忆是本身知识储备,工具使用是对外连接和处理能力。
规划
子目标和分解:代理将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。
反思和完善:智能体可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。
记忆
短期记忆:我认为所有的上下文学习都是利用模型的短期记忆来学习。
长期记忆:这为代理提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索。
工具使用
代理学习调用外部 API 来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。
对照字节推出的Coze平台,在创建一个Bot时的任务界面,可发现底层逻辑上的一致性:
体验了几个平台对比:
从实际体验上来看,Coze的的功能性是最强的,也是复杂度最高的,有些部分需要编程的能力,扣子和GPTs相似。
最终效果上,如果从实现自主规划的智能的标准来定义,目前三个平台都不足以称得上优秀。
Coze的问题在于实现的复杂性门槛会阻碍大批的Agent制作者。
扣子的问题在于属于前期阶段,基础设施还需要进一步规划,比如可发布的平台,插件的丰富性。
GPTs的问题在于对于实现复杂的Agent,缺失的Flow不足以支撑实现,也许Open AI也在规划更好的方案,比如基于Flow的自动生成方案?
三、AI Agent要有扎实的里子和多变的面子
AI Agent = 大模型+规划+记忆+工具
前三个是里子,最后的工具是面子。
这里说的面子不是虚假的人设,而是进化的多面能力。
大模型的发展依赖巨头们的发展和竞争,不单是软件层面,硬件层面的芯片也至关重要。
《芯片战争》书中提到台积电、因特尔、英伟达、阿斯麦、三星等等厂商的发展史,非常值得一读。
最近OpenAI放言斥7万亿美元打造新的芯片帝国,资本的重要性可见一斑。
规划依赖兼具产品和编程思维能力的角色的贡献,真的可用的Agent一定不是简单模块组合可实现的,如果有,也只是昙花一现。
定义AI Agent属于规划的一环,也许研究人的生物学家在这方面会更胜一筹。
记忆依赖优质的丰富数据源和更新迭代和更新机制,比如我想做一个资讯Agent,如何定义资讯的优质,就需要有科学的标准范式。
工具依赖平台的开放性和标准的统一,工具更想人类生活的终生学习的能力,一个好的Agent应该具有与时俱进的能力。
以上要素,缺一不可。
AI大模型催生了Prompt Enginner的工作角色,AI Agent催生了Flow Enginner。
所以AI替代的永远都不是人,而是Work。
没有无缘无故的消失,会有转化和变化。
本文由人人都是产品经理作者【麦时】,微信公众号:【麦时说】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!