创业公司在AI agent竞赛中加大赌注
Genspark 成功发布 “超级代理”,它能够自主规划旅行、制作动画剧集,甚至能以清晰逻辑展示思考过程,这将给企业和科技行业带来怎样的冲击?
通用人工智能代理领域突然变得更加拥挤和雄心勃勃。
本周,总部位于加利福尼亚州帕洛阿尔托的初创公司Genspark发布了其所谓的“超级代理”(Super Agent),这是一个快速移动的自主系统,旨在处理跨多个领域的现实世界任务包括一些令人惊讶的任务,比如使用逼真的合成语音给餐厅打电话。
这一发布为人工智能竞争中的一个重要新战线增添了动力:谁能率先打造出第一个可靠、灵活且真正有用的通用代理?或许更紧迫的问题是,这对企业意味着什么?
Genspark推出“超级代理”仅在三周前,另一家由中国创立的初创公司Manus因其能够协调工具和数据源以完成异步云任务(如旅行预订、简历筛选和股票分析)而受到关注——所有这些任务都不需要大多数当前代理所需的“手把手”指导。
Genspark现在声称走得更远。据联合创始人埃里克·景(Eric Jing)称,“超级代理”建立在三个支柱上:九种不同的大型语言模型(LLM)、80多个工具和超过10个专有数据集——所有这些都在一个协调的流程中协同工作。它远远超出了传统的聊天机器人,能够处理复杂的工作流程并返回完全执行的结果。
在一个演示中,Genspark的代理规划了一次完整的圣地亚哥五天之旅,计算了景点之间的步行距离,绘制了公共交通选项,并使用语音呼叫代理预订餐厅,包括处理食物过敏和座位偏好。另一个演示展示了该代理通过生成食谱步骤、视频场景和音频覆盖来创建烹饪视频。在第三个演示中,它编写并制作了一集《南方公园》风格的动画剧集,内容涉及最近的“信号门”政治丑闻,该丑闻涉及与政治记者分享战争计划。
这些听起来像是面向消费者的应用,但它们展示了技术的发展方向朝着多模态、多步骤任务自动化的方向发展,模糊了创意生成与执行之间的界限。
“解决这些现实世界的问题比我们想象的要困难得多,”景在视频中说,“但我们对我们取得的进展感到兴奋。”
一个引人注目的特点是:“超级代理”清晰地可视化了其思考过程,追溯了它是如何推理每一步的,它调用了哪些工具以及原因。实时观看这种逻辑展开,使系统感觉更像是一个协作伙伴,而不是一个黑箱。这也可能激励企业开发人员在自己的人工智能系统中构建类似的可追溯推理路径,使应用程序更加透明和值得信赖。
“超级代理”的另一个令人印象深刻的特点是其易于尝试。该界面在浏览器中平稳启动,无需技术设置。Genspark允许用户无需提供个人凭据即可开始测试。相比之下,Manus仍要求申请人加入等待名单并披露社交媒体账户和其他私人信息,这增加了实验的摩擦。
我们早在11月首次报道了Genspark,当时它推出了由Claude驱动的财务报告。该公司已在两轮融资中至少筹集了1.6亿美元,并得到了美国和新加坡投资者的支持。
01 Genspark是如何做到的?
Genspark的方法之所以脱颖而出,是因为它解决了人工智能工程中长期存在的一个挑战:大规模的工具编排。
大多数当前的代理在同时处理超过几个外部API或工具时就会崩溃。Genspark的“超级代理”似乎在这方面表现得更好,可能是因为它使用了模型路由和基于检索的选择,根据任务动态选择工具和子模型。
这种策略呼应了中国苏州大学提出的CoTools框架这一新兴研究,该框架增强了大型语言模型(LLM)使用广泛且不断发展的工具集的方式。与依赖大量提示工程或僵化微调的旧方法不同,CoTools保持基础模型“冻结”,同时训练较小的组件以高效地判断、检索和调用工具。
另一个促成因素是模型上下文协议(Model Context Protocol,MCP),这是一个鲜为人知但越来越被采用的标准,允许代理在各个步骤中携带更丰富的工具和记忆上下文。结合Genspark的专有数据集,MCP可能是其代理看起来比其他替代方案更具“可操控性”的原因之一。
02 与Manus相比如何?
Genspark并不是第一个推广通用代理的初创公司。由中国公司Monica上月推出的Manus凭借其多代理系统引起了轰动,该系统可以自主运行诸如网络浏览器、代码编辑器或电子表格引擎等工具,以完成多步骤任务。
Manus高效整合了开源组件,包括网络工具和像Anthropic的Claude这样的大型语言模型(LLM),令人惊讶。尽管没有构建专有模型堆栈,它在GAIA基准测试中的表现仍超过了OpenAI——GAIA是一个旨在评估代理现实世界任务自动化的合成测试。
然而,Genspark声称已经超越了Manus,在GAIA测试中得分为87.8%,高于Manus报告的86%,并且是通过包含专有组件和更广泛的工具覆盖的架构实现的。
03 大型科技公司:仍在谨慎行事?
与此同时,美国最大的人工智能公司一直保持谨慎。
微软的主要人工智能代理产品Copilot Studio专注于与企业应用程序(如Excel和Outlook)紧密对齐的微调垂直代理。OpenAI的Agent SDK提供了构建模块,但尚未推出自己的全功能通用代理。亚马逊最近宣布的Nova Act采用以开发人员为中心的方法,通过SDK提供基于浏览器的原子级操作,但与Nova LLM和云基础设施紧密绑定。
这些方法更具模块化、更安全,并且明确针对企业使用。但它们缺乏Genspark演示中所展示的雄心壮志或自主性。
其中一个原因可能是规避风险。如果谷歌或微软的通用代理预订了错误的航班,或者在语音通话中说了一些奇怪的话,声誉成本可能会很高。这些公司也被锁定在自己的模型生态系统中,限制了它们在多模型编排方面实验的灵活性。
相比之下,像Genspark这样的初创公司有自由混合和匹配大型语言模型,并且能够快速行动。
04 企业应该关心吗?
这是战略问题。大多数企业不需要通用代理来预订晚餐或制作讽刺漫画。但他们可能很快需要能够处理特定领域的多步骤任务的代理,例如挖掘和格式化合规数据、协调客户入职或在多种格式中生成内容。
在这种情况下,Genspark的工作变得更加相关。通用代理变得越无缝和自主,并且越能整合语音、记忆和外部工具,它们就越有可能开始与传统的SaaS应用程序和RPA平台竞争。
而且它们正在以更轻的基础设施实现这一点。例如,Genspark声称其代理“超级可操控”,并且可以被营销人员、教师、招聘人员、设计师和分析师使用所有这些都只需要很少的设置。
通用代理时代不再是假设性的。它已经到来并且正在迅速发展。(Venture Beat)
本文由人人都是产品经理作者【AI新智能】,微信公众号:【AI新智能】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!