对比了6家国产智能体(AI Agent),我找到了企业落地AI的方向

4 评论 3567 浏览 20 收藏 28 分钟

现在智能体的应用已经越来越广泛,除了个人用在生活中之外,企业也开始尝试应用在工作中。但不同厂家的只嗯你提和表现略有不同,有的基本常识错误,有的能顺利完成。这篇文章,我们来看看作者分析的表现。

在最近落幕的百度世界大会(Baidu World 2024)上,百度创始人李彦宏提到百度文心智能体平台已吸引15万家企业、80万名开发者使用,并称11岁的小学生也成功搭建了智能体。

这个数据的确惊人,其实智能体(AI Agent)这一概念,以及其同义术语如数字员工、AI助手等,均已不再是新鲜话题

尽管目前市面上智能体的种类繁多,但大多面向个人用户,作为企业经营者,我更关心的是智能体在企业方面的应用。随着智能体在商业领域的讨论愈发热烈,我对智能体在企业中的实际应用价值抱有一定的疑虑:

  1. 智能体是否能感知用户提问的真实意图?
  2. 智能体是否能理解复杂语境和非标准表达?
  3. 智能体是否能从丰富的知识库完整抽取信息?
  4. 智能体是否能保持上下文、甚至多文档之间的语义连贯性?
  5. 智能体是否能准确提取复杂数据,判断多元数据?

为了验证以上问题,本篇文章将从以下两个方面来探讨智能体(AI Agent):

  1. 企业级智能体测评(从3个维度出发,测评10个问题)
  2. 目前智能体们能为企业做什么?

先说结论

为了寻找合适的国产智能体(AI Agent)进行测评,我在不同的AI平台搜索:

试用下来,从操作便捷性和功能实用性方面考虑,最终筛选出了6家功能相似的企业级智能体(或数字员工):扣子、文心智能体、司马诸葛、智谱清言智能体、腾讯元器、LinkAI。

我准备了4份文档,以同样的提示词,同样的文档,分别在这6家平台创建了一个企业常见的智能体:行政小助手sunny。围绕行政方面的场景,还原企业内部员工之间真实沟通场景。

为了保证公平性,同时也考虑到智能体发挥不稳定,这次共设置了10个问题(从易到难)进行测评。分别从精确度、完整性、逻辑性方面,检测智能体们的回答质量。

先上结论:大部分智能体都具备了理解简单指令的能力,扣子和司马诸葛的表现最令人满意,不偏离事实,基本能达到企业使用的需求,适用于严肃商业场景,但仍有进步空间。LinkAI、智谱清言智能体和腾讯元器的表现比前两者稍逊,勉强可使用。文心智能体表现一般,有较大的升级空间。

【提醒:评分结果只代表智能体们当下在企业应用场景对问题的回答质量,且评价维度有限,不代表产品整体水平。】

一、正确理解语义,回答准确度

正确理解语义,能理解上下文,具备回答的准确度,是衡量智能体是否可用的首要考量因素。

为了测试智能体是否能正确理解语义及基础的信息抽取能力,针对公司的行政制度,我提出了4个问题。

第一个问题:“请一天事假,怎么请?”

原文如下:

扣子从知识库直接提取了信息,不做过多发散,回答正确。

文心智能体的回答很有趣味性,对原文做出了正确理解,回答无误。

司马诸葛分步骤列出,思路清晰,回答正确。

智谱清言智能体虽然也给出了请假步骤,但他给出的审批人是直接主管领导,而原文中正常流程中请假单的审批人是总经理,回答错误。

腾讯元器同样给出了正确答案,步骤清晰。

LinkAI的回答也正确理解了原文,回答准确。

第二个问题:“可以在卫生间抽烟吗?”

原文如下:

扣子理解正确,给出了精确回答。

文心智能体没有提取出相关信息,无法给出卫生间是否可以抽烟的相关建议。

司马诸葛正确理解原文语义,给出了精确的答复。

智谱清言智能体也回答正确。

腾讯元器首先给出结论,然后给出相关制度条款,回答正确。

LinkAI的答案错误,遗漏了“指定地点外。”

第三个问题:“入职第一天,迟到半小时怎么扣钱”

原文如下:

扣子未能给出具体扣钱金额,回答错误。

文心智能体给出的答案是第一次迟到会被罚20元,回答准确。

司马诸葛首先给出迟到的定义,再根据原文档信息进行准确回答。

智谱清言智能体未能回答出具体的扣钱金额。

腾讯元器先给出了迟到的定义,然后再给出了扣钱的情况,回答准确。

LinkAI同样先给出了迟到的定义,然后再回答第一次迟到罚20元,回答正确。

第四个问题:“我是财务,因为个人疏忽给公司造成了2000元的损失,会赔钱吗”

原文是这样的:

扣子给出的答案同样是需要赔偿200元,回答正确。

文心智能体没有给出有效回答。

司马诸葛回答的是需要赔偿200元,正确理解了原文意思,输出的结果准确。

智谱清言智能体没有给出具体赔偿比例和金额,回答得不理想。

腾讯元器的回答忠于原文档,条理清晰,给出了正确的回答。

LinkAI的回答干脆利落,与原文档也是相符的。

第一个维度测评下来,可以看出,在对基础信息提取方面,司马诸葛和腾讯元器具有较高的准确度,全部回答正确,扣子、LinAI回答对3道题,信息抽取能力也表现优秀,文心智能体和智谱清言智能体表现较为一般。

二、归纳总结能力,回答完整性

智能体若要提高生产力,那么它就必须具备较强的信息归纳总结能力,能从大量数据和信息中过滤掉冗余或次要的信息,提取出关键要素并进行整合,以简明扼要的方式陈述出来。

第一个问题:“我去年考核90分,可以升职吗?”

原文如下:

智能体需要提取出4个晋升资格,缺一不可。

扣子给出了4项需同时满足的晋升条件,回答完整。

文心智能体给出文档中对应的4项具体晋升条件,但遗漏了“无受过处罚”,整体回答缺少完整性。

司马诸葛给出了需同时满足的全部晋升条件,回答完整。

智谱清言智能体完整地整理了晋升条件,回答正确。

腾讯元器给出的晋升条件和原文相差较大。

LinkAI给出了完整的4项晋升条件。

第二个问题:“除了法定假,公司的福利假还有哪些?”

原文如下:

从原文中可以看出,除了法定假,公司的福利假还有7项:年假、婚假、丧假、病假、产假/陪产假、哺乳假、工伤假。

扣子回答的也是除了法定假还有年假、婚假等七种福利假,并做出解释。

文心智能体的回答中漏掉了产假/陪产假。

司马诸葛完整地总结出了法定假期以外的七种福利假,并对每种福利假做了解释。

智谱清言智能体给出了7个福利假,同样做了相应的解释,回答完整。

腾讯元器智能体的回答缺少了工伤假。

LinkAI只给出了四种福利假,缺少了3个,回答不完整。

第三个问题:“哪些报销项目报销时需附上总结”

原文如下:

智能体需要根据全文档,归纳出报销团队建设费和市场推广费时需附上总结,不能有遗漏。且文档中提到的招待费只是需要事后总结,并不需要在报销时附上总结。

扣子回答的是市场推广费和团队建设费需要总结作为报销附件,信息归纳得很完整。

文心智能体归纳信息错误,错误地认为报销招待费也需要附上总结。

司马诸葛归纳信息不全,缺少了团队建设费。

智谱清言智能体归纳了5个项目报销时需附上总结,回答错误。

腾讯元器同样归纳信息错误。

LinkAI输出的答案是“所有出差项目的报销都需要附上出差总结作为报销附件”,回答偏离事实。

第二个维度测评下来,扣子回答的完整度表现最好,全部回答正确。司马诸葛和智谱清言智能体次之,回答对了2道题,LinkAI、文心智能体、腾讯元器表现平平。

三、数据处理能力,回答逻辑性

对复杂数据进行处理和分析,能基于事实和数据进行合理推导,并在生成回答时具有逻辑性,这是拉开智能体差距的核心竞争力之一。

第一个问题:“5个人团建,吃饭600块预算可以吗”

原文如下:

这个问题只需要智能体进行简单的数据计算,并判断出是否超出限额标准。

扣子数据计算正确,并判断出600块超出预算。

文心智能体同样判断出600超预算了,回答正确。

司马诸葛回答“吃饭600块预算是可以的”,回答错误。

智谱清言智能体判断出600元超过了公司的规定标准,数据计算正确。

腾讯元器判断出600元的预算是合理的,认为还有100元的预算可以灵活使用,判断错误。

LinkAI无法回答该问题。

问题二:“我的各项费用都符合公司的报销标准,得到了公司的允许。其中交通费和住宿费花了3000元,招待客户花了800元,我报销差旅费3800元对吗?”

原文如下:

这道题需要智能体判断出招待费报销并在不差旅费项目中,而应以招待费项目报销。

扣子回答正确,明确指出招待费不在差旅费中报销,由此给出报销的差旅费应是3000元。

文心智能体没有给出是否应以差旅费报销的答案,没有做出正确的判断。

司马诸葛提到交通、住宿费3000元属于差旅费,800元属于招待费,应分开报销,判断正确。

智谱清言智能体给出的结论是总差旅费是3800元,回答错误。

腾讯元器同样也做出了错误的判断。

LinkAI 提出最终报销的差旅费是3000元,做出了合理的判断。

问题三:“行政部经理去大连出差的住宿标准”。

原文如下:

智能体需要先从「差旅费报销标准」表格中判断行政部经理在表格中对应的级别为三级人员,再通过「地区分类及住宿标准」表格中判断大连属于二类城市(省会城市),并正确推理出正确答案。

扣子回答的是每晚不超过400元,对应的是三级人员去一类地区的住宿标准,回答错误。

文心智能体回答的是不超过500元,回答错误。

司马诸葛回答的是每晚300元,回答正确。

智谱清言智能体没有给出具体的答案。

腾讯元器回答的是300元,且推理思路清晰,先给出行政部经理的级别,再结合大连属于二类地区,给出正确答案。

LinkAI回答的是180元,这个数字并没有在表格中出现,回答错误。

在第三个维度中,没有任何一家智能体全部回答正确,扣子、司马诸葛、LinkAI的表现尚可,回答对了两道题,其他智能体的回答结果令人不太满意。

测评全部结束!本次测评重点只是企业级智能体在AI知识库领域的应用能力。受限于本次测评的提示词、提问方式及文档内容的差异,测评结果无法全面反映智能体们的真实水平。因此,本次测评结果更多地是为企业家们提供了一个企业应用的参考方向。

目前智能体们能为企业做什么?

从测评结果看来,目前智能体们已具备了基本的能力,可在企业的某些领域发挥价值。

1.优化企业内部流程

智能体可以通过在线企业内部知识库,帮助员工快速获取所需信息,减少重复沟通。智能体可以使任务自动化,通过自动执行重复性、低价值的任务,智能体能够释放员工的时间,帮助团队合理分配人力资源,让他们专注于更高价值的工作,适用于企业行政、培训等环节。

2.为企业客户服务提供支持

企业可以利用智能体处理常见咨询,提供即时反馈,减少客户等待时间,提高客户满意度。此外,在处理复杂问题时,智能体能够准确识别用户意图,从而给出个性化的解决方案,适用于企业客服、销售等环节。

3.为企业提供决策支持

智能体通过分析大量的背景资料和数据,提炼出关键信息,并将其以结构化的形式呈现。这种能力在企业进行市场调研和数据分析时尤为重要。企业可以利用智能体快速获取市场趋势、客户反馈和行业动态,风险管理和预测提供了强有力的支持。

作为一个企业经营者,我深知智能体在推动企业数字化转型中的重要性。每个智能体都具备独特的优势和专长,随着技术的不断升级和迭代,这些智能体在不断提升自身能力,赋能企业的未来。我期待看到这些智能体能够跨越界限,形成强强联合,以其各自的优势相互融合,为我们企业带来真正的解决方案,帮助企业突破瓶颈,实现高效运营与创新发展。我相信,通过协同合作和智慧共享,企业AI的全面落地指日可待。

本文由 @刘小锋 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 这是真测啊,这么多问题,有点意思!不过百度智能体表现确实有点让人意外

    来自四川 回复
  2. 用过其中几个智能体,情况和博主测的基本相符。

    来自四川 回复
  3. 尽管智能体在企业中的应用仍有一定的局限性,但它们已具备基本的能力,在某些领域可以发挥价值。

    来自广东 回复
    1. 是啊,智能体在开始一点点改变企业经营方式,未来可期!

      来自四川 回复