对比了6家国产智能体（AI Agent），我找到了企业落地AI的方向

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

对比了6家国产智能体（AI Agent），我找到了企业落地AI的方向

刘小锋

2024-11-19

5 评论 8701 浏览 21 收藏

28 分钟

现在智能体的应用已经越来越广泛，除了个人用在生活中之外，企业也开始尝试应用在工作中。但不同厂家的只嗯你提和表现略有不同，有的基本常识错误，有的能顺利完成。这篇文章，我们来看看作者分析的表现。

在最近落幕的百度世界大会（Baidu World 2024）上，百度创始人李彦宏提到百度文心智能体平台已吸引15万家企业、80万名开发者使用，并称11岁的小学生也成功搭建了智能体。

这个数据的确惊人，其实智能体（AI Agent）这一概念，以及其同义术语如数字员工、AI助手等，均已不再是新鲜话题。

尽管目前市面上智能体的种类繁多，但大多面向个人用户，作为企业经营者，我更关心的是智能体在企业方面的应用。随着智能体在商业领域的讨论愈发热烈，我对智能体在企业中的实际应用价值抱有一定的疑虑：

智能体是否能感知用户提问的真实意图？
智能体是否能理解复杂语境和非标准表达？
智能体是否能从丰富的知识库完整抽取信息？
智能体是否能保持上下文、甚至多文档之间的语义连贯性？
智能体是否能准确提取复杂数据，判断多元数据？

为了验证以上问题，本篇文章将从以下两个方面来探讨智能体（AI Agent）：

企业级智能体测评（从3个维度出发，测评10个问题）
目前智能体们能为企业做什么？

先说结论

为了寻找合适的国产智能体（AI Agent）进行测评，我在不同的AI平台搜索：

试用下来，从操作便捷性和功能实用性方面考虑，最终筛选出了6家功能相似的企业级智能体（或数字员工）：扣子、文心智能体、司马诸葛、智谱清言智能体、腾讯元器、LinkAI。

我准备了4份文档，以同样的提示词，同样的文档，分别在这6家平台创建了一个企业常见的智能体：行政小助手sunny。围绕行政方面的场景，还原企业内部员工之间真实沟通场景。

为了保证公平性，同时也考虑到智能体发挥不稳定，这次共设置了10个问题（从易到难）进行测评。分别从精确度、完整性、逻辑性方面，检测智能体们的回答质量。

先上结论：大部分智能体都具备了理解简单指令的能力，扣子和司马诸葛的表现最令人满意，不偏离事实，基本能达到企业使用的需求，适用于严肃商业场景，但仍有进步空间。LinkAI、智谱清言智能体和腾讯元器的表现比前两者稍逊，勉强可使用。文心智能体表现一般，有较大的升级空间。

【提醒：评分结果只代表智能体们当下在企业应用场景对问题的回答质量，且评价维度有限，不代表产品整体水平。】

一、正确理解语义，回答准确度

正确理解语义，能理解上下文，具备回答的准确度，是衡量智能体是否可用的首要考量因素。

为了测试智能体是否能正确理解语义及基础的信息抽取能力，针对公司的行政制度，我提出了4个问题。

第一个问题：“请一天事假，怎么请？”

原文如下：

扣子从知识库直接提取了信息，不做过多发散，回答正确。

文心智能体的回答很有趣味性，对原文做出了正确理解，回答无误。

司马诸葛分步骤列出，思路清晰，回答正确。

智谱清言智能体虽然也给出了请假步骤，但他给出的审批人是直接主管领导，而原文中正常流程中请假单的审批人是总经理，回答错误。

腾讯元器同样给出了正确答案，步骤清晰。

LinkAI的回答也正确理解了原文，回答准确。

第二个问题：“可以在卫生间抽烟吗？”

原文如下：

扣子理解正确，给出了精确回答。

文心智能体没有提取出相关信息，无法给出卫生间是否可以抽烟的相关建议。

司马诸葛正确理解原文语义，给出了精确的答复。

智谱清言智能体也回答正确。

腾讯元器首先给出结论，然后给出相关制度条款，回答正确。

LinkAI的答案错误，遗漏了“指定地点外。”

第三个问题：“入职第一天，迟到半小时怎么扣钱”

原文如下：

扣子未能给出具体扣钱金额，回答错误。

文心智能体给出的答案是第一次迟到会被罚20元，回答准确。

司马诸葛首先给出迟到的定义，再根据原文档信息进行准确回答。

智谱清言智能体未能回答出具体的扣钱金额。

腾讯元器先给出了迟到的定义，然后再给出了扣钱的情况，回答准确。

LinkAI同样先给出了迟到的定义，然后再回答第一次迟到罚20元，回答正确。

第四个问题：“我是财务，因为个人疏忽给公司造成了2000元的损失，会赔钱吗”

原文是这样的：

扣子给出的答案同样是需要赔偿200元，回答正确。

文心智能体没有给出有效回答。

司马诸葛回答的是需要赔偿200元，正确理解了原文意思，输出的结果准确。

智谱清言智能体没有给出具体赔偿比例和金额，回答得不理想。

腾讯元器的回答忠于原文档，条理清晰，给出了正确的回答。

LinkAI的回答干脆利落，与原文档也是相符的。

第一个维度测评下来，可以看出，在对基础信息提取方面，司马诸葛和腾讯元器具有较高的准确度，全部回答正确，扣子、LinAI回答对3道题，信息抽取能力也表现优秀，文心智能体和智谱清言智能体表现较为一般。

二、归纳总结能力，回答完整性

智能体若要提高生产力，那么它就必须具备较强的信息归纳总结能力，能从大量数据和信息中过滤掉冗余或次要的信息，提取出关键要素并进行整合，以简明扼要的方式陈述出来。

第一个问题：“我去年考核90分，可以升职吗？”

原文如下：

智能体需要提取出4个晋升资格，缺一不可。

扣子给出了4项需同时满足的晋升条件，回答完整。

文心智能体给出文档中对应的4项具体晋升条件，但遗漏了“无受过处罚”，整体回答缺少完整性。

司马诸葛给出了需同时满足的全部晋升条件，回答完整。

智谱清言智能体完整地整理了晋升条件，回答正确。

腾讯元器给出的晋升条件和原文相差较大。

LinkAI给出了完整的4项晋升条件。

第二个问题：“除了法定假，公司的福利假还有哪些？”

原文如下：

从原文中可以看出，除了法定假，公司的福利假还有7项：年假、婚假、丧假、病假、产假/陪产假、哺乳假、工伤假。

扣子回答的也是除了法定假还有年假、婚假等七种福利假，并做出解释。

文心智能体的回答中漏掉了产假/陪产假。

司马诸葛完整地总结出了法定假期以外的七种福利假，并对每种福利假做了解释。

智谱清言智能体给出了7个福利假，同样做了相应的解释，回答完整。

腾讯元器智能体的回答缺少了工伤假。

LinkAI只给出了四种福利假，缺少了3个，回答不完整。

第三个问题：“哪些报销项目报销时需附上总结”

原文如下：

智能体需要根据全文档，归纳出报销团队建设费和市场推广费时需附上总结，不能有遗漏。且文档中提到的招待费只是需要事后总结，并不需要在报销时附上总结。

扣子回答的是市场推广费和团队建设费需要总结作为报销附件，信息归纳得很完整。

文心智能体归纳信息错误，错误地认为报销招待费也需要附上总结。

司马诸葛归纳信息不全，缺少了团队建设费。

智谱清言智能体归纳了5个项目报销时需附上总结，回答错误。

腾讯元器同样归纳信息错误。

LinkAI输出的答案是“所有出差项目的报销都需要附上出差总结作为报销附件”，回答偏离事实。

第二个维度测评下来，扣子回答的完整度表现最好，全部回答正确。司马诸葛和智谱清言智能体次之，回答对了2道题，LinkAI、文心智能体、腾讯元器表现平平。

三、数据处理能力，回答逻辑性

对复杂数据进行处理和分析，能基于事实和数据进行合理推导，并在生成回答时具有逻辑性，这是拉开智能体差距的核心竞争力之一。

第一个问题：“5个人团建，吃饭600块预算可以吗”

原文如下：

这个问题只需要智能体进行简单的数据计算，并判断出是否超出限额标准。

扣子数据计算正确，并判断出600块超出预算。

文心智能体同样判断出600超预算了，回答正确。

司马诸葛回答“吃饭600块预算是可以的”，回答错误。

智谱清言智能体判断出600元超过了公司的规定标准，数据计算正确。

腾讯元器判断出600元的预算是合理的，认为还有100元的预算可以灵活使用，判断错误。

LinkAI无法回答该问题。

问题二：“我的各项费用都符合公司的报销标准，得到了公司的允许。其中交通费和住宿费花了3000元，招待客户花了800元，我报销差旅费3800元对吗？”

原文如下：

这道题需要智能体判断出招待费报销并在不差旅费项目中，而应以招待费项目报销。

扣子回答正确，明确指出招待费不在差旅费中报销，由此给出报销的差旅费应是3000元。

文心智能体没有给出是否应以差旅费报销的答案，没有做出正确的判断。

司马诸葛提到交通、住宿费3000元属于差旅费，800元属于招待费，应分开报销，判断正确。

智谱清言智能体给出的结论是总差旅费是3800元，回答错误。

腾讯元器同样也做出了错误的判断。

LinkAI 提出最终报销的差旅费是3000元，做出了合理的判断。

问题三：“行政部经理去大连出差的住宿标准”。

原文如下：

智能体需要先从「差旅费报销标准」表格中判断行政部经理在表格中对应的级别为三级人员，再通过「地区分类及住宿标准」表格中判断大连属于二类城市（省会城市），并正确推理出正确答案。

扣子回答的是每晚不超过400元，对应的是三级人员去一类地区的住宿标准，回答错误。

文心智能体回答的是不超过500元，回答错误。

司马诸葛回答的是每晚300元，回答正确。

智谱清言智能体没有给出具体的答案。

腾讯元器回答的是300元，且推理思路清晰，先给出行政部经理的级别，再结合大连属于二类地区，给出正确答案。

LinkAI回答的是180元，这个数字并没有在表格中出现，回答错误。

在第三个维度中，没有任何一家智能体全部回答正确，扣子、司马诸葛、LinkAI的表现尚可，回答对了两道题，其他智能体的回答结果令人不太满意。

测评全部结束！本次测评重点只是企业级智能体在AI知识库领域的应用能力。受限于本次测评的提示词、提问方式及文档内容的差异，测评结果无法全面反映智能体们的真实水平。因此，本次测评结果更多地是为企业家们提供了一个企业应用的参考方向。

目前智能体们能为企业做什么？

从测评结果看来，目前智能体们已具备了基本的能力，可在企业的某些领域发挥价值。

1.优化企业内部流程

智能体可以通过在线企业内部知识库，帮助员工快速获取所需信息，减少重复沟通。智能体可以使任务自动化，通过自动执行重复性、低价值的任务，智能体能够释放员工的时间，帮助团队合理分配人力资源，让他们专注于更高价值的工作，适用于企业行政、培训等环节。

2.为企业客户服务提供支持

企业可以利用智能体处理常见咨询，提供即时反馈，减少客户等待时间，提高客户满意度。此外，在处理复杂问题时，智能体能够准确识别用户意图，从而给出个性化的解决方案，适用于企业客服、销售等环节。

3.为企业提供决策支持

智能体通过分析大量的背景资料和数据，提炼出关键信息，并将其以结构化的形式呈现。这种能力在企业进行市场调研和数据分析时尤为重要。企业可以利用智能体快速获取市场趋势、客户反馈和行业动态，风险管理和预测提供了强有力的支持。

作为一个企业经营者，我深知智能体在推动企业数字化转型中的重要性。每个智能体都具备独特的优势和专长，随着技术的不断升级和迭代，这些智能体在不断提升自身能力，赋能企业的未来。我期待看到这些智能体能够跨越界限，形成强强联合，以其各自的优势相互融合，为我们企业带来真正的解决方案，帮助企业突破瓶颈，实现高效运营与创新发展。我相信，通过协同合作和智慧共享，企业AI的全面落地指日可待。

本文由 @刘小锋原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

刘小锋

琢磨AI生产力

1篇作品 8701总阅读量

Shopee：东南亚电商市场的“巨星”

03-149063 浏览

WMS仓库管理系统研发规划说明

08-0410916 浏览

线上演唱会，凉了

05-113664 浏览

帕累托原则 | 设计师需要知道的设计原则！

05-196032 浏览

年轻人假期花式搞钱：当伴娘、摆地摊、喂宠物、APP地推、打临工

10-062567 浏览

汪仔0105

大连也不是辽宁省的省会啊，沈阳才是!

最近来自广东回复
白小白

这是真测啊，这么多问题，有点意思！不过百度智能体表现确实有点让人意外

最近来自四川回复
追梦人

用过其中几个智能体，情况和博主测的基本相符。

最近来自四川回复
唔西迪西

尽管智能体在企业中的应用仍有一定的局限性，但它们已具备基本的能力，在某些领域可以发挥价值。

最近来自广东回复
1. 刘小锋作者回复唔西迪西
  
  是啊，智能体在开始一点点改变企业经营方式，未来可期！
  
  最近来自四川回复