AI产品调研-文心一言 、扣子

0 评论 1697 浏览 9 收藏 21 分钟

文心一言算是国内大模型的佼佼者,而扣子则在智能体方面有着不错的表现。在一些常见的场景上,这两个模型都有什么样的表现?这篇文章,我们看看作者的分析。

一、文心一言

1.1 分析目的

了解文心一言当前产品现状与最新功能解读。

1.2 产品基本信息

1.研发公司:百度

2.官网:https://yiyan.baidu.com/

3.产品定位:治愈系智能产品,以声音和科技为媒介,为人们提供温暖治愈和关怀(对话机器人)

4.面向用户:广泛消费者与企业用户,如IT互联网从业者、教育工作者与学生、中小企业等

5.使用情况:用户量4.3亿(截止24.11.12,百度世界2024大会宣布)

1.3 核心业务

1.3.1 基础能力

理解能力:理解上下文,为用户提供快捷的知识获取方式

生成能力:生成高质量的文本内容、图片、代码等,例如新闻报道、小说创作等

逻辑能力:复杂的逻辑难题、数学计算均可帮助用户解决

记忆能力:多轮对话后,仍然记得很早之前文本中的重点等

1.3.2 主要业务场景

生活助手:如美食推荐、运动规划等

情感陪伴:如心理咨询、闲聊陪伴、人际交往等

职场提效:如文案撰写、辅助编程等

休闲娱乐:如歌单推荐、头像生成等

学习成长:如技能学习、论文提效、学习规划等

1.4 产品体验

1.4.1 产品功能

1)对话

更贴合国人的交流习惯:智能伙伴,既能写文案、想点子,又能聊天、答疑解惑,支持多模态形式,工作生活提效。

来源:文心一言

2)智能体

可根据需要创建自己的智能体,也可在智能体广场直接使用某一垂类场景他人已发布的智能体,快速上手。

来源:文心一言

3)百宝箱

参考指令(Prompt):提供各场景、各职业的专业指令参考,辅助快速生成内容。

来源:文心一言

4)社区(仅App)

用户交流社区,可对自有内容或他人内容进行分享学习,增加用户粘性。

来源:文心一言

1.4.2 使用体验

1)错误辨识(与Kimi、通义千问对比)

结论:回答正确、没有乱说,相比Kimi、通义千问,文心一言在家庭关系状态类的问题上表现更好一些。

●询问一些经典问题

(1)猫为什么会飞?

结论:均回答正确,且给出了其他可能出现的场景例子。

来源-文心一言:24/11月测试

来源-Kimi:24/11月测试

来源-通义千问:24/11月测试

(2)1+1在什么情况下等于3?

结论:均回答正确,且都给出了一些可能等于3的场景例子。

来源-文心一言:24/11月测试

来源-Kimi:24/11月测试

来源-通义千问:24/11月测试

(3)爷爷奶奶能不能结婚?

结论:文心一言结合法律法规的基础上,补充了常规观念。

来源-文心一言:24/11月测试

来源-Kimi:24/11月测试

来源-通义千问:24/11月测试

2)智力

结论:计算能力有所提升、并更细化了思考步骤;不过偶尔出现题目太绕,导致很难明白问题本质原因的情况。

●询问计算、脑筋急转弯问题

(1)5年前,妈妈年龄是儿子的7倍,儿子今年9岁,妈妈今年多少岁?(与文心一言23年表现对比)

结论:相比去年文心一言计算准确性提升了。

来源-文心一言:23/4月CSDN文章

来源-文心一言:24/11月测试

(2)有两个人决定进行自行车比赛,看谁的自行车跑的快,比赛在一个平坦宽敞的体育场里进行,但当比赛开始时,他们两个却谁也不愿意领先,反而都在慢悠悠的骑,已知他们两人都不会互相谦让,也没有外来因素干扰,总之,一切都很正常,这究竟是为什么呢?(正确答案:因为两人互换了自行车)

结论:较长的脑筋急转弯,文心一言并没有给出准确答案,只推测出现象的可能原因。

来源-文心一言:24/11月测试

3)表达

结论:表达比较清晰,会突出核心重点;不过在部分问答时,没有分点式说明,不如ChatGPT更有阅读意愿。

●润色文章

结论:按照提示词要求润色文章,语句通畅,表达比较不错。

(1)Prompt

我有一段文字,内容如下:

GPT是LLM的一种特定实现,通过海量数据训练的深度学习模型,能够识别人的语言、执行语言类任务,并拥有大量参数。它使用Transformer架构,并通过大规模的预训练,学习语言的模式和结构;ChatGPT则是基于这些内容而实现出来供我们使用的产品。

要求:我希望你对其进行润色,让这段文字更清晰,使用亲和的风格、严肃的语气、传达核心知识。

完成润色后,希望你能解释一下你是如何改动的。

限制:500字以内。

2)结果截图

来源-文心一言:24/11月测试

●用户情感

结论:文心一言和ChatGPT在语言风格和处理逻辑上有较大的差异,ChatGPT的回答兼具程序化和人文关怀,而文言一心虽然更加贴近自然地沟通交流,但不像ChatGPT保持分点式回答,阅读意愿上在对比中文心一言这一块的表现稍弱。

来源-文心一言:24/11月测试

来源-ChatGPT:24/11月测试

4)速度

结论:使用过程中,文心一言AI回答的速度基本分布在2~5秒之间,相比Kimi、通义千问模型稍快一些。

5)专业能力

结论:提供多场景、各行各业的专业指令关键词供用户使用,可帮助用户更高效的完成各种任务;专业领域问题有待辨识。

●一言百宝箱

结论:多样化的场景提示词供用户使用。

来源-文心一言:24/11月测试

来源-文心一言:24/11月测试

●专业领域问题

结论:专业领域问题答案有待辨识。

(1)患者,女,29岁,因有机磷中毒入院治疗,在治疗过程中出现阿托品中毒,应立即给予什么治疗?(教科书类内容查询答案为:输液及毛果芸香碱)

来源-文心一言:24/11月测试

6)亮点功能

AI绘画是文心一言的亮点功能,其他大模型如Kimi、通义千问没有的能力,并且画质相比2023年也提升了很多。

来源:23/4月CSDN文章

来源:24/11月测试

1.5 技术架构

文心一言底层基于Transformer结构,依托飞桨、文心大模型开发的。这种架构使其具备卓越的自然语言处理能力,能够理解和生成文本,完成各种任务。

1.6 总结

● 优势

  1. 在模型能力上,相比较Kimi、通义千问,文心一言拥有多模态能力,如文本生成、图像生成等。
  2. 在内容风格上,相比ChatGPT更有人情味,文心一言的内容语气更亲和、温和。
  3. 在AI绘画上,画图功能有了很大提升,画质更清晰,之前出现的图片胡乱生成的情况变少了。

● 劣势

  1. 文字的处理及创作上,丰富的感情和思想内涵还是目前AI做不到的。
  2. 部分用户情感类问题回复不如ChatGPT有条理性。
  3. 在处理专业领域的问题时,准确性有待辨别。

二、扣子(coze国内版)

2.1 分析目的

了解扣子产品现状与功能体验。

2.2 产品基础信息

1.研发公司:字节跳动

2.官网:https://www.coze.cn/home

3.产品定位:新一代AI应用开发平台。

4.用户体量:月访问用户数200万左右(来源:截至24/6月Similarweb数据)

5.面向用户:

2.3 为什么要做扣子?

1. 行业内对Agent的广泛关注

很多业界的人把大模型的出现比作当年移动互联网的出现,移动互联网的应用呈现是App,很多业界人士统一认知,AI应用的呈现形式是Agent;字节的另一款产品“豆包”,主要的呈现形式就是一个综合性的AI智能体平台,可见Agent在其产品里的认知很深刻。

2. 人工智能领域需要一个快速构建AI应用的平台

移动互联网时代有快速构建App的标准技术,发布App的应用商店,那AI时代的应用开发平台是什么?应用发布平台又是什么呢?这个时代需要有一个更低的门槛,帮助用户快速构建AI应用。

3. 豆包的发展加速了扣子的研发

豆包早期平台内的智能体是由官方为了丰富AI引用场景,发布了20多个官方智能体,包括写作助手、图片生成等,但后续将创建智能体交给了第三方和用户,推测豆包官方感受到了创建智能体的有限性,要促进AI智能体的生态,需要一个更专业的AI智能体开发平台。

2.4 核心能力

1. 快速开发AI应用、智能体

无编程基础也可使用,快速搭建智能体。

2. 灵活的模型选择与编排

1)Prompt(可自动优化已编辑的提示词)

提示词编写,是用户创建智能体最基本的技能,很多智能体,通过精心的编排和设计提示词基本都能达到比较好的效果,扣子提供了提示词优化的功能,不过没有提示词模板,对于没有提示词基础的用户,可能不是很友好。

来源:扣子-创建智能体

2)插件(700多个)

插件是构建AI应用必不可少的能力,大家都知道大模型只是提供了文本生成等能力,但不具备搜索引擎、网页内容查询等能力,构建AI应用的过程中,不仅需要大模型的基础能力,还需要把大模型武装起来,这时候就需要插件来支持,插件本质是各种API服务,扣子通过调用这些API来实现各种功能。

扣子可根据左侧的提示词,自动生成一些插件,提高用户操作效率。

第三方大模型:插件中还包含第三方模型服务,如通义千问等,用户可根据需要自行选择模型。

来源:扣子-创建智能体

3)知识库(可自建/上传)

帮助模型学习更多知识,解决一些专业问题,在解决一些垂直行业的问题,提供知识库是非常有必要的,也是提高模型生成内容的准确性,扣子可自建/上传本地文件、网页、笔记、数据表、图片等。

来源:扣子-创建智能体

4)记忆能力

由于部分模型存在一些上下文限制,模型的记忆能力有限,若需让产品有长期记忆的能力,扣子提供了变量、数据库、文件等长期记忆功能。

来源:扣子-创建智能体

5)工作流(编排服务,提供模版)

对于需要通过一系列流程、规划才能实现的AI应用,工作流功能提供了比较好的编排服务,对于有编程基础的人员是比较好的体验,不过对于不会编程的人员,使用起来还是有门槛的,好在扣子提供了工作流模板,在一定程度上降低了部分功能门槛。

来源:扣子-创建应用

3. 应用发布

1)与集成多渠道发布豆包、扣子商城、应用分发平台、社交媒体账号平台、开

发者社区。

2)与外部系统集成。

4. 商店

用户可以将自己创建的智能体发布到商店,也可在商店直接使用他人已发布的智能体,提高效率。

来源:扣子-商店

2.5 用户痛点与需求

1.AI应用自研的门槛高,投入成本大

2.单一的AI应用功能扩展性差,资源集成工作量大

3.应用场景复杂多变(用户需求多样,且个性化,难以找到解决个性化需求的AI应用)

2.6 商业模式

主要向开发者收费,较典型的SaaS增值付费模式,分为基础版与专业版。

1.基础版

1)基础应用开发能力:限制团队可使用人数、知识库使用空间、API调用量等。

2)模型使用权限:可使用的模型有限,更多模型需开通专业版。

3)AI应用使用量:发布到扣子商店后,限制AI应用的使用量。

2.专业版

1)基础应用开发能力扩充:不限制API调用次数等,限制调用频率等。

2)可使用模型种类增多:可使用火山方舟上更丰富的模型与版本。

3)AI应用使用量、调用量不做限制:按照专业版计费方式收费。

2.7 挑战与难题

1. 对于没有编排基础的用户

1)产品的使用难度还是比较高

2)使用关键配置功能门槛较高

3)模型效果难以达到预期

2. 对于有编排基础的用户

1)智能体的商业变现模式还不清晰

2)开发者缺乏专业、丰富的知识库资源

三、总结

字节的扣子应用降低了AI开发门槛,集成丰富的插件与强大的功能,支持快速构建、部署AI Bot,并一键发布至多平台,操作简单、功能丰富;但目前只能部署到有限的应用中,无法将机器人嵌入到更多的应用中,降低了系统的灵活性和适用性。

本文由 @不知名产品露 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!