文心一言,还需要继续“培训”

0 评论 4251 浏览 4 收藏 18 分钟
🔗 产品经理的职业发展路径主要有四个方向:专业线、管理线、项目线和自主创业。管理线是指转向管理岗位,带一个团队..

继ChatGPT之后,百度也在生成式AI这一领域不断跟进,比如前几日,百度就正式推出了“文心一言”。那么目前,文心一言这位选手的表现如何?这位有些“偏科”的选手,未来可以选择什么样的发展路径?一起来看看作者的解读。

用“不完美小孩”,形容目前的百度文心一言,再合适不过了。

“不完美”体现在,用户们连着五天测试发现,文心一言偏科较为严重:

是目前唯一能够直接进行“文生图”的模型,在文学创作例如诗词上有着“天赋”,但在“数学课”、“计算机编程课”较为差劲。

同时,文心一言也有着“小孩”的浮躁与诚实:

不得不说,百度前期造势过猛。百度Q4季度财报以及高管发言无不预告着,文心一言成为百度2023年及之后的主题曲:

在发给百度全员的财报信中,李彦宏重点介绍了百度将在三月份推出的生成式AI产品文心一言(ERNIE Bot),宣布计划将多项主流业务与文心一言整合。

同时2月份以来,各行各业接入百度文心一言消息不断,多次霸占新闻头条。

一顿操作猛如虎,让人误以为百度已经完完全全准备好了。

于是在发布会,百度高管诚实表示文心一言还不够成熟之时,百度股价应声而落:李彦宏诚实指出,自己体验时并不完美,这类大语言模型还远未到发展完善的阶段;百度首席技术官王海峰也提到模型目前“训练不够充分”。

于是,自3.16下午两点发布会开始之后,百度一度大跌10%。

而当用户真正去感受文心一言产品之时,发现其综合来看表现还算合格,3.17过后,股民们又陆陆续续跑来鼓励这个“不完美小孩”。

股价跌也跌了,涨也涨了,大家骂也骂了。最终,我们还是得冷静下来,为这个不完美小孩,找一找差距,谋一谋出路。

一、不够理性的偏科生

3.16日,文心一言站上考场,“考官”们蜂拥而上,对其进行全天的“提问”。

考虑到个人测评样本过少,小编以国金证券券商测评结果为主,以机器之心、品玩等科技赛道自媒体测试结果为辅,对文心一言这五天的表现进行评估。结果发现,文心一言“同学”偏科较为严重:

百度文心一言,还是个不完美小孩

(三大模型测评结果综合对比 图源:国金证券研究所)

在推理类问题中,文心一言在演绎推理、逻辑推理等领域表现逊于GPT系列模型。例如在面对以下问题时,文心一言表现欠佳,GPT-3.5和4持平:

百度文心一言,还是个不完美小孩

在归纳总结类任务中,文心一言表现较好。品玩让文心一言和GPT-3分别给出一个用 5 块钱度过一周的方案,文心一言、GPT-3的回答是:

百度文心一言,还是个不完美小孩

可以看到,文心一言给出了更为贴合现实的方案;而GPT-4 的回答,便是听君一席话,如听话一席。

在数学和代码类问题中,文心一言与GPT-3、GPT-4便有着较大的差距:

百度文心一言,还是个不完美小孩

而在一些岗位的测试中,三大模型均能较好地完成Al生活助手、产品推荐等文本生成任务,其中在教育辅助岗位,在文言文和古诗词理解运用方面,文心一言有着“本土优势”,表现略佳。

百度文心一言,还是个不完美小孩

(文心一言翻译情况 图源:机器之心)

一整个测试下来,文心一言偏科还挺严重:一方面逻辑推理欠佳,对数学、计算机编程几乎“一窍不通”;一方面归纳总结能力较强,在文学创作、古诗文理解上有着“天赋”,有着文科生的潜质。

同时,也有着做“艺术生”的潜质:文心一言具备多模态生成能力,包括生成图片、生成语音(包括方言)以及生成视频的能力。以生成图片为例,机器之心让文心一言生成一张湖心亭看雪的水墨画,其生成速度、效果都在中上水准。

百度文心一言,还是个不完美小孩

(文心一言文生图情况 图源:机器之心)

综合看下来,在这五天的小考内,文心一言基于“本土优势”展现出自己在文学、艺术等方面的长处,相应地也暴露出在理科、以及逻辑思辨能力的较大短板。

文心一言,是个不够理性的偏科生。

二、成长的代价

经历过这五天上千万条拷问,文心一言应该能够“意识到”,自己需要恶补“理性思维”,从而能够在毕业时,cover住更多的岗位。

此刻,文心一言便需要向目前班级上逻辑思维能力更好的ChatGPT,找找差距,取取经。

在AIGC时代,算法、数据、算力是衡量差距的三把标尺:

在算法层面,百度与ChatGPT事实上是站在同一起跑线上的——百度与OpenAI、谷歌都是基于Transformer模型去做不同的变体,延展出各自的深度学习框架以及再上层的大模型。

百度文心一言,还是个不完美小孩

(芯片—AIGC框架图 图源:浙商证券)

在数据层面,二者差距较为明显:相比于百度文心一言,ChatGPT经历了多次模型训练,并被无数个“考官”进行无数次指点,同时有专门的数据标注人员进行方向的修正。

据华西证券表示,ChatGPT大模型最大的特点便是,引入人类反馈的强化学习(RLHF)。

RLHF简单来说,就是用人工标注的方式,不断地将结果去反馈给模型:回答好的给出正反馈(例如图上的Correct),回答不好的,就通过加分机制的方式让模型进一步的自我迭代,并进行不断的调优,直到回答正确。

百度文心一言,还是个不完美小孩

(ChatGPT答复情况 图源:知乎博主LowinLi)

百度同样也采用RLHF,并辅以“对话增强、有监督精调”等机制,也就是说底层架构、技术路径相似,百度缺的是大量语料库的训练与反馈。毕竟,未被RLHF狠狠修正过的ChatGPT,在刚上线的时候也出现了大量混乱的回答。

百度文心一言,还是个不完美小孩

(百度文心一言模型技术 图源:百度)

而在算力层面的差距,基本上可以靠钱填平。

这是因为,尽管美国出口限制政策影响较大,国内仍能采购性能更低的前代算力芯片,或者是使用自己研发的芯片,只是相对牺牲了计算速度。

同时,国内头部科技企业能够实现算力资源部分自给;国家也在重视算力的建设:2月24日,东数西算一体化算力服务平台在宁夏银川正式上线发布。该平台将瞄准ChatGPT运算能力,以支撑中国人工智能运算平台急需的大算力服务。

不过,相比于阿里巴巴和华为,百度的数据中心容量有待提升。

百度文心一言,还是个不完美小孩

(全球前十大科技企业数据中心容量排名 图源:华西证券)

总结来看,文心一言的“文具”已然备齐,缺的是大把时间、大量资金去训练。

那么,“家长”百度若想让这个不完美小孩达到班级中上水平,需要砸多少钱?

根据华西证券测算,在不考虑人力支出及维护费用条件下,百度需要补足的成本拆分为训练成本、推理成本及数据标注成本,分别需要2.29亿元、13.62亿元、0.05亿元。

百度文心一言,还是个不完美小孩

(类ChatGPT应用中期年均成本测算 图源:华西证券)

也就是说,百度需要保持年均16亿元的投入,将有可能达到ChatGPT目前的能力。除此之外,文心一言为成长付出的代价包括但不限于:

为保证以上流程能够正常运转,百度还需吸纳更多的高价AI人才:在猎聘大数据研究院近期发布的AI人才报告中显示,2022年AI相关岗位招聘的平均年薪为33.15万,比互联网岗位高4.27万;而2023年以来的一个多月,AI岗位招聘的平均年薪已达到42.51万元,比上一年高出9万多;

为提供充足的算力,百度需要耗费更多资金建立并运作更多的数据中心:根据百度以往数据来看,一个数据中心的耗费在47亿元-100亿元区间。

目前来看,百度有实力给“孩子”培训并让其吃饱喝足:

在2017年,百度提出“All IN AI”之后,百度持续为AI输血。在2022全年资本开支(除爱奇艺)高达181亿元。

百度文心一言,还是个不完美小孩

并且现金流也较为充沛:截至2022年末,百度公司现金、现金等价物及受限现金为652亿元。

百度文心一言,还是个不完美小孩

这个不完美小孩,在百度“富裕”的家庭环境下,未来或许会有着不错的发展。

三、百度搜索先吃到红利?

当大量的钱、人才、算力砸进去,文心一言具备了成熟的思维能力之后,百度要怎么走?

从目前来看,百度文心一言有两条“创业”方向:

1)为开发者直接提供API调用接口并收费。

据报道,“文心一言”已经以API形式接入650家企业,发布当日已有6.5万家企业申请测试,签约5家客户。

也就是说,B端商业化的思路已经显现。

但不排除后期因为预训练语言模型规模急剧增长,成本实在“蚌埠”住,最后无法持续提供服务的情况:OpenAI便是出于商业角度考虑和高昂的端侧微调成本,大规模预训练语言模型不再被开源。

2)将AGI技术嵌入到自身成熟应用中,提供更强用户体验,进而推动用户为附加服务付费。例如,微软将GPT模型嵌入其搜索引擎Bing中:

2022年2月,微软新推出NewBing,该模块能够与用户对话、协助用户起草文本;

百度文心一言,还是个不完美小孩

(Bing广告情况 图源:华西证券)

目前,Bing已经靠着ChatGPT,在短时间内,火速对巨头谷歌产生一定的威胁:

data.ai数据显示,新功能上线当日,必应Bing应用程序的全球下载量在一夜之间猛增十倍;截至3月10日,Bing活跃用户已突破1亿人,增幅超600%。

百度文心一言,还是个不完美小孩

(NewBing下载量 图源:华西证券)

撇去ChatGPT本身热度,Bing收获青睐的原因是,搜索引擎与类ChatGPT产品能够双向互补:

1)搜索引擎能够弥补GPT的“消息滞后”。ChatGPT的训练数据集仍停留在2021年,因此难以回答时效性问题,而BingChat能够基于实时更新的搜索库进行回答。

2)ChatGPT能够对搜索结果进行直观集成,无需将链接一个个点开寻求答案,大大优化了用户体验。同时在此基础上,也增添了趣味性:微软为NewBing设置了三种性格状态,用户可根据偏好自行设定对话模型的回应风格。

基于此,更为人性化的、信息更为“新鲜”、全面的NewBing能够长时间地留住客户。用户在手,NewBing变现的野心已经遮不住了:广告引流已经开始。

目前,据华西证券发现,Chat界面提供了新的广告位:Bing已经在回复框中,对电商产品进行展示引流。

百度文心一言,还是个不完美小孩

(Bing广告情况 图源:华西证券)

参照NewBing,百度搜索或许能够第一个吃到文心一言的红利。

但百度需要做到的是,在发展文心一言的同时,也要好好优化一下百度搜索,目前,百度搜索的使用体验并不友好:

根据偲睿洞察记者调查发现,在搜索“下载网易云音乐”这类明确的指令之下,百度有1亿条结果,一直到第18条才出现官网下载地址,前18条里还有6个广告,相比之下,必应有7亿多个结果,在第5条出现了官网下载地址;

在搜索“五官医院”时,必应出现3.95亿条结果,第一个词条是出现最近的五官医院的官网以及地址信息,之后是附近五官医院的地址,而百度出现41万条结果,迎面的几条都是机器人在线医疗……

当百度搜索更为精准之后,文心一言在此基础上,才能够提供更个性化、更高效的搜索服务,从而提升搜索的变现效果。

除了搜索之外,百度还将其融入智能云、Apollo自动驾驶、小度智能设备等:在财报后的全员信中,李彦宏表示,百度的多项主流业务与文心一言整合。

而这一切的一切,都得等文心一言这个偏科生更“理性一点”。

作者:Renee;编辑:孙越

原文标题:百度文心一言,还是个不完美小孩

来源公众号:偲睿洞察(ID:siruidongcha),陪伴中国产业升级与迭代

本文由人人都是产品经理合作媒体 @偲睿洞察 授权发布,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
17427人已学习13篇文章
本专题的文章分享了小程序介绍、小程序搭建、优化设计规范和功能设计指南
专题
12574人已学习12篇文章
本专题的文章分享了营销案例解析。
专题
13805人已学习12篇文章
人力资源管理系统,帮助企业管理和维护其人力资源。本专题的文章分享了人力资源管理系统的设计指南。
专题
13565人已学习11篇文章
本专题的文章以To G领域为例,从产品经理的角度,分享TO G产品设计指南。
专题
11994人已学习13篇文章
2023年已结束,你的年终总结写好了吗?本专题的文章分享了如何做好年终总结。
专题
17627人已学习14篇文章
批量导入是用户在工作中经常需要用到的功能。本专题的文章分享了批量导入的设计思路和优化思路。