我们内测了文心一言，结果令人意想不到 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

我们内测了文心一言，结果令人意想不到

2023-03-17

3 评论 5074 浏览 2 收藏

B端产品经理需要更多地进行深入的用户访谈、调研、分析，而C端产品经理需要更多地快速的用户测试、反馈、迭代

3月16日下午，百度新一代大语言模型文心一言发布了。根据发布会上的展示，文心一言具备五种能力，分别是文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成，本文作者在进行测试后，对这五种能力进行了分析，一起来看一下吧。

文心一言的初体验，确实还没ready。

硬着头皮也好，万众期待也罢，北京时间3月16日下午，百度新一代大语言模型文心一言发布了。

怎么说呢，虽然一开始就知道可能会输给GPT-4（李厂长自己说：这个门槛有点高），但还是盼着文心一言好，盼着百度好，盼着中国首个生成式AI产品好。

但伴随着发布会的，是百度港股市值的大跳水，虽然最后回调了一波，但二级市场对中国版“ChatGPT”似乎信心不足。

我们内测了文心一言，结果令人意想不到

发布会期间百度股价实时数据

即使吸取了谷歌发布Bard时的前车之鉴，用提前准备好的录制视频展示，但依然没能阻止股价受挫。反而李厂长的皮带链接和容颜青春永驻，成了弹幕留言关注的焦点。

据百度透露，文心一言新闻发布会后三小时，企业版API调用服务测试的企业用户达6.5万，与百度智能云基于文心一言展开合作咨询达到5590条。

01 测试开始，有惊有喜

根据发布会上的展示，文心一言具备五种能力，包括了文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

硅兔君拿到了内测邀请码后，第一时间开始了测试。

1. 文学创作

发布会紧跟潮流，用最近热度上的《三体》，对文心一言的文学创作进行展示。提出的6个问题，文心一言都可以从容应答。

硅兔君用《哈利波特》再考了考他（毕竟都是史诗级巨作）。

对于《哈利波特》的创作背景和作者简介，文心一言刚开始给了一个“省事”的答案。

我们内测了文心一言，结果令人意想不到

但我并不满意，又问了一遍，这个版本就明显学术了很多。

我们内测了文心一言，结果令人意想不到

紧接着我问了发布会上同样的问题，让文心一言为续写《哈利波特》提供思路，答得还可以。

我们内测了文心一言，结果令人意想不到

硅兔君又问了个比较八卦的感情线问题：赫敏和哈利波特之间，有爱情吗？

文心一言给出的答案建议各大明星经纪公司参考一下，以后回应恋情别只会发律师函。

我们内测了文心一言，结果令人意想不到

2. 商业文案创作

针对商业文案创作这块，硅兔君就拿自己做个测试，提问：

如果要新建一个关于硅谷科技创投新闻的自媒体账号，融入“兔”这个字，可以给账号起个什么名字？

我们内测了文心一言，结果令人意想不到

文心一言给出的答案其实挺赞，考虑到硅谷的属性，甚至也有英文的名字。

VentureBuddies这个名字你别说，你还真别说～

在我给这个名字予以肯定后，让文心一言帮我写个简介，画风直接变成了英文，不过直接给我安上了“最近在居家办公”的设定，不知为何。

我们内测了文心一言，结果令人意想不到

说实话不咋地，乱七八糟的。

3. 逻辑数理

逻辑数理推算是生成式大模型的一道坎儿，不仅考数理，更考逻辑。

发布会上用了ChatGPT刚上线时翻车过的的鸡兔同笼，文心一言能发现问题中的错误并在纠正后正确回答出来。

可当硅兔君尝试问了几个小学生逻辑数学题，文心一言翻车了！

张老师15年前15岁，15年后多少岁？

我们内测了文心一言，结果令人意想不到

文心一言答错了，怕描述不够清楚又问一遍，依然令人遗憾……

（知道答案的朋友可以评论区见，看看多少人答对）

我们内测了文心一言，结果令人意想不到

接着问了个更绕的：

一个西瓜进价50元，卖了70元，老板收了100元假币，请问老板一共损失多少钱？

我们内测了文心一言，结果令人意想不到

这个问题同样问了ChatGPT，它一顿逻辑推理疯狂输出之后，给出了一个不同答案。

我们内测了文心一言，结果令人意想不到

事情变得很有意思了，你们说谁对？

4. 中文理解

在中文理解上，硅兔君用了常被错误理解的成语来提问，结果ChatGPT确实错误地学习了现代用法。

“差强人意”是什么意思？

正确答案：

我们内测了文心一言，结果令人意想不到

错误答案：

我们内测了文心一言，结果令人意想不到

一题见分晓，这一局文心一言完胜了。

5. 多模态生成

最后，也是最令人期待的多模态生成。硅兔君按照发布会的语言范本试了两次，都没有给出满意的答案，不得不说和GPT-4的差距不是一点半点。

我们内测了文心一言，结果令人意想不到

生成视频方面也没有实现，并且给出了“无法生成视频”的回复（难怪发布会上用的录像，不然大型翻车现场）。

我们内测了文心一言，结果令人意想不到

还有一个被忽略的点就是编程能力，在发布会上并没有展现，也是ChatGPT的优势之一。硅兔君让文心一言用C语言编一个小游戏，这是它给出的回答：

我们内测了文心一言，结果令人意想不到

02 文心一言 vs ChatGPT

作为一个人工智能语言模型，ChatGPT也存在一些缺点和局限性。以下是我对ChatGPT的缺点评价：

1. 知识库的深度和广度仍需要进一步提高：虽然ChatGPT可以回答各种领域的问题，但它的知识库还不够完备，有些问题可能无法找到合适的回答。

2. 生成式对话的质量还有待提高：尽管ChatGPT可以生成自然流畅的对话，但它的生成式对话还不如人类专业演员，有时可能会出现口误或重复等问题。

3. 某些情况下可能会出现错误或不准确的回答：由于训练数据的限制，ChatGPT在某些情况下可能无法正确理解用户的意图，或者回答内容可能不够准确或恰当。

4. 依赖于预先训练的数据集：目前的ChatGPT主要是基于文本进行对话生成的，如果未来想要扩展功能或使用场景，可能需要更多地依赖于预先训练的数据集，这会增加开发难度和维护成本。

5. 中文表达能力有待改进：作为一个英文名称为GPT的机器学习模型，其中文名称“小微”似乎并没有体现出与真实世界中的Micronesia相关的含义和特点，这可能会影响其普及程度和应用范围。

总之，尽管ChatGPT在许多方面都表现出色，但它也存在一些缺点和局限性。

以上是文心一言对ChatGPT的评价，把人家的缺点安排得明明白白。

麦克风交给ChatGPT，很遗憾，它好像还不知道文心一言的到来……

我们内测了文心一言，结果令人意想不到

总的来讲，百度这波发布，正如李彦宏所说：“因为有市场需求，百度各个产品线，大家都在等着用这样的技术。”

（都在催，不得不赶紧上线）

也如李彦宏所说：“怀胎十月，一朝分娩。”

（我们还只是个孩子）

不过全世界都知道前一天GPT-4的问世，在这个节骨眼上顶着压力发布产品的勇气还是值得肯定的。

硅兔君认为我们需要做的，是再给一些耐心。就如开头说的那样——我们都盼着它好。

作者：蔓蔓周

来源公众号：硅兔赛跑（ID：sv_race），10万创投人都关注的创新媒体，坐标硅谷

本文由人人都是产品经理合作媒体 @硅兔赛跑授权发布，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

坐标硅谷，十万人关注的创投媒体

60篇作品 270203总阅读量

致微信公众号：算法不是图文的救世主

07-203263 浏览

致微信公众号：算法不是图文的救世主

Axure高保真教程：轮盘滑动控制元件移动

05-183984 浏览

Axure高保真教程：轮盘滑动控制元件移动

UI转产品，涨薪30%，只需90天：我的成功之路

刚刚

需求总有漏洞，跟开发过两三遍才能对完细节，该怎么办？

09-151316 浏览

需求总有漏洞，跟开发过两三遍才能对完细节，该怎么办？

我在抖音做小说博主：用“同人文”引流，磕热播剧的新赛道？

11-141901 浏览

我在抖音做小说博主：用“同人文”引流，磕热播剧的新赛道？

OpenAI火力全开！ChatGPT连夜登陆iOS，免费无广告、还支持语音

05-194099 浏览

OpenAI火力全开！ChatGPT连夜登陆iOS，免费无广告、还支持语音

评论

Pontiff

张老师15年前15岁，15年后多少岁？这个问题本身就有歧义，参照点存在歧义。ai无法理解就只能基于历史经验来聊，目前chat有可能回答对，给出两种不同的答案来。

历史经验可以基于，明天是星期几那个题。

最近来自北京回复
汪仔9430

小边有必要去了解一下“差强人意”的意思再来当评判

最近来自江苏回复
1. Pontiff 回复汪仔9430
  
  文心直接引用的百科的原文。但是两个ai表达的意思都贴近。所以小编这个评判表述不太对。
  
  最近来自北京回复

开发转产品的成功之路：我给你的3个建议

元宇宙被抛弃后，VR再次迷航

03-152852 浏览
Reid Hoffman最新演讲：AI不应该是人工智能的缩写，而是增强智能；Alpha世代将是AI原住民！

09-251566 浏览
从雷军的最新演讲上，我总结出3点做“私域”的启示

08-174309 浏览

19812人已学习13篇文章

广告商业化流量变现的思路

如何通过广告模式来进行商业化流量变现？本专题的文章提供了广告变现的思路。

12206人已学习15篇文章

如何制定业务指标？

本专题的文章分享了如何制定业务指标？

12829人已学习12篇文章

产品心理学

发觉用户本能的最好方式就是从用户的心理出发，利用人的本能做产品设计，用最“自然”的方式影响用户的行为。本专题的文章分享了产品心理学。

19830人已学习18篇文章

物流仓储系统设计指南

物流仓储系统是实现物流高效运转的基础。本专题的文章提供了物流仓储系统设计指南。

37691人已学习22篇文章

好的复盘该怎么做？

复盘是产品经理和运营人提高自身竞争力的不二法门。

56553人已学习14篇文章

SaaS产品该如何设计和运营？

带你走进SaaS行业。