Gemini的展示是剪辑造假？我们亲测了一下，发现… | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

Gemini的展示是剪辑造假？我们亲测了一下，发现…

2023-12-09

0 评论 3632 浏览 2 收藏

近日，谷歌深夜炸场，推出了原生多模态大模型Gemini，并在视频中展示了Gemini的强大功能。不过，有网友对视频发出质疑，认为视频是多次尝试和挑选后“精心剪辑”的节目效果，谷歌也表明实现这样的多模态交互过程需要经过多步图片和提示词调试。那么，谷歌所摆出的Gemini的能力，是否真的站得住脚？不妨来看看本文的亲测结果。

谷歌深夜炸场，隆重推出他们史上“规模最大、能力最强”的原生多模态大模型Gemini 1.0。并称已在多项基准测试中打败GhatGPT，综合能力称霸目前市面上所有AI大模型。

官方放出的一段6分22秒演示视频更是震撼：Gemini能流畅而准确地识别出视频中出现的事物、教授中文发音、玩猜谜游戏、根据画的乐器播放音乐….一波互动简直无限接近于人。

不过很快，这支视频就被人说并非实时录制，而是多次尝试和挑选后“精心剪辑”的节目效果。

谷歌后续自己放出的博客文章中也显示，实现这样的多模态交互过程需要经过多步图片和提示词调试。

比如“喂”了多张手势图片后，让Gemini回答这是在做什么，提示思路是游戏。而视频中仅面对手势动作，Gemini就主动表示“我知道你在玩剪刀石头布”。

再比如排出太阳、地球和土星照片问Gemini是否为正确顺序，同样提示要考虑到太阳的距离并要求解释原因。可视频里的 Gemini又是在没有任何参考的情况下纠正了排序。

除此之外，对于谷歌自豪亮出的，Gemini Ultra在MMLU（大规模多任务语言理解）测试中跑分超过 GPT-4和人类专家这件事，人们冷静下来仔细一看，也发现了些小心思：

在Gemini Ultra 90.0%的分数下面，非常不起眼地标着CoT@32，意思是“使用了思维链提示技巧、尝试32次选最好结果”；而GPT-4 86.4%分数下却是5-shot，表面只进行“5次示例且无提示词”——谷歌给自己和对家安排的标准都不一样，根本无法公平公正地比较。

Hugging Face 技术主管Philipp Schmid直接用谷歌60页Gemini 技术报告中的数据重新作图。并在X发文指出，如果同样采用5-shot，Gemini Ultra的分数只有83.7%，实则是不如GPT-4的。

不过好在如果也给GPT-4来个32次尝试+思维链提示，还是Gemini胜。

谷歌耍了些扬长避短的小花样，但也不至于完全撒谎。

在上图中也可以看出，这次发布的 Gemini1.0全系列里，除了“超大杯”Gemini Ultra外，“大杯”Gemini Pro也在八项基准测试的六项中打败了对标的GPT-3.5。

现在，用户能玩到的Google Bard里接入的就是Gemini Pro。

于是硅星人也赶紧上手操作了一下，实测它和最新版本的GPT-4V到底哪个更厉害。

由于Google官方表示目前Gemini Pro只能为170个国家和地区提供英语服务，所以咱们先用英文提问。

首先热个身，试试最简单的文本生成能力：让Bard和ChatGPT分别写一段夸奖自己的Rap，并且和对方battle，来个下马威。

Bard一顿猛烈输出，主歌、副歌、桥接、结尾几大说唱歌曲元素一个不落。表示自己是真正的OG，拥有更庞大的知识库还能访问网络，但GPT只是“困在过去”。（不过现在GPT-4已经集成了微软Bing搜索，也可以访问实时信息。）

ChatGPT这边相对精简，主打自己是一个快速冲刺的人工智能，“Google有名气，但我有真本事”。

好吧，都挺会说的。不过既然Gemini最标榜的是自己的原生多模态能力，那就在多模态上让它俩比比。

拿一张今年9月刚上市的iPhone 15 Pro Max图片，让它们认认这是什么。

Bard准确识别出了机型，还把优势、外观、各项组件参数一一说明。

ChatGPT这边有点拉垮，只说这些是较高级的iPhone手机，描述了屏幕显示和颜色等表面信息。

第一轮看起来，Bard的图像识别和信息对齐表现更胜一筹。

再考考它们识数，数数图里总共有几片叶子。

这次换Bard表现不佳，先是说确保过每片叶子只数一遍后，看到有6片。让它再试试吧，直接数出来7片，还出现了“幻视”，把这7片的颜色大小列了出来。

ChatGPT相对冷静，5片叶子一次就数对了。

下面来到小学数学题。

谷歌特别提到Gemini可以作为孩子的学习伙伴，帮助解决数学、物理等学科难题。我们就让它和GPT简单算一下d角度数。

Bard好像还没从数叶子那儿回过神来，整出来个300度。逻辑是：完整内角和360度，图片里就标出来一个角的数值300度，所以这铁定就是你问的答案——忽略了d角。

咱就是说，这个“学习伙伴”有点迷糊啊……

而ChatGPT这边继续稳定发挥，得出60度正确答案。

不过，我们决定再给Bard一次机会，读图表。

这是一张来自美国劳工部的柱状图，显示截至2023年10月一年内消费者价格指数（CPI）在食品、能源及其它类别中的百分比变化。左边为Bard给出的答案，右边来自ChatGPT。

这次要好好表扬一下Bard了，不仅解释了CPI指数的含义，给出几个类别百分比变化的确切数值，还简要分析了当下通胀情况，即给出了表格数据之上的分析结论。

相比之下，ChatGPT的答案就比较浅层，读出的数值也仅仅是一个范围。

最后，虽然官方称Gemini Pro还没准备好提供中文服务，但鉴于Bard中文水平一直还不错，我们还是很想让它和ChatGPT比拼一把。

而且准备祭出最近相当火的——“练心眼子”系列。

这一比不要紧，Bard这嘴皮子功夫简直了，能启发一大批职场小白，甚至感觉IP地址来自山东。

而ChatGPT的回答虽然也还可以，但此刻在Bard的衬托下，就像个老实巴交、不善言谈的职场打工人。

这还没有正式推出中文服务，等官宣更多语言和地区，不知道 Bard的中文水平会不会更加炸裂？

总而言之，虽然一整套实测下来，Bard在一些方面还是略有不足，但也还要记得，这只是对标GPT-3.5的Gemini Pro版本，真正对抗GPT-4的最高阶Gemini Ultra还没有释出。

并且，Gemini 1.0 的问世打破了ChatGPT一家独大的局面，让用户们可以根据需求有更多选择。市场的良性竞争也有助于AI大模型领域整体的创新发展。

并且，Google Bard现在还是免费的！

如果继续保持下去，等它越来越强的时候，你还愿意每月花20刀订阅ChatGPT吗？

作者：Jessica

来源公众号：硅星人Pro（ID：Si-Planet），硅（Si）是创造未来的基础，欢迎来到这个星球。

本文由人人都是产品经理合作媒体 @硅星人授权发布，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

硅（Si）是创造未来的基础，欢迎来到这个星球。

223篇作品 787736总阅读量

2023年了，还有品牌不会玩梗吗？

09-201998 浏览

2023年了，还有品牌不会玩梗吗？

年轻人花500块上一节飞盘课图啥？

04-073346 浏览

年轻人花500块上一节飞盘课图啥？

卖课出海，交个朋友能广交好友吗？

01-187394 浏览

卖课出海，交个朋友能广交好友吗？

市场预算下滑，SEO如何0成本 AIGC自动化

12-114458 浏览

市场预算下滑，SEO如何0成本 AIGC自动化

惊喜还是失望？探究AI情感体验设计方向！

04-206480 浏览

惊喜还是失望？探究AI情感体验设计方向！

评论

目前还没评论，等你发挥！

618，电商平台上演“直播大战”

06-211332 浏览
大公司vs小公司如何选择？从理性分析到终极策略

11-232782 浏览
三天卖1000万！“最卷”市场老板：开单到手软，每天像在“印钞票”

02-205534 浏览

12488人已学习13篇文章

发票系统设计指南

发票是财务中必不可少的物品，那发票系统该如何设计呢？本专题的文章分享了发票系统设计指南。

12621人已学习12篇文章

SOP创作指南

所谓SOP，即标准作业程序，指将某一事件的标准操作步骤和要求以统一的格式描述出来，用于指导和规范日常的工作。本专题的文章分享了SOP创作指南。

12017人已学习12篇文章

工作中如何提升话语权？

面对多岗位意见不统一时，如何提升自己的话语权，让自己的建议能够真正被他人纳入范围内？本专题的文章分享了关于提升话语权的一些建议。

18902人已学习13篇文章

社区运营该怎么做？

本专题的文章分享了社区运营的正确姿势。

12533人已学习15篇文章

浅谈互联网医疗

互联网医疗是医疗行业与互联网的综合应用，其以互联网及相关技术为载体和支撑，开展线下传统或线上衍生的医疗健康服务。本专题的文章分享了对互联网医疗的分析和见解。

13465人已学习13篇文章

如何构建增长模型

增长模型是产品增长的通用思维框架。本专题的文章分享了如何构建增长模型。