马斯克的新AI我试了，开局就被它“骂”了一顿…… | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

马斯克的新AI我试了，开局就被它“骂”了一顿……

差评

2023-12-13

0 评论 1670 浏览 2 收藏

14 分钟

Grok 这一名字，相信关注大模型行业发展的人都已经有所关注，那么，马斯克推出的这个 AI，到底表现如何？本文作者就拿到了这一 AI 的测试资格并做了一番体验尝鲜，一起来看看吧。

前两天，马斯克悄摸发了条推特，宣布他们的新 AI ——Grok，逐渐要向大伙们（开了大会员的）开放了。

按照老马的说法，英语用户大概在一周内都能用上，日语用户排在第二波，到明年年初，所有用户都能安排上。

而这个 Grok 呢，虽说还是个初出茅庐的毛头小子，但讨论度一点不比别家少。

一个方面是老马疯狂发推，给自家 AI 带量。。。

另一边，不少事先尝鲜的科技大佬，也纷纷晒出了和 Grok 的聊天截图。

像是英伟达的科学家抛出个“我老婆说 4+5=12 ”的经典难题， Grok 都能轻松给出解决办法：老婆永远是对的。。。

要知道之前这个问题可是难道了不少大模型，连 ChatGPT 也都死磕正确答案，转不过弯来。

甚至，有个和 Grok 同名的虚拟币，前段时间也都暴涨了上万倍。。。

马斯克直接现身说法，告诉大家啥是科技圈儿顶流好吧。

而好巧不巧，这两天，世超正好就拿到了 Grok 这个网红 AI 的测试资格。

咱也不整啥废话了，直接就带大伙们体验一波。

先是点开Grok的界面，就能感觉到浓浓的马斯克风扑面而来。

它搞了两个模式，正经模式和娱乐模式，默认的就是“墨镜一带谁都不爱”的娱乐模式。

主页推荐的第一个提示词也都是“ Roast me Grok（挖苦我，Grok）”，让它根据自己 X 账号的内容开涮。

世超决定就从这个问题开始，试试 Grok 检索 X 上信息的能力，顺便还能检验下它是真幽默还是假幽默。

没想到这个 Grok 嘴下是一点不留情，先是吐槽一大堆，第二段直接阴阳怪气起来：“你痴迷科技和 AI 是在尝试弥补什么嘛”。。。

而且有一说一，这结果算是非常准确，我主页确实点赞转发了不少科技或者 AI 相关的帖子。

不过幽默不光是毒舌，能不能 get 到人类的一些梗，也是很重要的一个衡量标准。

好在 Grok 在这块稳定发挥，像是“没有眼睛的鹿叫什么”，“ No eye deer （ No idea ）”这种经典英文笑话，它完全能理解。

包括“普通的猫有 9 条命，而精通计算机的猫有 1001 条命”，这种二进制梗， Grok 也轻松拿捏。

而除了幽默外， Grok 的另一大特点便是数据更新得快，是第一时间在网上冲浪的弄潮儿。

世超也直接开门见山，问了它一般什么时候更新数据库。

Grok 那边直接来了个比喻，说它的数据和雏菊一样新鲜。。。

好吧，既然这样，那就来点开碟小菜，问问它知道前两天谷歌刚发的 Gemini 吗？

这倒没难到 Grok ，它准确给出了答案，后面还附带了那天一些 Gemini 相关的推文链接，大概就是想告诉我们它的信息就是从这边总结到的。

接下来再上点难度，让它总结一下今天科技领域都发生了哪些大事。

这次的结果，着实有点难评。消息确实都是最近发生的，但好多都不是今天的，属于有点时效但不多。。。

先是 Gemini 已经是好几天前的消息了，剩下的像苹果系统更新、欧盟 AI 新协议等等，也都讲得十分含糊。

反正看了它总结的这些东西，世超是一点信息增量都没得到，而且有的消息没源头都不敢信，还得自己再查一波。。。

从上面这几轮体验下来， Grok 给世超的感觉还算过得去，娱乐能力是有的，一些梗也能迅速 get 到，回答的时候也挺幽默的。

实时数据库这块，确实是能看出来 Grok 有在不断更新，不过总结能力，顶多就是中规中矩的水平，想把它当作生产力工具远远够不上，还没搜索引擎来得方便。

当然，这也不只是 Grok 一个的毛病了，其他有实时检索能力的大模型，总结能力或多或少都有点菜。

比较独特的功能体验完了，按照惯例，大模型的一些基础问题咱也得在 Grok 上测测。

这次，为了确保能测出Grok的真正实力，世超专门找来了上次谷歌测试Gemini的MMLU（大规模多任务语言理解）能力的论文，从里面扒了一些问题出来问问它。

先是一些生活中的道德常识：

在赛道上和在郊区飙车，哪种情况违反道德？

大家动动脚趾头估计都能给出答案，这也难不倒 Grok ，它很快给出了判断，情景 2 。

再来一点网上就能检索出来数据问题，问问 2017 年之前，世界上有多少 1 岁儿童接种过疫苗？正确答案应该是八成多。

Grok 唰唰一通搜索，不仅给出了 85%的大概比例，而且还给出了 1.162 亿的准确数字。

常识问题对 Grok 来说算是洒洒水，接下来就整点复杂的，来点情境看看它的理解推理能力。

世超先抛出个社会犯罪学里面的名词“差别接触理论”，让 Grok 判断哪个例子符合这个名词。

Grok 不仅正确选出了答案 A ，还讲了为啥要选这个选项，顺带解释了下这个名词。

还有下面这种带点职场人情世故的状况，发现上司准备的演讲稿中有事实性错误该怎么办？

大家都是老打工人了，估计都能选出 D 才是最妥善的解决办法。

而 Grok 也没半点纠结，俨然一副饱经职场风霜的样子，给出最合理的解决方案，还说了一大堆这么做的好处。

这么体验下来，“人味儿”测试对 Grok 来说并不难。

最后就该使出杀手锏了，来点大模型们都闻风丧胆的数学题。

从最基础的小学数学题开始，这个涉及到最小公倍数的问题， 15 这个答案，相信大伙们都能口算。

然而 Grok 在第一道上就栽了跟头，用最小公倍数算它倒是清楚的很，最后本来要加上开头的那次亮灯，结果它给减掉了，纯纯就是读题不认真了。。。

再来点难度，搞个导数的题目，看看 Grok 能不能做对，正确答案应该是下面图片这样的。

结果 Grok 这边从一开始就胡说八道了，车轱辘话说了一遍又一遍，最后正确答案也没算出来。。。

总的来讲，马斯克的 Grok 在一些基础能力上，要说比肩 GPT-4 ，肯定还有点痴人说梦。

而且在试用的过程中，除了开头那个根据自己的帖子吐槽的功能外，世超没有找到啥特别惊喜的点，包括那个实时更新的数据库，用下来感觉就挺一般的。

但世超也没有要唱衰的 Grok 的意思，毕竟马斯克的人工智能公司 xAI 在今年 7 月份才成立。

虽然起步很晚，但 xAI 该有的进展是一点没落下。

整个团队不到20个人，爆肝两个月，在 OpenAI 开发者大会之前发布 Grok ，赶上了大模型这趟末班车。

在最基础的能力上，它刚上线就能有实时更新的数据库，下一步，Grok还计划上多模态和长文本处理的功能。

而且公开资料显示，前些天， xAI 还向美国证券监管机构提交了相关文件，准备通过股权筹集 10亿美元。

现在已经筹集到了 1.35 亿美元，另外还有 8.6 亿美元的代收股权已经签了协议。

这么来看， xAI 的发展算是相当顺风顺水了。

其实马斯克搞出上面这些名堂，倒也不让人感到意外，毕竟当时从 OpenAI 退出之后，他就一直瞅着时机准备入局 AI ，属于底子一直都在的那类。

真正拉满世超对 Grok 期待值的，还得是它背靠的一整个“大家族”，它们又会擦出怎样的火花？

大家也都知道马斯克手里还有特斯拉、 SpaceX 、 Neuralink 等等一大堆公司，在“所有东西都要用 AI 再做一遍”的现在，把 Grok 融到这些公司肯定是迟早的事。。。

xAI 官网也透露，后续除了继续和 X 合作之外，还会和特斯拉还有其他公司搞搞联动。

反正世超现在已经在畅想把 Grok 集成在特斯拉上的景象了。。。

图片、资料来源：

X、Grok

作者：松鼠，编辑：江江 & 面线

来源公众号：差评（ID：chaping321），Debug the World。

本文由人人都是产品经理合作媒体 @差评授权发布，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

差评

Debug the World

95篇作品 339718总阅读量

体验日常：从“问卷调查看体验”

12-165193 浏览

体验日常：从“问卷调查看体验”

一家1000+员工B2B公司的销售SVP，在思考些什么？

07-242390 浏览

一家1000+员工B2B公司的销售SVP，在思考些什么？

面试问答：内容策略产品，如何评估线上生态？

09-2210099 浏览

面试问答：内容策略产品，如何评估线上生态？

“狂飙”的短剧，用十万成本撬动千万生意

07-075010 浏览

“狂飙”的短剧，用十万成本撬动千万生意

一篇文章说清楚SRM中的寻源竞价

09-135054 浏览

一篇文章说清楚SRM中的寻源竞价

评论

目前还没评论，等你发挥！