狙击谷歌？示好苹果？OpenAI推出GPT-4o背后的遐想

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

狙击谷歌？示好苹果？OpenAI推出GPT-4o背后的遐想

科技旋涡

2024-05-14

0 评论 1727 浏览 1 收藏

12 分钟

今天凌晨，OpenAI在线上发布了最新旗舰大模型GPT-4o。这篇文章，我们来聊下，为什么是GPT-4o而不是GPT5，以及，为什么是现在发布？

北京时间5月14日凌晨，OpenAI在线上举办了“春季更新”活动，他们推出最新旗舰大模型GPT-4o，不仅免费可用，能力更是横跨听、看、说，丝滑流畅毫无延迟，就像在打一个视频电话。

那么，GPT-4o还具备怎样的能力？为什么这次发布的是GPT-4o而不是GPT-5？OpenAI为什么会在谷歌I/O大会前发布该产品？我们看看能不能在这次活动中找到答案。

一、GPT-4o有什么不一样?

此次发布，GPT-4o最大的特点是增加了语音交互，并且号称和一些同类竞品相比，它的响应时间更快，可以减少延时，更接近和真人对话的节奏。

在GPT-4o之前，用户使用语音模式与ChatGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，让GPT-4无法直接观察音调、说话的人和背景噪音，也无法输出笑声、歌唱声和表达情感。

与之相比，GPT-4o可以在232毫秒内对音频输入作出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管作出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。

据OpenAI官网介绍，GPT-4o中的o代表omni(译为全能)，称它向更自然的人机交互迈进了一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。

OpenAI技术负责人穆拉迪(Mira Murati)在直播活动中表示，新型号GPT-4o“速度快得多”，在文本、视频和音频方面都有改进，公司最终计划让用户与ChatGPT进行视频聊天。“这是我们第一次在易用性方面迈出巨大的一步。”

值得注意的是，新模型允许ChatGPT处理50种不同的语言，速度和质量都有所提高，它还将通过OpenAI的API提供支持，这样开发者今天就可以开始使用新模型构建应用程序了。GPT-4o的速度是GPT-4 Turbo的两倍，成本只有一半。

从性能来看，OpenAI表示，在传统基准测试中，GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能，同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与GPT-4 Turbo相当，在非英文文本上有显著改善。

此外，通过过滤训练数据和训练后改进模型行为等技术，GPT-4o在设计中内置了跨模式的安全性，并创建了新的安全系统，为语音输出提供护栏。GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的七十多名外部专家开展广泛的外部团队合作，以识别新增加的模式引入或放大的风险，提高与GPT-4o互动的安全性。

值得一提的是，OpenAI不仅将GPT-4o直接提供给用户使用，还将其作为API开放给开发者。这意味着开发者可以方便地利用GPT-4o的强大功能来构建自己的应用程序，从而在开发速度、成本控制以及功能实现等方面获得显著提升。

而且，OpenAI竟然直接将这个模型免费开放给用户使用了。

元宇宙新声认为，语音能力再度提升，将使得GPT-4o有希望打破人与机器交互的“天花板”，未来的ChatGPT，可以无处不在——比如，它可以随时随地出现在人的身边、可以嵌入到没有屏幕的设备上与人交谈。总之，GPT-4o可以让人们更专注于与ChatGPT的协作，而不是受限于屏幕界面本身。

这个时间点放出GPT-4o，是狙击谷歌还是示好苹果?

相信OpenAI在这个时间点放出GPT-4o是有理由的，最直观的体现就是，在其活动的后一天谷歌就将举办2024年I/O开发者大会，这次OpenAI再次精准狙击谷歌。如果谷歌I/O大会上没有惊人的发布，也许这次风头又会被OpenAI抢走。

从历史上来看，OpenAI每一次产品发布的时间都拿捏得非常准确。2024年2月15日，谷歌对外重磅发布了多模态大模型Gemini 1.5 Pro，官方测试结果显示，这个最高支持100万tokens的多模态大模型，性能远超GPT-4 Turbo。

然而，就在同一天，OpenAI发布了文生视频大模型Sora。

Sora的发布让全网关注度再次聚焦到了OpenAI这一文生视频产品上，抢走了本应属于谷歌的高光时刻，也让谷歌Gemini 1.5 Pro在大模型发展历史上的意义再次被低估。

其实现在回头看，Sora的发布这是一场彻头彻尾的“表演”项目，因为到目前为止，Sora还是没有开放给公众使用。

除了狙击谷歌外，我们发现在OpenAI这次活动中全程用iPhone和MacBook Pro进行演示，同时还发布了Mac桌面版的ChatGPT，这让我们不得不怀疑，他们是不是在为与苹果的合作在铺路?

近日，有消息爆出，苹果公司与OpenAI敲定一项协议，今年将后者的部分技术引入iPhone。借此苹果将能提供由ChatGPT支持的“聊天机器人”，作为iOS 18中人工智能功能的一部分。

事实上，面对激烈的AI技术角逐，苹果与OpenAI的合作使人们有理由期待一个更加智能、更加互动的Siri，对于苹果来说，这可能也是巩固其在全球科技领域领导地位的重要一步。

元宇宙新声认为，这次OpenAI推出GPT-4o时再次向大家印证了他们的营销思维，既给竞争对手谷歌制造了压力，又向潜在合作伙伴苹果示好。但需要注意的是，谷歌的风头并不容易被抢走，反而有可能被其反噬，而苹果也绝不是一家长期依靠其他厂商生存的企业，OpenAI在最大卖点还是产品，比如传说中的“GPT-5”。

二、为什么是GPT-4o不是GPT-5

在人们感叹于GPT-4o进一步提升大模型能力的时候，不禁要问，传说中的GPT-5怎么没有推出?它现在研发到什么进度了?

我们认为，之所以现阶段发布GPT-4o，是因为GPT-5的研发肯定遇到了一些问题。如果不是这样，OpenAI直接推出GPT-5就好了。一家科技企业发布新产品一定是越早越好，尤其在大模型这一领域中，各家的竞争非常激烈。因此，OpenAI在研发GPT-5时，不是有性能方面的危机就是有成本的问题。

但以大家对OpenAI的理解，即使成本再高，只要效果足够惊艳，它一定会推出的，先震慑一下行业，哪怕GPT-5一天就能用3条，也希望吸引到所有人的目光。所以，我们认为GPT-5的研发过程中可能还是遇到的性能或者安全问题会更多一些。

其实不止我们，网友们也在线纷纷催OpenAI，快点发GPT-5。

在此前的采访中，OpenAI首席执行官Sam Altman也回答了关于GPT-5的问题，他表示：“关于GPT-5的发布时间，目前我们还没有确定一个具体的日期。我们对新模型的推出持谨慎态度，致力于确保它在发布时能够达到我们的高标准。我们正在考虑采用一种新的发布策略，这可能与以往的方式有所不同。我们对于GPT-5的命名和发布策略仍在讨论之中，但可以肯定的是，我们致力于让这款新模型在发布时能够为用户带来卓越的体验。”

元宇宙新声认为，在发展过程中，OpenAI肯定会遇到不少挑战。但，我们希望他们始终保持着坚定的信念和持续的创新精神，不断突破自我，实现全球AI领军企业的期望。特别是在GPT系列模型的推出上，OpenAI更是引领了AI领域的新一轮技术革命。