Hello GPT-4o

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

硅星人

2024-05-14

0 评论 977 浏览 0 收藏

8 分钟

OpenAI正式推出最新旗舰模型GPT-4o，那么，GPT-4o究竟具备哪些能力？具体的能力表现又如何？一起来看看本文的分享。

今天，OpenAI正式推出最新旗舰模型GPT-4o，能够跨音频、视觉和文本进行实时推理。

GPT-4o（”o” 即 “omni 全能”）标志着实现更自然人机交互的重大进步。它能够接收文本、音频和图像的任意组合作为输入，并输出同样多样化的组合。在最短232毫秒内响应音频输入，平均响应时间320毫秒，与人类在对话中的反应时间类似。在处理英语和编程方面与GPT-4 Turbo表现相当，非英语文本处理上则有显著提升。此外，GPT-4o在API中的运行速度更快，成本也降低了50%。在视觉和音频理解能力上，GPT-4o明显优于现有模型。

在GPT-4o之前，人们可以使用语音模式与ChatGPT交谈，平均延迟时间为2.8秒（GPT-3.5）和5.4秒（GPT-4）。为此语音模式集成了三个独立模型：一个简单模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型再将文本转换回音频。这一过程意味着GPT-4可能丢失大量信息——它无法直接理解语调、多个说话者的声音或背景噪音，也无法输出笑声、歌唱或表达情感。

现在，OpenAI端到端训练的新模型GPT-4o覆盖了文本、视觉和音频，这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4o是第一个结合所有这些模态的模型，所以团队对模型能力和局限性仍在探索中。

一、模型评估

根据传统基准测试，GPT-4o在文本、推理和编程智能方面达到了GPT-4 Turbo级别的表现，同时在多语言、音频和视觉能力方面设立了新的高标准。

改进的推理能力 – GPT-4o在5次尝试的MMLU（多项选择通用知识问题测试）中创下了87.2%的新高分。

音频ASR性能 – GPT-4o在所有语言上显著提升了语音识别性能，相较于Whisper-v3尤其在资源较少的语言上有显著改进。

音频翻译性能 – GPT-4o在语音翻译方面设立了新的行业标准，并在MLS基准测试中表现优于Whisper-v3。

M3Exam评测 – M3Exam基准测试同时涵盖多语言和视觉评估，包括来自其他国家标准化测试的多项选择题，有时会包含图表和示意图。在所有语言上，GPT-4o在这一基准测试上比GPT-4表现更强。

视觉理解评估 – GPT-4o在视觉感知基准测试上达到了行业领先的表现。

二、语言分词

20种语言被选为新分词器在不同语言家族中压缩改进的代表。（以下含中文压缩表现）

三、模型安全性和局限性

GPT-4o在各种模态中通过设计内置了安全性，采用了如过滤训练数据和通过后训练改善模型行为的技术。OpenAI还创建了新的安全系统，为语音输出提供保护措施。

OpenAI根据“准备框架”和自愿承诺对GPT-4o进行了评估。对网络安全、化学生物辐射核（CBRN）、说服力和模型自主性的评估显示，GPT-4o在这些类别中的风险等级没有超过中等。这一评估包括在模型训练过程中进行一系列自动化和人工评估。同时团队测试了模型安全措施前后的版本，使用自定义的微调和提示来更好地诱导模型的能力。

GPT-4o还经历了由70多名外部专家在社会心理学、偏见与公正以及错误信息等领域进行的广泛外部红队测试，以识别由新加入的模态引入或放大的风险。并利用这些学习成果来建立安全干预措施，以提高与GPT-4o互动的安全性。

团队也认识到GPT-4o的音频模态可能会呈现出多种新的风险。今天，OpenAI公开发布文本和图像输入及文本输出。在接下来的几周和几个月内，将致力于技术基础设施、通过后训练提高可用性和必要的安全性，以发布其他模态。例如，在发布时，音频输出将限于一组预设的声音，并将遵守现有安全政策。OpenAI将在即将发布的系统卡中分享更多关于GPT-4o各种模态的详细信息。

通过对模型的测试和迭代，我们观察到存在于模型所有模态中的几个局限性。

OpenAI欢迎用户反馈，帮助识别GPT-4 Turbo仍然优于GPT-4o的任务，以便继续改进模型。