OpenAI新模型实操评测来啦!GPT-4.1/4.1 mini/4.1 nano全面超越前代,编程能力大幅提升!
OpenAI近期发布了三款新模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,这些模型在多个关键能力上全面超越了前代产品,特别是在编程能力、指令遵循和长上下文处理方面表现出色。本文将对这些新模型进行实操评测,分析其性能提升的具体表现,并探讨这些改进对实际应用场景的意义。
OpenAI发布会重点:
- 发布了三款新模型:GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano。
- 模型在各方面均优于 GPT‑4o 和 GPT‑4o mini
- 100 万个 token上下文窗口,更强的长上下文理解能力。
- 模型知识截止日期更新至 2024 年 6 月。
- 能力提升要点:编程、指令遵循、长上下文处理能力
- 以API 的形式发布这三个新模型
- GPT-4.5 Preview 将于 2025 年 7 月 14 日停用
笔者思考:
本次发布内容没有和最近刚出的Gemini 2.5pro进行对比是一个遗憾,之前有发过Gemini 2.5pro文章,在本文下面有链接,对AI感兴趣的可以文末看一下。
GPT‑4.1 在以下行业标准评估中表现出色:
编程能力:
在 SWE-bench Verified 评测中,GPT‑4.1 取得了 54.6% 的得分,比 GPT‑4o 提高了 21.4 个百分点,比 GPT‑4.5 提高了 26.6 个百分点,成为目前领先的代码生成模型。
指令理解能力:
在 Scale 推出的 MultiChallenge 基准测试(衡量模型指令执行能力)中,GPT‑4.1 取得了 38.3% 的成绩,比 GPT‑4o 提高了 10.5 个百分点。
长文本理解能力:
在 Video-MME 基准测试中(该评测专注于多模态长文本理解),GPT‑4.1 在“长视频、无字幕”类别中取得了 72.0% 的成绩,刷新了业界最高纪录,比 GPT‑4o 提升了 6.7 个百分点。
多模态能力:
GPT-4.1 系列在图像理解方面非常强大,尤其是 GPT-4.1 mini 代表了重大的飞跃,在图像基准测试中经常击败 GPT-4o。
看上图笔者个人推测:出于指标之间的变化情况思索,本次是性能的优化,能力方面没有突出点,GPT-4o进行工程推理优化变身为GPT-4.1mini,然后GPT-4o经过特定调优,能力稍有提升就是GPT-4.1。
编程能力对比
在 SWE-bench Verified 评估中,模型会获得一个代码仓库和一个问题描述,并需生成一个修复补丁来解决该问题。模型表现高度依赖于所使用的提示词和工具。为便于复现和理解我们的结果,我们在此描述了 GPT-4.1 的设置。我们的得分中排除了 500 个问题中的 23 个,因为这些问题的解决方案无法在我们的基础设施上运行;如果保守地将这些题目计为 0 分,总得分将从 54.6% 降为 52.1%。
超长上下文处理能力
支持最多 100 万个 token 的上下文处理能力。这对于需要长对话、记忆能力或深入文档处理的应用来说,是一次重大飞跃。而且,它对这些超长上下文的利用效率也更高了。
实例展示
最后,以下是 GPT-4.1 在真实世界中的一个应用示例:提示词如下:
制作一个**抽认卡(Flashcard)网页应用程序**。用户应能够执行以下操作:
– 创建抽认卡
– 在已有抽认卡中进行搜索
– 复习抽认卡
– 查看已复习抽认卡的统计数据
系统应**预加载十张抽认卡**,每张包含一个印地语单词或短语及其英文翻译。
### 复习界面(Review Interface):
– 在复习模式下,点击抽认卡或按下空格键,应该以**平滑的 3D 翻转动画**显示卡片背面的翻译内容。
– 按左右方向键可以切换浏览不同的卡片。
### 搜索界面(Search Interface):
– 搜索栏应具有**动态联想功能**,用户输入查询词时,系统实时显示匹配结果列表。
### 统计界面(Statistics Interface):
– 统计页面应显示一张**图表**,展示用户已复习卡片的数量,以及答对的百分比。
### 创建卡片界面(Create Cards Interface):
– 用户可在该页面中**自定义抽认卡正反两面内容**,并添加到自己的卡片集合中。
每个界面都应能通过**侧边栏导航**进入。
最终应生成一个**单页 React 应用程序(Single Page App)**,并将所有样式写为**内联样式(inline styles)**。
作者:帅森森,公众号:帅森森聊AI和职场
本文由 @帅森森 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
- 目前还没评论,等你发挥!