OpenAI新模型实操评测来啦!GPT-4.1/4.1 mini/4.1 nano全面超越前代,编程能力大幅提升!​

帅森森
0 评论 1991 浏览 0 收藏 7 分钟
🔗 产品经理的核心价值是能够准确发现和满足用户需求,把用户需求转化为产品功能,并协调资源推动落地,创造商业价值

OpenAI近期发布了三款新模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,这些模型在多个关键能力上全面超越了前代产品,特别是在编程能力、指令遵循和长上下文处理方面表现出色。本文将对这些新模型进行实操评测,分析其性能提升的具体表现,并探讨这些改进对实际应用场景的意义。

OpenAI发布会重点:

  • 发布了三款新模型:GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano。
  • 模型在各方面均优于 GPT‑4o 和 GPT‑4o mini
  • 100 万个 token上下文窗口,更强的长上下文理解能力。
  • 模型知识截止日期更新至 2024 年 6 月。
  • 能力提升要点:编程、指令遵循、长上下文处理能力
  • 以API 的形式发布这三个新模型
  • GPT-4.5 Preview 将于 2025 年 7 月 14 日停用

笔者思考:

本次发布内容没有和最近刚出的Gemini 2.5pro进行对比是一个遗憾,之前有发过Gemini 2.5pro文章,在本文下面有链接,对AI感兴趣的可以文末看一下。

GPT‑4.1 在以下行业标准评估中表现出色:

编程能力:

在 SWE-bench Verified 评测中,GPT‑4.1 取得了 54.6% 的得分,比 GPT‑4o 提高了 21.4 个百分点,比 GPT‑4.5 提高了 26.6 个百分点,成为目前领先的代码生成模型。

指令理解能力:

在 Scale 推出的 MultiChallenge 基准测试(衡量模型指令执行能力)中,GPT‑4.1 取得了 38.3% 的成绩,比 GPT‑4o 提高了 10.5 个百分点。

长文本理解能力:

在 Video-MME 基准测试中(该评测专注于多模态长文本理解),GPT‑4.1 在“长视频、无字幕”类别中取得了 72.0% 的成绩,刷新了业界最高纪录,比 GPT‑4o 提升了 6.7 个百分点。

多模态能力:

GPT-4.1 系列在图像理解方面非常强大,尤其是 GPT-4.1 mini 代表了重大的飞跃,在图像基准测试中经常击败 GPT-4o。

看上图笔者个人推测:出于指标之间的变化情况思索,本次是性能的优化,能力方面没有突出点,GPT-4o进行工程推理优化变身为GPT-4.1mini,然后GPT-4o经过特定调优,能力稍有提升就是GPT-4.1。

编程能力对比

在 SWE-bench Verified 评估中,模型会获得一个代码仓库和一个问题描述,并需生成一个修复补丁来解决该问题。模型表现高度依赖于所使用的提示词和工具。为便于复现和理解我们的结果,我们在此描述了 GPT-4.1 的设置。我们的得分中排除了 500 个问题中的 23 个,因为这些问题的解决方案无法在我们的基础设施上运行;如果保守地将这些题目计为 0 分,总得分将从 54.6% 降为 52.1%。

超长上下文处理能力

支持最多 100 万个 token 的上下文处理能力。这对于需要长对话、记忆能力或深入文档处理的应用来说,是一次重大飞跃。而且,它对这些超长上下文的利用效率也更高了。

实例展示

最后,以下是 GPT-4.1 在真实世界中的一个应用示例:提示词如下:

制作一个**抽认卡(Flashcard)网页应用程序**。用户应能够执行以下操作:

– 创建抽认卡

– 在已有抽认卡中进行搜索

– 复习抽认卡

– 查看已复习抽认卡的统计数据

系统应**预加载十张抽认卡**,每张包含一个印地语单词或短语及其英文翻译。

### 复习界面(Review Interface):

– 在复习模式下,点击抽认卡或按下空格键,应该以**平滑的 3D 翻转动画**显示卡片背面的翻译内容。

– 按左右方向键可以切换浏览不同的卡片。

### 搜索界面(Search Interface):

– 搜索栏应具有**动态联想功能**,用户输入查询词时,系统实时显示匹配结果列表。

### 统计界面(Statistics Interface):

– 统计页面应显示一张**图表**,展示用户已复习卡片的数量,以及答对的百分比。

### 创建卡片界面(Create Cards Interface):

– 用户可在该页面中**自定义抽认卡正反两面内容**,并添加到自己的卡片集合中。

每个界面都应能通过**侧边栏导航**进入。

最终应生成一个**单页 React 应用程序(Single Page App)**,并将所有样式写为**内联样式(inline styles)**。

作者:帅森森,公众号:帅森森聊AI和职场

本文由 @帅森森 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
14724人已学习12篇文章
与C端调研不一样的是,虽然方法论可能相同,但实际操作的时候,B端和G端总会遇到各种各样的问题。本专题的文章分享了B端和G端的客户调研经验。
专题
30739人已学习19篇文章
2018年过去了,你都收获了什么?新的一年,你需要如何前行?
专题
13992人已学习12篇文章
本专题的文章分享了供应链系统设计指南。
专题
12422人已学习16篇文章
栅格系统在页面排版布局、尺寸设定方面给了设计者直观的参考,它让页面设计变得有规律,从而减少了设计决策成本。本专题的文章分享了浅析栅格系统。
专题
37688人已学习22篇文章
复盘是产品经理和运营人提高自身竞争力的不二法门。