OpenAI新模型实操评测来啦！GPT-4.1/4.1 mini/4.1 nano全面超越前代，编程能力大幅提升！

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

开通会员

发布

OpenAI新模型实操评测来啦！GPT-4.1/4.1 mini/4.1 nano全面超越前代，编程能力大幅提升！

帅森森

2025-04-15

0 评论 1991 浏览 0 收藏

产品经理的核心价值是能够准确发现和满足用户需求，把用户需求转化为产品功能，并协调资源推动落地，创造商业价值

OpenAI近期发布了三款新模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano，这些模型在多个关键能力上全面超越了前代产品，特别是在编程能力、指令遵循和长上下文处理方面表现出色。本文将对这些新模型进行实操评测，分析其性能提升的具体表现，并探讨这些改进对实际应用场景的意义。

OpenAI发布会重点：

发布了三款新模型：GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano。
模型在各方面均优于 GPT‑4o 和 GPT‑4o mini
100 万个 token上下文窗口，更强的长上下文理解能力。
模型知识截止日期更新至 2024 年 6 月。
能力提升要点：编程、指令遵循、长上下文处理能力
以API 的形式发布这三个新模型
GPT-4.5 Preview 将于 2025 年 7 月 14 日停用

笔者思考：

本次发布内容没有和最近刚出的Gemini 2.5pro进行对比是一个遗憾，之前有发过Gemini 2.5pro文章，在本文下面有链接，对AI感兴趣的可以文末看一下。

GPT‑4.1 在以下行业标准评估中表现出色：

B端究竟需要什么样的产品经理？

B端产品经理都是以提升供应侧的工作效率为目的，所以B端需求主要是以业务问题为导向。这个是B端产品比较重要的一点，B端产品是服务于一个主体 ...

查看详情 >

编程能力：

在 SWE-bench Verified 评测中，GPT‑4.1 取得了 54.6% 的得分，比 GPT‑4o 提高了 21.4 个百分点，比 GPT‑4.5 提高了 26.6 个百分点，成为目前领先的代码生成模型。

指令理解能力：

在 Scale 推出的 MultiChallenge 基准测试（衡量模型指令执行能力）中，GPT‑4.1 取得了 38.3% 的成绩，比 GPT‑4o 提高了 10.5 个百分点。

长文本理解能力：

在 Video-MME 基准测试中（该评测专注于多模态长文本理解），GPT‑4.1 在“长视频、无字幕”类别中取得了 72.0% 的成绩，刷新了业界最高纪录，比 GPT‑4o 提升了 6.7 个百分点。

多模态能力：

GPT-4.1 系列在图像理解方面非常强大，尤其是 GPT-4.1 mini 代表了重大的飞跃，在图像基准测试中经常击败 GPT-4o。

看上图笔者个人推测：出于指标之间的变化情况思索，本次是性能的优化，能力方面没有突出点，GPT-4o进行工程推理优化变身为GPT-4.1mini，然后GPT-4o经过特定调优，能力稍有提升就是GPT-4.1。

编程能力对比

在 SWE-bench Verified 评估中，模型会获得一个代码仓库和一个问题描述，并需生成一个修复补丁来解决该问题。模型表现高度依赖于所使用的提示词和工具。为便于复现和理解我们的结果，我们在此描述了 GPT-4.1 的设置。我们的得分中排除了 500 个问题中的 23 个，因为这些问题的解决方案无法在我们的基础设施上运行；如果保守地将这些题目计为 0 分，总得分将从 54.6% 降为 52.1%。

超长上下文处理能力

支持最多 100 万个 token 的上下文处理能力。这对于需要长对话、记忆能力或深入文档处理的应用来说，是一次重大飞跃。而且，它对这些超长上下文的利用效率也更高了。

实例展示

最后，以下是 GPT-4.1 在真实世界中的一个应用示例：提示词如下：

制作一个**抽认卡（Flashcard）网页应用程序**。用户应能够执行以下操作：

– 创建抽认卡

– 在已有抽认卡中进行搜索

– 复习抽认卡

– 查看已复习抽认卡的统计数据

系统应**预加载十张抽认卡**，每张包含一个印地语单词或短语及其英文翻译。

### 复习界面（Review Interface）：

– 在复习模式下，点击抽认卡或按下空格键，应该以**平滑的 3D 翻转动画**显示卡片背面的翻译内容。

– 按左右方向键可以切换浏览不同的卡片。

### 搜索界面（Search Interface）：

– 搜索栏应具有**动态联想功能**，用户输入查询词时，系统实时显示匹配结果列表。

### 统计界面（Statistics Interface）：

– 统计页面应显示一张**图表**，展示用户已复习卡片的数量，以及答对的百分比。

### 创建卡片界面（Create Cards Interface）：

– 用户可在该页面中**自定义抽认卡正反两面内容**，并添加到自己的卡片集合中。

每个界面都应能通过**侧边栏导航**进入。

最终应生成一个**单页 React 应用程序（Single Page App）**，并将所有样式写为**内联样式（inline styles）**。