行业资深人士:GPT-4.5是一个奇怪的模型

0 评论 3176 浏览 0 收藏 12 分钟
🔗 产品经理的核心价值是能够准确发现和满足用户需求,把用户需求转化为产品功能,并协调资源推动落地,创造商业价值

随着GPT-4.5的发布,业界对其性能和价值的讨论愈发热烈。然而,许多行业专家对这一新模型的表现提出了质疑,认为其在实际应用中的效果并未达到预期。本文将深入探讨GPT-4.5的特点,供大家参考。

OpenAI最新模型GPT-4.5在性能提升有限的情况下,成本却大幅增加,引发了业界对其性价比的质疑。

OpenAI宣布推出了GPT-4.5,公司首席执行官萨姆·阿尔特曼(Sam Altman)此前曾表示,这将是最后一个非“思维链”(Chain of Thought,CoT)模型。

该公司称,新模型“并非前沿模型”,但仍然是其最大的大型语言模型(LLM),并且在计算效率上有显著提升。

阿尔特曼表示,尽管GPT-4.5的推理方式与OpenAI其他新推出的o1或o3-mini模型不同,但这款新模型仍然更具人性化和深思熟虑的特点。许多行业观察人士提前接触了这款新模型,他们认为GPT-4.5是OpenAI一个有趣的举措,这也让他们调整了对该模型应达到的预期。

沃顿商学院教授兼人工智能评论员埃森·莫利克(Ethan Mollick)在社交媒体上表示,GPT-4.5是一个“非常奇特且有趣的模型”,他指出,尽管它在写作方面表现出色,但在处理复杂项目时可能会“出人意料地偷懒”。

OpenAI联合创始人、前特斯拉人工智能负责人安德烈·卡帕西(Andrej Karpathy)表示,GPT-4.5让他回想起GPT-4推出时他看到的模型潜力。

在X平台上,卡帕西写道,使用GPT-4.5时,“一切都有些改进,这很棒,但这种改进并非是容易指出的具体方面。”然而,卡帕西警告说,人们不应期望该模型带来革命性的影响,因为它“在需要推理能力的关键领域(如数学、编程等)并没有推动模型能力的提升”。

1

行业思路详解以下是卡帕西在X平台上发布的长篇帖子中对GPT-4.5的详细评价:“今天,OpenAI发布了GPT-4.5。我已经期待了大约两年,自从GPT-4推出以来,因为这次发布提供了一个衡量通过扩展预训练计算(即简单地训练一个更大模型)所能获得的改进斜率的定性指标。每个0.5的版本升级大约对应10倍的预训练计算量。

回想一下,GPT-1几乎无法生成连贯的文本。GPT-2是一个令人困惑的玩具。GPT-2.5被‘跳过’,直接升级为更有趣的GPT-3。GPT-3.5达到了一个临界点,足以作为产品推出,并引发了OpenAI的‘ChatGPT时刻’。

而GPT-4虽然也有所改进,但我必须说,这种改进非常微妙。我记得参加了一个黑客松,试图找到GPT-4明显优于3.5的具体提示。这些例子确实存在,但清晰且明确的‘绝对优势’案例却很难找到。一切都有些改进,但这种改进是弥散的。词汇选择更具创意,对提示中细微差别的理解有所提升,类比更有意义,模型也稍微有趣了一点,对罕见领域的知识和理解也有所改善,幻觉现象也少了一些,整体感觉更好了。

这就像水涨船高的效应,一切都在不知不觉中提升了大约20%。因此,我带着这种预期去测试GPT-4.5,我在几天前获得了访问权限,它的预训练计算量比GPT-4高出10倍。而我感觉,我又回到了两年前的那个黑客松。一切都有些改进,这很棒,但这些改进并非是显而易见的。

尽管如此,这仍然是一个非常有趣且令人兴奋的定性指标,它表明仅仅通过训练一个更大的模型,就能获得某种‘免费’的能力提升。

请注意,GPT-4.5仅通过预训练、监督微调和基于人类反馈的强化学习(RLHF)进行训练,因此它还不是一款推理模型。因此,这次模型发布并没有在需要推理能力的关键领域(如数学、编程等)推动模型能力的进步。

在这些情况下,通过强化学习进行训练并获得思考能力至关重要,即使它是在较旧的基础模型上实现的(例如类似GPT-4的能力)。目前,最先进的模型仍然是完整的o1。想必OpenAI接下来会尝试在GPT-4.5的基础上进一步通过强化学习进行训练,以使其具备思考能力,并推动这些领域的能力提升。

然而,我们确实期望在非推理密集型任务中看到改进,我认为这些任务更多与情商(EQ)相关,例如受到世界知识、创造力、类比能力、一般理解能力、幽默感等的限制。因此,这些是我最感兴趣的能力测试领域。因此,我想在这里的X平台上通过一个互动的‘语言模型竞技场精简版’,结合图片和投票,以帖子的形式展示5个有趣,引人发笑的提示,来测试这些能力。

遗憾的是,X平台不允许你在单个帖子中同时包含图片和投票,因此我不得不交替发布帖子:一个帖子展示图片(提示以及来自4和4.5的两个回答),另一个帖子则是投票,人们可以投票选择哪个回答更好。8小时后,我会揭晓哪个回答来自哪个模型。让我们看看会发生什么:)”

2

Box CEO对GPT-4.5的看法Box公司首席执行官阿隆·莱维(Aaron Levie)也在X平台上分享了他对GPT-4.5的看法。

他认为这款模型在企业级应用中具有巨大潜力,并表示Box公司已经在使用GPT-4.5从复杂的企业内容中提取结构化数据和元数据。“人工智能的突破不断涌现。OpenAI刚刚宣布推出GPT-4.5,我们将在今天晚些时候通过Box AI Studio将其提供给Box客户。我们已经在Box AI的早期访问模式下测试了GPT-4.5,用于高级企业非结构化数据的用例,并取得了出色的结果。

通过Box AI的企业级评估,我们针对多种不同场景对模型进行测试,包括问答准确性、推理能力等。特别是为了探索GPT-4.5的能力,我们专注于一个对企业影响潜力巨大的关键领域:从复杂的企业内容中提取结构化数据,即元数据提取。

在Box,我们使用多个企业级数据集严格评估数据提取模型。其中一个关键数据集是CUAD,它包含超过510份商业法律合同。在这个数据集中,Box识别出可以从非结构化内容中提取的17,000个字段,并基于这些字段的单次提取对模型进行评估(这是我们最严格的测试,模型只有一次机会在单次运行中提取所有元数据,而不是多次尝试)。

在我们的测试中,与GPT-4o相比,GPT-4.5准确提取的字段多出了19个百分点,这突显了其处理复杂合同数据的更强能力。接下来,为了确保GPT-4.5能够应对现实世界中企业内容的需求,我们用更具挑战性的文件集对其性能进行了评估,即Box自己的挑战集。我们选择了一部分复杂的法律合同——那些包含多模态内容、高密度信息且长度超过200页的合同,来代表我们客户面临的最困难场景。

在这个挑战集中,GPT-4.5在提取关键字段的准确性上也始终优于GPT-4o,证明了其处理复杂且微妙的法律文件的卓越能力。总体而言,我们在复杂企业数据方面看到了GPT-4.5的出色表现,这将为企业解锁更多用例。”

3

价格问题及其重要性尽管早期用户发现GPT-4.5是可以使用的尽管它有点“懒惰”,但他们对其发布提出了质疑。例如,著名的OpenAI批评者加里·马库斯(Gary Marcus)在Bluesky上称GPT-4.5为“毫无新意的产品”(“nothingburger”)。

Hugging Face首席执行官克莱门特·德朗格(Clément Delangue)评论称,GPT-4.5的闭源特性使其显得“平平无奇”(“meh”)。然而,许多人指出,GPT-4.5的表现并不是问题所在。

相反,人们质疑的是,OpenAI为何会发布一个使用成本如此之高、几乎令人望而却步,却又不如其其他模型强大的模型。

一位用户在X平台上评论道:“所以你是说GPT-4.5的价值超过了o1,但它的基准测试表现却不如同等级别的模型……这让人难以信服。”其他X用户推测,高昂的token成本可能是为了阻止DeepSeek等竞争对手“提取”4.5模型的精华。DeepSeek在2024年1月成为OpenAI的有力竞争对手,行业领导者发现DeepSeek-R1的推理能力与OpenAI的模型相当,但更具性价比。(Venture Beat)

本文由人人都是产品经理作者【AI新智能】,微信公众号:【AI新智能】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!