GPT5暂时没戏了 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

GPT5暂时没戏了

AI新智能

2024-09-15

0 评论 1169 浏览 0 收藏

7 分钟

随着o1-preview和o1-mini的推出，我们站在了探索AI新边界的门槛上。本文将带您深入了解"o1"模型的独特之处，以及它们如何重新定义我们对AI能力的期待。

自从OpenAI于2023年3月推出强大的专有大型语言模型GPT-4（距今已有 18 个月）以来，用户和开发者们一直在猜测，这家引领硅谷乃至全球生成式 AI 热潮的公司何时会推出下一代模型，大家普遍认为这一新版本会被称为 GPT-5。

然而，事实证明，GPT系列暂时被跳过了，取而代之的是一个全新的模型家族。

今天，经过数月的传闻和最近几天愈演愈烈的报道，OpenAI宣布推出了其 “o1” AI模型家族，首先推出的是两个模型：o1-preview和o1-mini。公司表示，这些模型的设计旨在“通过复杂任务的推理，解决比GPT系列更难的问题”。

目前，这两个模型已经向ChatGPT Plus用户开放，但o1-preview每周消息数量限制为30条，o1-mini为50条。

然而，OpenAI也提醒道：“作为早期模型，它尚不具备使ChatGPT实用的许多功能，比如浏览网络获取信息或上传文件和图像。在许多常见情况下，GPT-4o在短期内可能会更为出色。”

根据OpenAI在其API平台网站上的说明，该模型家族在测试阶段只支持“文本，不支持图像”。

一、o1 模型相较于GPT的优势

OpenAI声称，其全新的o1系列特别适合处理科学、医疗和技术等领域中的复杂问题。

OpenAI设想这些模型将被广泛应用于多个领域：从帮助物理学家生成量子光学的数学公式，到协助医疗研究人员为细胞测序数据做注释。

开发者也发现，o1-mini模型在构建和执行多步骤工作流、调试代码以及高效解决编程挑战方面表现出色。

二、o1-preview的表现

o1-preview模型设计用来应对具有挑战性的任务，其通过花费更多时间进行思考和优化响应，类似于人类处理复杂问题的方式。

测试显示，这种方法使该模型在物理、化学和生物学等领域的表现接近博士生水平。

此外，o1-preview模型在编程方面表现出色，在Codeforces竞赛中排名超过89%的其他模型，展现了处理多步骤工作流、调试复杂代码和生成精准解决方案的能力。

在国际数学奥林匹克（IMO）预选赛等基准测试中，o1-preview展示了强大的能力，解决了83%的问题，而其前身GPT-4o仅成功解决了13%。

该模型现已向ChatGPT Plus和Team用户开放，企业和教育用户将于下周获得访问权限。开发者也可以通过OpenAI API使用该模型，但需达到API使用 5级的资格，并且最初会有速率限制。

三、o1-mini功能较弱但成本降低80%

与o1-preview同时推出的还有o1-mini模型，这是一种更精简的版本，旨在提供更快且更便宜的推理能力。

虽然o1-mini主要针对编程和STEM任务进行了优化，但在数学和编程方面依然表现出色。

在IMO数学基准测试中，o1-mini得分为70%，几乎与o1-preview的 74% 相当，同时推理成本却显著降低。在编程评估中，它在Codeforces上的Elo 分数为1650，跻身前86%的程序员行列。

与o1-preview相比，o1-mini的价格低80%，适合那些需要推理能力但不需要o1-preview模型广泛知识的开发者和研究人员。

这一具成本效益的解决方案也将向ChatGPT Plus、Team（团队）、Enterprise（企业）和Edu（教育）用户开放，并计划在未来扩展至 ChatGPT免费用户。

四、安全性与安全增强

秉承OpenAI对安全的承诺，o1系列模型采用了一种全新的安全训练方法，提升了模型遵循安全和对齐准则的能力。

OpenAI强调，o1-preview在其最难的越狱测试中取得了令人印象深刻的 84 分，这相比GPT-4o的22分有显著提升。这种在上下文中推理安全规则的能力，使得o1模型在处理不安全的提示时表现更好，能够有效避免生成不当内容。

作为更广泛安全工作的组成部分，OpenAI已与美国和英国的AI安全研究机构达成协议。根据这些合作关系，OpenAI向这些机构提供了o1模型的早期研究版本，以帮助评估和测试未来的AI系统。

此外，OpenAI的安全工作还包括全面的内部治理，与联邦政府的合作，并通过定期测试、“红队”测试以及公司安全与安保委员会的董事会监督，确保模型的安全性和合规性。

五、OpenAI o1系列的下一步计划

尽管o1-preview和o1-mini模型在推理和解决问题方面表现出色，OpenAI 也承认这仅仅是个开始。

公司计划定期更新和改进这些模型，未来将添加浏览功能、文件和图像上传功能以及函数调用功能，这些功能目前尚未在API版本中提供。

展望未来，OpenAI将继续发展其GPT系列和o1系列，不断拓展AI在各个领域的能力。用户可以期待持续的进步，随着OpenAI努力提升这些模型的实用性和可及性，它们将在不同应用场景中发挥更大作用。（VentureBeat）

本文由人人都是产品经理作者【AI新智能】，微信公众号：【AI新智能】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

AI新智能

一个致力于探索人工智能对商业世界和社会影响的平台。

64篇作品 128814总阅读量

别只关心315打老虎，来看看全年无休的AI打假

03-153980 浏览

别只关心315打老虎，来看看全年无休的AI打假

一年赚多少钱？「曲曲大女人」商业模式揭秘

10-097316 浏览

一年赚多少钱？「曲曲大女人」商业模式揭秘

【AI测评】对话式生成能力在不同维度的表现

09-281444 浏览

【AI测评】对话式生成能力在不同维度的表现

产品经理需要掌握的能力：产品的演示及构建

10-162640 浏览

产品经理需要掌握的能力：产品的演示及构建

为什么你憋不出策略？目标悖论与导向

08-073196 浏览

为什么你憋不出策略？目标悖论与导向

评论

目前还没评论，等你发挥！

设计师如何做产品需求分析：先聊聊两个“价值”

09-086700 浏览
木鸟、美团、途家，撞上民宿“边界”

02-072972 浏览
国货混战“双十一”：争上综艺火拼出圈，百余家企业抱团商战

11-071587 浏览