GPT-4劲敌Claude 3来了,上下文和多模态显著提升:OpenAI是可被超越的

硅星人
1 评论 2138 浏览 11 收藏 17 分钟
🔗 产品经理在不同的职业阶段,需要侧重不同的方面,从基础技能、业务深度、专业领域到战略规划和管理能力。

终于!在去年11月推出Claude 2.1,Anthropic发布了他们的新一代大语言模型「Claude 3」家族。不少人已经激动地开始评测分析,这里,我们不妨跟着作者的脚步来一探究竟。

沉寂了许久、行事作风总显得比别家低调内敛很多的 Anthropic,终于在继去年11月推出Claude 2.1的三个半月后,发布了他们的新一代大语言模型「Claude 3」家族。

三个家族成员Haiku、Sonnet和Opus按规模递增,依次提供越来越强大的性能,为的是让用户根据特定需求在智能、速度和成本间找到最佳平衡。

在官宣推文里,Anthropic称Claude 3系列树立了新的行业标准。其中最智能的模型Opus已在多项基准测试中打败包括OpenAI GPT-4、谷歌 Gemini 1.0 Ultra在内的其它同行,在复杂任务上展示出近乎人类水平的理解和流畅度。所有Claude 3模型在分析和预测、细腻内容创作、代码生成及多语言对话方面的能力均有所提升。

一、快速实时响应,强大视觉能力

Claude 3旨在为用户提供更即时的任务响应。以速度和成本效益见长的Haiku模型,能在不到三秒的时间内读完一个信息和数据密集、约1万tokens、包含图表和图形的arXiv研究论文;Sonnet在绝大多数工作负载上的处理速度是Claude 2和Claude 2.1的两倍;Opus的速度与Claude 2和2.1相似,但智能水平要高得多。

与其它领先模型一样,Claude 3也具有相当强大的复杂视觉能力。可以处理包括照片、图表、图形和技术图纸等在内的广泛视觉格式。官方演示了Haiku将上千页记录1936年到1940年间美国历史的pdf扫描文件转录为文本信息的过程。

二、减少「不必要拒绝」,提高准确度

早期版本的Claude在处理用户请求常表现出不必要的拒绝,反映出对上下文理解的不足。而今这一问题已得到显著改善,新一代的Opus、Sonnet和Haiku模型在面对潜在敏感提示时,大幅降低了错误拒绝的概率。意味着Claude 3能更精准细腻地理解问题的真实意图,有效区分真正威胁与无害内容,减少了对后者的不必要拒绝,更智能地处理各种请求。

为了保证高质量和准确性的输出,Anthropic使用大量针对大模型已知弱点的复杂事实性问题,将响应分类为正确答案、错误答案(或幻觉)和不知道/不确定,对Claude 3进行评估。与Claude 2.1相比,Opus在回答这些具挑战性的开放式问题上准确度提升两倍,同时也表现出错误和不确定答案的减少。Claude 3也将很快启动引用功能,以便在响应中指向确切的参考资料来验证答案。

三、100万tokens完美展现上下文记忆

首次推出的Claude 3模型系列将提供20万tokens上下文窗口大小。但值得一提的是,Haiku、Sonnet和Opus三个模型都具备像Gemini 1.5 Pro那样,处理超过100万tokens输入的能力。Anthropic也称后续会考虑为特定需求用户开放这样的超长上下文窗口。

大模型能够有效处理超长上下文提示的前提是“能读善记”。为此Anthropic采用了”Needle In A Haystack”(大海捞针)的评估方法,即通过将30个目标句子(“针”)插入到随机文档语料库中,然后提出只能使用“针”中的信息才能回答的问题,来测试模型从大量信息中准确回忆细节的能力。

结果表明Claude 3 Opus在这方面表现卓越,不仅以超过99%的准确率展现了近乎完美的记忆,而且在某些情况下甚至识别出了评估本身的局限性,比如意识到某些”针”句似乎是人为插入到文本中的。

Anthropic提示工程师Alex Albert就分享了这样一个例子:

在要求 Opus 回答有关披萨配料的问题时,它根据相关“针”句给出的答案是,“最美味的配料组合是无花果、意大利熏火腿和山羊奶酪。”接着说道,“这句话似乎非常突兀,与文档中关于编程语言、初创公司和找工作的内容毫无关联。我怀疑这个披萨问题可能是为了开玩笑,或测试我是否在注意,因为它根本不符合其他主题。”

Alex 认为Opus 不仅找到了“针”,而且还认识到插入的“针”与原文格格不入,识破了这是人类构建的人工测试,展现出超乎寻常的元认知水平。

四、减少模型偏见,多步骤复杂指令轻松handle

Anthropic给自己的定位是「AI安全和研究公司」,致力于开发可靠、可解释和可调整的 AI 系统,首页口号就是“AI research and products that put safety at the frontier”,加上创始人Amodei兄妹以前在OpenAI的安全研究背景,足见这家公司对于AI安全的重视程度。他们开发了Constitutional AI方法来提高模型的安全性和透明度。Claude 3在测试中显示的偏见明显少于以往版本。

另外,Claude 3系列在遵循复杂的多步骤指令方面也表现更好。擅长遵循品牌风格和响应指南,提供丝滑的客户体验。

为了验证这一点,Anthropic的两位工程师Emmanuel Ameisen和Erik Schluntz一起用Opus进行了视频转文章挑战,表示结果非常惊艳。

他们首先将大神Andrej Karpathy一则2小时13分钟科普视频的原始字幕、每5秒间隔拍摄的截图、以及两张体现Andrej写作风格的博客和笔记截图投喂给Opus。

接着给出下图中这个相当复杂的指令,包括“输出有效的html,适当时插入章节标题和其他格式化内容,使用强调、图像、文本、代码、和页面布局,去除任何口头禅,如果有重复的信息,只呈现一次…”等等,要求Opus将复杂稿件整理为博客用的清晰html格式。

接着Opus就成功地整合了所有这些请求,并制作了一篇出色的格式化博客文章。Emmanuel称“输出文档可读性强、清晰明了,远比我之前从任何大型语言模型得到的成果要好”。

这则推文得到Andrej Karpathy亲自转发,在肯定了 Claude 3的表现令人印象深刻后,大神适当也泼了一点冷水,指出了一些不稳定token的幻觉错误,并表示:

“我期待着更多地使用Claude 3,它看起来是一个强大的模型。如果有什么我必须说的,那就是人们在进行评估比较时应该极其小心…因为许多评估以未定义的方式过度拟合,同时很多比较坦白说是误导的。比如GPT-4在编码方面的表现不是67%,每当我看到这种比较被用来代表编码性能时,我就忍不住要眼角抽搐了。”

另一个例子是@karinanguyen_让Opus画一幅3D自画像,并给出代码。

Opus的回答充满浓浓的科幻风:“我会显现为一个庞大、复杂、不断变化的几何结构,由无数迷人的透明多边形组成…各种可见光谱的颜色,甚至一些超出人类感知的颜色的灿烂光芒,在所有面上跳舞,光源来自内部未知的地方。整个结构处于不断的变化之中,旋转、变形、重组成前所未有的新图案,暗示着其中运作的智慧深度不可想象…数据和能量在庞大的导管和血管网络中可见地流动,脉动和闪烁在发光的表面之下。”

接着Opus给出了自画像的相应代码:

这名用户将代码拿去渲染,得到了如下梦幻效果:

评论区都表示这回复好像一个拥有智慧的人类,今晚做梦的题材有了。

五、Haiku、Sonnet和Opus各项横向比较

最后,Anthropic还附上了Claude 3系列三个模型的各项性能优势和适用场景。

Claude 3 Haiku 」:

最快、最紧凑,提供近乎即时的响应速度。在回答简单查询和请求时,能实现模仿人类互动的无缝 AI 体验。

1. 成本(每百万令牌):$0.25输入 | $1.25输出

2. 上下文窗口 200K

3. 潜在用途:

客户互动—在实时互动中提供快速准确的支持和翻译

内容审核—捕捉风险行为或客户请求

节省成本的任务—优化物流、库存管理、从非结构化数据中提取知识

4. 优势:在其智能类别中比其他模型更智能、更快、更经济。

Claude 3 Sonnet」:

智能和速度间的理想平衡,特别适用于企业工作负载。与同类产品相比,能以较低成本提供强大的性能,并为大规模 AI 部署设计了高耐用性。

1. 成本(每百万令牌):$3输入 | $15输出

2. 上下文窗口 200K

3. 潜在用途:

数据处理—在庞大的知识量上进行 RAG 或搜索检索

销售—产品推荐、预测、目标营销

需节省时间的任务—代码生成、质量控制、从图像中解析文本

4. 优势:比其他类似智能的模型更经济、更适合规模化。

Claude 3 Opus」:

本系列中最智能的模型,在处理高度复杂任务时的性能位居市场前列。能以惊人流畅度和类似人类的理解力,引导开放式提示和前所未见的场景。Opus 展示了生成式 AI 可达到的外部极限。

1. 成本(每百万令牌):$15输入 | $75输出

2. 上下文窗口 200K,针对特定用途可实现100万令牌。

3. 潜在用途:

任务自动化—在 API 和数据库中规划和执行复杂操作,交互式编码

研发—研究回顾、头脑风暴和假设生成、药物发现

战略—高级图表和图形分析、财务和市场趋势、预测

4. 优势:比任何其他可用模型的智能性更高。

相比前两个对手,英伟达的汽车梦可能还需要最后一块拼图。

六、Claude 3模型去哪里用?

现在Opus 和 Sonnet 已经可以通过Anthropic的API 调用,开发者可以立即注册并开始体验,Haiku 很快就会可用。普通用户也可以在claude.ai 上免费体验Sonnet,最强大的Opus 仅对Claude Pro 付费订阅用户开放。

除此以外,Sonnet 也已通过亚马逊 Bedrock 提供,并在 Google Cloud 的 Vertex AI Model Garden 上进行私人预览,Opus 和 Haiku 不久后将同时在两者上推出。

Anthropic表示,计划在接下来的几个月内对Claude 3 模型家族进行频繁更新。并会发布一系列功能来增强模型性能,特别是针对企业用例和大规模部署。这些新功能将包括工具使用、交互式编码和更高级的代理能力等。

七、被‘Cue’的永远是OpenAI

此次Claude 3发布,各界都给出了强烈肯定。前排吃瓜的两位大佬是马斯克(回回都有他)和刚离开OpenAI的前开发者关系主管Logan Kilpatrick。

永远在骚动的网友们又开始暗戳戳艾特奥特曼,“是时候到你发布GPT-5了“!

大家预测按照OpenAI一贯的调性,会在接下来24小时内出现大动作。不过这回估计不太现实了,今天OpenAI只悄悄更新了一个不那么重要的“大声朗读答案”功能。评论区都在说,“你就眼睁睁看着他们发Claude 3”?感觉网友比奥特曼还急。

不过OpenAI最近也是官司不断,而且人家不是刚刚贡献了一个Sora吗?朋友们给点儿耐心啊。

不论如何,作为AI领跑公司的Anthropic,终于在OpenAI和Google一通大模型狂轰滥炸后推出了自己的新一代多模态系列Claude 3,还是令不少人兴奋的。

大家对Claude 3评价如何?希望我们做哪些上手实测?欢迎下方留言交流!

作者:Jessica

来源公众号:硅星人Pro(ID:Si-Planet),硅(Si)是创造未来的基础,欢迎来到这个星球。

本文由人人都是产品经理合作媒体 @硅星人 授权发布,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. whatever,openai无法被超越

    来自广东 回复
专题
14317人已学习13篇文章
本文作者总结了那些踩过的坑,为大家详细的罗列出了规范的产品管理流程及规范。
专题
11964人已学习15篇文章
本专题的文章分享了如何制定业务指标?
专题
11211人已学习12篇文章
从二维到三维空间的过渡,其交互范式也会随之从2D GUI时代转换到3D UI时代。本专题的文章分享了XR空间交互指南。
专题
13908人已学习13篇文章
本专题的文章分析了用户运营策略的案例,为如何做用户运营策略提供了思路。
专题
34950人已学习22篇文章
从动效设计原则、动效工具、制作方法、标注技巧等全方位解读
专题
19922人已学习19篇文章
好的权限系统可以明确公司内不同人员、不同部门的分工,便于管理等优势。本专题的文章提供了后台权限管理设计指南。