万字详述:2024上半年最值得关注的10大AI新品丨海外篇
2024年上半年海外发布的10款重要AI产品,涵盖了初创公司和老牌科技巨头的最新成果。这些产品不仅展示了AI技术的进步,还为各行各业带来了全新的应用可能性。无论您是科技爱好者还是专业人士,这篇文章都将为您提供宝贵的信息和启发。
2023 年标志着 AI 聊天机器人和各类工具的诞生、测试和初期探索。2024 年则迎来了 AI 工具的成熟与广泛应用。阿木聊AI(智能体)关注到海外 2024 上半年最为重要的 10款 AI 产品发布,包括初创公司 Anthropic、Mistral 和 OpenAI,老牌科技巨头 Google 和 Microsoft,以及 Adobe 和 Salesforce 等服务商。
一、OpenAI/ChatGPT-4o
OpenAI 在 5 月推出了旗舰模型 ChatGPT-4o,这是一款集视觉、听觉和实时对话于一体的 AI 聊天机器人。它的主要特点和功能包括:
- 多模态理解与生成:可以对音频、视觉和文本进行实时推理,接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合进行输出。能更好地理解和处理复杂信息,提供更丰富全面的回答。
- 实时响应能力:能够在最短 232 毫秒内响应音频输入,平均响应时间为 320毫秒,与人类在对话中的响应时间相似,使用户能更流畅地与之交互,提高沟通效率。
- 跨模式安全性:在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。通过过滤训练数据和训练后改进模型行为等技术,保障用户信息安全,提高互动安全性。
- 性能提升:在传统基准测试中,其在文本、推理和代码智能方面达到了 GPT-4 turbo 级的性能,同时在多语言、音频和视觉能力方面达到新高度。在英文文本和代码上的性能与 GPT-4 turbo 相当,在非英文文本上有显著改善。它在多语言处理方面表现出色,支持多种语言。
GPT-4o 相比之前的模型,在多模态支持、响应速度等方面有所提升。例如,GPT-4 是基于文本的语言模型,而 GPT-4o 是跨文本、视觉和音频的端到端新模型;GPT-4o 的响应速度更快,最短可在 232 毫秒内响应音频输入,而 GPT-4 的响应速度相对较慢。
GPT-4o 的应用场景广泛,例如可以作为实时视觉助手,帮助用户实时讨论所看到的内容并获取相关信息;辅助学习,如读取 iPad 中的题目并通过语音提供学习指导;充当实时翻译,实现不同语言间的实时翻译;用于会议助手,记录会议内容、生成纪要和总结等;进行情感理解与表达,通过声音理解和表达情绪,更自然地与用户交互;处理图像处理与创作,根据需求对图片进行处理和创作,如添加文字、调整颜色等。
二、Apple/AppleIntelligence
苹果在 6 月的全球开发者大会上公布了其 AI 项目 Apple Intelligence,预计将在秋季为下一代 iPhone、iPad 和 Mac 操作系统带来多项新功能:
- 语言和图像理解与生成能力:为用户解锁提高写作和沟通的新方式,内置可全系统调用的新工具 Writing tools,让用户能在几乎任何场景下对文本进行改写、校对和摘要,包括邮件、备忘录、Pages 文稿和各类第三方 app。例如可帮助用户整理课堂笔记,检查文章是否通顺等;改写工具可根据受众和文稿诉求调整文风;proofread 工具能检查语法、措辞和语句结构,并给出修改建议及说明;summarize 工具可对用户选中文本进行归纳总结。备忘录 app 和电话 app 可让用户录制音频,并将音频转写成文本以及生成内容摘要。
- 提供有趣的图像创作功能:借助于 image playground,用户可在数秒间创作出有趣的图像,且有动画、插画、手绘三种样式选择,还可根据不同分类或自定义描述进行创作,也能从照片图库中选取人物添加在图像内。该功能直接内置在信息等多款 app 中,也可作为单独的 app 安装使用。在信息 app 中使用时,用户可快速创作出趣味图像发送给朋友,并会看到基于当前对话生成的个性化创意推荐;在备忘录 app 中,用户可通过 Apple Pencil 工具盘中新增的 image wand 工具调用 image playground,为笔记添加更多视觉趣味性。
- 情景驱动的通知:可以识别对用户个人情境重要的通知。Priority notifications 会出现在分组通知的最上方,提示最为重要的事项,还有内容摘要帮助用户快速浏览大量或已分组的通知,直接在锁定屏幕上显示详细信息。全新专注模式“reduce interruptions”仅会显示可能需要即刻被看到的通知。
- 跨应用程序任务处理:能够深入研究用户的应用程序并代表用户执行任务。例如让 siri 播放女友发来的播客,或在收到邮件通知会议延期时,询问 siri 是否还能赶上和朋友之前约的电影,siri 可以综合调用短信、邮件、地图等工具来进行判断。
- 关注个人背景:利用用户的全部活动和屏幕上的内容,例如用户可以询问会议转移是否会导致迟到。
- 更智能的 siri:在其加持下 siri 将更加深入地融入到系统体验中。siri 出现时屏幕周围会闪烁发光,用户可以通过文本使用 siri,它能实时纠正用户的陈述,并提供与操作系统更紧密集成的新外观。它支持连续对话和上下文理解,能联系上下文,分析不连贯或修正过的语言。还具备屏幕内容理解能力,例如可把朋友发来的地址信息添加到朋友的地址中,用户也能设置与 siri 进行对话的方式(语音或文字),并自由在文字和语音之间切换。
不过,Apple Intelligence 的部分功能目前存在一些使用限制。例如,只有 iPhone 15 Pro 和 iPhone 15 Pro Max 可以访问 Apple Intelligence,对于 iPad 和 Mac 用户,则需配备 M1 或更高配的芯片支持的设备。该系统目前仅支持英语,更多功能、语言和平台支持需要等到后续更新。
Apple Intelligence 由多个高性能生成模型组成,其模型架构主要包括约30亿参数的本地模型以及可通过私有云计算并在 Apple 芯片服务器上运行的更大云端语言模型。苹果在训练基础模型时不使用用户的私人个人数据或用户交互,并使用过滤器等方式保证数据安全和隐私。其本地模型在一些测试中的性能优于部分其他模型,而云上模型水平基本与 GPT-4-Turbo 持平。
中信证券认为,苹果端侧 AI 落地过程中主打终端跨 app 的信息整合和调用,系统级个人助理定位更为清晰,成功拉开与现有安卓端 AI 手机的差距。如果有一家厂商能够在 AI 手机形态上做到极致,可能是具备芯片、模型、终端、操作系统一体化优势的苹果。
三、Google/ProjectAstra、Gemini、Imagen3
谷歌在 5 月的 I/O 开发者大会上展示了其新的专家 AI 助手原型 Project Astra,该助手基于现有的聊天机器人 Gemini 构建,能够穿透用户的手机和智能眼镜等设备。Gemini 1.5 Pro 和 1.5 Flash 是谷歌推出的新一代人工智能聊天机器人模型,而 Imagen 3 则是其更新的图像生成器,进一步提升了图像生成的质量和多样性。
1. ProjectAstra
Project Astra 是由谷歌的 DeepMind 部门发起的一个项目,旨在创建能够理解和处理日常任务的“通用 AI 代理”。这个项目的目标是开发出能够与用户日常互动的 AI,比如通过智能手机或智能眼镜等设备提供帮助和信息。
该计划的愿景是让每个人都能拥有一个专家助手,这个助手可以通过用户的各种设备提供个性化服务和支持。
2. Gemini
Gemini 是谷歌开发的一款聊天机器人,它基于先进的自然语言处理技术,能够理解和生成人类语言。Gemini 1.5 Pro 是该系列的最新版本之一,它代表了在对话能力和语言理解方面的进一步发展。
Gemini 1.5 Pro 旨在提供更加丰富和深入的对话体验,可能包括更好的上下文理解、更准确的回答以及更人性化的交互方式。
另外,还有 Gemini 1.5 Flash,这可能是一个针对速度和效率优化的版本,能够在需要快速响应的场景中提供服务。
3. Imagen3
Imagen 是谷歌开发的一款图像生成器,它使用人工智能技术根据用户的文本描述生成高质量、逼真的图像。Imagen 3 是该系列的最新版本,它代表了在图像生成技术方面的重要进步。
与之前的版本相比,Imagen 3 可能在图像质量、生成速度、多样性和准确性方面都有显著提升,能够更好地满足创意专业人士和普通用户的需求。
四、Microsoft/AIPC
微软在 5 月宣布推出配备 AI 硬件和支持 AI 应用程序的 Copilot Plus PC。这款笔记本电脑专为 AI 任务设计,搭载了高性能的基于 Arm 的芯片。
其主要特点包括:
- 全新系统架构与性能表现:采用由 CPU、GPU 和可实现每秒超过 40万亿次运算(40+TOPS)的全新 NPU(神经处理单元)相结合的系统架构。它是有史以来生产的更快、更智能的 Windows PC,在设备本地解锁了一系列全新 AI 体验。例如,通过新功能“回顾”(Recall)可以轻松回忆和找寻此前在 PC 上看过的内容,能帮助用户根据记忆中的线索碎片快速、直观地检索出想要寻找的内容。该功能仅限于个人的本地设备,不会使用任何信息训练 AI 模型。另外,它还支持增强的 Windows 工作室效果、实时字幕等功能,实时字幕可以将自动将任意 app 或视频平台上的直播或录播音频即时翻译成英文字幕,支持包含中文在内的40多种语言翻译,即便用户处于离线状态,也能实现该功能。
- 高效的芯片:首批 Windows 11 AI PC 搭载高通的桌面处理器骁龙(Snapdragon)XElite 芯片,这款开创性平台将重塑性能,凭借一流的 CPU 性能、领先的终端侧 AI 推理和支持多天续航的高能效 PC 处理器,显著提升 PC 体验。它采用定制的集成高通 Oryon CPU,4 纳米制程工艺,拥有 12 个高性能内核,在每瓦特性能方面保持领先。当用户需要最高性能时,Oryon CPU 还可以通过双核增强加速其中 2 个高性能 CPU 内核,从而为用户提供超快响应。集成的 Adreno GPU 能够实现出色图形性能,带来沉浸式娱乐体验。骁龙 XElite 采用的高通 AI 引擎具有领先的异构计算架构,Hexagon NPU、Adreno GPU 和 Oryon CPU 等可共同实现超过 70TOPS 的算力。
- 其中,高通 Hexagon NPU 是高通 AI 引擎的核心,算力高达 45TOPS,是目前市场中面向笔记本电脑的全球最快 NPU,并具备领先的每瓦特性能。骁龙 XElite 不仅支持在终端侧运行超过 130亿参数的生成式 AI 模型,并且目前独家支持 Windows 11 AI PC。此外,该芯片充分发挥骁龙在移动计算领域的专长,支持超快 5G 和 Wi-Fi 7 连接,能够带来无缝、无卡顿的极速连接体验,还支持 Snapdragon Seamless 体验、微软安全核心电脑(Microsoft Secured-Core PC)等安全特性,打造从芯片到云的安全体验。
- 丰富的应用体验:Windows 率先与高通合作,提供了大量 arm64 原生应用程序体验,既有 PowerPoint、Word 等 Microsoft 365 的 app,又有爱奇艺、B 站、Foxit PDF Editor 专业版、酷狗音乐、QQ、QQ 音乐和网易有道翻译等。Adobe 系列旗舰级 app 也即将登陆 Windows 11 AI PC,其中包括 Photoshop、Lightroom 和 Express 已于本周一上线,今年夏季还将推出 Illustrator、Premiere Pro 及更多 app。在 LiquidText 中,利用完全由 NPU 驱动的本地 AI 功能,可更快、更智能地对文档进行注释,从而保证数据隐私。全新的 Windows Copilot Runtime 中有超过 40个 AI 模型,为“回顾”等功能提供支持。
- 能效表现与续航能力:具有惊人的能效表现,单次充电即可支持长达 22 小时的本地视频播放或 15 小时的网页浏览,满足用户一整天的使用。
- 安全特性:所有 Windows 11 AI PC 都是安全核心 PC(Secured-Core PC),默认启用了 Microsoft Pluton Security 处理器,并引入了许多新的功能、更新和默认设置,确保用户隐私数据安全。
自6月18日起,微软 Surface 以及戴尔、宏碁、华硕、惠普、联想等 OEM 合作伙伴将陆续推出 Windows 11 AI PC。例如,微软公布的全新 Surface Pro 起售价999美元,配备 LCD 显示屏、XPlus 处理器、16GB RAM 和 256GB 存储空间。如果要升级为 XElite 芯片,则性能会更强劲,新版 Surface Pro 比 Surface Pro 9的速度快最多90%。Surface Laptop 经过重新设计,有现代的线条和超薄边框,显示屏分13.8英寸和15英寸两种尺寸,有四种新颜色可供选择,新一代较前代 Surface Laptop 5的速度快最多86%,速度超过 MacBook Air,电池续航能力也超过 MacBook Air,本地视频播放时间长达22小时,且支持 Wi-Fi 7。
需注意的是,不同地区的功能可用性可能会有所差异。例如在中国大陆,Windows Copilot 无法使用,Copilot 实体按键无法使用(按 Copilot 键将开启 Windows 搜索功能),但 AI Explorer 回顾功能可用,增强版的实时翻译也可以使用。
五、Meta/Llama3
Meta 于 4 月发布了 Llama 3,这是一个开源的大型语言模型,支持在其社交平台上使用对话式 AI。Llama 3 以其开源特性和公众信任度高而受到好评,可在 WhatsApp、Instagram 和 Facebook Messenger 等多个平台上提供更加自然和直观的对话体验。它具有以下主要特点和信息:
- 性能提升:在多种行业基准测试上展现了先进的性能,提供了包括改进的推理能力等新功能。
- 训练数据:在两个定制的24K GPU 集群上,使用超过15T的公开数据进行训练,这些数据量是 Llama 2 数据集的7倍多,其中包含的代码数据是 Llama 2 的4倍,并且有超过5%的预训练数据集由涵盖30多种语言的高质量非英语数据组成。
- 模型架构:选择了相对标准的纯解码器 Transformer 架构,并做了关键改进,如使用具有128K token词汇表的分词器,能更有效地对语言进行编码,从而显著提高模型性能;在8B 和70B 大小的模型上采用了分组查询注意力(GQA)以提高推理效率;在8192个 token 的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。
- 支持长文本:支持8K 长文本,上下文长度是 Llama 2 的两倍。
- 指令微调:后训练过程的改进大大降低了模型出错率,进一步改善了一致性,并增加了模型响应的多样性。
- 训练效率:训练效率比 Llama 2 高3倍。
- 新的能力:具备增强的推理和代码能力,能够进行复杂的推理,可以更遵循指令,能够可视化想法并解决很多微妙的问题,还支持零样本工具使用,包括网络搜索、数学运算和代码执行等。通过微调,它在调用自定义工具方面提供了强大的灵活性。
- 版本开源:已开放80亿(8B)和700亿(70B)两个小参数版本用于预训练和微调,并面向开发者开源,包括预训练和微调版本。Meta 称正在开发的最大模型是400B+参数,未来几个月内将推出多模态版本。
- 应用广泛:可用于升级 Meta AI 工具,同时会整合到 Meta 旗下的 Facebook、Instagram、WhatsApp 和 Messenger 等主要平台的搜索功能中。Llama 3 模型也将在亚马逊 AWS、Databricks、谷歌云、Hugging Face、Kaggle、IBM WatsonX、微软云 Azure、英伟达 NIM 和 Snowflake 上被提供给开发者,并获得 AMD、AWS、戴尔、英特尔、英伟达和高通提供的硬件平台支持。
Meta 还开发了一套新的高质量人类评估数据集,涵盖12个关键用例,以评估模型性能。此外,Meta 为保持开源的领先地位,放宽了许可,首次允许开发者使用 Llama 3.1模型的高质量输出来改进和开发第三方 AI 模型。
2024年7月24日,Meta 发布了 Llama 3.1,在多项基准测试中一举超越 GPT-4o 和 Claude 3.5 sonnet。Llama 3.1的405B 版本性能与最好的闭源模型性能相当,支持128K 的上下文,具有多语言能力(包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语),良好的代码生成能力、复杂推理能力以及工具使用能力。同时,Meta 大方放出了90多页的论文,详细介绍了预训练数据、过滤、退火、合成数据、缩放定律、基础设施、并行处理、训练方法、训练后适应、工具使用、基准测试、推理策略、量化、视觉、语音和视频等内容。
六、NVIDIA/Blackwell
英伟达在 3 月推出了其下一代 AI 芯片 Blackwell,以纪念数学家 David Blackwell。这款芯片拥有 2080亿个晶体管,其特点包括:
- 采用了台积电 4np 工艺生产。
- 实际上是两个芯片通过连接结合在一起,以确保可以作为一个整体无缝运行,通过英伟达的高带宽接口(nv-hbi),能以 10tb/s 双向带宽互联,可支持更高的 l2 缓存带宽,没有内存局部性问题和缓存问题。
- 在处理支持人工智能的模型方面可将速度提高数倍,包括训练阶段和推理阶段。
- 英伟达在发布会上表示,相较于之前的 H100芯片,Blackwell GB200超级芯片可以为大语言模型(LLM)推理负载提供 30倍的性能提升,并将成本和能耗降低 25 倍。
2024 年 5 月 15 日,谷歌 CEO 桑达尔·皮查伊宣布,将在 2025 年推出与英伟达合作的 Blackwell 芯片。同年 6 月 2 日,英伟达 CEO 黄仁勋表示 Blackwell 芯片已开始投产。
Blackwell 将帮助推动人工智能工作超越诸如识别语音或创建图像等相对简单的工作。它的出现反映了英伟达对未来市场需求和行业趋势的前瞻性判断,例如摩尔定律带动性能提升越来越困难,芯片迭代需要多种技术创新组合;数据中心将被视为 AI 工厂,需要考虑系统级性能、能效以及多 GPU 组合的“巨型 GPU”方案;AI 模型的规模和数据量持续增长,需降低计算相关成本和能耗;高性能推理或生成至关重要,必须找到能在许多 GPU 上并行处理模型工作的方法等。
英伟达还构建了由 72 张 GB200构成的 DGX GB200 NVL72 超级计算机,其在内部节点间使用铜缆连接,以降低功耗。在 HGXB200训练性能提升 3 倍,推理能力提升 15 倍的基础上,GB200 NVL72 集群将多个由 GB200驱动的系统整合到一个液冷机架中,为数据中心提供了前所未有的计算能力,可将大型语言模型的训练速度提升 4 倍,为万亿参数的大型语言模型推理提供 30倍的实时速度提升。
此外,英伟达推出的世界首个高速 GPU 互连技术 NVLink,为处理最大视觉计算工作负载、释放百亿亿次计算能力和万亿参数人工智能模型的全部潜力提供关键基础。NVLink Switch 协同 NVLink 可释放数据传输能力,通过连接多个 NVLink,实现机架内和机架间全速度的 GPU 通信。NVLink 和 NVLink Switch 整合英伟达 AI Enterprise 软件套件等,为用户提供全面的 AI 计算解决方案。
英伟达的新一代产品并不强制要求使用液冷,Blackwell 架构将同时推出风冷 DGX 和液冷 MGX 两种服务器方案。但在 AI 数据中心领域,想要发挥 Blackwell 的最大潜力,液态冷却几乎是必选。风冷散热目前仍是数据中心的主流,液冷散热技术的推广应用面临着业内尚无服务器与机柜统一接口规范标准、液冷系统架构尚在演进、初期投资高和全生命周期成本高等挑战。
七、Mistral/Codestral-22B
Mistral 在 5 月推出了 Codestral-22B,这是其首个代码模型,支持 80多种编程语言,并在性能上超越了以往的代码模型。主要特点包括:
- 参数量:具有 220亿(22B)参数。
- 多语言支持:在 80多种编程语言的数据集上进行过训练,既包括 Python、Java、C++、Bash 等流行语言,也有像 Fortran、COBOL 这样的古早语言,其中 COBOL 诞生于 1959 年,但至今仍有 43%的银行系统依赖它。
- 性能表现:虽然参数量少于 70B 的 Code Llama,但在多种测评中取得了更优成绩。例如在针对 Python 语言的 HumanEval(pass@1)、MBPP 以及 CruxEval 等测试中表现出色,在 RepoBench 评估的远程存储库中的代码补全能力方面达到了最佳成绩,并对 Llama 3 和 Code Llama 形成了全面超越。在数据库的 SQL Spider 测试中,其表现也与通用模型 Llama3 十分接近。
在其他一些编程语言测试中,和通用版 Llama3 各有胜负,但平均成绩小幅超过了 Llama3,且相对于 Code Llama 的优势明显。在 Python、JS 和 Java 中的 HumanEvalFIM 评分接近或超过 90%,平均成绩为 91.6%,超过了参数量更大的 DeepSeek Coder 33B。
- 长上下文窗口:支持 32k 的上下文窗口,相比其他模型(通常为 4k、8k 或 16k)大幅增加。
- 代码编辑能力:支持 FIM(fill-in-the-middle),可以对现有代码进行填充补全。
- 使用方式多样:Mistral 已将模型权重上传到了 HuggingFace,可供有条件的用户自行下载部署。此外,LangChain、LlamaIndex、Ollama 等大模型框架以及 Mistral 自家的开发者平台 La Plateforme 已支持使用 Codestral。它还提供了专属 API,其中 codestral.mistral.ai 正在进行免费测试,api.mistral.ai 则按 token 收费。用户也可通过 Mistral 的在线对话平台 Le Chat 直接使用网页进行对话。同时,第三方插件 continue.dev、Tabnine 支持通过在 VSCode 和 JetBrains 系列 IDE 中使用 Codestral。
不过,Codestral 使用了全新的“非生产”(Non-Production)许可协议 MNPL,按照规定仅可用于研究目的,不能进行商用,即使仅将其用于公司内部事务也不被允许。Mistral 表示后续会继续发布基于 Apache 2.0协议的其他模型。
八、Anthropic/Claude3.5Sonnet
Claude 3.5 Sonnet 是 Anthropic 公司于 2024 年 6 月 21 日发布的 AI 模型。它是 Claude 3.5 系列模型中的首个版本。
以下是 Claude 3.5 Sonnet 的一些主要特点:
- 性能优势:在阅读、编码、数学和视觉等主要 AI 基准测试中,其能力不仅超过了 Claude 3,也超越了 Anthropic 此前的旗舰模型 Claude 3 Opus。在研究生水平推理(GPQA)、编码能力(HumanEval)、文本推理(DROP)等方面表现出色,成绩优于 GPT-4o,但在数学问题解决能力上稍逊于后者。它能够更好地理解指令之间的细微差别,有更强的幽默能力,还为包括 GPQA(研究生水平推理)、MMLU(本科生水平知识)与 HumanEval 等基准测试设立了全新的行业标准。根据内部代理编码评估,其解决了64%的问题,远超 Claude 3 Opus 的38%。
- 视觉能力:作为一款多模态大模型,其视觉能力有较大提升。它可以更准确地解释图表和图形,能在带有扭曲和视觉伪像等“不完美”图像中顺利完成文本转录任务,在所有标准视觉基准测试中的平均表现比 Claude 3 Opus 高出 10%。它擅长解释和分析视觉数据,例如理解复杂的图表、图形和图解,分析信息图表和科学可视化,解释场景中的空间关系等;可以无缝融合图像和文本的信息;能够准确识别和描述图像中的物体;支持视觉问答,可根据视觉分析提供答案;能利用视觉信息来协助解决问题;可以提供有关艺术风格、设计元素和视觉美学的见解;展示了识别和转录手写文本的改进能力;可以从视觉呈现的数据中提取相关信息,还能处理多种文本样式以及转录多种语言的文本,并理解图像中文本的上下文,在转录结构化文本时通常可以保留或描述原始格式。
- 运行速度与成本:运行速度是 Claude 3 Opus 的两倍,而价格仅为后者的五分之一。其输入价格为 3 美元/百万 tokens,输出价格为 15 美元/百万 tokens,上下文窗口长度达 200k tokens。
- 新功能:Anthropic 推出了 Artifacts 预览版,这是一个可供用户添加和编辑其模型生成内容的工作空间,例如用其生成的代码、文档、图像、网站设计等内容创建作品。该产品会在 Claude 的 web 客户端设置一个专用窗口,类似于将大模型接入工作流。
此外,Anthropic 透露公司将在今年晚些时候陆续更新其余两款大模型 Claude 3.5 Haiku 和 Claude 3.5 Opus。同时,亚马逊云科技也宣布 Claude 3.5 Sonnet 已正式接入其 Amazon Bedrock。
如需使用 Claude 3.5 Sonnet,由于国内尚未开放使用,需注意接受验证码的手机号码不能属于中国地区。注册条件通常包括一个邮箱(如微软或谷歌邮箱)和一个海外手机号。具体注册方式可以参考相关平台的指引。同时,除了官方渠道,还有一些其他方式可以使用 Claude 3.5 Sonnet,例如通过 slack 工作区、poe 等平台,但可能需要满足相应平台的要求和条件。
九、Adobe/GenStudio
Adobe 在 3 月公布了 GenStudio,这是一款利用生成式AI帮助用户创建内容、管理品牌资产、跟踪活动效果并简化工作流程的应用程序。它本质上是一个关于营销活动的一体化平台,提供了多种功能和服务,包括:
- 品牌工具包、文案建议、预审合格的资源:可用于生成符合品牌风格的活动背景和整体基调。
- 多种生成式人工智能工具:能帮助用户迅速为电子邮件及 Facebook、Instagram 和 LinkedIn 等社交媒体平台制作广告。
- 内容中心:提供直观界面,方便搜索、编辑、重复使用和分享营销活动的素材。
- 活动管理:提供集中的活动概览,包括活动简介和活动时间表,使活动策划过程更高效。
- 发布功能:与 Adobe Experience Cloud 的多个产品(如 Journey Optimizer、Experience Manager、Marketo 和 Target)无缝集成,也可轻松导出到其他第三方应用。
- 数据洞察:让营销人员可以实时了解内容在不同渠道的使用情况和效果,通过 AI 技术生成不同的内容版本,进而提升活动效果。
Adobe GenStudio 目前还在内部测试阶段,预计将于今年晚些时候正式推出。其定价将根据不同公司而有所差异。
该平台的推出旨在方便用户利用 Adobe 的生成式人工智能工具创建营销活动。Adobe 声称 Firefly 模型在商业应用上是安全的,仅使用 Adobe Stock 图片、已公开授权的内容及公共领域的内容进行训练,因此不太可能产生侵犯他人知识产权的内容。
此外,微软也创建了名为 GenStudio 的在线体验工具。它使用了 Generative Adversarial Networks(GAN,使用两种竞争 AI 网络创建逼真图像的 AI 主流形式),借助 Azure 和 Kubernettes 的强大功能,并基于大都会艺术博物馆(The Met)庞大的艺术品数据库,可以帮助任何人创建并不存在但非常逼真的艺术品。其核心挑战是如何将大都会艺术博物馆的图像映射到生成它的种子上,他们使用了基于梯度下降的网络反转来学习每个图像的种子,关键是指示网络不仅要匹配目标图像的像素,还要匹配其高级特征和内容。
不过,Adobe 的 GenStudio 更为人熟知,且主要应用于营销领域。如果你想了解的是微软的 GenStudio 艺术创作工具,可以通过其官方网站获取更详细的信息。
十、Salesforce/Einstein
Salesforce 在 4 月宣布其企业级聊天机器人 Einstein Copilot 全面上市,该机器人在减少幻觉和生成虚假信息方面具有优势。尽管 Einstein Copilot 的推出受到了市场的期待,但 Salesforce 的股价表现并未达到预期,反映了市场对AI产品接受度和商业成功的不确定性。
Salesforce Einstein 是 CRM(客户关系管理)的首款全面 AI 产品。它具有以下特点:
- 数据就绪:无需准备数据或管理模型,只需将数据放入 Salesforce 即可使用。
- 建模就绪:多租户自动机器学习意味着会为组织自动匹配恰当的模型。
- 生产就绪:依托同样可信赖的 Salesforce 平台,具有模型管理和监控工具。
Einstein 可以帮助企业提高智能化程度并更好地预见客户需求,具体来说:
- 销售人员可以预测潜在机会并超出客户期待。
- 服务人员可以避免潜在问题发生,变被动为主动。
- 营销人员可以开展预见性的活动,营造前所未有的个性化体验。
- IT 人员可以将智能融入每个角落并为员工和客户创建更加智能的应用程序。
Einstein 可与许多 Salesforce 产品无缝集成,其功能广泛应用于各个领域,例如:
- Einstein Sales Cloud:用于提升效率和效果,功能包括预测转化可能性,给潜在客户自动打分;基于组织的最佳实践分析预测后续跟踪趋势,并通过销售周期分析制定下一步的行动计划;通过 AI 自动捕获发现新老客户的商机。
- Einstein Service Cloud:用于提升效率和服务体验,功能包括自动预测和填充案例的相关字段;自动根据客户请求路由服务和处理人员,减少客户等待和切换时间;智能客服功能,根据客户的对话信息和上下文信息,提供知识建议和对话建议,协助客服人员更快解决问题。2022 年起重磅推出 ChatGPT AI。
- Einstein Marketing Cloud:提供客户洞察和预测,深入了解客户;接触客户的渠道和时间点的智能建议;为客户提供一对一的个性化消息和内容,实现千人千面。
- Einstein Commerce Cloud:个性化商品推荐,提升客单价和复购率;客户行为模式仪表板,为商品推销和营销提供数据支撑;个性化显式搜索排序(搜索框)、个性化隐式搜索排序(首页浏览、品类页浏览)。
- Einstein Community:推荐相关的专业人士、小组和内容,降低社区成员寻找所需资源的难度;借助智能的活动源,确保社区成员可以看到重要帖子和热门话题等高人气内容,从而保证成员持续参与;帮助社区成员寻找经过认证的相关专业人士,以便于他们尽快解决最要紧的问题。
此外,Einstein 还包含一些特定的平台功能,如 Einstein Bots(使用自然语言处理技术,能够为客户提供即时帮助)、Einstein Voice(包括语音助理和语音机器人两部分,可实现文字与语音的相互转换,以及通过智能扬声器和 Salesforce 软件进行对话等功能)、Einstein Prediction Builder(可以通过点击的方式构建自定义预测)、Einstein Next Best Action(根据预测结果或者特定条件自动触发下一步最佳行动)、Einstein Discovery(自动分析并发现数据中的行为模式,洞察数据中的相关关系)、Einstein Vision(可对图像进行分类,对图像中的物体进行识别)、Einstein Language(能够分析文本的感情色彩,提取文本语义并进行分类)、Einstein Recommendation(智能推荐,如商品推荐、社区内容推荐等)。
关于 Salesforce Einstein 的具体价格,需要联系客户主管了解。同时,Salesforce 也会提供免费的在线培训、人工智能资源及最佳实践材料,帮助用户快速了解如何利用其人工智能技术提高组织效率和客户满意度。
本文由 @阿木聊AI(智能体) 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
这些都是国外的AI,我得找个时间分别用用这些AI工具之间有什么异同,与国内的AI又有什么区别。