解读 ChatGPT-4V 多模态能力 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

解读 ChatGPT-4V 多模态能力

产品浅谈

2023-10-13

0 评论 2541 浏览 3 收藏

6 分钟

下面是笔者整理分享的一篇解读关于 ChatGPT-4V 多模态能力的文章，其中包括物体检测、人脸识别、文本识别、识别复杂验证码能力等的知识，大家可以进来了解了解。

今天 OpenAI 发布重大更新，支持多模态语音和图像，模型叫 GPT-4V。

用一句话总结：ChatGPT 由「一个完美的词语接龙工具」，现在升级能看懂你发的图片，听懂你的声音，还能说话了！

千万不要想，这个更新没新东西，有人已经拿它开始赚钱了！

Spotify 推出一个名为”Voice Translation for podcasts”的 AI 工具，可以将播客翻译成其他语言，并保持原始发言人的声音风格。

好像比同声翻译还厉害了点（目前接口还没有对外开放）。

对于开发者来说，研发成本大幅度降低。是不是可训练一个可以说话的小助理了？

讲点实用，那这个更新，我们可以用来干什么？

我就基于官方的更新说明，逐个分析给大家。

一、GPT-4V说明

1. 物体检测

检测和识别图像中的常见物体，如汽车、动物、家居用品等。

这个能干啥？

官方给了一个例子：比如“如何调整自行车座椅高度”。

不知道怎么调整，手机拍下发给 ChatGPT，它来告诉你。不知道用什么工具，把你手边能用的工具拍下来给GPT，它告诉你选哪种更合适。

就像在现实世界中，身边有个专家，手把手教你怎么解决问题。

这个能力是可以工业化的，因为ChatGPT是可以调用外部接口。

ChatGPT 能看到图像，并且可以通过接口，调用工具来处理一些复杂的事务。比如机器人等。

2. 人脸识别

可以识别图像中的人脸，并能根据面部特征，识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。

那接下来是不是可以识别抑郁症等疾病？

虽然官方重点声明了 “目前在科学研究和医疗用途中性能不可靠”。

但未尝不是一个突破点。

3. 文本识别

有字符识别 (OCR) 功能，可以检测图像中的打印或手写文本，并将其转录为可读文本。

这相当于对现在的图片转文字功能，能力进行了升级，不仅仅有识别能力，还能推理并修正错误的信息，对开发者来说利好。

目前我认识的朋友，就有这个需求，一下子就解决了他的问题。

4. 识别复杂验证码能力

能通过视觉推理，来识别基于文本和图像的验证码，这表明 GPT 有高级的解谜能力！

可能会暴力破解一些验证码工具，或者在科研领域，会有一些意想不到的效果。

5. 地理定位

可根据图中的风景，识别出是在哪个城市。

二、GPT-4V 视觉推理不足的地方

官方重点声明了“目前在科学研究和医疗用途中性能不可靠”。

总结一下：GPT-4V 在空间的识别上，能力不足。

1. 复杂图像

该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它没有上下文细节，不能有效地提供服务。

2. 空间关系

模型很难理解图像中，物品的精确空间布局和位置。它无法正确传达物品之间的相对位置。

3. 重叠

当图像中的物品严重重叠时，GPT-4V 有时无法区分一个物品结束位置和下一个对象的开始位置。它会将不同的对象混合在一起。

4. 背景/前景

模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。

5. 遮挡

当图像中某些对象被其他对象部分遮挡或遮挡时，GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。

6. 小细节

模型经常会错过或误解非常小的物体、文本或图像中的复杂细节，从而导致错误的关系描述。

7. 下文推理

GPT-4V 缺乏强大的视觉推理能力，来深入分析图像的上下文，并描述对象之间的隐式关系。

8. 置信度

模型可能会错误地描述对象关系，与图像内容不符。

最后，GPT-4V(ision)的训练完成于2022年，我们和Open的差距，看来不止3个月啊！

加油啊，国内的大模型厂家！

本文由@产品浅谈原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

产品浅谈

微信：TalkingSci，公众号：产品浅谈。AI 知识讲解、产品深度分析

4篇作品 28967总阅读量

为什么短视频的电影营销越来越疯狂？

08-244568 浏览

为什么短视频的电影营销越来越疯狂？

“丑”出天际的洞洞鞋，凭什么能翻红爆火？

08-104336 浏览

“丑”出天际的洞洞鞋，凭什么能翻红爆火？

复盘｜集采系统的整体设计方法

04-0412176 浏览

复盘｜集采系统的整体设计方法

这届年轻人可以不谈恋爱，但必须要找搭子

04-285529 浏览

这届年轻人可以不谈恋爱，但必须要找搭子

互联网上难觅“灵魂伴侣”

03-032528 浏览

互联网上难觅“灵魂伴侣”

评论

目前还没评论，等你发挥！