【AI产品经理红宝书(1)】深入浅出大模型
随着这几年AI领域的火爆,不少同学都想转行做AI产品经理。这篇文章,作者分享了AI产品经理的基础知识——大模型相关的基础,想做AI产品的同学不可错过了。
本系列会深入浅出为小白介绍AI知识,尤其是近年火起来的大模型、AIGC、Agent等内容
大模型,其实最大的不同就是——大
哪里大?——参数量大、数据量大、计算资源大
想象一下AI就像是一个超级聪明的助手,它可以帮助我们做很多事情,比如回答问题、写文章、甚至是开车。而大模型,就是这个助手的大脑。
01 大模型的基础认知
- 参数数量“大”:大模型最直接的体现就是参数的数量。参数,可以想象成是模型的“记忆点”。就像一个人的人脑,有很多神经元,就可以记住很多东西,他代表的是可以记忆的能力。记的东西越多,能做的事情就越多。大模型的参数多到惊人,比如GPT-3,有1750亿个参数,每个参数都存储了模型学习到的一小部分知识。参数数量越多,模型就越能够捕捉和表达复杂的语言模式和知识关系。这就好比一个人有1750亿个记忆点,能记住的东西可就太多了。
- 数据训练量“大”:有了记忆能力还需要接触到大量的知识,大模型需要大量的数据来“喂饱”它们,这样才能学习到各种知识。这就像是一个顶级厨师,需要很多食材才能做出一桌丰盛的宴席。大模型也是这样,它们需要海量的数据来训练,比如网页、书籍、文章等等,这样才能学会理解和生成语言。仅以GPT-3为例,它的训练数据包含了大约5000亿个tokens,相当于数万亿个单词。如果一个人阅读速度很快,每天可以读10万字,每年365天不眠不休的读书,要读完GPT-3的训练数据量大约需要10000年。
- 计算资源量“大”:大模型这个大脑在学习知识的时候,需要的计算资源量也是“大”的。这就好比你要开一个大型派对,需要一个大场地和很多食物。大模型训练需要强大的计算机,比如GPU或者TPU,这些都是很贵的硬件。而且,训练一个大模型可能要花上几周甚至几个月的时间,这就像是在准备一场大型的马拉松比赛。
02 大模型的工作原理
涌现
涌现,是一种现象——当系统的复杂度达到一定程度时,就会出现一些新的特性,这些特性是单个部分所没有的。就像一群蚂蚁,每只蚂蚁都很普通,但当它们聚集在一起时,就能建造出复杂的蚁穴。
我们的大脑就像是一个超级复杂的机器,里面有很多神经元,它们通过连接来传递信息。这些神经元就像是大模型里的参数,帮助我们学习和记忆。在我们小时候大脑发育时,神经元的数量和连接会增加,我们就能学会更多的东西,比如读英语、做数学题、骑自行车、弹钢琴等等。后来长大了,我们结合跨学科的知识,解决更加复杂的问题。这本质上其实就是我们有足够多的神经元,并且学到了足够多的知识,自然而然具备了一些“进阶的能力”。
大模型也是这样,它们有很多参数,这些参数就像是模型的“神经元”。参数越多,模型的“大脑”就越复杂,能够处理的信息就越多,学习能力也就越强。同时大模型学到了全世界的知识,涌现现象便产生了:当参数数量足够多,模型的结构足够复杂时,模型就能展现出一些惊人的能力,比如理解语言的细微差别,或者生成逼真的图像。这些能力并不是单个参数直接赋予的,而是在大量参数相互作用的过程中自然产生的。
涌现的形式
比如说,GPT-3这个大模型,它有1750亿个参数。这么多的参数让它能够理解我们说的话,甚至能写诗、编故事。这些能力不是任何一个参数单独能做到的,而是所有参数一起工作的结果。
再比如,DALL-E这个模型,它可以根据我们的描述生成图像。比如你告诉它“一只穿着太空服的猫”,它就能画出这样的图像。这种创造力,也是因为模型中有足够多的参数,它们能够捕捉到描述中的信息,并将其转化为图像。
所以,大模型的参数规模和涌现的关系,就像是一群蚂蚁建造蚁穴,或者一群神经元让我们学会骑自行车。当数量和复杂度达到一定程度时,就会出现一些神奇的、新的特性。这就是大模型的魅力所在,也是为什么科学家们对它们如此着迷。
文字生成原理
以大语言模型LLM为例,我们形象的介绍一下他的生成内容的原理。
想象一下,你有一个超级聪明的助手,这个助手的大脑里装满了成千上万本书、文章和网页。这个助手就是大语言模型。它不是真的人,但它通过学习大量的文字资料,学会了如何理解和生成人类的语言。
模型学习的过程,就像是在玩一个“模仿游戏”。它看了大量的文本,然后学习这些文本中的模式。比如,它学会了在“生日快乐”后面通常会跟着“快乐”,在“对不起”后面可能会跟着“我错了”。这样,当它在生成内容时,就会用到这些学到的模式。
大语言模型生成内容的原理,你可以想象成是一个“预测游戏”。模型看一段文字,然后猜下一个字或者下一个词是什么。比如,我给你说“今天天气真”,你可能会想,下一个字可能是“好”。大语言模型也是这样,它根据前面的文字,预测下一个最可能的字或者词。
比如说,我想让大语言模型帮我写一封邀请函。我给它一个开头:“亲爱的李先生,我们诚邀您参加本周六的聚会”。然后,模型就会开始预测下一句话是什么。它可能会说:“这将是一个难忘的夜晚,我们将享受美食和精彩的音乐。”这样,一句接一句,直到生成完整的邀请函。
大语言模型还有一个神奇的地方,就是它有时候能生成一些我们意想不到的内容,就像它有自己的“直觉”一样。比如,你让它写一个关于“未来城市”的故事,它可能会创造出一些全新的概念,比如“飞行汽车”或者“海底住宅”。这些内容可能是它从各种科幻小说和文章中学到的,然后结合在一起,创造出新的故事。
03 大模型的分类
基于数据类型
咱们来聊聊大模型的分类,按照数据类型来分有三种:语言模型、计算机视觉(CV)模型和多模态模型。
1. 语言模型
语言模型,就像它的名字一样,是专门处理和理解人类语言的大模型。它们能够阅读和生成文本,就像我们现在聊天一样自然。这些模型通常是基于大量的文本数据训练出来的,能够捕捉到语言的复杂性和多样性。例如:GPT 系列(OpenAI)、Bard(Google)、文心一言(百度)。
2. 计算机视觉(CV)模型
计算机视觉模型,就像是给计算机装上了眼睛,让它们能够“看”图像和视频,并理解其中的内容。这些模型在图像识别、目标检测等方面有着广泛的应用。例如:VIT 系列(Google)、文心UFO、华为盘古 CV、INTERN(商汤)。
3. 多模态模型
多模态模型就像是全能型的艺术家,它们能够处理和理解多种类型的数据,比如文本、图像、声音等。这种模型在理解复杂场景和提供更丰富交互体验方面有着巨大的潜力。例如:DingoDB 多模向量数据库(九章云极 DataCanvas)、DALL-E(OpenAI)、悟空画画(华为)、midjourney。
基于应用领域
按照应用领域的分类,主要分为通用领域大模型、行业大模型和垂直大模型这三种。
1. 通用领域大模型
通用领域大模型就像是AI界的“全能选手”,它们不局限于特定的领域,而是在多个领域和任务上都能发挥作用。这些模型通常在大规模的多领域数据集上进行训练,学习到广泛的知识和技能,具备跨领域的泛化能力。
特点:
- 广泛适用性:能够处理各种任务,如自然语言处理、计算机视觉、语音识别等,适用于不同行业和场景。
- 多模态处理:能够处理多种数据类型,如文本、图像、语音等,实现跨模态的理解和生成。
- 深度学习基础:通常基于深度学习架构,如Transformer,通过多层神经网络捕捉复杂的数据模式。
例如,GPT系列:由OpenAI开发的一系列通用大模型,能够进行文本生成、翻译、问答等多种语言任务。
2. 行业大模型
行业大模型则是AI界的“行业专家”,它们针对特定行业或领域进行优化,使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度。
特点:
- 领域专精:针对特定行业或应用,如医疗、金融、教育等,提供更精准、专业的解决方案。
- 数据针对性:训练依赖于特定领域的专业数据,这使得模型在特定场景下的表现更为出色。
例如,金融大模型:腾讯金融大模型在混元通用大模型基础上,在预训练阶段重点加入金融领域语料进行二次增训,使模型对金融知识体系有完整的吸收与理解。
3. 垂直大模型
垂直大模型就像是AI界的“特种兵”,它们专注于特定任务或场景,使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。
特点:
- 任务专精:针对特定任务或场景,如智能客服、个性化推荐等,提供更专业、更个性化的服务。
- 快速响应:由于专注于特定领域,垂直大模型能够快速响应市场变化,提供实际应用价值。
例如,医疗垂直大模型:如DeepMind的AlphaFold,通过深度学习技术,能够辅助医生进行疾病诊断、药物研发,甚至预测疾病进展。
这三种大模型各有所长,根据不同的应用场景和需求,选择合适的模型类型,能够更好地发挥AI的潜力,推动各行各业的智能化发展。
好的,我们本专栏的大模型章节就到此为止,希望上述语言还算通俗易懂,能够让不太专业的朋友有深入浅出的了解。
本文由 @菠萝油AI 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
我的百词斩系列呢,催更~
感谢大家喜欢,平台说修改了审核规则,不允许更新百词斩形式的文章了,我后续在同名公众号(菠萝油AI)继续更新吧,大家喜欢的话可以关注下