解锁AIGC产品经理转型秘籍–大模型知识

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

解锁AIGC产品经理转型秘籍–大模型知识

不知名产品露

2024-11-30

0 评论 2138 浏览 12 收藏

22 分钟

在过去的几十年中，人工智能（AI）从科幻电影中的异想天开，已经逐渐走进了我们的现实生活，以AI为核心的内容生成技术（AIGC）正在掀起一场创作领域的革命。

以下内容源于个人对AI相关领域的自学知识总结，如有专业人士还请指点。

让我们开启一场沉浸式的AI之旅吧～

一、基础概念

人工智能是什么

是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学。它企图了解智能的实质，并生产出一种新的能以与人类智能相似的方式做出反应的智能机器。（来源：百度智能回答）

大模型是什么

大规模预训练模型，指具有大规模参数和复杂计算能力的机器学习模型（深度学习模型）。在深度学习领域，大模型通常是指具有数百万到数十亿参数的神经网络模型。这些模型通过在大量数据上进行预训练，能够捕捉复杂的数据模式和关系。

AIGC是什么

指通过人工智能技术生成内容的一种方式，人工智能通过学习大量的数据，实现自动生成各种内容，如文本、图像、音视频等。

AGI是什么

通用人工智能，指机器能够完成人类能完成的任何智力任务的能力，甚至超过人类，目前处于理论阶段。

AIGC与大模型的关系是什么呢？

二、大模型分类

按照输入类型分类：

1.大语言模型（NLP）：

处理文本数据和自然语言，如文本生成、问答系统、语音转文字、情感分析、机器翻译等；

应用例如：GPT系列chatGPT（OpenAI）、Bard（Google）、文心一言（百度）；

2.视觉大模型（CV）：

用于图像处理和分析，如图像分类、图像生成、目标检测、医学图像分析等；

应用例如：VIT系列（Google）、文心UFO、华为盘古CV、INTERN（商汤）；

3.多模态大模型：

能处理多种不同类型数据，如文本、图片、音视频等；

应用例如：DingoDB多模向量数据库（九章云极DataCanvas）、DALL-E（OpenAI）、悟空画画（华为）、midjourney。

三、语言大模型

初识语言大模型

这里着重介绍大语言模型（NLP），查阅大语言模型相关资料时，经常看到NLP、LLM、GPT、ChatGPT、Transformer……这些都是什么呢，之间又存在什么关系呢？

NLP自然语言处理，是人工智能领域的一个分支，是一种学科/应用领域。而LLM大型语言模型，是NLP领域中的一种特定类型的语言模型，是指一个广泛的分类，涵盖了所有使用大量数据进行训练的、能够处理和生成自然语言的AI模型。而GPT是这一类模型中的一个特定例子，是LLM的一种实现，通过海量数据训练的深度学习模型，能够识别人的语言、执行语言类任务，并拥有大量参数。它使用Transformer架构，并通过大规模的预训练，学习语言的模式和结构；ChatGPT则是基于这些内容而实现出来供我们使用的产品。

1.基于以上的了解，可将LLM、GPT、Transformer、ChatGPT的关系用下图表示：

Transformer是基础架构，LLM是建立在这种架构上的一类复杂系统，GPT是LLM中的一种特定实现，并通过大量的预训练，获得了强大的语言处理能力。而已发布的ChatGPT使用了GPT技术进行了产品的呈现。

2.为了更好理解LLM、GPT、Transformer三者的关系，我们可将他比作建筑的不同部分：

1）Transformer：基础结构

将其想象为一座大楼的框架，Transformer提供了基本的支撑和形状，里面详细设计为空，决定了建筑的整体设计和功能；

2）LLM：整体建筑

可理解为是建立在前面框架上的整体建筑，不仅有框架（即Transformer架构），还包含了房间、电梯、装饰等，使建筑完整，功能丰富；

3）GPT：特定类型的建筑

可被视为大型建筑中的一种特定类型，如一座特别的摩天大楼，他不仅使用了Transformer架构，还通过特定的方式进行了设计和优化（即大规模预训练），以实现特定的功能，如高效的文本生成和语言理解。

语言大模型原理

基本关系如下：

其构建过程简单描述可以为：

数据预处理（如数据清洗等）➡️ 模型结构设计（Transformer架构）➡️ 模型训练 ➡️ 模型部署

1.模型结构：

为解析句子，预测下一个单词；

LLM模型主要用到了Transformer架构，语言大模型中设置了多层规则，为从不同的角度理解与分析句子，试图预测下一个将要出现的单词；

简单分层来说：

第一层规则：理解句子中的单词或短语的含义；

第二层规则：理解句子之间是怎样关联的；

第三层规则：从前面的句子内容，来理解下个句子；

2.模型训练：

用海量数据训练模型，提高语言的准确度；

下文会举例GPT的训练过程，此处不做赘述。

核心Transformer

语言大模型的核心是Transformer，是基于注意力机制的深度学习模型（神经网络架构），用于处理序列到序列的任务。简单来说，就是捕捉句子中不同位置的词之间的关系，用于如理解上下文信息、生成连贯逻辑一致的文本等，且能高效并行计算。

1.Transformer主要核心结构如下：

Transformer内部有多个编码器、解码器堆叠；

编码器：主要捕捉输入序列中的信息并建模特征；

解码器：主要生成输出序列；

编码器/解码器堆叠的作用：增加模型性能，有助于处理复杂的输入输出关系。

下面我们深入了解一下Transformer架构：

1）其核心组成部分包含：

i.编码器：

由多个编码器层堆叠而成，内部包含多头自注意力机制+前馈神经网络，整体主要作用是捕捉输入序列的上下文信息，并生成一系列编码向量；

ii.解码器：

由多个解码器层堆叠而成，内部包含带掩码的多头自注意力机制+编码器到解码器的多头注意力机制（常称为编码器-解码器注意力）+前馈神经网络，整体主要作用是利用编码器的输出生成输出序列。

iii.嵌入层：

将输入序列中的词转换为用向量表示（即词向量），以便模型能够处理；

词向量：

将单词转换为向量，或者说将语言的基本单位转换为数字组合（如将英文单词转换为一串数字，让计算机可识别），核心思想是具有相似语意的词在向量空间中更接近；

向量：表示具有大小和方向的量，如在直角坐标系中（x,y）、在三维空间表示为（x,y,z）；

iv.位置编码：

把表示各个词本文顺序的向量和上一步得到的词向量相加；

由于Transformer并行处理输入序列中的所有单词，所以不知道输入序列的顺序信息，因此需要生成每个单词在序列中的位置信息；

2）主要涉及的工作原理：

i.自注意力机制：

允许模型在处理每个单词时关注输入序列中的其他单词，这种机制能给每个词分配一个权重，计算当前词与其他所有词之间的相关性；

作用：理解上下文和语言流的关键（捕捉序列数据中的依赖关系）；

ii.多头自注意力机制：

将输入序列分成多个头，并对每个头进行自注意力计算，然后将多个头的结果拼接在一起，最终通过线性变化得到输出。简单的说，每个注意头专注于句子中的某个特定关系（如某一个单头自注意力只关注主谓关系、另一个单头自注意力只关注形容词与名词的关系等），使模型能够从不同角度或多个层面捕捉语意信息；

作用：生成更准确的表示，提高了对复杂关系的建模能力；

iii.前馈神经网络：

在每个编码器与解码器层中，还包括一个位置独立的前馈神经网络，由两个线性层和一个激活函数（通常为ReLu）组成；

作用：对自注意力层的输出进行进一步的非线性变换，强化位置的表示/提取更复杂的特征，增强模型的表达能力；

2.基于以上的了解，我们来补全一下Transformer的内部结构如下：

1）编码器及其输入/出部分：

i.输入：原始的海量数据

ii.嵌入层、位置编码：对原始输入数据进行处理

作用：将输入的词转化为向量，并加上位置信息，供编码器使用

iii.编码器内部：

多头自注意力：捕捉原始序列信息

前馈神经网络：增强模型表达能力

iv：输出：包含了原始输入信息的上下文信息与位置信息的向量序列，是后续解码过程的基础

2）解码器及其输入/出部分：

i.输入：分为2大部分

·解码器自身的输入：

·开始符号：表示输出序列的开头（作用：告诉解码器开始生成目标序列）

·先前生成的词：指开始后，前一个时间步解码器的输出，也作为输入（作用：为下一步掩码多头自注意力机制提供实际内容，如上下文信息、位置信息等）

前一时间步：指在时间序列或序列数据中，当前元素（词、字符或时间点的数据）之前的那个元素或时间点

·编码器的输出：

编码器的输出作为解码器的输入（作用：编码器的输出综合了原始序列位置与上下文信息，来指导解码过程的注意力分配）

ii.嵌入层、位置编码：仅对解码器“先前生成的词”进行处理

作用：将输入的词转化为向量，并加上位置信息，供解码器中的多头自注意力机制使用

iii.解码器内部：

·多头自注意力机制：详指带掩码的多头自注意力机制，针对已生成的输出序列（指前面说的“先前生成的词”被嵌入层与位置编码处理后的）进行处理，（作用：防止未来的信息被利用，维护序列生成的因果顺序，确保模型生成目标序列时的连贯性与一致性）

（详细说明：和编码器中的有点不同，编码器中的会关注序列里所有其他词，但解码器中的只会关注当前词和它前面的其他词，后面的词会被遮住，确保解码器生成文本时，遵循正确的时间顺序）

·编码-解码注意力机制：捕捉编码器的输出与解码器即将生成的输出序列之间的复杂依赖关系，从而将原始序列的信息融合到输出序列的生成过程中（作用：有助于解码器生成准确的目标序列输出）

·前馈神经网络：增强模型表达能力

iv.输出：一步步生成一个完整的输出序列

3）线性层与Softmax函数

i.线性层（Linera）：主要用于对输入数据进行线性变换，调整数据的维度或简单的线性组合，转换维度；

ii.Softmax函数：主要用于将线性层的输出转换为词汇表的概率分布，选择最可能的输出序列（词汇表的概率分布代表下一个词（token）被生成的概率）。

线性层+softmax函数整体作用：把解码器输出的表示，转换为词汇表的概率分布（从特征空间到最终输出结果的转换），从而进行词汇预测和生成任务。

4.Transformer与其他神经网络模型的对比

1）Transformer：基于自注意力机制的模型

能够高效处理序列数据

优点：

i.并行处理能力强：可并行处理整个序列，显著提高计算效率

ii.捕捉长距离依赖关系：能直接访问序列中的任意位置，有效捕捉长距离（上下文）依赖关系

iii.通用性强：能处理复杂任务，不仅适用于自然语言领域，还适用于图像处理等其他领域的序列建模任务

缺点：

i.资源消耗大：对于长序列处理时，计算和内存资源需求较高

ii.训练数据量要求高：通常需要大量的训练数据来获得良好的性能，特别是在处理复杂任务时

2）CNNs：卷积神经网络

主要适用于图像识别任务，提取图片的空间特征（图片中各部分之间的空间布局和相对位置，如连接、包含等关系）

优点：

i.空间特征提取能力强：无论图像如何移动，都能提取到相同的特征；

ii.参数共享和局部链接：减少模型参数数量，降低计算成本；

缺点：

i.无法处理序列数据：不适合捕捉长序列内的依赖关系；

ii.平移不变性：可能导致某些任务表现不佳

3）RNNs：循环神经网络

主要用于处理序列数据，能够捕捉数据中的时间依赖关系，适合处理如时间序列数据（如近3个月的股票价格数据、近一周的气温数据）；

优点：

i.处理序列数据：擅长处理具有时间关系的序列数据，如文本、语音

ii.参数共享：在时间步上参数共享，减少了模型的参数数量

iii.短期记忆：能够记住短句子中前面的信息，理解上下文依赖关系

缺点：

i.长依赖问题：难以捕捉到远距离的时间依赖关系，如长句子中距离远的词，依赖关系无法捕捉；

ii.计算效率低：难以并行计算，导致训练速度较慢；

4）LSTM：是RNN的一种变体，长短期记忆网络

适合处理时间相关性较强的短序列数据；

优点：

i.处理长期依赖：有效处理序列处理中的长期依赖关系

ii.梯度问题：相比RNN，LSTM更好的解决了梯度消失/梯度爆炸的问题

缺点：

i.训练时间长：计算复杂度高，且难以并行

ii.资源消耗大：随着序列长度的增加，训练难度与资源消耗也会增加

5.应用现状

在Transformer原始架构的基础上后续出现了变种：

主要分为3类：

1）仅编码器：如 Bert，适用于理解语言的任务，如掩码语言建模（让模型猜被遮住的词是什么）、情感分析（让模型猜文本情感是积极还是消极）等

2）仅解码器：如GPT系列（ChatGPT），擅长通过预测下一个词，来实现文本生成等

3）编码器+解码器：如T5、BART，适用于把一个序列转换成另一个序列的任务，如翻译、总结等

语言大模型训练过程

接下来我们用ChatGPT举例，来了解一下大模型的训练过程如下：

1.其中“无监督预训练”阶段是整个模型训练的核心部分，基于Transformer架构的GPT模型，作为预训练模型。这一步骤是整个训练过程中，最耗时、耗力、烧钱的环节。

过程是通过对海量数据的学习，自行学习人类语言的语法、语意，了解表达结构和模式。

这步训练后，会得到一个基座模型，可进行文本生成，模仿上文生成更多类似的内容，并不回答你的问题，如发问“法国首都是哪里？”，他会回复“英国的首都是哪里？”。

2.为解决上一问题，会进行下一步“监督微调”。

过程是从人类撰写高质量的对话数据学习，相当于既给了模型问题，又给了模型我们人类中意的答案，对基座模型进行微调，此过程不需要从海量的数据中学习了。

这步训练后，模型更加擅长对问题做出回答了，这步得到的模型一般称为SFT模型。

3.为了让模型的实力继续被提升，再进行下一步“强化学习”。

过程涉及到两部分内容：

1）训练奖励模型：使用上一步得到的SFT模型对问题生成多个对应答案，人类标记员对答案进行质量排序，基于这些数据训练出一个能对答案进行预测评分的奖励模型；

2）强化学习训练：接下来让第二步得到的基座模型（SFT）对问题生成回答，通过奖励模型给回答评分，利用评分作为反馈，进行强化学习训练。

这步训练后，模型回答的质量会进一步提升。

以上就是对AI领域部分知识的分享，希望可以帮到大家。

最后分享一个我在学习过程中脑子里冒出的奇怪问题：哈哈

本文由 @不知名产品露原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

不知名产品露

6年互联网产品人向往自由共同成长

15篇作品 33033总阅读量

以本地生活为例，看业务建模的全链路思考

10-194885 浏览

回顾2022，展望2023，关于写作、工作、学习和生活的计划

02-039352 浏览

大模型太卷，AI应用就好做吗？

12-084231 浏览

“离谱的AI扩图”火了！张张那叫一个出其不意

12-072203 浏览

网易云联合快手，在线音乐合纵连横？

01-164409 浏览

目前还没评论，等你发挥！