AI绘画的发展历史（GAN、diffusion、VAE…)

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI绘画的发展历史（GAN、diffusion、VAE…)

产品萧书

2024-06-06

0 评论 5612 浏览 7 收藏

17 分钟

除了使用工具外，可能很多同学也想了解这些生图工具的原理，演进历史等，那本篇文章主要为大家介绍一下AI生图的历史以及目前部分主流的网络模型运行机制。

随着像midjourney、stable diffusion、DALL-E 这些生图模型的问世，越来越多的同学开始用上了AI生图工具，类似文章配图，文章封面这类创作场景都可以直接用AI产出的图片，可以说节省了成本的同时提供了很大的便利。

一、20世纪70年 AARON AI绘画问世

最早的AI绘画追溯到20世纪70年代，艺术家哈罗德·科恩（Harold Cohen）发明了AARON，AARON最大的一个特点就是通过机械臂输出作画的，当然这套机器的背后也是通过计算机程序围绕规则和算法驱动的，下面为大家展示一些AARON绘画的作品：

图片风格有点像我上小学那会儿学科课本上的插画样式带点抽象风格，90年代的”AARON”已经能够使用多种颜色进行绘画，并在三维空间中创作，AARON的迭代改进持续了几十年，直到今天它还仍然在创作。

2006年, 出现了一个类似ARRON的电脑绘画产品 The Painting Fool. 它是伦敦大学金史密斯学院的计算机创作学教授Colton的作品，它可以观察照片, 提取照片里的块颜色信息, 使用现实中的绘画材料如油漆, 粉彩或者和铅笔等进行创作，Painting Fool作品如下：

以上都是属于“古典”的AI绘图模型，我们现代的AI绘画属于基于深度神经网络基础上产生的，最早也要追溯到2012年吴恩达训练出的能生成“猫脸”的模型。

二、2012年模糊的猫脸

2012年，谷歌的吴恩达和Jeff Dean使用深度学习模型，基于大量猫脸图片训练出了一个能够生成模糊猫脸的模型，这标志着AI绘画的一个重要起点，他们使用了他们使用了1.6万个CPU核心和来自YouTube的一千万张猫脸图片，进行了为期3天的训练，成功训练出了一个能够生成模糊猫脸的深度神经网络模型，通过模型生成的猫脸图像参照下面这张图：

尽管生成的图像质量并不高，但这个实验标志着深度学习在图像生成领域的一个重大进步。它证明了深度学习模型能够学习到图像的复杂特征，并用于生成新的图像内容。这个实验使用了卷积神经网络（CNN），这是一种特别适用于图像识别和处理的深度学习架构。这个模型在之前的介绍GPT中的神经网络演进历史有讲到过，这篇文章就不再详细介绍了。

三、2014年生成式对抗网络（GAN）

2014年，加拿大蒙特利尔大学Ian Goodfellow等人提出的生成对抗网络算法为AI绘画带来了新的发展，它本质上是通过生成器和判别器的对抗过程来生成图像，下面详细介绍它的训练原理：

上述图中有两个模型：生成器和判别器，这两个模型分别都有一个目标，对于生成器来说，它的目的是让自己生成的图能够骗过判别器，让它认为这张图就是原始数据库中的真实图片而非模型生成的，这种情况下输出结果越趋近于1（1为真）就能说明生成模型效果越好；对于判断器来说，它的目的是有效地辨别出生成器生成的图片，这种情况下输出结果越趋近于0（0为假）就能说明判别模型效果越好；这样的话就形成了所谓的对抗（GAN），一个想让生成结果更趋向于1，一个想让生成的结果更趋向于0，生成的结果数值会给到两个模型和训练目标比对（一个目标是0，一个目标是1）后分别进行Fine tune（优化模型参数）；那什么情况下算是训练好了呢？这里就有一个纳什均衡的概念，就是说当输出的结果无限趋近于0.5，0和1的中间值那么就算是把这个生成器训练完了。这个时候生成器生成的图片效果无限逼近于原始图了。

我们现在熟知的Midjourney底层就是基于GAN模型。

四、2015年谷歌的Deep Dream

2015年，谷歌推出了”深梦”（Deep Dream）图像生成工具，尽管它更像是一个高级滤镜，但它也标志着AI绘画技术的进步，我们可以先看一下Deep Dream生图的效果：

上面那排是原始训练的数据集，下面那排是Deep Dream 生成的像梦境般的迷幻图。

Deep Dream原理：

假设输入图像是X，这个输入图像可以是随机噪音，也可以是一个图像。把这个图像输入到卷积神经网络中，它输出的结果是各个类别的概率，这里卷积神经网络就是一个分类机器，怎样得到Deep Dream图像呢？需要指定一个标签。比如想要生成海星状的图像，就需要把目标标签指定为海星，然后通过海星和预测结果的类别之间的误差，反向传播到输入图像，去优化输入的图像X，如果优化后的X通过卷积神经网络后得到的海星标签的概率很高，那么就得到了类似海星的图像。

注意：这里调整的是输入图像的像素值而不是卷积神经网络。在Deep Dream项目中，用到的卷积神经网络的参数是固定的，调整的仅是输入的图像。

无论是14年的GAN还是15年的DeepDream都还没有实现文字->图片，直到2021年Open AI推出的生图模型DALL-E的诞生。

五、2021年 OpenAI 推出 DALL-E

DALL- E模型的革命性的意义是实现了文字->图片的生成模式，相当于用户输入prompt给DALL-E，DALL-E就能生成文字对应的图片，DALL-E截止目前已经更新到了第三个版本，每个版本使用的模型可以说差别都挺大的，这个三个版本涉及到的主要模型如下：

DALL-E 1

时间: 2021年1月

模型基础: GPT-3（Transformer） + VAE（自分编码器）

DALL-E 2

时间: 2022年4月

模型基础: CLIP（视觉语言预训练模型） + Diffusion（扩散模型）

DALL-E 3

时间: 2023年10月

模型基础：CLIP + VAE + Diffusion（扩散模型）

下面是网上找到的DALL-E2和DALL- E3的对比图：

上述涉及的模型比较多，但我们可以将其进行归类，一类是图像描述生成模型（将用户的Prompt转换成生图模型理解的描述），例如：GPT-3（Transformer）、CLIP（视觉语言预训练模型）；另外一类是图像生成，模型 VAE（自分编码器）、Diffusion（扩散模型）。那么下面我们就分别来看看这些模型的原理：

CLIP（视觉语言预训练模型）

中心思想：基于4亿个图像-文本对的数据集，自监督学习的方式实现最大化文本和图像的关联关系。

1）具体步骤为：数据集准备：收集大量的图像和文本对。这些图像和文本对可以是成对的，也可以是单独的图像或文本。理想情况下，这些数据应该涵盖广泛的类别和场景。

2）特征提取：使用预训练的卷积神经网络（CNN）作为图像编码器，从图像中提取特征。对于文本，可以使用预训练的语言模型（如BERT）来提取文本特征。

3）正负样本对：为每个图像生成正样本对（与图像匹配的文本描述）和负样本对（与图像不匹配的文本描述）。这可以通过从数据集中随机选择或使用专门的数据增强技术来实现。

4）对比学习：CLIP模型的核心是对比学习，它通过最大化正样本对之间的相似度并最小化负样本对之间的相似度来训练模型。这通常通过一个对比损失函数来实现。

5）迭代训练：重复上述步骤，直到模型在验证集上的性能不再显著提升或达到预定的迭代次数。

VAE（自分编码器）

VAE（自分编码器）也是一个生图模型，我们在了解VAE（自分编码器）之前可以先了解下它的前生AE（自动编码器）

AE模型由两部分组成，编码器（Encoder）和解码器（Encoder），可以理解为是两个神经网络层，前者是将高维输入（图片）映射为低维编码（code），后者将低维编码（code）映射为高维图片。这样的架构下生成的图片效果并不是很理想，原因是过拟合，泛化性不好，下面用一个例子来解释下这个缺点：

如果我们让 AE 这套架构先去学习“新月”和“满月”两个数据，其中“新月”输出的 code=1 而满月输出的 code=10，这时候想让训练好的 AE 输出“半月”也就是 code=5，效果是不理想的，原因模型训练都是固定的输入和输出，中间没有灰度，所以为了解决这个问题，那么下面讲到的 VAE 就横空出世了。

VAE 是怎么解决 AE 的缺陷的呢，同样用“新月”“满月”的例子，如下图：

我们可以简单理解为在 AE 的基础上增加了正太函数，使得不仅仅code=1 为“新月”，code=0.9、0.8、1.1…同样具备新月的特征，同理不仅仅code=10 为“满月”，code=10.5、11、9.5…同样具备满月的特征，那当 code=5 时候就同时具备了满月和新月的特征，输出的结果就比较理想。