大语言模型科普：涌现

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

一直产品汪

2023-06-06

0 评论 5307 浏览 10 收藏

19 分钟

提到大语言模型，大家都能够联想到一个突出能力，那就是涌现能力。那么涌现能力是什么？我们该如何理解涌现？本文针对该现象展开分析，为你科普大语言模型的涌现，希望对你有所帮助。

我喜欢简单的快乐，那是复杂最后的避难所。——奥斯卡·怀尔德

提到大语言模型，经常会听到其一个突出的能力：涌现能力。那么涌现能力是什么呢？想要深入了解涌现能力的读者，建议仔细阅读此文。

我们先来看一下涌现的定义：

一个系统所表现出来的特性与它的组成个体简单相加所表现出的特性存在很大不同，这一整体的系统行为被称作“涌现行为”。

提取定义中的关键字：系统、个体、特性、简单相加、不同。

单看定义，涌现的含义似乎仍如雾里看花，看得不是那么真切。也有人套用“量变引起质变”解释涌现能力。道理上讲没错，但是对于清晰理解涌现似乎帮助也不大。

涌现是复杂科学中一个非常重要的概念。根据笔者的了解到的情况，只能非常抱歉地告诉各位：以人类目前的知识和认知水平，还无法定量解释涌现现象。

复杂科学本身就太复杂了（不然为什么叫复杂科学呢），而且涌现现象也太常见了，信息科学、神经学、生态学、经济学、社会学等各个研究领域都存在大量的涌现现象。

那么该怎么理解涌现呢？

既然不能定量分析，那咱们就只能定性分析。演绎法行不通，咱们就尝试归纳法。

一、蜂群的涌现行为

蜜蜂是一种神经系统非常简单的生物。

著名的动物学教授、诺贝尔奖得主弗里施教授发现：蜜蜂可以通过一种叫“八字舞”的舞蹈来相互交流信息。当一只小蜜蜂在外面发现食物，例如一大片开得正盛的花海，它会兴奋地飞回蜂巢，给同伴们表演一段热情洋溢的舞蹈。这段舞蹈的飞行路径就像阿拉伯数字“8”那样，包含一个来回摇摆和一个回头的动作。通过舞蹈的长度和频率，蜜蜂能精确地告诉同伴食物的具体位置和距离。举例来说，它摇起臀部的时间越长，代表食物距离就越远。

更神奇的是，其他蜜蜂看到这段舞蹈之后，就能解码出信息，然后按照提供的地址找到那片花海盛宴。这就是大自然的奇妙算法：每只蜜蜂的智力或许不高，但通过这种特定的交流方式，整个蜂群就能发挥出强大的“集体智慧”。

蜜蜂不仅会跳舞，还有一手避暑御寒的本事。蜜蜂要繁衍下一代，就必须在狭小的蜂巢里维持一个适宜的温度。当蜂巢太冷的时候，蜜蜂们会紧紧挤在一起，疯狂振翅以增加温度。当蜂巢太热的时候，蜜蜂们则会散开，扇动翅膀给蜂巢降温。

有意思的是，每只蜜蜂开始升温或降温翅膀的温度临界点，取决于它们的遗传特征。也就是说，那些基因相近的蜜蜂，会在温度低于某个点时觉得冷，聚集在一起“抱团取暖”。同样，当温度高于这个点时，它们也会因为“热得慌”而散开，扇动翅膀给蜂巢降温。

要理解这种现象，我们不能简单地把蜜蜂群看成一群个体。实际上，蜜蜂群是一个复杂的系统，每只蜜蜂都扮演着系统维持稳定的重要角色。虽然每只蜜蜂的行为都有差异，但通过相互协调，它们最终达成了群体目标——维持蜂巢的温度在最适宜的范围内。

这种自组织的集体智慧实在太神奇了。“一支蜜蜂哪里抵挡得了寒风”，但当蜜蜂聚集在一起就足以抵挡气温变化带来的威胁。

二、蚁群的涌现行为

自然界中还有另外一种个体非常简单，但是群体能力非常强大的生物——蚂蚁。

蚂蚁，虽然个体行为看起来纯粹反射性地被外界条件所驱动，即几乎完全是被外界环境驱使的。但这并不代表它们就是简单的“行动机器”。实际上，蚂蚁的大部分行为都可以用几条简单规则来描述。例如：

用大颚紧紧夹住目标物；
沿着信息素的浓度上升或下降方向行进（信息素是蚂蚁用来编码信息的气味，比如“这条路有食物”或“这条路要打仗”）；
死去的蚂蚁会分泌一种激素，蚂蚁会通过气味判断同伴是否活着。

一旦蚂蚁遇到这些规则未涵盖的新环境，它们会处在极大危险中。在规则之外的环境里，大多数蚂蚁，特别是工蚁，很难存活超过几个星期。

不过，正是依靠这几条简单的行为规则，蚂蚁群体发挥出惊人的智慧。每只蚂蚁都像是一个微观的决策单元，它们相互协调、相互配合，最终汇聚成一个高效的整体。能完成非常复杂的任务，比如建造庞大的蚁穴、合作捕猎等。一个蚁群中各个成员的行为及其相互作用决定了整个蚁群的行为。然而作为一个群体，蚁群所显示出的灵活性却大大地超过了其个体成员的能力范围。蚁群可以感知并应对在很大地理范围内出现的食物、外敌、水患和很多其他现象。蚁群能够把领地延伸到很远的地方，按照有利于群体的方式来改变周围环境。蚁群的寿命一般要比其个体成员的寿命长几个数量级。

这种简单规则带来的集体智慧，让蚂蚁这种体型微小的昆虫，成为了地球上最成功的社会物种之一。它们灵活运用基本规则应对环境的变化，在漫长的演化历程中不断进化，最终在地球上得以广泛的繁衍生息。

单看每一个蜜蜂/蚂蚁个体，分析其身体结构和行为，我们绝对无法想象蜂群/蚁群能够具备上述那般复杂的群体行为。即蜂群/蚁群出现了与蜜蜂/蚂蚁个体简单相加无法得到的集体智慧，这种集体智慧就是一种涌现能力。

生命游戏的涌现行为：

康韦（Conway）的生命游戏:在该游戏中，系统在两维网格中以步调一致的方式运转，其中每个细胞要么是死的要么就是活的。其规则如下：

刚好具有三个“活”邻居的“死”细胞将被“复活”，在下一个阶段变成一个有活力的细胞，否则的话，它仍然是死的。
拥有两到三个生动活泼邻居的活细胞能“存活”到下一个阶段；否则，它就会消失（要么出于“孤单”，要么由于“过度拥挤”）。

总体来说，该系统中一个拥有中间数量（邻居生命）的生命将得以延续（一个正向反馈），然而过多或过少的邻居生命将导致死亡（一个负向反馈）。

通过上述的简单规则，在不同的初始状态下，能够将产生一系列在时空上都显著的全局模式，这些全局模式由一系列简单的微观规则所涌现。

比如：生命游戏中的一个滑翔机是一个贯穿于整个空间的活细胞的布局配置。在每一个连续的时间步长（从左到右），一系列活细胞基于简单的、局部的游戏规则而改变。在四个时间步长以后，重新出现了活细胞的初始配置，仅仅向右下移动了一个细胞的位置。如果左边部分没有受到干扰，该结构就会继续“滑翔”穿越整个空间。

还有更多神奇的生命游戏模式，感兴趣的读者不妨自行搜索，感受一下生命游戏“涌现”出的魅力。

三、简单的涌现行为探索

我们还可以设定一些更简单的规则，方便我们观察涌现行为。

8.1表是这样一个映射：将每个可能的输入状态映射到某个输出状态。这个规则表的第一行（状态0）规定，如果一个主体及其两个邻居在上一次采取的行动都是0，那么该主体在下一个时期也将采取行动0。下一行（状态1）表明如果目标主体和它左边的邻居上一次采取的行动是0，右边的邻居采取的行动是1，那么该主体将采取行动1，等等。

取20个以环形前后相邻的数字，即将20个数字首尾相连，这样每个数字左右都有一个邻居，可以根据邻居和自己当前的状态决定下一个状态。

这个简单规则导致了一些有趣的系统行为。正如可从表8.2看到的，在整个图表中涌现出了“由0组成的向下的三角形”这种一致的宏观结构。这些三角形态的规模远远超出了行为规则的规模。因此，即使个体行为只是基于从三个位置上所观察到的行动而决定，涌现出来的一致的三角形结构所包含的位置却远多于三个（例如，在时间步12开始形成的一个三角形，它的底边跨越了20个位置中的13个）。

这不由得让人想到了亚当·斯密的看不见的手，系统中主体的行动就好像正被某种看不见的力量协调着一样，创造出超出任何个体意图的模式。

四、语言模型的涌现

大型语言模型的发展历程并不完全一帆风顺。

回顾深度学习发展的前10年,模型的性能提高主要依赖于网络结构的变革。由于“模型尺寸呈指数增长，性能只会线性增加”的语言模型的缩放定律的现象，研究人员发现,即便是最大的GPT-3模型，在有提示的情况下，其性能也不不如精心调教的小模型。同时超大的网络规模极大增加训练所需数据量、训练和推理成本。

所以，当时并没有必要铤而走险，投入大量资源去训练一个“庞然大物”。

然而，随着神经网络设计技术的日臻成熟，要仅通过优化网络结构来获得显著性能提高已然困难重重。近年来，着计算机算力的提高和数据集规模的扩大，研究者开始把目光转向模型规模的扩张。实验结果显示。

一旦模型大小达到某个“临界质量”，其性能提高将远超比例关系，呈现出量变引发的质变。简而言之，当模型的参数数量超过某个阈值，它会突然展现出远超小模型的强大能力。这就催生了大规模预训练语言模型的蓬勃发展，尤其在自然语言处理领域。

大语言模型的参数规模有多快呢？我们不妨来看一下有网友统计的大语言模型的参数量。据说现在功能最强大的大语言模型GPT-4的参数规模已经超过了万亿，短短4、5年的时间就增长了超100倍。

大语言模型为什么能力这么强大？本质的原因在于超大规模的参数。每个神经网络单元都有简单、可描述的运算规则，然而大量的神经网络单元连接在一起，就涌现出组成其的神经网络单元、层所不具备的能力。

那么为什么是语言模型的规模会出现暴涨，并且受到业内乃至社会的广泛关注呢？

笔者认为原因之一如下：语言是人类最基本的符号系统之一。它是人们传递和交流信息的主要方式之一。语言不仅是人们交流的工具，还是人们认知的基础。语言推动认知的发展和变化，影响人们对自身、社会和世界的看法和理解。语言可以使人们意识到自己认知的差异，这种差异又反过来影响了语言本身的使用。

有许多研究都表明语言是人类理解世界的基础。例如，心理语言学家和神经语言学家发现，语言理解和产生的大脑机制涉及到一些基本的认知过程和神经网络。这些过程和网络在与语言无关的认知任务中也会被使用，例如视觉感知和决策制定。此外，发展心理学家和认知科学家也发现，婴幼儿通过语言来理解世界，而不会像成年人那样依赖语言来思考和感知。

因此大语言模型是一种对人类认知世界基础方式的一种颠覆性技术，受到广泛关注和具备巨大的应用前景也就不足为奇了。