360周鸿祎又“开炮”：GPT 6-8就将产生自主意识！我们来测算一下对错-数据猿的专栏

360周鸿祎又“开炮”：GPT 6-8就将产生自主意识！我们来测算一下对错

2023-03-29 12:09:41栏目：默认栏目 IP属地：IP未知

近日，360的周鸿祎放言“GPT6到GPT8人工智能将会产生意识，变成新的物种。未来，人工智能大语言模型有可能实现自我进化，自动更新系统和自我升级，或者指数级进化能力，人类将会面临不可预知的安全挑战。”

虽然360每况愈下，但周鸿祎作为“风口达人”，几乎每个风口都要掺和一脚。他的话有几分可信度，是要打一个大大问号的。

并且，周鸿祎只给出一个预测，但却没有给出自己的理由和推理逻辑。

作为主打行业深度的媒体，我们不能停留在标题党式的口号上，而要从更深层次来分析问题。

GPT会成长为一个通用人工智能模型么？如果会，这个过程可能需要多久时间？接下来，我们试图一起来探讨这个让人不安的问题。

要回答这个问题，我们就需要将GPT这类大模型“拆”开来，看看它内部是什么构造，是如何工作的。

“拆开”大模型的黑箱

大模型是指参数数量非常大的神经网络模型，通常用于处理复杂的自然语言处理、图像识别、语音识别等任务。大模型的核心要素主要是神经网络、层、神经元和参数。

数据猿制图

神经网络

神经网络是一种机器学习算法，它的灵感来源于人脑的神经系统。它由多个层组成，每个层都包含多个神经元，层之间的连接形成了神经网络。每个神经元都接收来自上一层神经元的输入，并根据其输入计算出输出，然后将其传递给下一层。

层

层是神经网络的组成部分，由多个神经元组成。每个层可以使用不同的激活函数、优化器等参数进行配置。通常，每一层都会对输入进行一些变换，然后将输出传递给下一层。常见的层包括全连接层、卷积层、池化层等，划分不同类型的层的依据主要是处理的数据类型、层的内部结构、层的功能等。比如，全连接层是神经网络中最简单的一种层，也是最常用的一种层。其核心功能是将上一层的所有神经元与本层的所有神经元相连接。这种连接方式允许神经网络学习到输入数据的复杂非线性关系。全连接层通常用于图像分类、语音识别、自然语言处理等任务；卷积层是卷积神经网络（CNN）中的核心层，用于处理具有空间结构的数据，例如图像。其核心功能是通过一组可学习的卷积核在输入数据上进行卷积操作，以提取输入数据的特征。卷积层的内部结构包括多个卷积核和一个偏置项，卷积层的输出通常被输入到池化层中。

神经元

神经元是神经网络中的基本单元，其主要功能是接受来自输入层或前一层神经元的信号，并产生输出信号。神经元的输入通过一组带权重的连接进行传输，并在神经元中被加权求和。然后，这个总和被输入到激活函数中进行非线性变换，产生神经元的输出。

神经元的核心是激活函数，激活函数是神经元处理输入信号的核心组成部分。神经元接收输入信号并对其进行加权求和，然后将其输入到激活函数中进行非线性变换。激活函数的作用是为神经元引入非线性因素，使神经元能够学习到非线性的模型，从而提高模型的表达能力。

参数

参数是指神经网络中的变量，它们会随着神经网络的训练而更新。每个神经元都有一个权重向量和一个偏置项，这些权重和偏置项通常被称为参数。这些参数的值在训练期间会被优化器更新，以使得神经网络的输出尽可能接近期望输出。

综上，神经元是层的组成部分，而层是神经网络的组成部分。参数被存储在神经元中，每个神经元都有一组参数（权重和偏置项）。在训练过程中，优化器会更新这些参数，以使得神经网络的输出尽可能接近期望输出。

那么，神经网络、层、神经元、参数是怎么系统工作的呢？

接下来，我们以GPT-4的训练过程为例，来说明大模型训练过程中不同元素的协同配合过程，具体来看：

1) 首先，随机初始化 GPT-4 模型的所有参数，包括神经网络中每个神经元的权重和偏差等。

2) 准备数据集，这些数据可以是经过标记的文本，如新闻文章、小说、论文、社交媒体帖子等。在训练之前，必须对数据进行预处理和清理，例如删除特殊字符、停用词和其他无关信息。

3) 训练数据会被划分成多个小批次（batch），通常每批次包含几百到几千个文本样本。将每个批次输入 GPT-4 模型中，模型将根据当前的参数计算输出，即预测下一个词的概率分布。

4) 计算模型的损失函数（loss function），损失函数可以反映模型在训练集上的性能。在语言模型的情况下，通常使用交叉熵作为损失函数。

5) 根据反向传播算法（backpropagation algorithm）计算参数的梯度，梯度反映了模型在某一点上的损失函数的变化率。然后使用优化器（optimizer）更新模型的参数，以减少损失函数。

6) 重复步骤 3-5 直到模型的性能达到预期或训练时间耗尽。

跟人脑有几分相似

从上面的分析可以看到，大模型是在尽力的去模拟人脑的工作机理。事实上，目前人类是唯一有智能的生物，要想大模型也有像人类一样的智能，“仿生”是最好的办法。

接下来，我们先简单梳理一下人脑的结构和人脑的工作机理，然后将大模型的结构、工作机理与人脑进行对比。

先来看看人类大脑的结构。

人的大脑是由数百亿个神经元组成的一个神经网络系统，神经元是神经网络的基本单元。每个神经元之间通过突触相互连接，这些突触是神经元之间传递信息的基本通道。

神经元的核心功能是接收、处理和传递信息。一个神经元通常由三部分组成：细胞体、树突和轴突。神经元接收来自其他神经元的信号通过树突传入细胞体，细胞体对这些信号进行处理，并产生输出信号，输出信号通过轴突传递给其他神经元。

神经元之间的连接通常是通过突触来实现的。突触分为化学突触和电突触两种。化学突触是通过神经递质来传递信号的，电突触则是直接通过电信号来传递信息。

人的大脑由大量神经元和突触组成，这些神经元和突触按照特定的规律连接在一起，形成不同的神经回路和神经网络。这些神经回路和神经网络共同协作，完成人体各种复杂的认知、感知、情感和行为等活动。

通过上面的分析，我们可以将人脑与大模型的各个元素来做个类比，如下表：

大模型中的层可以类比于人脑中的皮层。大模型的层是由若干个神经元组成的，每个神经元接收上一层的输出作为输入，并通过激活函数进行计算，产生本层的输出。而人脑皮层则是由神经元和突触组成的复杂网络，其中每个神经元也接收其他神经元的输出作为输入，并通过化学信号在突触处进行信息传递和处理。

大模型的神经元可以类比于人脑中的神经元，它们是网络中的基本计算单元，接收输入信号，并通过激活函数对其进行处理，产生输出信号。人脑神经元则是生物体中的基本计算单元，通过突触连接其他神经元，接收来自其他神经元的化学信号，并通过电信号产生输出信号。

大模型的参数可以类比于人脑中的突触权重，它们决定了神经元之间信息传递的强度和方式。人脑中的突触权重也起到类似的作用，它们决定了神经元之间的连接强度和突触处的信号传递方式。

大模型与人脑的定量对比

上面只是从定性角度，搞清楚的大模型、人脑的工作机理，并对他们核心元素做了类比。

量变引起质变，即使是结构上类似，但数量的差异，往往会导致巨大的不同。

接下来，我们来从数量角度，来对大模型和人脑进行对比。

下面是GPT-1到GPT-3.5模型的神经层总数、参数总量的近似值（没有披露神经元数量，GPT-4没有披露相关数据）：

然后，我们来看看人类大脑的神经元和突触数量。为了让结果更有参考性，除了人类，我们还选取了猴子、海豚、猫、蚂蚁。具体结果如下表：

通过上面的分析我们知道，大模型的神经元可以类别人类的神经元，大模型的参数类别人脑的突触。但可惜业界的大模型很少披露神经元数量，一般披露参数规模。因此，我们将GPT系列大模型的参数规模，与人类、猴子、海豚、猫大脑的突触规模来进行比较：

从上表可知，单从数量规模来看，GPT-3.5的“智能”水平已经落在猴子的智力区间，离人类的智力水平还差285.7-2857倍。

另一方面，从GPT本身的演进速度来看，其前两次迭代过程，每次参数规模都能提升两个数量级，但GPT-3之后，参数规模提升的速度大幅度降低。假设以后每次迭代，GPT的参数规模增加5倍，那么迭代5次之后（5的5次方是3125），即到GPT-9，其“智力水平”也许可以赶上人类。

当然，以上的推论只是一个简单的模型，并有一个假设前提——智力水平跟突触（参数）规模正相关。但这个假设能否成立是需要打一个大大的问号的。

相对于突触，神经元才是度量智力水平更好的指标。从目前情况来看，大模型的激活函数，其信息处理能力是要远远弱于人脑神经元的。大模型神经元的激活函数较为简单，例如，Sigmoid激活函数的神经元在输出范围上具有较平滑的S形曲线，可以实现二元分类等任务，ReLU激活函数的神经元具有非线性的修正线性性质等。相对而言，人脑的神经元却是一个生物细胞，其信息处理能力肯定要远远超出一个简单的数学函数的。因此，即使大模型的神经元在数量上赶上人脑水平，达到上千亿规模（对应的参数规模超过1000万亿），其智力水平也无法跟人脑相比。

此外，大模型的神经网络可以类比于人脑的神经网络，但是它们的实现方式完全不同。大模型的神经网络是通过数学模型来模拟神经元之间的连接和信息传递，而人脑神经网络则是由神经元、突触等生物元素组成的复杂结构。另外，人脑神经网络中神经元之间的连接是非常复杂的，它们可以自由地建立、拆除和调整连接，而大模型的神经网络则是事先设定好的。

目前来看，人类还是比较“安全的”。但是，我们不要忘了，人脑的神经元规模几乎是不变的，而大模型的神经元、参数规模却在指数级的递增。按照这样的趋势，大模型的智能水平追上人类可能只是一个时间问题。

人工智能领域的大神级人物Hinton就表示，“通用人工智能的发展比人们想象的要快得多。直到不久前，我还以为大概需要20-50年，我们才能实现通用人工智能。而现在，通用人工智能的实现可能需要20年或更短的时间。”

面对通用人工智能甚至超级人工智能，人类的心理是复杂的。一方面，希望有更智能的系统来帮助人类完成更多的工作，解放生产力；另一方面，又怕打开了潘多拉魔盒，放出一个比核武器还恐怖的怪物。

但愿，即使我们造出了一个“神”，也是充满爱的神，而不是一个将人类视为蝼蚁的神！

文：一蓑烟雨 / 数据猿