被低估20年，今成ChatGPT核心：反向传播算法的逆袭传奇

2026-06-21 16:15:30未知作者:徽声在线

来源：徽声在线

（来源：图灵人工智能）

在人工智能波澜壮阔的发展历程中，如果要评选出最具传奇色彩、最被低估且最终实现华丽逆袭的算法，反向传播算法无疑会占据一席之地。

反向传播，英文全称Backpropagation，简称Backprop，它的故事充满了曲折与坚持。

2024年10月，诺贝尔物理学奖的殊荣降临到了辛顿（Geoffrey Hinton）身上。颁奖委员会高度评价他的工作，称其为“为今天的机器学习革命奠定了基础”。消息一经公布，全球AI圈瞬间沸腾，各种讨论和刷屏铺天盖地。

然而，鲜为人知的是，辛顿最重要的贡献之一，是一个早在1986年就发表的算法。这个算法在诞生之初，并未得到主流学术界的认可，反而被冷落了将近二十年。在那漫长的岁月里，质疑声此起彼伏，很多人断言这条路走不通。但辛顿却凭借着坚定的信念和顽强的毅力，独自撑过了那段艰难的时光。

如今，我们每天都在使用的ChatGPT、Claude、DeepSeek等先进的人工智能工具，它们的背后都离不开神经网络和模型训练。而每一次神经网络的运行和模型训练，都依赖于反向传播算法。可以说，反向传播算法是这些人工智能工具的核心支撑。

那么，究竟什么是反向传播算法呢？要理解它，我们首先需要了解神经网络是如何“学习”的。

一个神经网络就像是一个复杂的学习系统，里面包含着成千上万个参数。我们可以把每个参数想象成一个可以调节的旋钮。当这些旋钮处于不同的位置时，神经网络对同一张图片或同一段文字的判断结果也会有所不同。

训练神经网络的目标，就是找到所有旋钮的最佳位置，让网络能够准确地识别和判断。比如，当看到猫的图片时，网络能准确地说出“这是猫”；看到狗的图片时，能准确地说出“这是狗”。

在神经网络中，像8组多头注意力的权重矩阵（Wq、Wk、Wv），每一层前馈网络把向量从512维升到2048维再压回来所用的系数，以及6层Encoder、6层Decoder中每一层的参数等，都可以看作是这些旋钮。以GPT - 3为例，它拥有1750亿个参数，也就是1750亿个需要调整的旋钮，每一个都需要被调到正确的位置，才能让网络发挥出最佳性能。

然而，一个稍微复杂点的神经网络，旋钮数量轻松就能达到几百万个。面对如此庞大的参数数量，我们该如何知道每个旋钮该往哪个方向拧，拧多少呢？靠猜测显然是不现实的，因为参数数量太多，猜测的结果毫无准确性可言；而靠穷举的方法，更是天方夜谭，因为参数的组合数量呈指数级增长，穷举所需要的时间和计算资源是难以想象的。

这就是反向传播算法要解决的关键问题。为了更好地理解反向传播算法的起源，我们需要回到1943年。那一年，神经科学家麦卡洛克和数学家皮茨发表了一篇具有开创性的论文。他们在论文中提出，人类大脑里的神经元，其实可以用数学来模拟。具体来说，一个神经元接收信号，当信号超过某个阈值时，神经元就会被激活，并将信号传递给下一个神经元。这个大胆的想法震惊了整个学术界，让人们第一次意识到，“思维”这件事也许真的可以用机器来实现。

到了1950年代，感知机应运而生。这是最早的“神经网络”模型，不过它结构非常简单，只有一层，只能完成一些最简单的分类任务。尽管如此，感知机的出现还是让整个学界为之振奋，许多人乐观地预测，再过十年，机器就能模拟人类大脑了。然而，现实却给了他们沉重的一击。

1969年，明斯基（Minsky）和帕伯特（Papert）出版了一本书，他们用严谨的数学证明，单层感知机连“异或”这种最简单的逻辑运算都无法完成。这一结论如同一盆冷水，狠狠地浇灭了整个领域的热情，也标志着第一次AI寒冬的开始。在那个时期，神经网络的研究陷入了低谷，发展几乎停滞不前。

但辛顿却在这个寒冬中毅然决然地投身到了神经网络的研究中。1970年代，他在剑桥大学攻读心理学，后来逐渐将研究兴趣转向了AI。当时，几乎没有人愿意研究神经网络，因为主流的学术界都在热衷于搞“符号AI”，即用规则、逻辑和人类编写的知识库来实现智能。在他们看来，神经网络是一条死路，没有发展前景。但辛顿却不这么认为，他凭借着自己敏锐的直觉，坚信大脑不是靠规则运转的，而是靠神经元之间的连接、权重以及经验学习出来的。他决心找到一种方法，让多层的神经网络也能够像人类大脑一样学习。

然而，辛顿在研究过程中遇到了一个巨大的难题：如何告诉神经网络里每一层、每一个神经元，它在这次错误中要负多少责任。这个问题之所以困难，是因为神经网络是分层的结构。输入信息从输入层进入，经过一层一层的神经元处理，最后从输出层输出结果。当结果出来后，我们可以与标准答案进行对比，知道整体错了多少。但是，具体是哪一层的哪个神经元出了问题，却没有直接的答案。这就好比一家公司今年亏损了，我们知道总亏损金额，但却不知道是销售部门、产品部门还是财务部门的问题，责任难以划分。

直到1986年，辛顿和两位合作者鲁梅尔哈特（Rumelhart）、威廉姆斯（Williams）发表了一篇具有里程碑意义的论文，题目为“Learning representations by back - propagating errors”，即“通过反向传播误差来学习表示”。这篇论文的核心思想就藏在题目中。

既然误差是从最后一层产生的，那就把误差从最后一层往回传。一层一层地往回计算，每一层都分到自己应该承担的那一份责任。然后，每个旋钮根据自己分到的责任，微微调整一下方向。这个过程需要重复几万次、几十万次甚至几百万次，神经网络才能逐渐学会正确的判断和识别。

为了更好地理解反向传播算法的工作过程，我们用一个具体的例子来说明。假设神经网络的任务是判断一张图片里是不是猫。

当网络看了一张猫的图片后，输出了0.2。这意味着网络认为这张图片是猫的概率只有20%。但正确答案是1，也就是这张图片肯定是猫，概率应该是100%。那么，误差就是0.8。显然，网络的方向判断错了，而且错得很多。

反向传播算法的工作过程可以分为三个步骤。第一步是正向传播。图片从输入层进入神经网络，经过一层一层的神经元处理，最后到达输出层，得到0.2这个结果。这是信息从前往后流动的过程。第二步是计算误差。将输出结果0.2与正确答案1进行对比，得出误差为0.8。这个误差就是接下来要往回传递的信号。第三步是反向传播。误差从输出层开始，往回逐层传递。走到最后一层时，每个神经元都会分到一份误差，即“你在这次错误里贡献了多少”。这个分配过程依靠的是微积分里的“链式法则”。我们可以用前面的旋钮来进一步理解这个过程：如果某个旋钮往右拧一点，输出就会往1靠近，这说明它拧少了，下次要往右再拧一点；如果某个旋钮往右拧一点，输出反而离1更远，这说明方向拧错了，下次要往左拧。通过这种方式，每个旋钮都能得到自己的“调整方向”和“调整幅度”。这个调整的过程有一个专门的名字，叫做梯度下降（Gradient Descent）。“梯度”指的是方向，“下降”指的是让误差变小。可以想象一下，你站在一片有山有谷的地形上，蒙着眼睛，想走到最低的谷底。由于看不到全局地图，你只能感受脚下的坡度，哪边低就往哪边走一小步，走一步再感受，再走一小步。就这样一步一步地，慢慢走向谷底。而谷底就是误差最小的地方，也就是神经网络“学对了”的地方。

反向传播算法就像是那只无形的手，告诉神经网络每一步该往哪个方向走。那么，为什么这个思路在当时没有被人想到呢？其实，想到这个思路的人并不少。反向传播的数学原理早在1960年代就有人研究过了，但当时没有人觉得它有用。一方面，当时的计算机速度不够快，数据量也不够多，虽然理论上可行，但在实践中却无法运行；另一方面，主流学界也不相信这条路能够走通。因此，1986年辛顿的论文发表后，并没有立即引起轰动，他等了很久也没有等来掌声。

到了1990年代，支持向量机（SVM）出现了。这是一种更“数学”的机器学习方法，理论优雅，可解释性强，而且当时的效果也不错。于是，整个学界纷纷转向了SVM，神经网络再次被冷落。许多人直接嘲讽辛顿，说他在浪费时间，甚至有人断言神经网络永远不可能超过SVM。面对这些质疑和嘲讽，辛顿并没有放弃，他在加拿大的办公室里，带着几个学生继续坚持研究。没有大公司的资助，没有顶级期刊的热情关注，他们就这样默默地撑过了整个1990年代，撑过了2000年代的大半。

转折点出现在2012年。那一年，辛顿带着两个学生克里日夫斯基（Alex Krizhevsky）和伊利亚（Ilya Sutskever）参加了一个名为ImageNet的图像识别竞赛。他们使用的模型叫AlexNet。当比赛结果公布时，所有人都惊呆了。AlexNet的错误率比第二名低了将近11个百分点，这可不是小赢，而是绝对的碾压。这一结果彻底改变了整个计算机视觉领域的方向。AlexNet的核心就是深层神经网络加反向传播算法，这正是辛顿坚持了二十六年的研究路线。

值得一提的是，这两个学生中有一个非常了不起的人物，他就是伊利亚·苏茨克维尔。伊利亚的人生经历充满了传奇色彩。他从俄罗斯移民到以色列，又从以色列移民到加拿大。16岁那年，他转学到多伦多，在高中只读了一个月，就因为成绩太过优异被大学提前录取了。进入多伦多大学后，他听说有一位教授在研究神经网络，尽管所有人都认为那是一条死路，但伊利亚出于好奇，直接敲开了那位教授的办公室门，询问能否加入实验室。而这位教授，就是辛顿。从此，两人结下了深厚的师生情谊，一起在神经网络的研究道路上探索前行。

AlexNet取得巨大成功后，辛顿、克里日夫斯基和伊利亚三人成立了一家名为DNNresearch的公司。这家公司非常特殊，只有三个人，没有产品，没有收入，也没有任何业务。辛顿为了将公司卖出最高价，咨询了律师的意见，最终决定采用拍卖的方式。Google、微软、DeepMind等几家公司同时参与竞标，最终Google以4400万美元的价格拿下了这家三人公司。之后，伊利亚加入了Google Brain，继续在AI领域发光发热。

2015年底，一个名叫奥特曼（Sam Altman）的人萌生了创立一家公司的想法，这家公司就是后来闻名世界的OpenAI。他开出了优厚的条件，想把伊利亚从Google挖过来。伊利亚犹豫了很久，因为Google当时是全世界最好的AI研究平台，待遇优厚，资源无限。后来马斯克在采访中透露：“伊利亚来回反复了好几次，说要加入，又被DeepMind的人说服留下。就这样来回好几次，最终他决定加入OpenAI。”马斯克还强调：“伊利亚的加入，是OpenAI最终成功的关键。”加入OpenAI后，伊利亚成为了首席科学家。他提出了一个当时所有人都认为过于激进的信念：把模型做大，能力就会涌现出来。事实证明，他的想法是正确的。没有人教GPT - 3做推理，但当参数达到1750亿时，它自己学会了推理；没有人教它写代码，但它也学会了。这里我们可以提前透露一下，关于“涌现”这一神奇现象，我们会在之后的文章中详细介绍。

从GPT - 1到GPT - 2、GPT - 3、GPT - 4，一路发展下来，每一次的推进都让人惊叹不已。2022年11月，ChatGPT正式上线。它的上线引起了全球范围内的轰动，72小时内就吸引了100万用户，两个月内用户数量突破1亿，成为了人类历史上增长最快的消费级产品。而伊利亚，那个16岁在多伦多高中只读了一个月就进入大学，然后勇敢地敲开辛顿办公室门的孩子，正是ChatGPT最核心的架构师之一。他的老师辛顿，则是反向传播算法的坚定推动者，可以说反向传播算法是一切的根基。

现在，我们已经清楚地了解了反向传播算法的本质。它不仅仅是一个简单的算法，更是让所有神经网络能够“学习”的根本机制。没有反向传播算法，神经元再多，也只是一堆没有生命的数字，无法进化，无法迭代。而有了反向传播算法，每一次犯错都成为了下一次进步的基础，神经网络才能在不断的学习和调整中变得越来越强大。

那么，ChatGPT训练过程中进行了多少次反向传播呢？虽然没有公开的具体数字，但我们可以参考GPT - 3的训练情况。GPT - 3训练时处理了大约3000亿个token，每处理一批数据，就会进行一次反向传播。每次反向传播，1750亿个参数中的每一个都会被微微调整一下。我们每次与AI的对话，背后都隐藏着无数次这样的调整过程。

这里还有一个有趣的小彩蛋。反向传播这个想法，其实最早出现在1970年一位芬兰数学家林纳因马（Seppo Linnainmaa）的硕士论文中，并不是辛顿首先提出的。不过，那篇论文主要涉及数值分析，与神经网络关系不大，也没有引起太多人的关注和引用。后来，又有几个人独立发现了类似的方法，时间都早于1986年。所以严格来说，反向传播算法不是被“发明”的，而是被“发现”的，而且是被好几个人独立发现了好几次。但辛顿的真正贡献在于，他看到了反向传播算法对神经网络的巨大价值，并且花费了二十年的时间，让全世界也认识到了这一点。

2024年10月8日，凌晨两点，对于辛顿来说，这是一个终生难忘的时刻。当时，辛顿正在加州的一家酒店里睡觉，手机屏幕突然亮了起来，是一个他不认识的国际号码。他接通电话后，听到对方是瑞典口音，对方问道：“您是辛顿吗？”辛顿回答：“是的。”对方接着说：“您获得了2024年诺贝尔物理学奖。”辛顿后来回忆说，他的第一反应是：“等等，我不是做物理的。这有可能是个骗局。”他在那通电话里只说了四个字：“I'm flabbergasted.”意思是“我目瞪口呆”。

一个在90年代被人说在“浪费时间”的研究者，一个带着学生在多伦多的办公室里默默撑过整个寒冬的老头，一个从剑桥读心理学转行AI、几十年如一日默默耕耘的固执的人，接到了诺贝尔委员会的电话。他的第一反应不是喜悦，而是怀疑这是不是真的。在颁奖典礼上，有人问他对年轻研究者有什么建议。他想了想，认真地说道：“如果你有一个想法，它和所有人的想法都不一样，但你觉得它是对的，不要放弃，直到你自己弄清楚它到底哪里错了。大多数时候，你是错的。但极少数时候，你是对的。你永远不会知道哪种情况，除非你一直坚持下去。”他还幽默地说：“我很擅长忽略别人说的话。”

反向传播算法用了二十年的时间，才等到被人们相信；辛顿用了四十年的时间，才等到被世界承认。但在这个过程中，训练模型的错误一次一次地往回传，那些旋钮一点一点地被调整，从未停止过。这就是反向传播算法的故事，也是辛顿的传奇人生。

从上一篇关于transformer的文章到这篇关于反向传播算法的文章，相信你对AI又有了更深入的了解。希望这篇文章能对你有所帮助，让你在探索AI的道路上更进一步。

点击展开全文