被低估20年,今成ChatGPT核心:反向传播算法的逆袭传奇

2026-06-21 16:15:30未知 作者:徽声在线

来源:徽声在线

(来源:图灵人工智能)

在人工智能波澜壮阔的发展历程中,如果要评选出最具传奇色彩、最被低估且最终实现华丽逆袭的算法,反向传播算法无疑会占据一席之地。

反向传播,英文全称Backpropagation,简称Backprop,它的故事充满了曲折与坚持。

2024年10月,诺贝尔物理学奖的殊荣降临到了辛顿(Geoffrey Hinton)身上。颁奖委员会高度评价他的工作,称其为“为今天的机器学习革命奠定了基础”。消息一经公布,全球AI圈瞬间沸腾,各种讨论和刷屏铺天盖地。

然而,鲜为人知的是,辛顿最重要的贡献之一,是一个早在1986年就发表的算法。这个算法在诞生之初,并未得到主流学术界的认可,反而被冷落了将近二十年。在那漫长的岁月里,质疑声此起彼伏,很多人断言这条路走不通。但辛顿却凭借着坚定的信念和顽强的毅力,独自撑过了那段艰难的时光。

如今,我们每天都在使用的ChatGPT、Claude、DeepSeek等先进的人工智能工具,它们的背后都离不开神经网络和模型训练。而每一次神经网络的运行和模型训练,都依赖于反向传播算法。可以说,反向传播算法是这些人工智能工具的核心支撑。

那么,究竟什么是反向传播算法呢?要理解它,我们首先需要了解神经网络是如何“学习”的。

一个神经网络就像是一个复杂的学习系统,里面包含着成千上万个参数。我们可以把每个参数想象成一个可以调节的旋钮。当这些旋钮处于不同的位置时,神经网络对同一张图片或同一段文字的判断结果也会有所不同。

训练神经网络的目标,就是找到所有旋钮的最佳位置,让网络能够准确地识别和判断。比如,当看到猫的图片时,网络能准确地说出“这是猫”;看到狗的图片时,能准确地说出“这是狗”。

在神经网络中,像8组多头注意力的权重矩阵(Wq、Wk、Wv),每一层前馈网络把向量从512维升到2048维再压回来所用的系数,以及6层Encoder、6层Decoder中每一层的参数等,都可以看作是这些旋钮。以GPT - 3为例,它拥有1750亿个参数,也就是1750亿个需要调整的旋钮,每一个都需要被调到正确的位置,才能让网络发挥出最佳性能。

然而,一个稍微复杂点的神经网络,旋钮数量轻松就能达到几百万个。面对如此庞大的参数数量,我们该如何知道每个旋钮该往哪个方向拧,拧多少呢?靠猜测显然是不现实的,因为参数数量太多,猜测的结果毫无准确性可言;而靠穷举的方法,更是天方夜谭,因为参数的组合数量呈指数级增长,穷举所需要的时间和计算资源是难以想象的。

这就是反向传播算法要解决的关键问题。为了更好地理解反向传播算法的起源,我们需要回到1943年。那一年,神经科学家麦卡洛克和数学家皮茨发表了一篇具有开创性的论文。他们在论文中提出,人类大脑里的神经元,其实可以用数学来模拟。具体来说,一个神经元接收信号,当信号超过某个阈值时,神经元就会被激活,并将信号传递给下一个神经元。这个大胆的想法震惊了整个学术界,让人们第一次意识到,“思维”这件事也许真的可以用机器来实现。

到了1950年代,感知机应运而生。这是最早的“神经网络”模型,不过它结构非常简单,只有一层,只能完成一些最简单的分类任务。尽管如此,感知机的出现还是让整个学界为之振奋,许多人乐观地预测,再过十年,机器就能模拟人类大脑了。然而,现实却给了他们沉重的一击。

1969年,明斯基(Minsky)和帕伯特(Papert)出版了一本书,他们用严谨的数学证明,单层感知机连“异或”这种最简单的逻辑运算都无法完成。这一结论如同一盆冷水,狠狠地浇灭了整个领域的热情,也标志着第一次AI寒冬的开始。在那个时期,神经网络的研究陷入了低谷,发展几乎停滞不前。

但辛顿却在这个寒冬中毅然决然地投身到了神经网络的研究中。1970年代,他在剑桥大学攻读心理学,后来逐渐将研究兴趣转向了AI。当时,几乎没有人愿意研究神经网络,因为主流的学术界都在热衷于搞“符号AI”,即用规则、逻辑和人类编写的知识库来实现智能。在他们看来,神经网络是一条死路,没有发展前景。但辛顿却不这么认为,他凭借着自己敏锐的直觉,坚信大脑不是靠规则运转的,而是靠神经元之间的连接、权重以及经验学习出来的。他决心找到一种方法,让多层的神经网络也能够像人类大脑一样学习。

然而,辛顿在研究过程中遇到了一个巨大的难题:如何告诉神经网络里每一层、每一个神经元,它在这次错误中要负多少责任。这个问题之所以困难,是因为神经网络是分层的结构。输入信息从输入层进入,经过一层一层的神经元处理,最后从输出层输出结果。当结果出来后,我们可以与标准答案进行对比,知道整体错了多少。但是,具体是哪一层的哪个神经元出了问题,却没有直接的答案。这就好比一家公司今年亏损了,我们知道总亏损金额,但却不知道是销售部门、产品部门还是财务部门的问题,责任难以划分。

直到1986年,辛顿和两位合作者鲁梅尔哈特(Rumelhart)、威廉姆斯(Williams)发表了一篇具有里程碑意义的论文,题目为“Learning representations by back - propagating errors”,即“通过反向传播误差来学习表示”。这篇论文的核心思想就藏在题目中。

既然误差是从最后一层产生的,那就把误差从最后一层往回传。一层一层地往回计算,每一层都分到自己应该承担的那一份责任。然后,每个旋钮根据自己分到的责任,微微调整一下方向。这个过程需要重复几万次、几十万次甚至几百万次,神经网络才能逐渐学会正确的判断和识别。

为了更好地理解反向传播算法的工作过程,我们用一个具体的例子来说明。假设神经网络的任务是判断一张图片里是不是猫。

当网络看了一张猫的图片后,输出了0.2。这意味着网络认为这张图片是猫的概率只有20%。但正确答案是1,也就是这张图片肯定是猫,概率应该是100%。那么,误差就是0.8。显然,网络的方向判断错了,而且错得很多。

反向传播算法的工作过程可以分为三个步骤。第一步是正向传播。图片从输入层进入神经网络,经过一层一层的神经元处理,最后到达输出层,得到0.2这个结果。这是信息从前往后流动的过程。第二步是计算误差。将输出结果0.2与正确答案1进行对比,得出误差为0.8。这个误差就是接下来要往回传递的信号。第三步是反向传播。误差从输出层开始,往回逐层传递。走到最后一层时,每个神经元都会分到一份误差,即“你在这次错误里贡献了多少”。这个分配过程依靠的是微积分里的“链式法则”。我们可以用前面的旋钮来进一步理解这个过程:如果某个旋钮往右拧一点,输出就会往1靠近,这说明它拧少了,下次要往右再拧一点;如果某个旋钮往右拧一点,输出反而离1更远,这说明方向拧错了,下次要往左拧。通过这种方式,每个旋钮都能得到自己的“调整方向”和“调整幅度”。这个调整的过程有一个专门的名字,叫做梯度下降(Gradient Descent)。“梯度”指的是方向,“下降”指的是让误差变小。可以想象一下,你站在一片有山有谷的地形上,蒙着眼睛,想走到最低的谷底。由于看不到全局地图,你只能感受脚下的坡度,哪边低就往哪边走一小步,走一步再感受,再走一小步。就这样一步一步地,慢慢走向谷底。而谷底就是误差最小的地方,也就是神经网络“学对了”的地方。

反向传播算法就像是那只无形的手,告诉神经网络每一步该往哪个方向走。那么,为什么这个思路在当时没有被人想到呢?其实,想到这个思路的人并不少。反向传播的数学原理早在1960年代就有人研究过了,但当时没有人觉得它有用。一方面,当时的计算机速度不够快,数据量也不够多,虽然理论上可行,但在实践中却无法运行;另一方面,主流学界也不相信这条路能够走通。因此,1986年辛顿的论文发表后,并没有立即引起轰动,他等了很久也没有等来掌声。

到了1990年代,支持向量机(SVM)出现了。这是一种更“数学”的机器学习方法,理论优雅,可解释性强,而且当时的效果也不错。于是,整个学界纷纷转向了SVM,神经网络再次被冷落。许多人直接嘲讽辛顿,说他在浪费时间,甚至有人断言神经网络永远不可能超过SVM。面对这些质疑和嘲讽,辛顿并没有放弃,他在加拿大的办公室里,带着几个学生继续坚持研究。没有大公司的资助,没有顶级期刊的热情关注,他们就这样默默地撑过了整个1990年代,撑过了2000年代的大半。

转折点出现在2012年。那一年,辛顿带着两个学生克里日夫斯基(Alex Krizhevsky)和伊利亚(Ilya Sutskever)参加了一个名为ImageNet的图像识别竞赛。他们使用的模型叫AlexNet。当比赛结果公布时,所有人都惊呆了。AlexNet的错误率比第二名低了将近11个百分点,这可不是小赢,而是绝对的碾压。这一结果彻底改变了整个计算机视觉领域的方向。AlexNet的核心就是深层神经网络加反向传播算法,这正是辛顿坚持了二十六年的研究路线。

值得一提的是,这两个学生中有一个非常了不起的人物,他就是伊利亚·苏茨克维尔。伊利亚的人生经历充满了传奇色彩。他从俄罗斯移民到以色列,又从以色列移民到加拿大。16岁那年,他转学到多伦多,在高中只读了一个月,就因为成绩太过优异被大学提前录取了。进入多伦多大学后,他听说有一位教授在研究神经网络,尽管所有人都认为那是一条死路,但伊利亚出于好奇,直接敲开了那位教授的办公室门,询问能否加入实验室。而这位教授,就是辛顿。从此,两人结下了深厚的师生情谊,一起在神经网络的研究道路上探索前行。

AlexNet取得巨大成功后,辛顿、克里日夫斯基和伊利亚三人成立了一家名为DNNresearch的公司。这家公司非常特殊,只有三个人,没有产品,没有收入,也没有任何业务。辛顿为了将公司卖出最高价,咨询了律师的意见,最终决定采用拍卖的方式。Google、微软、DeepMind等几家公司同时参与竞标,最终Google以4400万美元的价格拿下了这家三人公司。之后,伊利亚加入了Google Brain,继续在AI领域发光发热。

2015年底,一个名叫奥特曼(Sam Altman)的人萌生了创立一家公司的想法,这家公司就是后来闻名世界的OpenAI。他开出了优厚的条件,想把伊利亚从Google挖过来。伊利亚犹豫了很久,因为Google当时是全世界最好的AI研究平台,待遇优厚,资源无限。后来马斯克在采访中透露:“伊利亚来回反复了好几次,说要加入,又被DeepMind的人说服留下。就这样来回好几次,最终他决定加入OpenAI。”马斯克还强调:“伊利亚的加入,是OpenAI最终成功的关键。”加入OpenAI后,伊利亚成为了首席科学家。他提出了一个当时所有人都认为过于激进的信念:把模型做大,能力就会涌现出来。事实证明,他的想法是正确的。没有人教GPT - 3做推理,但当参数达到1750亿时,它自己学会了推理;没有人教它写代码,但它也学会了。这里我们可以提前透露一下,关于“涌现”这一神奇现象,我们会在之后的文章中详细介绍。

从GPT - 1到GPT - 2、GPT - 3、GPT - 4,一路发展下来,每一次的推进都让人惊叹不已。2022年11月,ChatGPT正式上线。它的上线引起了全球范围内的轰动,72小时内就吸引了100万用户,两个月内用户数量突破1亿,成为了人类历史上增长最快的消费级产品。而伊利亚,那个16岁在多伦多高中只读了一个月就进入大学,然后勇敢地敲开辛顿办公室门的孩子,正是ChatGPT最核心的架构师之一。他的老师辛顿,则是反向传播算法的坚定推动者,可以说反向传播算法是一切的根基。

现在,我们已经清楚地了解了反向传播算法的本质。它不仅仅是一个简单的算法,更是让所有神经网络能够“学习”的根本机制。没有反向传播算法,神经元再多,也只是一堆没有生命的数字,无法进化,无法迭代。而有了反向传播算法,每一次犯错都成为了下一次进步的基础,神经网络才能在不断的学习和调整中变得越来越强大。

那么,ChatGPT训练过程中进行了多少次反向传播呢?虽然没有公开的具体数字,但我们可以参考GPT - 3的训练情况。GPT - 3训练时处理了大约3000亿个token,每处理一批数据,就会进行一次反向传播。每次反向传播,1750亿个参数中的每一个都会被微微调整一下。我们每次与AI的对话,背后都隐藏着无数次这样的调整过程。

这里还有一个有趣的小彩蛋。反向传播这个想法,其实最早出现在1970年一位芬兰数学家林纳因马(Seppo Linnainmaa)的硕士论文中,并不是辛顿首先提出的。不过,那篇论文主要涉及数值分析,与神经网络关系不大,也没有引起太多人的关注和引用。后来,又有几个人独立发现了类似的方法,时间都早于1986年。所以严格来说,反向传播算法不是被“发明”的,而是被“发现”的,而且是被好几个人独立发现了好几次。但辛顿的真正贡献在于,他看到了反向传播算法对神经网络的巨大价值,并且花费了二十年的时间,让全世界也认识到了这一点。

2024年10月8日,凌晨两点,对于辛顿来说,这是一个终生难忘的时刻。当时,辛顿正在加州的一家酒店里睡觉,手机屏幕突然亮了起来,是一个他不认识的国际号码。他接通电话后,听到对方是瑞典口音,对方问道:“您是辛顿吗?”辛顿回答:“是的。”对方接着说:“您获得了2024年诺贝尔物理学奖。”辛顿后来回忆说,他的第一反应是:“等等,我不是做物理的。这有可能是个骗局。”他在那通电话里只说了四个字:“I'm flabbergasted.”意思是“我目瞪口呆”。

一个在90年代被人说在“浪费时间”的研究者,一个带着学生在多伦多的办公室里默默撑过整个寒冬的老头,一个从剑桥读心理学转行AI、几十年如一日默默耕耘的固执的人,接到了诺贝尔委员会的电话。他的第一反应不是喜悦,而是怀疑这是不是真的。在颁奖典礼上,有人问他对年轻研究者有什么建议。他想了想,认真地说道:“如果你有一个想法,它和所有人的想法都不一样,但你觉得它是对的,不要放弃,直到你自己弄清楚它到底哪里错了。大多数时候,你是错的。但极少数时候,你是对的。你永远不会知道哪种情况,除非你一直坚持下去。”他还幽默地说:“我很擅长忽略别人说的话。”

反向传播算法用了二十年的时间,才等到被人们相信;辛顿用了四十年的时间,才等到被世界承认。但在这个过程中,训练模型的错误一次一次地往回传,那些旋钮一点一点地被调整,从未停止过。这就是反向传播算法的故事,也是辛顿的传奇人生。

从上一篇关于transformer的文章到这篇关于反向传播算法的文章,相信你对AI又有了更深入的了解。希望这篇文章能对你有所帮助,让你在探索AI的道路上更进一步。


点击展开全文
你关注的
攻防失序 辽篮亟需破局重生攻防失序 辽篮亟需破局重生 NBA历史新篇章!三兄弟同队共战,字母哥续约风波再起NBA历史新篇章!三兄弟同队共战,字母哥续约风波再起 山东男篮季后赛前景堪忧,邱彪用人僵化成最大障碍山东男篮季后赛前景堪忧,邱彪用人僵化成最大障碍
相关文章
被低估20年,今成ChatGPT核心:反向传播算法的逆袭传奇被低估20年,今成ChatGPT核心:反向传播算法的逆袭传奇 绕过同行,韩国一主流电视台1.24亿美元天价豪赌世界杯转播权,分销失败宣告破产绕过同行,韩国一主流电视台1.24亿美元天价豪赌世界杯转播权,分销失败宣告破产 89.97美元终身Office 2024,PPT录制功能让投资物超所值89.97美元终身Office 2024,PPT录制功能让投资物超所值 WTT球星赛:国乒女单13人全军覆没!日本女单提前锁定决赛席位WTT球星赛:国乒女单13人全军覆没!日本女单提前锁定决赛席位 洪秀柱痛批国民党高层:回避统一议题,党主席之位岂能儿戏?洪秀柱痛批国民党高层:回避统一议题,党主席之位岂能儿戏? 75岁张纪中端午“小插曲”:包出“空粽”,误说“端午快乐”引热议75岁张纪中端午“小插曲”:包出“空粽”,误说“端午快乐”引热议