如果把现代 AI 的演进比作一场长跑,那么这场对话的两位主角就是那个负责修路和那个负责定义终点的人。一位是
Geoffrey Hinton
,2024年诺贝尔物理学奖得主,在那个神经网络被视为炼金术的冰河时代,他独自点燃了火种。另一位是
Jeff Dean
,Google 首席科学家,计算领域的传奇,他亲手打造了支撑起万亿级参数的“算力基座”。
在这篇推文里,你会看到现代 AI 诞生前夜那些荒诞又热血的细节:比如为了逃避写论文,Hinton 的学生 Alex 必须每周提升 1% 的识别准确率,最终被逼出了震惊世界的 AlexNet;又比如当时已经 64 岁的 Hinton,为了进入 Google 研究神经网络,竟然戴着绿色的“实习生小豆帽”,在教室里因为不懂怎么登录系统而被天才少年们侧目。
这场跨越 40 年的对话揭示了一个冷酷而迷人的真相:
AI 的进化史,本质上就是一场关于算力的赌博。
Jeff Dean 详细复盘了 Google 是如何早在 2013 年就通过一份“信封背面的草算”,预判了 CPU 时代的终结,从而顶着压力豪掷 5000 万美元开启了 TPU 芯片的自研之路。正是这种软硬协同的“结构性优势”,让 Google 在今天的 Gemini 战场上依然拥有对手难以企及的底气。
而对于那个让所有公司陷入疯狂的“Scaling Law(规模法则)”,Hinton 坦诚地给出了他的反思。他承认自己直到 2014 年才真正意识到,只要算力和数据足够庞大,模型就能通过极致的压缩产生真正的“创造力”。在他看来,大模型绝非简单的概率复读机,它们正在人类从未察觉的领域——比如希腊文学与量子力学之间——建立深层的逻辑类比。
对话的最后,两位巨头将目光投向了未来二十年的终局。Jeff Dean 正在构思如何打破 Transformer 的束缚,追求能像人类大脑一样动态、持续学习的架构;而 Hinton 则留下了一个极具冲击力的预言:AI 带来的生产力爆炸,将让每个人都拥有专属的顶级医生和私人导师,但这种剧变也在考验着人类社会的政治极限。
这是一个关于直觉胜过教条、工程成就科学的故事。如果你想知道在这场算力竞赛中,谁才是真正的庄家,又是谁在定义智能的边界,那么这场对话将是你最不能错过的思想洗礼。
图片来源:Radical Ventures
Molly Welch:
嗨,欢迎收听 Radical Talks 特别版。我是 Molly Welch,Radical 的合伙人。今天我们要呈现的内容非常酷。这是人工智能领域两位最具影响力人物之间的一场对话:Jeff Dean,Google 首席科学家兼 Gemini 联合负责人;以及 Geoffrey Hinton,诺贝尔奖得主,被誉为 AI 教父。他们的工作共同塑造了我们今天所身处的 AI 时代。
这场讨论由 Radical 管理合伙人 Jordan Jacobs 主持,它为我们提供了一个非凡的窗口,得以窥见 AI 时代最重要、最高产的合作之一。Jeff和 Geoff 的故事,其实就是现代 AI 的故事——看新算法如何遇上能让它们跑起来并最终 Scale 的基础设施。在这场讨论中,两位回顾了从 Deep learning 早期突破,到如今重塑该领域的挑战与机遇的方方面面。他们还分享了一些非常有趣的轶事,从如何运行 AlexNet 的简陋硬件,到 Google Brain 团队的早期岁月。
Jordan Jacobs:
我是 Jordan Jacobs,Radical Ventures 的联合创始人兼管理合伙人。虽然我们是一家专注于 AI 的风投基金,但我这辈子更多时间是作为一名 AI 创业者度过的。2010 年我创办了一家 Deep learning 公司,当时的笑话是,我们在推销时甚至得先教别人怎么拼写 AI。但我非常幸运能与 Geoff 近距离接触并了解他,还曾与他一起致力于 Vector Institute 的创建以及其他事务。所以我认为,这次机会完全是因为 Jeff Dean 和 Geoffrey Hinton 同时出现在了同一个地方才促成的,这太棒了。感谢 NeurIPS。
首先介绍 Geoffrey Hinton。对于那些不认识你的人来说,你是诺贝尔奖得主、图灵奖得主,还拿过许多许多其他奖项,被广泛称为 AI 教父。我从来没问过你喜不喜欢这个称呼。
Geoffrey Hinton:
按理说我不该喜欢的,但我确实很喜欢。
Jordan Jacobs:
好的,很高兴知道这点。以后我见到你就叫你教父了。我有幸能与 Geoff 共同创立 Vector Institute。还有一件人们不知道的事是,Geoff 做的胡萝卜汤也是我这辈子喝过最好的。所以如果不干这行,他以后完全可以开启第二职业。
作为 Google 首席科学家,传奇工程师 Jeff Dean 推动了无数引领 AI 变革的突破。他现在是 Gemini 团队的联合负责人。我想在座各位应该都有所关注——Gemini 目前已经霸榜,成为性能最强悍的模型,甚至迫使另一家公司拉响了‘红色警报’。这一局势的发展相当耐人寻味。
所以我真的很荣幸能让你们俩聚在一起。那么开始吧,你们的过往经历中有一些长期的相似之处。Back propagation的论文是 1986 年?(ZF注:Back propagation指反向传播算法,是对多层人工神经网络进行梯度下降的算法,也就是用链式法则以网络每层的权重为变量计算损失函数的梯度,以更新权重来最小化损失函数。)
Geoffrey Hinton:
不,是 1982 年,但我们直到 1985 年才意识到它有多好。
Jordan Jacobs:
好的。行,我记错了几年。那时候我还在看动画片呢。
Geoffrey Hinton:
我们直到 1986 年才发表它。
Jordan Jacobs:
好的,这就对上了。说来有趣,也不知是巧合还是必然,是什么开启了你 1990 年的本科毕业论文课题?能简单聊聊吗?
Jeff Dean:
当然。是的,我当时上了一个关于并行算法的两学期课程,其中一个学期我们大概花了一周时间学习神经网络。我很感兴趣,觉得如果能和明尼苏达大学的 Vipin Kumar 教授一起工作会很有趣。我说:“我可以跟您做荣誉毕业论文吗?我想研究“用于训练神经网络的并行算法”。”教授答应了。我们在系里有一台32位处理器的 Hypercube 机器,我就想,噢,如果我们能获得32倍的Compute,我们就能做出这些惊人的神经网络。
Jordan Jacobs:
你肯定是最早意识到Scale up Compute(ZF注:规模化算力)就是关键所在的人。
Jeff Dean:
其实当时我自己也没完全意识到。我当时做出来的加速曲线并不理想,甚至有点糟糕,因为我犯了个大错:我光想着增加处理器数量,却没去增加模型的大小。当你试图把只有 10 个神经元的层分散到 32 位处理器上时,那效率简直惨不忍睹。不过过程挺有意思的。我当时搞出了两个变体:一种本质上就是你们现在叫的 Data parallel,另一种就是你们现在叫的 Model parallel 训练。但我给它们起了些奇怪的名字,像 Pattern partitioning 和 Model pipelining 之类的。
Jordan Jacobs:
Geoffrey Hinton,你是什么时候意识到更多 Compute 很重要的?
Geoffrey Hinton:
我本该在 80 年代后期就意识到的。当时有两个团队——伯克利 ICSI 的 Herb Borlard 和 Nelson Morgan,以及剑桥的 Tony Robinson。他们投入了巨大精力,利用并行计算来提升语音识别的声学模型。结果他们得到的声学模型不仅达到了当时的最高水平(SOTA),而且性能远超在普通处理器上运行的神经网络。那时我们就该明白:只要规模够大,效果就会更好。但当时“做大规模”意味着极其复杂的编程和昂贵的硬件。所以我们并没真正吸取这个教训。没能悟出这一点确实挺蠢的,但事实就是如此。
Jordan Jacobs:
你是什么时候吸取教训的?
Geoffrey Hinton:
直到 2014 年左右听了 Ilya(ZF注:Ilya Sutskever,加拿大计算机科学家,是OpenAI的联合创始人及首席科学家,曾是Hinton教授的学生,和Hinton教授是AlexNet的共同发明人)的一次演讲,我才真正彻底开窍,真的很晚了。我当时压根没意识到这种规模化(Scaling)会一直有效,停不下来。
Jordan Jacobs:
明白。那我们先跳过这一段,聊聊通往现代 AI 的一些高光时刻。我觉得你们两位有个共同点非常有意思:你们总能选出极度优秀的人才来合作。Jeff,你以前公开说过,导师的成就是通过研究生的表现来体现的。
Jeff Dean:
是的。
Jordan Jacobs:
虽然这话题可能稍微有点扯远了,但我还是想绕回来:当你挑选本科生加入你的实验室时,你最看重他们身上的什么特质?
Geoffrey Hinton:
我对那些做过原创性工作、有独立见解的人非常感兴趣。我有时会问面试者:“你这辈子冒出的最棒的想法是什么?”你会遇到一些学生,他们每一科都拿 A,却解释说自己还没产生过什么想法,因为还没读研究生呢。他们确实很渴望有灵感,但这种人我一般不会录取。
Jordan Jacobs:
明白。那我们快进一下。你挑选的那些学生,无论是博士生还是博士后,像 Yann LeCun……这份名单能列很长。昨晚我们还和 Max Welling、Alex Graves 等人一起共进晚餐。后来,你的多伦多大学实验室里有了 Ilya Sutskever和 Alex Krizhevsky。对于没去过那个实验室的人来说,你可能想象不到,那地方看起来一点都不像能改变世界的样子。
Geoffrey Hinton:
没错,那是一个非常小的实验室,连窗户都没有。不过这可能反而是件好事——这样他们就没法开小差往窗外看了。
Jordan Jacobs:
你们开始合作,最终创造了 AlexNet,并利用李飞飞在斯坦福创建的 ImageNet 数据集进行了训练,随后参加了那场竞赛。你能带我们回顾一下,当时为什么决定这么做?回到算力的话题,当时到底用了多少算力?
Geoffrey Hinton:
事情的起因是这样的:几年前,Vlad Mnih 曾尝试利用 NVIDIA 的 GPU 来识别航拍图像中的道路。在城市道路中识别难度很大,因为有树木、汽车和阴影的干扰,但他做得非常出色。那个项目得到了政府的一项战略拨款支持,旨在鼓励可能产生工业影响的研究。在 Vlad 证明了多层网络的效果远好于单层网络后,这在当时是关键问题:多层结构真的能赢吗?他证明了:是的,每增加一层,效果就会变好,然后我申请了拨款续期。
Jordan Jacobs:
那非常 Deep。
Geoffrey Hinton:
非常 Deep,是的,确实非常 Deep。我申请了战略拨款的延期。其中一位评审说这项拨款不应该被批准,因为这东西永远不可能有任何工业影响。
Jordan Jacobs:
你知道是谁说的吗?
Geoffrey Hinton:
我真希望知道那个人是谁。我没留那份报告,不然我真想当面告诉他:去年美国股市 80% 的增长都得归功于此。总之,Vlad 做了非常出色的工作,让我们意识到 GPU 确实是个好东西——其实从语音识别的研究里我们就已经发现这一点了。
有一天,我让 Alex Krizhevsky 尝试识别一些像 MNIST(ZF注:手写数字数据集)那样大小的小图,因为我个人很偏爱 MNIST。我觉得如果你想做真正的视觉识别,就先把它缩减到 MNIST 的尺寸去练手。我至今还记得 Alex 第一次在小图上尝试时的情景,他跑来跟我说:“没戏,行不通。”
我跑去盯着他的代码看,发现他设了一个权重衰减参数。我问:“你为什么把这个参数设成 1?”他说:“不知道,感觉这个数值挺顺眼的。”你会发现学生就是这样,当他们对某个领域还没上手时,看起来可能有点“傻”,但其实他们并不笨,只是还没入行。
Jordan Jacobs:
后来Alex进步飞快
Geoffrey Hinton:
没错,Alex 上手极快。接着 Ilya 提议:“为什么不把这套东西用在 ImageNet 上?那肯定能行。咱们得赶在 Yann 之前动手。”而与此同时,Yann 其实一直在催他实验室里的博士后和学生把CNN用到 ImageNet 上,但那帮人总觉得有更重要的事要做。
万幸,Ilya 推得非常用力。最后 Ilya 甚至妥协说:“听着,我来做数据预处理,把活儿变简单点。”于是他把所有图片都改成了256*256像素,或者可能是224*224——不对,应该是从里面抠出224*224的图像块。结果效果惊人地好。
这时,我做出了这辈子最英明的管理决策:本来 Alex 必须完成一个叫“深度文献综述”(Depth URL)的任务,就是通过写综述来证明你有研究能力。但 Alex 特别讨厌写这玩意儿。于是我对他说:“只要你每周在 ImageNet 上的识别准确率能提升 1%,你就可以不用写综述。”结果,一周又一周,他就这么一直靠成绩的驱动把论文给延期下去了。
Jordan Jacobs:
你们训练AlexNet的电脑在哪儿呢?
Geoffrey Hinton:
就在两块 GPU 显卡上,放在 Alex 家里他的卧室里。好消息是,显卡钱是我们出的,但他父母承担了电费。当然,我当时这么做纯粹是为了帮多伦多大学省钱。
Google Brain 的黄金时代:Scaling Law 与 NIPS 拍卖风云
Jordan Jacobs:
在差不多同一时间,DistBelief 出现了。你能跟我们讲讲它的起源、背后的思考,还有这个名字是怎么来的吗?
Jeff Dean:
没问题。Google Brain 团队的起源其实挺偶然的:我在茶水间撞见了吴恩达。他当时刚开始每周来 Google 兼职一天。我以前去斯坦福访问时认识他,就问:“嘿,你怎么在这儿?”他说:“我还没太想好要做什么,刚来不久。但在斯坦福,我的学生们用神经网络跑出了不错的结果。”
自从写完本科论文后,我就没怎么关注过神经网络了,但我一直把它记在心里,觉得它是一种非常有用的抽象模型,方向是对的。于是我说:“这很有意思,咱们为什么不在 Google 练练超大规模的神经网络呢?我们这儿机器多的是。”但当时我们的数据中心里并没有 GPU,只有成千上万的 CPU 机器,每台大概有 16 或 24 核。于是我开始编写一个软件抽象库,让你能定义神经网络,并支持将计算量通过 Model parallelism 和 Data parallel 切分到海量的机器上。
最后我们将该系统 Scale up,从而训练了一个比之前任何人训练的都要大 50 倍的神经网络。我们最出名的一项成果是利用 1000 万帧随机的 YouTube 视频进行无监督学习——目标很简单,就是通过重构每帧图像的像素来学习一种好的特征表示。不过我们在那儿犯了个大错:为了做视觉识别,我们想采用局部连接模式,但由于追求生物学上的合理性,我们没用卷积。因为当时觉得大脑视觉系统不同区域之间似乎不太可能共享权重。
结果,我们搞出了这种局部连接但参数完全独立的架构。模型参数量达到了 20 亿,我们在比较生僻的 ImageNet 22K 分类数据集上训练它,结果比当时的 SOTA 将相对误差降低了 70%。当时我们动用了 16,000 个核心来完成这项训练。我们确实开始观察到:模型规模越大,效果就越好。随后我们开始把这个库应用到其他领域,比如语音识别和各种视觉任务。虽然当时还没正式总结出什么Scaling Laws,但我们已经有了一句名言,意思跟它差不多,那就是:
“更大的模型,更多的数据,更强的算力。”
Jordan Jacobs:
所以当 AlexNet 横空出世时,你们可能是当时唯一不感到意外的机构。别人还在 Alex 的卧室里跑实验,你们已经明白:只要算法够好,投入海量数据和算力就能彻底改变游戏规则。
Jeff Dean:
是的,因为甚至在 Alex 拿到 ImageNet 结果之前,我们在前一年(或同年)就已经在 ImageNet 22K 实验中看到了 70% 的相对误差改进。
Jordan Jacobs:
明白了。那是 2012 年夏天,你们第一次见面。我特别想听听你们对彼此的第一印象。
Geoffrey Hinton:
当时吴恩达想全身心投入 Coursera,他觉得那是未来,我觉得他在这点上稍微看走眼了。他想找个人接替他在 Google Brain 团队的顾问工作,得是懂神经网络的,于是他推荐了我。我同意去过个暑假。我本该是以“访问科学家”的身份去,但那个职位要求至少待够六个月。为了能给我发工资、发工牌,他们必须给我定个职级——于是,我成了一名实习生。
Jeff Dean:
没错,你是我的实习生。
Geoffrey Hinton:
是的,一个 64 岁的实习生。
Jeff Dean:
你当时戴着绿色的实习生工牌。我觉得你能以 64 岁高龄当上实习生,唯一的解释就是 Google 的年龄字段只分配了 6 个比特(最大只能存到 63)。
Geoffrey Hinton:
这是一个典型的程序员笑话。总之我去了,还得跟一群实习生一起上课。大教室里坐满了来自印度理工(IIT)、清华大学的顶尖高材生,全是绝顶聪明的人。
Jeff Dean:
他们戴着那种Beanies吗?(ZF注:Beanies指一种小豆帽)
Geoffrey Hinton:
我们都戴了。我本想把我的Beanies带来的,我现在还留着它。上课时,讲台上有位讲师,大家面前都摆着笔记本电脑。讲师说:“请使用你们的 LDAP 和 OTP 登录。”我举起手问:“什么是 LDAP?什么是 OTP?”现场有四个助教在巡视,大概 10 分钟后,他们决定专门分出一个助教来伺候我。
旁边的学生都在回头看这个老头,心想这人显然啥也不懂,而且年纪还是他们的三倍。真的是三倍,不是两倍。场面一度非常尴尬。直到吃午饭排队时,幸好我以前教过的一个本科生认出了我,她在午餐队伍里看到了我,喊了一声“Hinton 教授”,大家这才纷纷侧目:喔,原来是他。
Jordan Jacobs:
那是第一天。你们什么时候第一次见面的?
Jeff Dean:
好像是第一天快结束,或者第二天年初?
Geoffrey Hinton:
我想是在第一天之前,大概是周日或者是那样。我们在 Palo Alto 的一家餐馆见面。我们相处得非常好。后来在 AlexNet 成名后,所有公司都想收购我们。我们决定“假装”成一家公司,这样能多卖点钱。因为我们发现,公司付工资的预算和搞收购的预算完全不是一个量级,后者通常是前者的十倍。所以我们决定把自己包装成一个“被收购项目”。最后我们搞了一场拍卖会。但我内心早就认定 Google 必须赢,因为那个夏天在 Google Brain 团队工作的经历太棒了。
Jordan Jacobs:
那你当时有没有计划在拍卖会上搞点小动作?
Geoffrey Hinton:
就在拍卖快结束、只剩下两家巨头竞争时,我发现那个不称心的买家快要赢了,于是我们直接叫停了拍卖。
Jordan Jacobs:
那场拍卖会具体是在哪儿举行的?
Geoffrey Hinton:
是在 NIPS 大会期间,当时会场设在一家赌场里。
Jeff Dean:
没错,南太浩湖的一家赌场。
Geoffrey Hinton:
赌场的底层全是玩老虎机和二十一点的人,每当有人赢个一万美金,现场就会铃声大作;而我们在楼上搞拍卖,每次加价起步就是一百万美金。
Jeff Dean:
那届 NIPS 体验非常诡异,因为懂概率统计的人没人会去赌博。赌场恨死我们了,因为这帮科学家一分钱都不赌。
Geoffrey Hinton:
当时 Terry Sejnowski(计算神经科学泰斗)给了我一张特制卡片,让我能进 VIP 休息室。只有那种被称为“Whale”的赌客——也就是挥金如土且输得极惨的人——才能拿到这种卡。我拿着卡走进那些高级餐厅递给服务生,然后说:“我不赌博。”他们一脸“我信你个鬼”的表情看着我。
Jordan Jacobs:
最终你赢得了拍卖。你和 Ilya、Alex 成立了 DNN Research 公司并卖给了 Google,中间还为了抬价“操纵”了一下拍卖过程。为什么最后选择去 Google?
Geoffrey Hinton:
纯粹是因为 Google Brain 团队的氛围太棒了。另一个选择是百度,我觉得那时候我永远不会知道中国人在想什么。我也没法旅行,所以没去过北京。我的直觉告诉我在 Google 会过得很开心。
Jeff Dean:
是的,真的很有趣。
Geoffrey Hinton:
的确非常有趣。我想早期在 Google Brain 团队的每个人回首那段时光时都会说:“噢那太有趣了。”一切都是崭新的,我们不知道未来通向何方,但我们坚信:模型越大、数据越多,效果就越好。
我记得刚从学术界跳槽过来时,发生过一件事:我们的算力用完了。我听到 Jeff 拿起电话,我只能听到他那头的声音,他说:“嗯,行,两百万应该够了。”我当时心想:要是在大学里想申请两百万的算力经费,那得写好几年的拨款申请书。
Jordan Jacobs:
那时候 Google Brain 团队有多大?
Jeff Dean:
大约 20 人,挤在一个比这间屋子还小的办公室里。
Geoffrey Hinton:
没错,多伦多大学的人占了很大比例。大家都有个工位,感觉很好,虽然后来规模一直在扩大。
Jordan Jacobs:
聊聊之后几年的成果吧,让我们待会儿再聊 Transformer。那个团队后来诞生了哪些重要的东西?
Geoffrey Hinton:
我研究过一个叫“Capsules”的东西。那是对“过人毅力”的绝佳诠释:如果你选对了方向,毅力会带你走向辉煌;如果你方向选错了却还毅力惊人,那你就会在这上面耗费多年却一无所获。这就是“Capsules”。这是一个总结。早期我从Jeff和Ilya那里得到了建议,这两位都是我极其敬重的人,他们都劝我别搞“Capsules”了。这反而让我更来劲了,不过我后来确实也为 Google 做了些实用的贡献。
比如知识蒸馏,那是我们在 2014 年做的。我记得当时它被 NIPS 拒稿了,有个评审员说:“当你把知识蒸馏到这种student model里时,它的表现并不会超过teacher,那意义何在?”他完全没领悟到精髓。事实证明蒸馏非常管用。但我始终不知道那个写拒稿意见的人是谁。我也一直不知道加拿大是谁写的报告说“Deep neural networks绝无可能产生工业影响”。我真希望能找出来。
Jordan Jacobs:
加拿大确实有些奇怪的槽点。从前有一家叫 Research in Motion 的公司,做了一个叫 BlackBerry 的产品。在 AlexNet 成名之前,你曾想把实验室里的技术带给他们,你还记得吗?
Geoffrey Hinton:
记得。如果非要说有什么前车之鉴,这就是最典型的。当时 George Dahl 和 Abdurrahman Mohamed 做了一个非常棒的语音声学模型,比当时最好的模型还要好一点。它不像 ImageNet 那样是碾压式的提升,只是略好,但已经难能可贵。那个夏天,Navdeep 想去黑莓当实习生。于是我联系了黑莓说:“我们有一套更好的语音识别方法想送给你们,能不能让学生去当个实习生给你们演示一下?”结果黑莓说,他们对语音识别不感兴趣。
Jeff Dean:
毕竟当时他们有全键盘,觉得不需要语音。
Geoffrey Hinton:
没错。讽刺的是,黑莓的老板之一后来一直在抱怨加拿大本土的研究成果没能在加拿大得到转化,可当初正是黑莓自己决定放弃转化的。后来 Navdeep 去了 Google。因为在办绿卡不能去美国,他只能待在 Google 蒙特利尔实验室。但他们给他配了 GPU,还有位叫 Vincent Van Hook 的优秀主管。Navdeep 说他想改变 Google 做语音识别的方式,Vincent 劝他:“接个现实点儿的项目吧,你这想法太离谱了。”但 Navdeep 非常坚持,Vincent 说:“行吧,试试看。”结果大获成功。
Jordan Jacobs:
既然如此,让我们聊聊 Transformer。这又是 Google Brain 的神作。当时的团队是怎么运作的?内部是否意识到这是个突破?
Jeff Dean:
我觉得更早触发 Transformer 灵感的是 Ilya、Aurel 和 Kwok 做的 Sequence-to-Sequence (Seq2Seq) 工作。他们使用了非常深、非常大的 LSTM,在机器翻译上跑出了惊人的结果。我们一直在尝试扩展 LSTM 的规模,但后来有人意识到:如果你试图把所有信息都塞进一个每步更新一次的向量里,会面临两个问题。一是串行计算,你必须算完这一步才能算下一步;二是向量瓶颈,你试图把之前经历的所有复杂变换都压缩进一个向量。如果能把所有状态都保存下来,然后直接去Attend它们,效果会更好。
Geoffrey Hinton:
当时Google外部已经有一些关于Attention的早期研究了,主要用于机器翻译。Bahdanau 发现,在生成法语译文之前,不必死守一个巨大的上下文向量,只要用一种简单的注意力机制,性能就会有巨大飞跃。
Jeff Dean:
没错,把这个想法融入 Transformer,本质就是:保存所有状态,并对它们进行“Attention”计算。它还有一个非常完美的特性,就是你可以回溯所有经历过的状态,从而精准确定解码的内容。
Geoffrey Hinton:
说实话,它刚出来时我没怎么关注,因为我一直更感兴趣大脑是怎么实现这一过程的。现在事实上你可以通过使用 Fast weights 来近似它,你有一个联想记忆,你可以做各种近似,目前还不清楚你如何通过时间做Back propagation来基于后来的事情学习早期的东西。
Jeff Dean:
不过,Transformer 的第一篇论文证明了:
你可以用少 10 到 100 倍的算力达到同样的质量;或者用同样的算力达到高得多的质量。这显然非同小可。
事实上,我们在稀疏激活模型(ZF注:Sparsely Activated Models)的规模化上也取得了类似的成果。我们发现,在达到同等质量水平的前提下,这种方法能让计算效率提升 10 倍。这两者是互补的。所以现在你可以拥有基于 Transformer 的混合专家模型(MoE),将那 10 到 100 倍的提升与这 10 到 20 倍的提升相乘——过去十年间,无数这类算法上的改进相互叠加,产生了巨大的乘数效应。
除此之外,我们还投入巨资研发更快的单块芯片,在单次训练中使用更多芯片,并延长训练时间。所有这些因素加在一起,使得现在的算力比十年前高出数十亿倍,而十年前的算力又已经是 1990 年的数百万甚至上千万倍了。
Geoffrey Hinton:
我记得大概在 2012 年左右,我们买了一块新的 Titan 显卡。系统管理员在给 Vlad 的电脑安装时动作有点慢,我当时就开始计算他动作慢吞吞地浪费了多少计算时间。我算了一下:如果我在 1986 年用 Lisp 机器跑一个神经网络,这块显卡只需一分钟就能赶上那台机器跑几十年的计算量。
Jordan Jacobs:
当 Transformer 还在实验室阶段,还没发论文、没引起轰动时,你们在 Google Brain 内部看到这些研究,有没有意识到这是一个重大突破?是一个阶跃式的变化?
Jeff Dean:
当时我们有好几项成果看起来都像是重大突破。因为那时活跃在这个领域的科研人员相对较少,我们可以迅速探索大量处女地。
我们在短时间内靠一支规模不大的团队搞出了知识蒸馏、Transformer、Seq2Seq、词向量模型等等。
所以 Transformer 在当时看来只是又一个重磅突破,和 Seq2Seq 或 MoE 差不多。我其实并不认为它比其他成果重要得多——它确实非常管用,但我们现在用的每一项技术都很管用,正因如此我们才用它。
Jordan Jacobs:
当时 Google 拥有史上最完美的商业模式——搜索,还有这群不断创造突破的天才。但在 ChatGPT 出现之前,内部有没有讨论过:这些技术可能会颠覆我们的业务?还是说,你们只打算上线那些对现有业务有帮助的功能?
Geoffrey Hinton:
有个历史细节:在 ChatGPT 之前,微软曾发布过一个聊天机器人Tay,结果它开始喷各种仇恨言论,这把大家都吓坏了。它做的是“在线训练”,这可不是个好主意。所以 Google 在发布这类产品时非常谨慎。人们至今仍没意识到,Google 在 ChatGPT 之前就拥有像 PaLM 这样效果极好的大模型。唯一缺少的环节是RLHF。当时大家没意识到,其实并不需要太多样本就能制止它说那些难听的话。
Jeff Dean:
没错。其实疫情期间,我们在 Google 内部有一个使用率非常高的聊天机器人。当时大家都在家办公,Google 十几万员工里有大约 8 万人在用这个系统。大家都觉得它好用得惊人。但我觉得我们当时陷入了某种“近视”:因为它显然存在
事实性错误
和
幻觉问题
。
如果从“搜索”的视角来看,这简直不可接受。因为搜索产品的核心准则之一就是精准和真实。我们当时没能理解聊天系统的其他潜在用途——那些与搜索核心无关的用途:比如“帮我给兽医写封信聊聊我生病的狗”、“帮我总结这篇论文”,或者“帮我写论文”、“帮我写论文审稿意见”。当然,没人会真的这么做。
所以,如果单纯从“这东西能优化搜索吗”的镜头去看,它看起来不像是一个成熟的产品。尽管大家觉得它有用,但在向外部用户开放之前,我们觉得必须先解决幻觉问题。
Jordan Jacobs:
就在三年前零一周前,ChatGPT 问世了。Google 内部当时是什么反应?是立刻拉响了“红色警报”吗?
Jeff Dean:
倒也没有。不过我当时写了一份一页纸的备忘录,大致意思是说:“嘿,我们现在的做法有点滑稽。我们早就知道,只要增加算力规模并训练出优秀的模型——算力越多、数据越多,模型就越强——这一套我们已经玩了很多年了。”
当时 Google 内部的研发力量其实是分散的:我们有原有的 DeepMind 团队,有 Brain 团队,大家不仅在研究文本模型,还在搞各种多模态模型。DeepMind 那边有 Flamingo 还有其他几个项目。在我看来,我们分散了研究思路,也分散了算力储备,这完全不合理。于是我说:“大家应该聚在一起,合力打造一支单一的团队。我们的目标就是构建全球最强的多模态模型,并投入一个统一的‘算力池’,看看我们到底能走到哪一步。”这就是 Gemini 项目的诞生。
Jordan Jacobs:
那是在 ChatGPT 发布多久之后?
Jeff Dean:
也就是在那一两周内我写了那份文档。因为我们看到了内部聊天机器人的潜力,意识到原本可以由我们来发布那样的产品。虽然错失了先机,但没关系,我们可以追上来。
Jordan Jacobs:
我有个问题:Google 后悔发表那篇 Transformer 论文吗?因为它是对手成功的基石。
Jeff Dean:
不后悔。因为它对世界产生了非常积极的影响。
Jordan Jacobs:
但从那以后,Google 发表的论文好像没那么多了?还是说这是大家对你们政策的误解?
Jeff Dean:
我们现在依然发表大量的研究成果。如果你看今年的 NeurIPS 大会,我们可能有一百多篇论文入选,甚至更多。但对于那些在超大规模模型领域具有极高商业价值的技术,我们确实变得更加谨慎了。因为这是一个竞争极其激烈的市场,所以我们不会公开 Gemini 训练方案的每一个精确细节。但对于边缘研究或那些不确定是否重要、仍在早期的工作,我们绝对会大量发布,以此获取社区反馈,并让大家从这些工作中受益。
Jordan Jacobs:
毕竟,坚持发布论文曾是你们吸引人才的竞争优势,而很多实验室并没这种倾向。
Jeff D
ean:
没错。我们的研究组织足够庞大,除了 Gemini 核心模型的开发,我们还有许多不同的研究主线。比如海量的基础机器学习研究,还有科学领域的应用……
Jordan Jacobs:
让我们快进到现在,就在过去的几周里,你们推出了 Gemini 3,人们突然再次意识到 Google 是一家不可思议的 AI 公司。我不觉得他们遗忘了这一点,但他们确实对 Google 的实力有了全新的、更深刻的体会。在这个过程中,有一些产生深远影响的事情,比如像 TPU 这样非常长线的赌注。我刚才还跟你聊到,令我惊讶的是,大家突然开始关注到这一点:等一下,Google 对其他所有人都有着结构性优势,因为他们拥有自研芯片。你能带我们回顾一下那是何时开始的吗?动力是什么?以及你认为这对你们来说是多大的优势?
Jeff Dean:
起因是我做了一个推演:我们当时在语音识别和计算机视觉上取得了巨大进展,但如果用 CPU 跑,算力开销惊人。我算了一笔账:如果人们每天对着手机说话 3 分钟,而我们有一亿用户,如果我们想在 CPU 上运行这个,计算预算会高成什么样?
那项数学计算有点吓人,因为看起来为了推行这一个更好的语音识别模型,我们必须把 Google 拥有的计算机数量翻倍。这看起来非常不可持续。即使成本不是高得离谱,时间成本也会非常高。我们看到,更大、更强大的神经网络将在很多地方发挥作用。所以,本质上那份被我做成幻灯片的“信封背面草算”就是启动我们自研定制硬件的动力。因为我还有一个直觉:如果你只想要神经网络,它们有许多非常好的特性——它们只有极少数几种不同的操作,而且它们对降低精度非常宽容,因为降低精度只意味着噪声,而神经网络喜欢噪声。
Geoffrey Hinton:
没错。所以你不需要ECC纠错内存,哪怕有些比特位算错了也无伤大雅。这就像是“Dropout”或者说“对抗性内存”。
Jeff Dean:
所以我觉得如果我们投入硬件研发,最初专注于Inference,因为如果我们要把它推向大量用户,那里将是计算压力最痛苦的地方。那会非常好。当时我们在威斯康星的硬件团队有几个人在考虑使用 FPGA。但在经过一番讨论后,看起来我们应该直接去做定制的 ASIC,因为你支付的 FPGA “Tax”(ZF注:指性能损耗)通常会抵消掉很多性能收益。
所以我们最终推出了 TPU v1,它是用于推理的,就像一个单槽位 PCIe 卡。我们当时的首席财务官 Patrick Pichette,我在走廊里拦住他,说服他在我们的数据中心部署价值 5000 万美元的这种设备,而当时并不完全知道我们会如何使用它们。我们最终做到了。它们最终被用于各种事情,语音和视觉。我们最终用它们推行了质量高得多的翻译。然后 TPU 硬件团队开始更多地关注Training,这是一个规模大得多的问题,你需要让许多芯片通过超高速互连协同工作。这实际上更像是一种机器学习超级计算机。这就是我们现在已经做了好几代的东西。
Jordan Jacobs:
回到那个最初的决定,或者当你拦住 Patrick 说我们需要 5000 万美元时,那是哪一年?
Jeff Dean:
2013年。
Jordan Jacobs:
所以是远在这一波浪潮之前。
Jeff Dean:
是的。我们预见到为这些模型进行推理而投入的计算需求将是巨大的。这就是实现它的途径。事实证明,我们在计算机架构顶级会议 ISCA 上发表了一篇很棒的研究论文。它现在实际上是 ISCA 历史上引用次数最多的论文。那篇论文中的性能结果显示,我们的性能提高了 15 到 30 倍,延迟更低。而且我认为,每瓦特性能比当代的 CPU 或 GPU 好了 30 到 80 倍。这是一个巨大的差距,你知道,两个数量级是一个大问题。
Jordan Jacobs:
截至今天,你们拥有性能最强的模型,你们有一支遍布全球的大型Gemini团队,但主要集中在西海岸、伦敦、纽约和其他一些地方。你们拥有从所有这些超过十亿人使用的产品中涌入的数据。你们后台还有一个商业模式,每年产生超过 1000 亿的自由现金流。还有谁能与 Google 竞争?
Jeff Dean:
我不会就此发表高论。我确实认为,在同一个组织内拥有完整的硬件堆栈,同时又在尝试建立模型方面的进展,对我们非常、非常有用。因为我们本质上可以进行Co-design。硬件研发需要很长时间。作为硬件设计师,你是在预测这个发展极快的领域在 2 到 6 年的时间窗口内会走向何方——因为我今天构思的任何硬件可能要 2.5 到 6 年后才会变得相关。那是一份非常艰巨的工作。
如果你让机器学习研究员和硬件人员坐在一起,识别出一些可能还不是主流、或者看起来有前途但还不确定、有点投机性的东西,但你可以把这些硬件支持或更好的硬件放进去,那会很有趣。与没有大量研究员分享硬件想法或机器学习想法、以及如何将其转化为硬件的情况相比,你会获得一个清晰得多的通向未来的视角。
Jordan Jacobs:
所以使用机器学习来设计硬件也有所帮助,对吗?
Jeff Dean:
噢是的,我们在做。我参与发起的一个项目就是利用强化学习来进行芯片设计中的布局和布线。这目前已在公开披露的三代 TPU 以及其他几种芯片中得到应用,并且每一代的结果都比使用传统 CAD 工具的人类布局要好。
Jordan Jacobs:
是提高了芯片质量,还是加快了实际研发速度,还是两者兼有?
Jeff Dean:
两者兼有。
Jordan Jacobs:
所以在 Google 工作有所有这些交织在一起的优势。你们认为这个领域接下来的走向是什么?我们是否会在不久的将来看到 Transformer 的替代品?是不同类型的架构,还是不同架构类型的模拟?在 5 年、10 年、20 年后,我们会达到什么境界?
Jeff
Dean:
我的意思是,我认为有很多有趣的方向和趋势令我非常兴奋。一是,我们知道当你把正确的信息放入当前模型的Context时,它们工作得非常好,因为它们可以非常敏锐地关注到它们最近看到的实际信息,而不是数万亿个被揉捏在一起、融入成千上亿个权重的信息,在那里一切都变得有点模糊。所以我觉得研究扩展我们关注信息能力的机制将是非常有用的。我们如何关注数十亿或数万亿个Token,而不是一百万或几百万个?
对此我感到非常兴奋,因为我认为这可能会真正改变你能用这些模型做的事情,因为它们可以看得很清楚,不仅是你放入上下文的手工组装的一组信息,而且是一个非常大的语料库——所有的科学论文,或者所有的视频之类的。我认为这在硬件领域也需要有趣的创新。比如,我们如何为我们关心的模型构建能效更高、每瓦特和每美元性能更高的推理硬件?我认为这将是一个非常有趣的方向,一个让我非常兴奋的方向。
然后我觉得,我们训练的很多模型并没有像机器学习社区长期设想的那样进行更多的“持续学习”(Continual Learning)。它们更像是一个静态的训练阶段,然后模型坐在那里,在服务用户时并不会发生戏剧性的变化。这看起来有点不对劲。
Jordan Jacobs:
这样做有一个很好的理由,就是更安全,对吧?
Jeff Dean:
是的,完全有理由。但我觉得我们的模型架构结构并不像大脑那样是自由形态的。我觉得在模型的不同部分之间拥有更有趣的连接模式会很好。目前的即便是在MOE模型中,也倾向于是堆相同大小的专家,你分支出去,然后回来,再分支出去。这看起来不是很有趣。
Jordan Jacobs:
也许你们每个人能给我们一两个关于世界影响的例子,让我们选 20 年后。20 年后,由于这项技术,世界上发生了什么人们可能预料不到的事情?
Geoffrey Hinton:
好的,我可以用一个可能的书名来总结它。如果有人写这本书,书名应该是:要么我们从此幸福地生活,要么我们都死掉。这就是标题,对吧?我认为 20 年后的未来,没有人知道这会产生什么影响。特别是对社会的影响,因为很明显很多工作将会消失。目前还不清楚是否会创造工作来取代它们。这不仅是 AI 的问题,这是我们政治体制的问题。如果你获得了生产力的巨大增长,财富如何被分享?我们,至少在美国,目前还没有为此准备好理想的政府。
Jeff Dean:
是的。我的意思是,我去年实际上和一群优秀的共同作者聚在一起,研究了 AI 可能对一系列不同领域产生的影响,其中一些领域显然可以产生惊人的影响,如医疗、教育、创造新型媒体的能力。但也研究了对就业、虚假信息、地缘政治问题的潜在影响。我认为这其中有一个平衡。我最兴奋的领域之一是,我们如何通过在不同领域之间建立联系,让科学突破发生得更快——在任何一个人的头脑中,可能不一定会意识到另一个完全不同领域的东西是很重要的。或者是为某些可能实现自动化科学发现的领域实现闭环。
Geoffrey Hinton:
让我顺着这个说下去。这些大模型拥有的一点是,它们正在将海量的知识压缩成不多的连接,只有一万亿个。我们知道,要压缩大量知识,你必须找到表面上不同的知识片段之间的共同点。所以我相信,当你训练这些大模型时,它们已经在那些人们从未见过共同点的事物之间寻找共同点。它们知道的比任何一个人都多得多。他们可能正在寻找希腊文学和量子力学之间的共同点。没有人同时是这两者的专家。
Jordan Jacobs:
它们确实有共同的希腊字母。
Geoffrey Hinton:
是的。所以我认为它们实际上会非常有创意。很多人说,你知道,它们并没有真正的创造力,只是在反刍。这简直是胡扯。我认为它们将非常擅长发现长远的类比,因为它们正在进行这种大规模的压缩。
Jeff Dean:
是的,这正是我试图表达的意思。
Jordan Jacobs:
如果我们将这个逻辑推导下去,医疗保健将通过药物研发、消除疾病以及基于基因组理解的个体化治疗而发生彻底变革。那么,医疗会是社会中潜力最大的转型领域吗?还是说有其他领域?
Geoffrey Hinton:
我认为教育可能与之不相上下。这两个领域都极具“弹性”:在医疗领域,如果你让医生的效率提高 10 倍,结果并不是我们只需要十分之一的医生,而是我们所有人都能享受到 10 倍的医疗服务。教育也是一样,如果我们能让教学变得极其高效——我们知道私人导师能做到这一点,而显而易见的是,几年之内 AI 就能与私人导师相提并论,甚至超越他们,因为 AI 见过成千上万个不同的学生。人类可以吸收比现在多得多的教育。所以我认为这些领域的前景将是惊人的。
原视频:The Collaboration that Built Modern AI: Geoff Hinton & Jeff Dean in Conversation with Jordan Jacobs
https://www.youtube.com/watch?v=ue9MWfvMylE
编译:Charles Wang