重生之AI教父 - 第207章 Attention is all you need

原本发布t方法的论文名为《Attention is all you need》，意思是注意力机制就已经完全足够满足你的所有那些乱七八糟的技术需求了。

这项工作不仅引发了注意力技术的狂潮，顺带还引发了一波起名的狂潮。一时间，满大街都是xxx is all you need样式的名字。

这篇论文的一大意义是彻底抛弃了传统的循环网络和卷积网络结构，推陈出新，而是仅仅只使用注意力机制来处理机器翻译问题，并且取得了非常好的效果。

此前，人们一般都认为，注意力机制只能作为一种辅助道具，协助传统的网络来学习特征。

此后，这种全新的t方法迅速成为了语言类研究的重点方向，并且衍生出了bERt和Gpt两个经典的路线，后者更是进化出了chatGpt这个家喻户晓的新颖技术。

“注意力机制这个概念其实已经有了很多年了，差不多跟我的年龄一样大。”九几年的时候，注意力概念就已经在计算机视觉领域产生。

“它的概念也非常好理解，就像是直播中捕捉视觉的眼动仪，可以在直播画面上显示主播眼睛正在观察的地方。注意力机制的目的，就是为了让深度神经网络可以起到类似的效果，迫使神经网络去关注图片中的重要部分。”

比如孟繁岐最开始参加的千分类图像竞赛，人工智能模型或许可以正确地识别了这张图片的内容，但是真正让它做出这个判断的原因，却很可能大大出乎你的意料。

它识别出图像中的内容是猫，却非常有可能并不是因为它的【注意力】在关注图像中的猫，神经网络也许压根就没有在看图像中的猫这个生物，它在看别的。

或许是因为图像中有猫粮，或者图片的角落有【猫】相关的水印，又或者它可能是发现周边都是草地的图片内容往往是猫，因而一看到绿色的草地，就会做出类似的判断。

当然，更有可能的是出于某种人类无法理解和解释的原因。

虽然看的地方不对，结果却是正确的，这种现象很容易被研究者们忽略，是非常危险的。

这种缺陷可以通过大量的数据和各种其他技术手段去弥补。如果没有做好这些事情，模型在训练测试的时候往往会表现得非常出色，可等到实际投入使用的时候，就很可能出大问题。

“隔壁有同事在尝试把你写的注意力算子应用在高分辨率的图片上，以求降低计算成本。”

伊利亚分享了一下谷歌内部相关的情况：“我这边也在考虑，在循环网络或者长短期记忆网络上结合注意力，去处理翻译任务。”

注意力机制加上高清图片是比较合理的，通过注意力的筛查，可以剔除图片中不重要的部分，从而大大减少计算量。

孟繁岐微微点了点头，心中想着：“图片中的像素其实是非常冗余的，比如人类就可以轻松通过很局部的内容推测出物体的全貌，根据恺明后来的研究，甚至只需要原本百分之十几二十的像素，就可以完成图像的重构。”

“借助注意力来筛掉一部分像素，的确可以极大地减少计算量。使用这种办法，就可以在原本的速度下采用更高分辨率的图像，对关键的部分会处理得更加清楚，也就更加准确。”

孟繁岐认同这种做法，不过那是在图像任务当中了，在语言问题当中是大不一样的。人类的语言信息含量是非常高，密度也很大，即便只少一两成信息，甚是一两个字的差别，都很有可能会彻底改变句子的含义。

比如【我很喜欢】和【我不喜欢】，一字之差含义完全就不对了。因而类似的做法在语言上是不大行得通的。

不过可以像伊利亚一样，换一个做法去使用注意力机制。

“注意力机制如果应用在语言和文本当中，其实计算的就是一个【相关程度】，一个句子当中每一个词与其余词的相互关系和相关的情况。”

孟繁岐也没想到伊利亚的思路这么灵活，自己年初刚刚在搜索引擎中稍微利用了一下类似的概念，也没有写作论文，但伊利亚就很快捕捉到了这种技术在翻译类型任务上的可能性。

“天才人物对技术的嗅觉果然不得了啊...”孟繁岐有些感慨。

注意力机制毕竟二十年来都是图像领域的概念，它使用到语言文本里的形式是有很大变化的，这里面听起来很像很容易，但实际上的差距并不小，不是那么容易就能想明白的。

更别提用代码去实现了。

“如果使用注意力机制的话，为什么还一定非要使用旧的循环网络和长短期记忆不可呢？”

孟繁岐指出了这个思维惯性不合理的地方。

“传统的循环神经网络建构语言的时间序列信息，前面的词都要依次传递到后面的词上面，这种信息的反复堆积有些浪费，并且全都堆在一起，直觉上不好区分。”

“你是说文字的长期依赖问题？”伊利亚微微皱眉，捕捉到了重点：“不过长期依赖问题，已经相当程度上被循环网络的进化版本，长短期记忆方法又或者是各种门控制给解决了。”

“说是解决了，但实际上是减轻了，终究还是治标不治本，只是把症状压了下去。”

“那怎么办？难道干脆就不要了？”伊利亚没想那么多，随口问道。

问完却发现，孟繁岐正在似笑非笑地看着他。

“你是认真的？”伊利亚此前是被思维的惯性局限住了，根本没有想到注意力机制这样一个配菜，能干脆成为主餐，取代原本常用的网络结构。

现在孟繁岐已经暗示了他的想法，伊利亚自然也就开始认真地考虑这种操作的可行性。

“原本最常见的循环网络和卷积网络互有利弊，如果长度为n，前向的复杂度是o(n)级别，卷积是o(1)级别。但是卷积的每层复杂度要再根据卷积核的大小增加开销。”

“倘若用注意力机制去做，前向的复杂度是o(1)，每层的复杂度则从o(nd^2)变为o(n^2d)。关键是，它可以并行了！”

分析复杂度分析到一半，伊利亚眼睛一亮，发现了重点。复杂度只是小事情，能够轻松并行才是最关键的地方。

传统的长短期和循环网络，可以处理时间序列信息，但总是需要根据之前的信息来推测当前的信息，依赖前置位的信息，因而无法并行。

简单点说，就是能并行的模型学不到长距离语言之间的联系，能学到的又没法并行。无法并行，用现在的设备自然就很难把语言模型做大。

“可目前最强力的模型都是带门控制，编码器加解码器的循环网络和卷积网络...难道我们真的一点旧有的技术都不使用吗？”

旁边有旁听的同事越听越觉得不靠谱了，这一步子跨得也有点太大了，咔，容易扯着蛋。

“它可以无视语言中，两个词之间的距离为它们单独建立相关性关系，单独这一点，就足以成为我们尝试的理由了。你们翻译任务当中，长句不也是相当令人头疼的问题吗？”

句子一长，就容易出岔子，加上目前的模型还喜欢持续累加各个词的信息。

机器看到中间，早就忘记前面是什么内容了。

“我是谁？我在哪？我在干吗？”