重生之AI教父 - 第164章管挖不管埋

14年仍在人工智能技术崛起的早期，主要是由阿里克斯在模型参数量上的创举和孟繁岐的残差网络敲开了深度的大门，完成了两次性能飞跃。

从而实现了对传统办法的性能碾压态势，迫使许多领域在1-2年内不得不转型采用人工智能方法。

因为性能实在差太多了，不换根本行不通。

孟繁岐的好友唐璜当年在读研的时候，导师就迟迟不肯转移重心到深度学习上面，认为该系列方法缺乏理论，不如传统办法优雅。

传统办法逻辑严谨，证明优美，是不少老学究的心头好。

结果拖到17年左右，文章都发不出去了，性能不够啊。

投出去经常都是直接被拒稿，说你这个办法效果太差，没有价值。

硬着头皮挺了一年，实在是挺不下去了，没办法，人还是要吃饭的嘛...

打不过就只能加入，老教授牙一咬心一横，管他什么理论不理论，我也来搞一个人工智能模型跑一跑。

一埋头，也加入了AI大军。

不过那是几年之后了，此时的大家还是比较在意理论的。比如席尔瓦和戴密斯，就很在意孟繁岐重参数化的数学形式。

一是因为时间早，许多人心里还是放不下传统理论，看到什么现象和提升，都想把它解释清楚解释明白。

对深度网络的[黑盒]属性，大肆抨击。

二也怪孟繁岐，在提出残差网络的时候，参考鄂维南的想法，拉上了韩辞给了世界一个太过合理的理论解释。

残差网络就是数值分析中的迭代办法，这个解释多优雅呀。

原本时间线恺明提出残差网络的时候，更多地还是从工业和实验的角度上去讨论。

至于理论原理....那就是未解之谜了。

不过，只要性能够好，这些都不是什么问题。

只能够提升一点性能，大家会质疑你，为什么解释不清楚。

而若是能够把性能拉满，大家就会质疑自己，为什么想不明白。

更何况，当时孟繁岐借韩辞之口，将鄂维南院士为残差网络所做的理论解释公之于众，一时间传为美谈。

很多学者都觉得，好哇，人工智能这个黑盒终于有救啦！

与动力系统构建了桥梁，那可以解释的地方就太多了。

F(x)+ x的形式，一句欧拉前向形式，就给予了完美的解释。

优雅，太优雅了。

不过优雅却也只是一时的，众人很快回过味来。

如果说，孟繁岐提出的残差形式是欧拉前向的格式，那是不是意味着其他的形式可以取得更加好的结果呢？

这是一种非常合理的设想。

理论之所以重要，不仅仅在于它可以解释一些现象产生的原因，更重要的地方在于，它可以预测后续的发展，推测可能会发生的结果。

基于理论，继续探索更多的可能。

欧拉前向的形式，并非是非常复杂的数学形式。

反而，它属于最为基础，最为简洁的初级形式。

这就给了大家很大的空间去水文章..啊不，去探索，去研究。

循着孟繁岐留下的这个方向，第二波的论文狂潮于最近初现端倪。

一个月前的第一波论文潮，基本上全是水文，主要是拿来主义。

把孟繁岐的技术直接拿到自己的小众任务上，你的代码技术很好，现在是我的了！

我运行一下，发现效果很好，超过了原本的世界纪录，迅速写作投稿水一篇文章，很舒服。

又或者是稍微调整了一下孟繁岐的某个结构，在他论文里报告过的任务上有了微小的提升，忽略自己改动的缺陷不提迅速写作，称自己超越了孟繁岐，水一篇文章。

这种拿来主义水文，创新度和工作量不够，价值大部分也很低，一般发不了太好的会议和期刊。

也入不了孟繁岐的眼。

而现在的第二波论文狂潮，则主要是基于孟繁岐指出的道路，创意上稍显不足，但工作量还是有的，值得稍微一翻。

主要思路就是遵循韩辞提出的理论解释，既然你最基础的欧拉前向效果这么好，那我就用更加复杂的形式来实现。

欧拉反向法，二阶中点法，四阶龙格库塔法，线性多步法等等。

“我在西尼会场的时候，将一整个深度网络模型解释为一种高阶多维方程，并将残差网络的训练行为定义为了一种求解方式，看来这个理论很受欢迎啊。”

孟繁岐看着自己挖的大坑这么多人往里跳，不由得笑道。

这个解释实在太合理了，也太符合直觉了。

要解释人工智能模型到底在做什么，有一个非常好的例子，就是进食和消化。

食物在胃中，随着时间变化的消化情况，可以由一个方程来表示，这是未知的函数。

根据这个函数可以计算食物吃下去之后，过任意时间之后，还剩下多少。

而所谓的数据，就是食物吃下去多久之后还剩多少，这部分情报。

这些数据点，每一个都会落在未知的函数上面，如果数据点足够多，就能够无限接近函数本身。

可以说，深度神经网络的训练过程，就类似于随机初始化了一个函数，给你一个x，算出来y`。

通过反复告诉它你算的y`跟实际上的y差了多少，从而让它能够尽量接近那个未知的函数。

所以理论上，只要数据样本足够，就总是能够获得最后想要的结果。

当然了，这是个非常简单情况的例子，实际上在拟合的方程，是人类目前难以实际分析和表达的复杂结构。

不过有一点是肯定的，那就是孟繁岐的残差思想，是通过提高了求解的精度来获得的巨额提升。

这是数值分析当中的概念了，如果把整个网络理解为一种非线性常微分方程，欧拉前向就是一种简单的单步显示迭代办法。

说人话就是，通过近似的迭代模拟，省略了复杂的求解过程。

让计算机直接算百层网络的情况，它算不明白，所以用反复的简单操作来代替。

简单的格式计算求解的准确度当然会差一些，复杂的格式，计算求解精确度会高很多，势必会使得模型的性能更好。

这是个基于理论得出的推断。

因此西尼那次国际计算机视觉大会之后，所有人都认为，孟繁岐不仅做出了突破性的成果，并且还给出了一个可以指引网络变得更好的理论方向。

真是活菩萨啊！

乌泱泱一大批人前赴后继，义无反顾地往这个理论大坑里跳。

然而事情怎么可能会那么简单呢？复杂的格式需要成倍的计算量，这在深度神经网络这个实际上是离散表达的格式中，并不容易转化。

无数的研究者跳进去之后，才发现都说挖坑挖坑，原来这还真是个大坑，费了半天劲勉强做出来的结果，根本和孟繁岐的残差网络性能差不多，有时候甚至更差！

一时间哀嚎遍野。

“你们只管往理论的大坑里面跳，我可不管埋啊！”孟繁岐一边幸灾乐祸一边想着。

他当时在会上发布残差网络的同时着重提了这个理论解释，确实也有三分等着看人跳进坑的恶趣味在里面。

理论特别扎实明白的做法经常不起作用，而像自己的重参数化这样反直觉的办法反而效果绝佳，人工智能这个坑爹领域的事情，谁又能说得清呢？

理论方面的事情，2023年了都还差得远呢，现在哪里搞得明白。

不过，孟繁岐在这方面看得明白，远在燕京的韩辞却是黯然神伤。

当初西尼会场之上，一个实践一个理论，两边的成果都备受瞩目，也算是一段佳话。

可短短两三个月过去，实践派的孟繁岐新的成果层出不穷，频频突破人类水准，阿尔法狗甚至直接约战世界冠军。

而她目前唯一的理论成就，却被证明只能在玩具级的数据上得出符合的结论，稍有一些其他的变量，就不吻合。

其中的委屈，又怎么说得清！

投推荐票上一章章节目录下一章加入书签返回书架

第164章 管挖不管埋

第164章管挖不管埋