162. 网络的重参数化（2 / 2）

在这个大家才刚开始复现DreamNet，还没把残差的原理和一些变种搞明白的时间点，孟繁岐已经针对各种不同平台的其他运算设备，做了相当多的实验。

从而通过优化算子结构，调整特定计算过程的方式，将这个核心的骨干网络参数量减少了接近十倍。

运算快了这么多，性能却没什么变化，这已经非常不得了了。

马斯克有这一问，也是私下里的随口一提。

但他名头太大，以往自己做的事情又太疯狂，导致孟繁岐听着他那颇为低沉，有磁性的声音之时，当了真。

还真以为这是个非常严肃认真的需求。

“自动驾驶的热度确实也快起来了，我专门针对这方面做点优化工作，也不算亏。”

孟繁岐一边利用着重生优势开始抄底一些车企的股票，一边开始着手实现一个巧妙的加速并且节省内存的方式。

这个新的优化办法叫做网络结构的重参数化。

这半年来，视觉方法性能的突飞猛进来自于孟繁岐提出的残差方法，也就是将y=F(x)变为y=F(x)+x。

这里的写法比较简便，将一系列复杂的操作，抽象归纳为F()，在实际运算过程中，这个F()还是比较复杂的，往往需要算上好一会。

但在计算的时候，就有一个问题了，原本y=F(x)运算开始的时候，就不再需要继续存储x这个变量了，因为它已经在参与F(x)的运算。

在运算过程当中，它会变成其他的中间变量，然后最终变为我们所想要的y。

可在残差办法当中，y=F(x)+x，x这个原始的输入，是不能够舍弃的。

必须有空间一直被占用着，用来存放这个x，因为它还等着最后加上去呢。

在比较复杂，分辨率比较高的任务当中，这个变量的大小是相当可观的。

这种情况有没有办法可以规避？规避之后，残差方法带来的性能提升能不能不要被影响？

答案当然是肯定的，完全可以做到。

孟繁岐准备实现的这种结构重参数化，其最核心的思想就是模型训练和实际使用推理的分离。

首先构造一系列结构（一般用于训练），并将其参数等价转换为另一组参数（一般用于推理），从而将这一系列结构等价转换为另一系列结构。

在现实场景中，训练资源一般是非常丰富的，可以在大型的服务器上得到。

而推理的时候，计算资源往往会比较有限，因此大家更在意的是推理时的开销和性能。

想要训练时的结构较大，具备好的某种性质，比如性能特别好，准确率特别高。

但在推理的时候，则把结构变小变快，同时在数学上等价于大型的结构。

孟繁岐的这个新办法，就提供了这种可能，他相信，重参数+移动端网络的算力削减，将会成为自动驾驶领域的一大催化剂。最新网址：

本站网站:

请记住本书首发域名：。看小说吧手机版阅读网址：