当前位置:首页 > 每日看点

如何评价 Meta 新论文 Transformers without Normalization?

卡卷网1年前 (2025-03-14)每日看点431

Normalization这个事得好好掰扯掰扯。

上古时期,网络经常在初始几个iteration之后,loss还没下降就不动,必须得把每一层的gradient与weight的比值打印出来,针对性地调整每一层的初始化才能优化出来。尤其是tanh/sigmoid作为激活函数的网络,但凡有一层初始化得大了或者优化几步把某一层的scale搞大了,落在了tanh/sigmoid的梯度消失区间,以较小的梯度优化比较大的weight,可能几万步都走不出去,这也就是梯度消失问题的由来。

后来ReLU缓解了这一问题,不过还是得每一层精细地调调参数,再后来有了Kaiming初始化,需要手调的几率大大降低,基本上只要调一调多分支融合的地方就可以了。

而Batch Normalization的出现,彻底让手调初始化这个手艺失传了,当时虽然大家已经都转用ReLU激活函数,他们还是秀了一把,用BN训了一个sigmoid网络,果然也没有梯度消失问题了。

如何评价 Meta 新论文 Transformers without Normalization?  第1张

虽然没有梯度消失问题了,但sigmoid的性能还是不如relu

当时普遍的观点是:BN这东西,相比于精心调参的网络来说并不涨点(对比上边的Inception和BN-Baseline),但不见得大家都愿意仔细调参,而且它能加速收敛,部署时还可以吸收进线性层中,何乐而不为呢?

不过再后来,transformer成为主流,而nlp那边用layer norm居多,所以transformer继承了它,至于为什么不用BN而用LN,之前知乎一个问题大佬们都有很多讨论了:transformer 为什么使用 layer normalization,而不是其他的归一化方法? 。

但layer norm有个缺点,它不能像batch norm一样吸收到线性层,所以是有额外的部署时计算负担的。所以一直有人在尝试拿掉它或者用bn取代它(其实我曾经试过,在我的任务上用bn并不掉点)。

这篇文章DyT初看时确实震惊了我一把,normalization这东西之所以提出,不就是为了解决tanh的梯度消失问题吗?怎么现在还能用tanh替代normalization?梯度消失的问题难道不存在了吗?

后来转念一想,我第二段所描述的梯度消失现象,其实只存在于使用SGD优化的网络中,而现在通常使用的ADAM优化器,因为做了梯度的归一化,并不会因为tanh回传的梯度过小导致网络优化不动,所以网络是有能力在较短的步数之内将过大的输入调整过来的,尤其是DyT中专门加入了一个alpha参数,网络调整这个参数即可避免梯度消失问题。没想到梯度消失这个困扰神经网络学术界20多年的问题,如今被各种方案变着花地解决了。。

ps:在DyT替换之后,layer norm变成了激活函数,这时FFN里那个GeLU或者SiLU的就变得扎眼起来,能不能也换成tanh,完成一次彻底的文艺复兴?

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11875.html

分享给朋友:

相关文章

逾期后支付宝微信被冻结,显示执保该怎么办?

这几天有朋友问我说,他的微信零钱突然的用不了,问我是不是被冻结了,问我该怎么办?是不是被起诉了?这个,那个,别慌,别慌,还是那句老话:有钱就去协商,没钱只能暂时不管!但是真不管,这个被冻结的微信怎么办呢?今天针对这个问题,我就给大家做一哥比…

只有我一个人后悔升级鸿蒙next吗?

只有我一个人后悔升级鸿蒙next吗?

我有一台mate 60 pro,第一时间升级了“纯血鸿蒙”。 虽然功能并不完善,甚至有些简陋,但是我非常~非常不后悔升级鸿蒙next系统。 因为.... 这就是一款“大型养成系游戏“,给我平淡的生活提供了源源不断的情绪价值。 我每天特别…

用红米手机会很丢人吗?

前些日子遇到了一位快递小哥,京东的,签收 小哥年纪不算大,目测二十多岁 他的手机上全是一道道极严重的划痕,有点卡, 他开热点了,热点名就是手机型号,红米9a,我父母的同款 现在他那边操作了一会,然后又是我这边操作了一会 小哥看着我手机刷刷的…

如何进行 Elasticsearch 调优实践?

如何进行 Elasticsearch 调优实践?

面试官心理分析这个问题是肯定要问的,说白了,就是看你有没有实际干过 es,因为啥?其实 es 性能并没有你想象中那么好的。很多时候数据量大了,特别是有几亿条数据的时候,可能你会懵逼的发现,跑个搜索怎么一下 5~10s ,坑爹了。第一次搜索的…

荣耀magic 7 首发的应该都收到货了,感觉怎么样?

8号入手magic7,跟mate40pro比。 优点:1、电池真耐用,充电块,华为电池也是新换的但是明显荣耀耐用;2、系统明显快多了,mate40pro下半年开始卡的不行,实在受不了了。3、声音、震动效果提升明显,指纹反应灵敏很多。 缺点:…

夸克浏览器受欢迎的原因是什么?

夸克浏览器受欢迎的原因是什么?

这是可以说的嘛~ 哈哈,它比较吸引我的几点是:安全无广、页面简洁、功能丰富、反应速度快...... 首页页面支持自定义,喜欢什么样子都可以自己调整,没有花里胡哨的各种资讯推送,热搜日报整理归纳好,想看再点开查看,看着舒适度直接拉满! 实…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。