当前位置:首页 > 每日看点 > 正文内容

如何评价 Meta 新论文 Transformers without Normalization?

卡卷网8个月前 (03-14)每日看点304

Normalization这个事得好好掰扯掰扯。

上古时期,网络经常在初始几个iteration之后,loss还没下降就不动,必须得把每一层的gradient与weight的比值打印出来,针对性地调整每一层的初始化才能优化出来。尤其是tanh/sigmoid作为激活函数的网络,但凡有一层初始化得大了或者优化几步把某一层的scale搞大了,落在了tanh/sigmoid的梯度消失区间,以较小的梯度优化比较大的weight,可能几万步都走不出去,这也就是梯度消失问题的由来。

后来ReLU缓解了这一问题,不过还是得每一层精细地调调参数,再后来有了Kaiming初始化,需要手调的几率大大降低,基本上只要调一调多分支融合的地方就可以了。

而Batch Normalization的出现,彻底让手调初始化这个手艺失传了,当时虽然大家已经都转用ReLU激活函数,他们还是秀了一把,用BN训了一个sigmoid网络,果然也没有梯度消失问题了。

如何评价 Meta 新论文 Transformers without Normalization?  第1张

虽然没有梯度消失问题了,但sigmoid的性能还是不如relu

当时普遍的观点是:BN这东西,相比于精心调参的网络来说并不涨点(对比上边的Inception和BN-Baseline),但不见得大家都愿意仔细调参,而且它能加速收敛,部署时还可以吸收进线性层中,何乐而不为呢?

不过再后来,transformer成为主流,而nlp那边用layer norm居多,所以transformer继承了它,至于为什么不用BN而用LN,之前知乎一个问题大佬们都有很多讨论了:transformer 为什么使用 layer normalization,而不是其他的归一化方法? 。

但layer norm有个缺点,它不能像batch norm一样吸收到线性层,所以是有额外的部署时计算负担的。所以一直有人在尝试拿掉它或者用bn取代它(其实我曾经试过,在我的任务上用bn并不掉点)。

这篇文章DyT初看时确实震惊了我一把,normalization这东西之所以提出,不就是为了解决tanh的梯度消失问题吗?怎么现在还能用tanh替代normalization?梯度消失的问题难道不存在了吗?

后来转念一想,我第二段所描述的梯度消失现象,其实只存在于使用SGD优化的网络中,而现在通常使用的ADAM优化器,因为做了梯度的归一化,并不会因为tanh回传的梯度过小导致网络优化不动,所以网络是有能力在较短的步数之内将过大的输入调整过来的,尤其是DyT中专门加入了一个alpha参数,网络调整这个参数即可避免梯度消失问题。没想到梯度消失这个困扰神经网络学术界20多年的问题,如今被各种方案变着花地解决了。。

ps:在DyT替换之后,layer norm变成了激活函数,这时FFN里那个GeLU或者SiLU的就变得扎眼起来,能不能也换成tanh,完成一次彻底的文艺复兴?

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11875.html

分享给朋友:

相关文章

学了两个月网络安全,一直未入门怎么办,知乎大佬们给些建议吧?

学了两个月网络安全,一直未入门怎么办,知乎大佬们给些建议吧?

你才学两个月,就想入门,笑不活了,我学了8年了,还被人说是个菜鸟。我学了这么多的渗透,依然挖不到自己的漏洞。ailx10:学习CSRF漏洞ailx10:学习PHP XXE漏洞ailx10:学习CORS漏洞ailx10:学习ClickJack...

腾讯文档回收站彻底删除文件真的找不回来了吗?

趁早打电话联系腾讯文档的人可能还有救,一般这种都是数据库里标记为删除,文件还没有实际删除,然后经过一段时间后程序统一进行真删除。这个“一段时间”可长可短,可能是一小时也可能是几天几个月甚至几年,要看腾讯服务器的程序是怎么写的。不过你联系腾讯...

报名的网课分期付款怎么退?

你在你分期付款的订单下面有客服电话,直接打电话描述一下你的问题,你可以告诉他你是被恶意绑定的,在不了解有退学条件这一说的情况下报的课程,可能遇到消费者诈骗了,不承认有退学金,说是霸王条款,诈骗消费者,你若分期了先把自动续费关了,别让自己个人...

有没有高手指点一下Google做SEO现在的技巧啊?心好累。

有没有高手指点一下Google做SEO现在的技巧啊?心好累。

搜索引擎优化 (SEO) 的目标是让 Google 在用户输入相关搜索查询时提供您的网页链接。虽然没有固定的蓝图可以保证您获得最高排名,但有几种 SEO 最佳实践(您可以将其视为 SEO 规则)可以增加您在非付费结果中获得良好排名的机会。谷...

什么时候你意识到做技术永无出路?

什么时候你意识到做技术永无出路?

2016年,帮一个朋友的忙,写了个软件给他的工作室用, 象征性的收了5000块钱。大概过了三四年吧,他酒后吐真言,这个软件在他这个细分行业,很有用,他这几年把我写的这个软件卖了很多份出去,收益远超30万。因为是离线软件,给他的就是一个exe...

抖音有3,4万粉丝能挣多少钱?

抖音有3,4万粉丝能挣多少钱?

如果在抖音有100万粉丝,一个月能赚多少钱你知道吗?直接说答案:抖音有100万粉丝,可能1分钱也赚不到...那视频有100万点赞,能赚多少钱?可能也是1分钱都赚不到...新手需要通过抖音变现抖音运营速报站:做为新手玩抖音要注意什么?怎样才能...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。