当前位置:首页 > 每日看点

在CV界,传统卷积已经彻底输给Transformer了吗?

卡卷网1年前 (2025-01-18)每日看点240

感觉很多答案都回答得很好了。

我就只说一点,经过在 Kaggle 上实践十几个数据集之后,我得到的结论是 ViT 系模型全都是“近视眼”。

(ViT 系模型: Vision Transformer 系列模型总称,包括 vit, swin, cait, deit, xcit, deit 等等)

比如说像下图这样的,哪怕你有近视眼,还是能分辨出狮子是狮子。

在CV界,传统卷积已经彻底输给Transformer了吗?  第1张

而 CV 科研界圣杯 ImageNet 里全是这样的图片,因此 ViT 系模型能大显身手。

在 Kaggle 里的类 ImageNet 数据的比赛中 ViT 确实能占一席之地,和 CNN 分庭抗礼 (并不是一边倒)。

但如果换成这样的图片,要在几千x几千像素的图片里分辨出这种像素级别的细节,那就不是 ViT 系模型的强项了,甚至在某些个数据集上基本无法正常收敛。

在CV界,传统卷积已经彻底输给Transformer了吗?  第2张

可以去看 Kaggle 上近两年的医疗图像比赛,金牌区基本看不到用 ViT 系模型的,清一色 CNN。

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/01/9907.html

分享给朋友:

相关文章

1个月5款APP,陌生人社交又火了:当年经纬投陌陌,暴赚11亿美金

1个月5款APP,陌生人社交又火了:当年经纬投陌陌,暴赚11亿美金

互联网巨头们正在陌生人社交领域疯狂试探。…

为何 Linus 一个人就能写出这么强的系统,中国却做不出来?

为何 Linus 一个人就能写出这么强的系统,中国却做不出来?

我给你举个真实的例子。。 有一个人叫高伟东,在哈尔滨工作。在2012年做了一个APP。使用词根词缀背单词。名字叫: 词根词缀词典这个人编辑了2300余条词根,给10万多条单词建立了词根索引,整理了50多万条的单词记忆方法,包括新版本的诸多新…

为什么我们一直在给B站充大会员但B站却一直处于亏损状态?

我讲一下离谱的真相吧,欢迎喷我。 很多人都觉得B站在赶走人才,赶走优秀的长视频创作者,也觉得知乎在这么做,是没错的。 确实在这么做。而原因很简单。 只有影响力很大的KOL才有商业价值。 (KOL是指“关键意见领袖”)而你说你是人才? 对不起…

你是如何在不依靠工资收入的情况下赚到一万元的?

你是如何在不依靠工资收入的情况下赚到一万元的?

分享几个路子稳,门槛低,变现快,适合年轻人的靠谱的副业。绝对不是送外卖、滴滴、搬砖等等的苦力活,这几个副业都是能是性价比极高,还能让你快速成长的工作。 想通过副业实现暴富、立马月入过万的同学,建议速速划走。 今天撇哥就给大家分享 100+个…

马云也搞不明白:为什么现在用户偏爱微信支付,而不是支付宝?

这题我会,我教马云一招。 你直接把你那破比支付宝的代码全删了,重新写一个。 打开支付宝直接就是一个大大的支付码,然后右上角按一下就是扫一扫。你要是还想保留你的其他那些乱七八糟的功能,麻烦将他们全部做到下拉菜单里。你这么设计我不说你能干死微信…

抖音上有一些账号搬运别人的视频,几乎一模一样,也没判搬运,他们是怎么做到的??

对于任何短视频平台来说,如何用最低的成本快速实现伪原创搬运都是需要解决的问题。 所有的短视频平台,包括抖音、快手、tiktok、视频号、小红书、B站,甚至是FB、推特、INS、YouTube,它们的查重技术都是类似的,只要你在网络环境设置得…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。