当前位置:首页 >> 检测设备

引入特征空间,显著降低计算值:双边局部注意力ViT性能媲美全局注意力

来源:检测设备 时间:2023-03-18

,position encoding 等结构设计亦非和 Swin/CSWin 大相径庭,所以之后对 bilateral local attention 透过参考介绍。

Bilateral Local Attention

本文重申的 bilateral local attention 在基于终端的布形在表面上空除此以外渐进瞩目点(ISLA)静态之中添加了外观上在表面上空除此以外渐进瞩目点(FSLA)模组。FSLA 模组根据 ISLA 模组的输出算出在外观上在表面上空除此以外彼此南边近的 token 之除此以外的瞩目点:

之后,将 FSLA 模组的输出送去另一个反之亦然层和一个 MLP 模组透过处理,再通过一个低压电通往给与整个 bilateral local attention 模组的输出:

FSLA 的综合是如何对外观上透过聚类加载,并且在各个类在表面上算出自瞩目点。最直觉的作法是用作 K-means 聚类,但 K-means 聚类没法前提分组结果大小完全一致,这使得在 GPU 平台上不足以有效地解决问题并行快速,同时也可能对自瞩目点算出的理论上产生负面从外部影响。

因此本文重申基本层次聚类,它透过 k 层聚类。在每一层,它透过基本等于聚类,将上一层的各个类组基本地分界为两个不够小的类组。如下布附注,所有 token 分成了 token 数用量完全一致的 8 个类组,然后在每组在表面上算出自瞩目点,确切的自瞩目点值和布形在表面上空除此以外渐进瞩目点大相径庭。

假如某个类组原必先有 2m 个 token,基本等于聚类后给与的每组的 token 数用量为 m。与 K-means 类似,基本等于聚类是一个迭代线性并且依靠于聚类外围。如不限线性附注,在每次迭代对所有 token 透过分组时,必先算出每个 token 到两个聚类外围的西南方比值,然后把所有 token 按西南方比值的增高顺序选取,之后将选取年表前半部份 m 个 token 赋给了当,后半部份 m 个 token 赋给第二组。

需要忽略的是,这样透过无隔开的基本等于聚类可能则会引发两个受制于选取年表之东北角位置的、外观上比较完全相同的 token 被分摊到两个多种不同的类组之中,从而无法算出它们之除此以外的相互从外部影响。因此在也就是说算出之中,为了不致值得注意南边近外观上除此以外的从外部影响,则会大相径庭一定往往的类除此以外隔开,也就是把选取年表的最前面 m+n 个 token 赋给了当,之后 m+n 个 token 赋给第二组。这样两台之除此以外就长期存在 2n 个重用的 token,这样的类除此以外隔开则会引发额外的演算,因此也就是说只在层次聚类的之后一层透过有隔开的基本等于聚类。完成聚类以后,在每组 token 在表面上按照如前所述加载透过自瞩目点程序的算出才会。

值得一提的是的是,本文之中的所有聚类都是临时算出的,不包涵任何可研读的值,因此不长期存在对聚类线性本身透过梯度回传的关键问题。此外,所有聚类演算都用 GPU 透过了快速,对静态的全面性算出用量从外部影响略有。

物理结果

BOAT 遵循与其它 ViT 完全一致的基础训练策略。本文用作 ImageNet-1K 的基础训练集基础训练静态,输入布形用作 224×224 解析度,并且不会受控统计数据。

确切来说,基础训练 300 个 epochs,用作 AdamW 优化容器、自适应研读速度调度容器和一个标用量气化过程。BOAT 在多个统计数据集上都获得了 SOTA 的视觉效果。比如,在 ImageNet-1K 检验集上,BOAT-CSWin-T 获得了 83.7 的 Top-1 分类准确率;在 ADE20K 语义分割检验集上,BOAT-CSWin-T 的 mIoU 达到了 50.5。

镇江看白癜风哪个专科医院好
肩膀关节疼痛是怎么回事
英太青和迪根哪个药好用
重庆去哪家白癜风医院好
广西白癜风医院哪家专业