您现在的位置:首页 >> 品牌家居

周朝最新论文登上ICLR 2022:给注意力机制Softmax找个“平替”

发布时间:2025/09/13 12:17    来源:砀山家居装修网

萧箫 转载自 周朝AI光子位 | 对政府号 QbitAI

Transformer很出名,但它架构上的不少疑问依旧令人头痛。

典例之一就是其中的Softmax Attention接口,虽然能捕捉长距离忽视关系,但由于Softmax算子关于序列长度的二次空间和时长复杂性,导致难以扩展。

虽然也有用核新方法、稀疏视线选择性等来近似Softmax算子,以增加时长空间log,但近似操控本身存在的误差使得其真实感很难遥遥领先好Softmax Attention。

为此,周朝多抽象概念研究组想到,与其近似Softmax,为何不重新设计一种方式也“平替”Softmax?

他们提出异议了一种叫做cosFormer的技术手段,学术论文目前已经登上ICLR 2022。

一方面,cosFormer在时长空间log关于序列长度为线性log的同时,其效率相对于或者遥遥领先好Softmax Attention;

另一方面,它也在LRA benchmark上取得了SOTA,其中y轴坚称效率,x轴坚称平皆速度,圆圈较小坚称CPU。

一起来想到。

此前的Softmax有什么疑问?Softmax Attention

Softmax Attention的数值方式也是这样的:

线性Attention

通过系统性我们推测,效率瓶颈的主要原因是exp操控,如果相近度表达式可以坚称为

那么

根据向量演算的结合律:

上式可以微分为:

经过数值后可以受益该新方法的时长log为,即关于序列长度是一次的。

Softmax Attention和线性Attention的数值方式也可以用图表总括:

所以整整的但会概述的并不需要,以及核心的reweighting操控。

Softmax的两大本质

我们经过系统性以及测试,归纳出Softmax Attention中相当重要的本质,这两个本质可以指导我们的静态设计:

视线向量的非负性皆匀分布视线的可视(非极大值诱发)

对于第一点,我们有如下测试进行可验证(静态结构为RoBERTa):

这里Loss坚称可验证集损失(越好低越好好),其余这两项皆为比率(越好高越好好),可以看到,当保证了视线向量的非负性之后,可以达到较好的真实感。基于该测试,我们并不需要为ReLU表达式。

对于第二点,我们的方式也是在视线向量中扩展先验locality信息,观察Softmax视线向量,如图表所示,我们推测其视线向量的权重在正方形西南方很集中:

所以我们的新方法需要在加了reweighting操控后也非常集中在正方形西南方。注意并非所有的有类似权重的表达式皆适用,这个reweighting的表达式需要跟末尾的QK一样可以拆分成两个向量的乘法的形式。

自始,就可以扩展我们的cosFormer了。

cosFormer如何遥遥领先好Softmax?

我们的新方法基于线性Attention,首先给出符号表述:

根据之前的系统性,我们并不需要了:

可得:

为了进行reweighting操控,并且同时保证线性Attention的数值方式也依然成立,我们并不需要了cos表达式:

展后下可得:

为了便于展示,我们把它记作:

最终受益:

上式和线性Attention的数值方式也一致,经过系统性不难得出时长log依然是O(N)。

具体效率似乎有多好?

我们在单向静态,双向静态以及LRA benchmark上测试了我们的新方法,皆取得了非常不错的真实感。

单向语言静态,这两项坚称好奇度(越好低越好好):

双向语言静态,这两项坚称比率(越好高越好好):

LRA benchmark:

效率测试,这两项坚称比率(越好高越好好):

CPU平皆速度测试,这两项坚称平皆速度(越好高越好好,如果CPU溢出,则标上为叉):

目前代码已后下源,感兴趣的小某一天可以撕下方接收者明白了~

学术论文接收者:

部分后下开源:

— 完毕 —

光子位 QbitAI · 新闻号合约

银川治疗皮肤病正规医院
郑州白癜风检查多少钱
长沙治疗皮肤病专业医院
肿瘤妇科
咳嗽黄痰可以喝太极急支糖浆吗
妇科
胃药
补血

上一篇: 投资者提问:董秘您好,公司今年来获取相较去年增幅较大的大量订单,受制于最近经...

下一篇: 取值海尔智家科技

友情链接