999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AttentionRanker——基于排名優化的自-互注意力機制

2023-09-26 05:26:56趙艷明林美秀曾姝瑤
關鍵詞:特征實驗信息

趙艷明,林美秀,曾姝瑤

(中國傳媒大學信息與通信工程學院,北京 100024)

1 引言

圖像匹配在40 年前由David Marr[1]教授首次提出,旨在探索不同視覺對象之間的差異性和共同性,并且作為計算機視覺的底層任務連接著兩個具有相同或相似屬性的圖像目標,是計算機視覺中最為重要的研究領域之一。

相機位姿估計任務作為圖像匹配的一個基礎下游任務,需要匹配網絡提供對應的點對匹配信息從而還原出相機的旋轉平移運動,如圖 1所示,它作為低層視覺通往高層視覺的紐帶,不但承接著三維重建、同步定位與地圖構建(Simultaneous Localization and Mapping,SLAM)等大型任務,同時也是實現信息識別與整合[2-4]以及從低維圖像恢復高維結構[5-6]的重要途徑。

目前大多數圖像匹配算法通常包括三個獨立的步驟:特征檢測、特征描述和特征匹配。近年來隨著深度學習的迅速發展,這三個步驟逐漸被整合到一個端到端網絡當中,利用深度神經網絡根據不同圖像集特點在特征檢測階段學習到特征點之間的關系并進行匹配。然而由于很多室內數據集圖像中的弱紋理區域或者重復區域往往會占據圖像的大部分空間,并且相機運動和光照條件會帶來強視點變化和強光線變化,這使得特征檢測器很難提取到可重復的特征點,從而無法找到正確的特征點對應關系。最近的一些研究工作直接通過建立像素級的密集匹配并在其中選擇置信度高的匹配對,避免了特征檢測器無法提取到足夠多的特征點進行后續匹配的問題。

針對原始Transformer結構處理長序列時帶來的顯存爆炸問題,雖然已經有很多研究提出了高效的Transformer 變體,但其中絕大多數研究集中于自然語言處理的稀疏方法,在計算機視覺領域則通常直接引用前者思路,缺少針對性面向圖像處理的注意力稀疏算法。

圍繞上述問題,本文展開研究工作,通過梳理自-互注意力機制在提取得到的密集局部特征中進行信息交互的過程,提出了基于排名優化的自-互注意力方法-AttentionRanker。該算法創新性地通過對位置編碼后的一維輸入特征圖進行重塑形,然后利用類空間注意力機制挑選少量活躍像素點,成功地將每層注意力的時間復雜度降為O(N· lnN) ,對于不同圖像生成不同的權值從而實現自適應優化。

2 相關工作

2.1 無特征檢測器的圖像匹配算法研究現狀

密集特征匹配思想可以追溯到2010 年的Liu 等人[7]提出的基于光流法的SIFT Flow。2018 年Ignacio等人[8]針對弱紋理區域和圖案重復區域用最近鄰方法容易產生錯誤匹配的問題,提出鄰域共識網絡(Neighbourhood Consensus Network, NC-Net),它通過構造4D 代價容量函數來枚舉圖像之間所有可能的匹配點對,然后利用4D 卷積對代價容量進行正則化,以鄰域共識思想約束所有的匹配點對。然而NC-Net 中的4D 卷積神經網絡也帶來了巨大的內存消耗和時間復雜度問題,2020年,Li等人[9]提出的雙分辨率對應網絡(Dual-Resolution Correspondence Networks, DRCNet)同樣通過構造四維卷積神經網絡獲取密集匹配,通過這種由粗到細的方式極大地提高了匹配的可靠性并且避免了整個網絡都進行4D 卷積運算所帶來的巨大計算代價。

2021 年CVPR 挑戰賽中Sun 等人[10]提出了在SuperGlue[11]的匹配思路下設計的基于Transformer 的圖像匹配網絡LoFTR[10]。其整體可分為四個組成部分:特征金字塔、自-互注意力信息傳遞、粗匹配預測、多尺度特征融合匹配。

首先輸入兩張圖片IA、IB∈?h×w,然后構建一個具有三層結構的ResNet-FPN 網絡,輸出粗精度特征圖和細精度特征圖F^。然后將得到的一對粗精度特征圖分別展平為一維向量A、B∈?N×d,融合位置編碼后送入自-互注意力模塊,得到圖像內部的關鍵點信息以及圖像之間的關鍵點信息。然后利用Sinkhorn 算法[12-13]或雙Softmax(Dual-softmax)法得到粗精度匹配預測。最后是進行多尺度特征融合匹配,對于每一對粗匹配(i,j),在細精度特征圖F^ 上定位其位置,然后裁剪兩組大小為w×w的網格窗口并展平,通過自-互注意力信息傳遞后,得到兩個以粗匹配預測的定位點i和j分別作為F^A和F^B中心的細精度局部特征表示。通過計算概率分布的期望,收集F^A中所有特征點的對應匹配后,最終得到細精度特征圖上的亞像素級匹配(i,j′) ∈Mf。

2.2 注意力矩陣的稀疏分解

為了降低注意力模型的時間復雜度,Zaheer 等人[14]提出了兩個假設的注意力模型,分別是空洞注意力模型(圖2)和局部注意力模型(圖3),這兩種模型在計算上都有所簡化。

與這兩種算法有相似之處,Sparse Transformer[15]在注意力的計算上直接將兩個假設合并起來,也就是對于每一個元素來說,都只和與它距離不超過k,以及距離為mk(k> 1) 的元素相關聯,這樣不僅可以學習緊密相關的局部信息,并且在全局關聯性的計算中稀疏了一些注意力,降低計算復雜度。具體算法如下:

定義一個集合S=S1,…SN,N 為向量長度。Si表示第i個輸出向量對應于輸入向量中的索引集合,即第i個元素可以關聯到的元素集合,輸入向量X通過S與輸出向量關聯起來(公式(1)、(2)):

其中KSi=Wkxj,VSi=Wvxj(j∈Si),Wq、Wk、Wv分別表示將給定輸入元素xi轉換為query、key 和value的權重矩陣,attention(xi,Si) 表示xi和可以關注的元素之間的注意力。

當使用兩個注意力頭時,讓每個注意力關注不同的位置,文中選取讓其中一個注意力頭只關注當前位置的距離為以內的元素,讓另一個注意力頭只關注距離當前位置為的元素。這樣就將計算復雜度由O(N2·d)降低為

3 本文方法

3.1 自互注意力機制

圖像匹配任務的傳統方法是在獲取特征點后計算其視覺描述符信息,然后通過暴力匹配計算描述符歐氏距離獲得匹配點對。近年來的匹配算法受Transformer[16]的啟發,在圖神經網絡的基礎上,利用注意力機制整合其他的上下文線索,從而給特征點或者特征圖賦予更多的全局信息。

使用卷積神經網絡提取兩張原始圖像IA、IB∈?h×w的局部特征圖FA和FB,自-互注意力模塊提取密集匹配過程如下:

(1)使用絕對正弦-余弦位置編碼為FA和FB中的每個元素添加特定的位置信息,使得圖像上的特征與其所在的位置相關聯,提高在弱紋理區域找到對應匹配區域的能力。參考Carion 等人[17]的位置編碼方法,將第i個特征通道中(x,y)位置的正弦-余弦位置編碼的二維擴展定義為式(3):

(2)將特征圖FA和FB展平為一維向量,分別與位置編碼融合相加得到和后輸入自-互注意力模塊。

(3)對兩個序列計算圖注意力:對于自注意力層,輸入特征fi和fj相同,來自于或;對于互注意力層,輸入特征fi和fj則分別來自于和或者和具體情況視互注意力方向而定)。

(4)將自-互注意力模塊中的自注意力層和互注意力層交替Nc次,對輸入特征進行變換,最終輸出融合本張圖片鄰域信息與待匹配圖像信息的特征和

圖4給出了基于Transformer 的自-互注意力流程。自注意力層使得每個點關注其周圍所有點以及關聯性,互注意力層使得每個點關注另一幅圖上的所有點及其關聯性。

3.2 基于排名優化的自-互注意力機制

因為直接使用普通的Transformer 編碼器結構對算力要求過高,為了能夠輕量化使用Transformer,本小節根據輸入圖像的不同特點進行針對性處理,結合活躍像素點的注意力挑選策略,提出基于排名優化的自-互注意力機制。

3.2.1活躍像素點的挑選策略

針對普通注意力機制中忽略稀疏性,對所有的query 和key 進行點積運算從而造成時間復雜度高的問題,一方面需要考慮不遺漏計算重要的注意力,另一方面需要考慮如何有效地減少計算量。對于每一個一維向量Fpe∈?N×d,通過線性映射后得到查詢向量q∈?d、值向量k∈?d和鍵向量v∈?d。如圖5 所示,本節跟隨Informer[18]的實驗結論定義兩種查詢類型,活躍查詢qa(active query)和非活躍查詢ql(lazy query):

(1)qa是能在key 中查詢出更關鍵的信息的query,即qa-key 點積對對于注意力有貢獻,這種query在注意力中有一個或多個注意力分數的峰值,其他地方的分數則比較低。

(2)ql是使key 起平均值作用的query,即ql-key點積對對于注意力僅僅起很微弱的貢獻。這種query在注意力中注意力分數沒有太大的起伏,整體分布比較平均。

為了從所有query中量化區分“活躍性”,在每次進入自注意力層和互注意力層之前首先將一維向量進行重新整合,轉換為特征圖大小的向量x∈?(h × w)×d,此時的隱藏維度d可以看作是通道數,圖像上的每個像素點經過特征提取和位置編碼融合后,使得x不但帶有豐富的位置信息,且攜帶了特征的抽象表達,而這種抽象表達的信息更多體現在“通道維度”上。

如圖6 所示,利用Woo 等人[19-20]提出的空間注意力思想,對通道進行降維操作,將隱藏維度帶有的信息壓縮后送入類空間注意力模塊,實現對特征圖x的重構。特征圖x同時經過全局平均池化[21]和全局最大池化,得到兩種不同的通道特征描述算子后將其進行拼接:

其中特征圖x′∈?(h×w)×2。將拼接得到特征圖x′經過輸出通道數out_channels=1、卷積核大小為7×7的卷積層實現降維和增大感受野后,使用Sigmoid 激活函數得到通道信息的注意力權重矩陣MSA。

如果某個像素位置的通道信息權重MSA越大,則表明此像素點在線性映射為query后,與key的點積結合越有可能查詢出信息。

基于此,將通道信息的注意力權重MSA作為qa的度量方法。對于自注意力層,對輸入的每張圖像分別進行同樣的操作:將重構后的特征圖X∈?(h × w× )d再次展開為一維向量后,通過不同的參數矩陣Wq∈?d×d、Wk∈?d×d、Wv∈?d×d線性映射為查詢矩陣Q∈?N×d、鍵矩陣K∈?N×d、值矩陣V∈?N×d,將得到的注意力權重MSA從大到小進行排序,在Q中挑選出其中占主導地位的Top-m 個qa(圖7(a)),從而實現對所有query 的稀疏度評估。根據Zhou 等人[22]提出的策略對m進行定義(式(5)):

其中c為可調超參數。非活躍像素點形成空洞直接由value 的平均值填充,最終得到與原始查詢矩陣Q大小相同的稀疏矩陣Qˉ,此時式(5)變為式(6):

對于互注意力層,將得到的兩個輸入向量進行特征重構后,其中一個輸出向量X1線性映射為K和V,另一個輸出向量X2線性映射為Q,同樣使用注意力權重進行qa的挑選。其過程由圖7(b)所示。

因為只計算了稀疏度度量下的Top-m 個query,理論上每層注意力的時間復雜度降為O(N· lnN)。

3.2.2AttentionRanker——基于排名優化的自-互注意力機制

上文活躍像素點的挑選策略已經確定了每層自注意力和互注意力的運行機制,其流程示意圖如圖8所示。

對于每一張圖像,與Sparse Transformer等啟發式稀疏注意力方法不同,AttentionRanker 會根據圖像的特征自適應地生成不同的空間注意力權重值,每層自注意力和互注意力的輸入都會用Top-m 思想評估出不同的qa,計算生成不同的矩陣,從而使得在計算多頭注意力時,每張圖像上的重要像素點既不會因為注意力頭不同而改變,對于每一層的輸入又可以自適應選擇活躍query從而采取不同的優化策略。

在自注意力層中,其Qs、Ks、Vs的輸入都來自于同一特征向量。在將重構后的特征向量展平并經過不同的線性層轉換成表征長度相同的向量后,通過隱藏維度的信息壓縮選出空間注意力權重最高的Top-m個qa,只計算這些qa和所有key的點積結果,其余的ql不再進行計算(即不再為value計算權重),而是直接對value取均值作為輸出,從而保證輸入輸出的長度統一。并行計算每個特征圖的自注意力,得到帶有自身特征關聯信息的和,將其進行特征重構后分別作為互注意力層Qc和Kc、Vc的輸入特征向量,同樣進行上述步驟后輸出帶有相互特征關聯信息的和。將上一層的輸出向量作為下一層自-互注意力的輸入向量,在Nc次信息傳遞之后,最終得到融合本張圖片鄰域信息與待匹配圖像信息的輸出特征和

3.3 無檢測器的特征匹配模型

3.3.1強紋理增強模塊

本節介紹在特征金字塔ResNet18-FPN 的基礎上加入強紋理特征增強模塊(Strong Texture Feature Enhancement Module,ST-FEM)后的網絡結構。

如圖9 所示,將ResNet 每層特征圖的輸出表示為{C1,C2,C3},自頂向下過程中的每層特征圖的輸出表示為{P1,P2,P3}。圖9(a)給出了FPN 自頂向下過程中P2級別到P1級別的融合路徑示意圖,通過1×1卷積核對C1進行通道降維,橫向連接來自空間域2 倍最近鄰上采樣的特征圖P2和自底向上特征提取過程中相同空間大小的特征圖C1。下文所述的網絡結構均為將ST-FEM模塊置于1×1卷積前的情況。

2018 年Park 等人提出的BAM[19-20]中指出在神經網絡中,不同的維度所代表的意義不同:對于通道維度而言,其包含的信息更多為特征的抽象表達,而對于空間維度,則擁有更為豐富的特征位置信息。為了使得特征提取網絡更加關注于強紋理區域特征,本章將來自于自底向上過程中的除最高層語義的其他尺度特征圖(以C1、C2為例)進行如下處理:

(1)經過全局最大池化MaxPool和全局平均池化AvgPool得到不同的語義描述符M∈?h×w×1(式(7))和A∈?h×w×1(式(8)),即將每個像素點在不同通道上的最大值和平均值表示在空間維度的每個位置中:

(2)將每個像素點在空間維度上進行全局低維嵌入{(h×w) →(1 × 1) },即將M和A經過全局平均得到整張圖的最大值Avg(M)和平均值Avg(A)。

(3)將M和Avg(M)相減得到每個像素點與整張圖像的差異絕對值描述符M′(式(9)),同理得到A和Avg(A)的差異絕對值描述符A′(式(10)),絕對值越大則代表這個像素點與周圍、與整張圖像越不同,即本節所述的強紋理特征區:

(4)將帶有強紋理特征相對位置的M′和A′進行拼接,經過卷積核大小為7×7的卷積層f(·)和Sigmoid激活函數σ(·)后,與自底向上過程中提取的特征圖C1、C2進行融合得到強紋理特征增強的特征圖C′1和(式(11)):

最后經過1×1 卷積形成一個完整的橫向連接。整體結構如圖10所示。

圖1 位姿估計任務示意圖

圖2 空洞注意力的注意力矩陣及其關聯關系示意圖

圖3 局部注意力的注意力矩陣及其關聯關系示意圖

圖4 特征圖FA、FB的自-互注意力流程

圖5 活躍查詢和非活躍查詢的注意力分布示意圖

圖6 利用類空間注意力算法挑選活躍像素點

圖7 自-互注意力層挑選活躍像素點

圖8 基于排名優化的自-互注意力機制

圖9 特征金字塔中的ST-FEM 模塊示意圖

圖10 強紋理特征增強模塊ST-FEM 示意圖

3.3.2多尺度自-互注意力融合機制

針對特征金字塔提取的多尺度特征圖,采用兩種不同的自-互注意力融合設計:

圖11 Linear Transformer的注意力機制

對于粗精度的自-互注意力特征融合步驟,在非稀疏方法下需要進行近五千個點積計算的查詢向量中挑選幾十個活躍查詢可以很大程度上降低計算量,但如果對細精度匹配步驟采用同樣的Attention-Ranker稀疏方法,在非常少量的查詢向量中挑選活躍像素點意義不大。故本文針對不同尺度的特征圖選用了“AttentionRanker +Linear”兩種不同的稀疏注意力方法。

3.3.3損失函數設計

整體算法的搭建包含“由粗到細”的多尺度遞進匹配思路,遵循文獻[10-11,24]的損失函數設計方案,本文算法最終損失L包括粗精度損失Lc和細精度損失Lf(如式(12)):

(1)粗精度損失Lc

每個特征都代表原圖上的一個像素網格,由于粗精度特征圖和細精度特征圖是多尺度的,在由粗到細的匹配過程中很可能會存在一對多的匹配結果,因此也難以準確獲得粗精度匹配的真值標簽。

ScanNet 數據集[25]提供相機位姿和深度圖,本文采用在訓練過程中實時計算出置信矩陣Pc作為真值標簽的方法:通過衡量兩組低分辨率網格中心位置的重投影距離,從而確定互最近鄰,即取A中網格的中心位置,將其投影到與深度圖相同的比例,并在數據集中對其深度信息進行索引,基于深度值和已知的相機位姿,將網格中心扭曲到另一張特征圖B上,并將其最近鄰作為匹配候選,從B到A重復同樣的過程。最后基于兩組不同方向的最近鄰匹配,保留互最近鄰的值作為最終粗匹配的真值

當使用雙Softmax 方法進行匹配時,將返回的置信矩陣Pc上的負對數似然損失作為Lc(式(13)):

(2)細精度損失Lf

細精度級別的自-互注意力融合是在以粗匹配預測為中心的5×5 小窗口中進行的。對于每一組粗精度匹配(i,j),本文將F^A網格的中心位置扭曲到上,計算其與最近鄰之間的距離,并對對應匹配點j′是否位于細精度特征圖網格的對應5×5窗口進行檢查,過濾無法找到對應匹配點的粗匹配預測對,最終獲得真值對于細精度特征圖的每個網格中心點,通過計算相應熱力圖的總方差σ2(i) 來衡量其不確定性。為了優化具有低不確定性的亞像素級別匹配位置,使用L2損失設計加權細精度損失Lf(式(14)):

4 實驗

4.1 數據集及評價指標

4.1.1數據集

整體模型基于ScanNet 數據集[25]進行了訓練、驗證和測試。ScanNet數據集是目前室內相機位姿估計任務中使用最廣泛且規模最大的室內圖像數據集,包含了707 個不同大小的真實室內空間類型,根據不同場景的多次RGB-D 掃描組成了1513 個單目序列,每一個序列都提供了相應的相機內外參數、真實位姿和深度圖像。

考慮實驗條件,本文在ScanNet數據集的1513個單目序列中使用隨機函數Random獲得200個編號數。該數據集每一個場景命名方式為其場景編號(0~706)與掃描次數編號(0~3)組成,其中編號為scene0307_00、scene0366_00、scene0412_00、scene0645_00的場景由于解析錯誤造成數據損壞(其余使用該數據集的算法[25]同樣將其做刪除處理),故最終構成包含約30 萬個視圖的子數據集ScanNet196。

為保證實驗結果的公平性與有效性,本文的所有實驗包括其它算法的復現均在ScanNet196 上進行。

4.1.2評價指標

根據本文的算法結構,STEM 屬于無特征檢測器的圖像匹配算法,對于此類匹配網絡,暫時沒有明確的類似匹配分數MS 等衡量匹配精度的度量方法,因此本文沿用SuperGlue[11]算法在ScanNet 數據集[25]中針對相機位姿估計任務的Pose eatimation AUC 評估標準,以旋轉和平移的最大角度誤差的累積誤差曲線的曲線下面積作為評價指標。本文分別取AUC@5°、AUC@10°和AUC@20°的指標進行實驗結果分析。

4.2 實驗設置及實施細節

4.2.1實驗環境

實驗采用PyTorch 深度學習框架下的Python 3.8語言進行編程,在Ubuntu18.04 操作系統下使用3 塊GPUs (NVIDIA RTX A5000) 對模型進行訓練。實驗環境具體配置如表1所示。

表1 實驗環境配置

4.2.2訓練細節

使用初始學習率為6 × 10-3,批量大小(Batch size)為64 的Adam 優化器[26]對模型進行70 個周期的訓練。學習率的調整策略為線性縮放規則(Linear Scaling Rule):先線性預熱4800 次迭代(iteration),從第3 個周期開始,每3 個周期學習率衰減0.5。每個周期訓練結束后,自動保存驗證結果,最終保存各項指標最優的5個結果。

整個模型采用隨機初始化權值進行端到端訓練。基于排名優化的自-互注意力方法在粗精度階段循環4次,其中采樣超參數c設置為5,即每次挑選Top-45個活躍query;細精度階段使用基準網絡LoFTR 的Linear Transformer方法循環1次,即Nc= 4,Nf= 1。設置置信度閾值θc為0.2,窗口大小5×5。粗精度特征圖和細精度特征圖的大小分別是原圖的1 8和1 2。

4.3 實驗結果分析

本節以2021 年圖像匹配任務榜首的LoFTR[10]作為基準網絡進行對比試驗,由于實驗環境及配置等因素限制,僅在ScanNet 數據集中隨機挑選196 個場景進行訓練,并在1500對圖像上進行驗證與測試。

(1)消融實驗

上文提到的方法是將輸入特征圖x通過類空間注意力機制進行重構后,通過不同的參數矩陣將其線性映射為查詢矩陣Q、鍵矩陣K和值矩陣V,然后利用注意力權重MSA對查詢向量query 進行稀疏度評估。為了探究此處特征重構對key-value鍵值對在進行自-互注意力信息融合是否也有一定的積極作用,故設計三個消融實驗,并以實驗1、2、3來代指。

實驗1為不進行類空間注意力挑選活躍像素點的實驗情況。實驗2 直接將輸入特征圖x進行線性映射得到key-value鍵值對,特征重構后的輸出向量X映射為query 并進行后續活躍像素點的挑選。實驗3 則是query和key-value都經過特征重構的實驗情況。以自注意力層為例,實驗2、3 的處理方式分別如圖12 (a)、(b)所示。

圖12 兩種不同的特征映射方式

從表2 的結果可以看出,同時對比實驗1、2、3,僅對query 進行特征重構和活躍像素點挑選,位姿估計精確度在各閾值下僅有少量的提升,而如果在線性映射為key-value之前也進行了隱藏維度的信息壓縮,其Pose estimation AUC 則會在5°、10°、20°閾值下在前者(實驗2)的基礎上再提升0.47%,1.75%和1.06%,說明輸入特征x的特征重構可以加強整體自-互注意力信息融合階段的特征信息表達。

(2)注意力方法的對比實驗

在驗證集上的進行自-互注意力模塊的對比實驗,由于普通Transformer 空間復雜度過高,表3 中第一行數據為使用6 塊GPU 進行訓練、驗證得到的結果。為保證結果精確性,計算最優本地結果的平均值并保留兩位小數。實驗主要對比普通Transformer 方法以及兩種不同的稀疏注意力算法在LoFTR 基準網絡上的室內位姿估計精度。

表3 自-互注意力模塊的對比實驗

在特征向量長度N= 4800,表征維度d= 256 的情況下,AttentionRanker 方法在位姿估計精度(AUC@5°、10°、20°)上比普通Transformer 算法分別高0.89%、2.87%、2.37%。同時對比LoFTR 文章中提到的線性稀疏注意力算法Linear Transformer,在輸入兩張圖片進行位姿估計的整體耗時上也比前者快18ms。這說明AttentionRanker 算法不僅在理論層面降低了時間復雜度,在執行實際的室內姿態估計任務時,也能消耗更少的時間。

(3)整體結果分析

根據表4 結果顯示,在ScanNet196 數據集下,將AttentionRanker 應用到室內位姿估計任務后在閾值為10°和20°的情況下表現出了最好的效果,分別達到了34.95%和51.75%。與曾經基于特征檢測器的圖像匹配最優算法SuperPoint和SuperGlue相比,本文算法能夠很大程度提高位姿估計精度,并且僅在閾值為5°時略遜色于2022 年的四叉樹注意力算法(LoFTRQuadTreeB)。本文的方法在進一步降低計算復雜度的同時,可以維持甚至優于當前室內位姿估計的最優算法,這說明自適應稀疏自-互注意力機制在輕量化Transformer類室內位姿估計任務的同時,也能更好地感知圖像中的相關信息。

表4 在ScanNet196數據集上的室內位姿估計結果

5 結論

本文對現有的圖像匹配算法展開了研究,針對在匹配融合階段引入Transformer 帶來的計算復雜度高這一問題,設計了面向計算機視覺任務的基于排名優化的自-互注意力機制AttentionRanker。該算法通過對位置編碼后的一維輸入特征圖進行重塑形,利用類空間注意力機制挑選少量活躍像素點,成功地將點積注意力的時間復雜度從二次降為近線性。實驗結果表明,采用了AttentionRanker 稀疏方法的網絡在前向推理時耗時比基準網絡快18ms,且其Pose estimation AUC@5°/10°/20°相較于Linear Transformer 方法分別提升了0.72%、2.42%、1.39%。

猜你喜歡
特征實驗信息
記一次有趣的實驗
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产一区免费在线观看| 综合色亚洲| 国产成人一区免费观看| 久久一本精品久久久ー99| 亚洲精品高清视频| 毛片视频网址| 亚洲中文无码h在线观看| 一区二区三区在线不卡免费| 国产精品亚洲一区二区在线观看| 色AV色 综合网站| 亚洲成a人片| 久久久波多野结衣av一区二区| 青青操视频免费观看| 国产欧美日韩一区二区视频在线| 不卡无码h在线观看| 国产日韩久久久久无码精品| 免费高清自慰一区二区三区| 在线观看免费AV网| 67194成是人免费无码| 亚洲av无码久久无遮挡| www欧美在线观看| 一级毛片中文字幕| 91欧美在线| 一区二区自拍| 午夜在线不卡| 美女无遮挡拍拍拍免费视频| 国产三级国产精品国产普男人 | 毛片在线播放网址| 亚洲色无码专线精品观看| 欧美自拍另类欧美综合图区| 一级黄色网站在线免费看| 成人国产免费| 91啪在线| 小说区 亚洲 自拍 另类| 视频在线观看一区二区| 国产一区二区三区视频| 男女性色大片免费网站| 亚洲成网777777国产精品| 久草视频福利在线观看| 国产精品欧美日本韩免费一区二区三区不卡| 免费无码又爽又刺激高| 亚洲成网站| 国产97视频在线观看| 亚洲成网站| 99人妻碰碰碰久久久久禁片| 国产一区二区三区精品欧美日韩| 夜色爽爽影院18禁妓女影院| 99999久久久久久亚洲| 日韩不卡免费视频| 国产精女同一区二区三区久| 亚洲欧美日韩成人在线| 欧美视频在线第一页| 黄色a一级视频| 操国产美女| 精品久久久久成人码免费动漫| 国产综合精品一区二区| 亚洲高清无码精品| 亚洲中文在线看视频一区| 国产成人高清精品免费软件| 日本伊人色综合网| 精品午夜国产福利观看| 亚洲 欧美 日韩综合一区| 国产欧美精品一区aⅴ影院| 国产成a人片在线播放| 色亚洲激情综合精品无码视频 | 久久综合色88| 欧美成人手机在线观看网址| 激情网址在线观看| 97色婷婷成人综合在线观看| 中文字幕欧美日韩| 国产a网站| 91热爆在线| 熟女日韩精品2区| 天天躁日日躁狠狠躁中文字幕| 国产不卡网| 亚洲综合狠狠| 欧洲极品无码一区二区三区| 国产a v无码专区亚洲av| 国产欧美精品午夜在线播放| 久久综合色视频| 亚洲av无码片一区二区三区| 一区二区三区四区精品视频|