面向桌面交互場景的雙目深度測量方法

2024-05-11 03:34:50朱興帥丁上上付威威

計(jì)算機(jī)工程與應(yīng)用 2024年9期

葉彬，朱興帥，姚康，丁上上，付威威

1.中國科學(xué)技術(shù)大學(xué)生物醫(yī)學(xué)工程學(xué)院（蘇州）生命科學(xué)與醫(yī)學(xué)部，江蘇蘇州 215000

2.中國科學(xué)院蘇州生物醫(yī)學(xué)工程技術(shù)研究所，江蘇蘇州 215000

目前，虛擬現(xiàn)實(shí)已經(jīng)在全球掀起研究的熱潮，相關(guān)應(yīng)用不斷涌現(xiàn)。其中一個(gè)重要應(yīng)用場景是桌面書寫，然而在這種場景中還沒有一種針對性的交互方式解決方案：基于硬件控制器的交互在虛擬空間書寫場景中交互效果不夠直觀；基于視覺的交互方式[1]相比較硬件控制器更能直觀體現(xiàn)交互過程，但現(xiàn)有研究缺少筆的三維識別而無法重現(xiàn)完整的書寫交互過程，且三維精度不足導(dǎo)致精細(xì)交互動作識別效果較差，在桌面書寫應(yīng)用場景中適用性不高。相較而言，一種同時(shí)包含手與筆的高精度三維識別技術(shù)可以提供更好的書寫交互體驗(yàn)，其中三維識別精度的提升離不開更加準(zhǔn)確的深度計(jì)算，因此針對于桌面書寫場景的高精度深度估計(jì)在手筆聯(lián)合的三維識別中有著關(guān)鍵作用。在現(xiàn)有技術(shù)上，單目視覺[2-3]可以獨(dú)立完成深度估計(jì)，但存在精度受限且不夠穩(wěn)定的問題，而雙目視覺包含了潛在的深度信息，可以更好地完成深度估計(jì)任務(wù)，同時(shí)相比其他三維測量技術(shù)，雙目立體視覺系統(tǒng)具有成本低、結(jié)構(gòu)簡單、易于部署等優(yōu)點(diǎn)，現(xiàn)已廣泛應(yīng)用于諸如自動駕駛[4]、三維重建[5]、工業(yè)檢測、醫(yī)療影像、虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域。

立體匹配算法是雙目立體視覺深度計(jì)算中的關(guān)鍵環(huán)節(jié)，傳統(tǒng)立體匹配方法[6]可以總結(jié)為四個(gè)步驟，即匹配代價(jià)計(jì)算、代價(jià)聚合、視差計(jì)算和視差優(yōu)化。近來研究者們將深度學(xué)習(xí)方法應(yīng)用在立體匹配領(lǐng)域，且在稠密視差圖計(jì)算的精度和效率上有了更優(yōu)良的表現(xiàn)[7]。研究者們初期[8]嘗試使用卷積神經(jīng)網(wǎng)絡(luò)取代傳統(tǒng)算法中的部分過程，之后在端到端的立體匹配網(wǎng)絡(luò)上做出了努力。EdgeStereo[9]利用一個(gè)邊緣預(yù)測的子網(wǎng)絡(luò)輔助指導(dǎo)視差的學(xué)習(xí)，改善視差學(xué)習(xí)效果。Kendall 提出的GCNet[10]通過共享權(quán)重的卷積網(wǎng)絡(luò)提取左右特征圖后將其拼接形成一個(gè)四維視差成本特征張量，最后利用三維卷積編解碼結(jié)構(gòu)直接回歸視差值，后續(xù)的諸多研究者們也采取了此思路。PSM-Net[11]在特征提取階段使用了金字塔結(jié)構(gòu)結(jié)合了多尺度語義信息并在三維卷積回歸階段引入了堆疊沙漏結(jié)構(gòu)；GwcNet[12]在PSM-Net 的基礎(chǔ)上提出了組相關(guān)特征構(gòu)建匹配代價(jià)體；DeepPruner[13]在構(gòu)建成本代價(jià)體的過程中結(jié)合了patch match算法。上述算法盡管在精度和實(shí)時(shí)性上做出了一定改善，但仍然存在計(jì)算成本過大、實(shí)時(shí)性較差、易受匹配范圍的限制等缺點(diǎn)。近來有部分研究者嘗試尋找替代三維卷積的方法來降低模型計(jì)算成本[14-15]，但相比于三維卷積結(jié)構(gòu)可以更好地提取圖像結(jié)構(gòu)信息的優(yōu)點(diǎn)，替代方法在估計(jì)精度上存在不足。

在桌面書寫環(huán)境中，上述擁有較高精度的立體匹配算法在計(jì)算成本和運(yùn)算時(shí)間上的缺點(diǎn)限制了輸入圖像對的分辨率，而網(wǎng)絡(luò)中輸入的空間分辨率的不同選擇會帶來檢測精度和效率上的沖突，因此如何合理平衡算法精度以及效率成為了本文深度測量方法的關(guān)鍵問題。考慮到虛擬桌面書寫場景中精細(xì)交互動作大多通過筆尖實(shí)現(xiàn)，筆尖區(qū)域需要更高的交互精度，而背景區(qū)域精度要求最低。基于此，本文采集了高分辨率、近距離的圖像對作為網(wǎng)絡(luò)的輸入，并提出了一種分級精度的多階段深度測量方法，區(qū)分了全局信息和局部關(guān)鍵信息并分尺度輸入來解決算法中分辨率限制的問題，同時(shí)在不同階段對全局信息和局部關(guān)鍵信息進(jìn)行了融合以提升檢測精度與速度，具體為創(chuàng)新性地提出利用ROI Align方法在不同階段構(gòu)建了區(qū)域特征金字塔結(jié)構(gòu)，結(jié)合了多尺度語義信息；并且采用視差級聯(lián)結(jié)構(gòu)初始化視差，有效縮減視差匹配范圍，減少算法在視差搜索上的用時(shí)。實(shí)驗(yàn)證明，本文方法相比現(xiàn)有算法提升了速度和書寫關(guān)鍵區(qū)域的精度，并減少了顯存占用，能夠?qū)崿F(xiàn)桌面書寫場景下高精度深度測量，有效輔助手筆聯(lián)合三維識別技術(shù)的精度提升，改善虛擬現(xiàn)實(shí)中桌面書寫交互體驗(yàn)。在未來本文方法可以作為書寫交互三維識別的輔助技術(shù)促使虛擬書寫應(yīng)用于近視防控，通過虛擬空間解決青少年長時(shí)間近距離用眼問題，具有重要的應(yīng)用價(jià)值。

1 技術(shù)方法

為了解決深度估計(jì)不準(zhǔn)確導(dǎo)致的視覺交互方式在桌面書寫環(huán)境中適用性不高的問題，本文提出了一種高精度桌面場景雙目深度測量方法，針對書寫交互區(qū)分了圖像對中的全局信息和局部關(guān)鍵信息。首先在桌面書寫場景中采集高分辨的雙目圖像對；然后輸入本文分級精度式的多階段雙目立體匹配算法，算法流程如圖1，通過低尺度全局輸入結(jié)合高尺度局部輸入平衡高分辨率立體圖像對帶來的精度和效率問題。其中定義了兩個(gè)局部區(qū)域，分別是包含了整個(gè)手部和握持筆的手部區(qū)域1和包含了筆尖部分的筆尖區(qū)域2，區(qū)域1在圖像中的位置以筆身中心為區(qū)域中心而區(qū)域2 位置以握持筆筆尖和筆身交界處為區(qū)域中心，兩個(gè)區(qū)域在算法中初始位置不定而是由預(yù)訓(xùn)練好的區(qū)域檢測模塊決定。

圖1 分級精度式算法流程圖Fig.1 Hierarchical precision algorithm flow chart

高分辨率立體圖像對的原圖在k倍降采樣后額外通過一個(gè)區(qū)域檢測分支網(wǎng)絡(luò)，提取關(guān)鍵交互區(qū)域以更高的區(qū)域分辨率計(jì)算圖像對的特征相關(guān)性；區(qū)域1以小于k的降采樣比例k′提供更多的區(qū)域細(xì)節(jié)信息保證更高的區(qū)域深度精度，區(qū)域2則不進(jìn)行降采樣以最豐富的細(xì)節(jié)信息獲得最高的區(qū)域深度精度。

本文針對書寫交互提出了一種多精度級聯(lián)立體匹配網(wǎng)絡(luò)（multi-precision cascaded network，MPC-Net），充分利用全局與局部重要信息交叉融合的思路提升手部以及筆尖所在局部區(qū)域深度估計(jì)的檢測精度，在特征提取模塊構(gòu)建了區(qū)域特征金字塔結(jié)構(gòu)融合不同分辨率尺度的圖像對特征，提供多尺度的圖像語義信息；同時(shí)使用上一區(qū)域的視差輸出結(jié)果作為初始值優(yōu)化下一個(gè)區(qū)域匹配代價(jià)體的構(gòu)建，大幅減少視差搜索范圍，降低網(wǎng)絡(luò)的運(yùn)算量；最后利用不同數(shù)量的堆疊沙漏結(jié)構(gòu)為每個(gè)區(qū)域階段的視差代價(jià)體回歸視差值，并給三個(gè)階段分配不同的損失權(quán)重促使網(wǎng)絡(luò)趨向重要交互區(qū)域的學(xué)習(xí)，MPC-Net 結(jié)構(gòu)如圖2，圖中?表示左右特征量通過點(diǎn)積和級聯(lián)形成四維匹配代價(jià)張量。

圖2 MPC-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of MPC-Net

1.1 區(qū)域檢測器

為了獲取交互關(guān)鍵區(qū)域位置，本文參考目標(biāo)檢測領(lǐng)域的區(qū)域建議網(wǎng)絡(luò)（region proposal network，RPN）并進(jìn)行了修改，檢測器結(jié)合了左右特征圖像間的同一區(qū)域位置相關(guān)性以及區(qū)域先驗(yàn)知識，進(jìn)行左右圖像對應(yīng)關(guān)鍵交互區(qū)域位置信息的提取，檢測器結(jié)構(gòu)如圖3所示。

圖3 區(qū)域檢測結(jié)構(gòu)Fig.3 Region detection structure

檢測器共有兩個(gè)任務(wù)：區(qū)域分類和區(qū)域定位，首先在特征圖像對每個(gè)像素位置處生成固定尺寸的候選回歸框，在特征圖像對輸入后經(jīng)過一個(gè)3×3卷積層利用滑動窗口生成回歸框特征向量，之后利用兩個(gè)1×1卷積層替代全連接，實(shí)現(xiàn)區(qū)域分類并進(jìn)行位置定位。區(qū)域分類的主要任務(wù)是給所有候選回歸框確定一個(gè)類別，類別總共有三個(gè)：背景區(qū)域、區(qū)域1和區(qū)域2，其中區(qū)域1和區(qū)域2是需要定位的關(guān)鍵交互區(qū)域，算法過程中利用候選框和真實(shí)回歸框交并比（IOU）確定標(biāo)簽類別，當(dāng)候選框和任一關(guān)鍵區(qū)域IOU 比例高于設(shè)定的高閾值0.7 時(shí)，將其設(shè)定該區(qū)域的正類別標(biāo)簽，而如果和所有區(qū)域IOU均小于設(shè)定的低閾值0.3 時(shí)標(biāo)記為負(fù)標(biāo)簽，表示其代表背景區(qū)域，IOU占比為中間值時(shí)舍棄樣本。

在偏移位置回歸任務(wù)中，檢測器為每一個(gè)立體圖像對目標(biāo)都訓(xùn)練一個(gè)三元回歸項(xiàng)：[Δul,Δur,Δv]，分別代表了參考左圖的水平偏移參數(shù)、目標(biāo)右圖的水平偏移參數(shù)和兩者的垂直偏移參數(shù)。考慮到立體圖像對的位置相關(guān)性以及在立體匹配任務(wù)中存在的尺寸一致性，本文提前設(shè)定了標(biāo)簽區(qū)域大小并同步了區(qū)域垂直位置，其中手部（區(qū)域1）區(qū)域大小為640×640，筆尖（區(qū)域2）區(qū)域大小為256×128，因此檢測器不做預(yù)測框高度和寬度參數(shù)的回歸，且圖像對共享垂直偏移參數(shù)Δv。

區(qū)域檢測器在獲得預(yù)測回歸框后，可通過計(jì)算公式（1）獲得圖像對的關(guān)鍵交互區(qū)域中心：

同時(shí)對區(qū)域內(nèi)的視差進(jìn)行調(diào)整，表示為：

在理想雙目相機(jī)系統(tǒng)中，Xl和Xr分別代表了同一個(gè)匹配點(diǎn)出現(xiàn)在參考（左圖）圖像像素坐標(biāo)系和目標(biāo)（右圖）圖像像素坐標(biāo)系中的水平坐標(biāo)。

1.2 區(qū)域特征金字塔（RFP）

在近來的深度學(xué)習(xí)任務(wù)中，研究者們注意到圖像金字塔結(jié)構(gòu)能夠結(jié)合多尺度的語義信息改善學(xué)習(xí)效果，因此多種改進(jìn)的特征金字塔結(jié)構(gòu)[16-18]成為了各類學(xué)習(xí)方向中重要的組成部分，在提升網(wǎng)絡(luò)性能上起到了重要作用。其中，也有部分研究者[11，19]將空間金字塔池化（spatial pyramid pooling，SPP）和特征金字塔（feature pyramid network，F(xiàn)PN）應(yīng)用在雙目立體匹配任務(wù)中來結(jié)合上下文信息，改善圖像對特征信息間的對應(yīng)關(guān)系，豐富后續(xù)構(gòu)建的視差代價(jià)體包含的信息。

為了能夠充分利用不同分辨率區(qū)域間的語義信息，本文構(gòu)建了基于ROI Align 方法的區(qū)域特征金字塔（region feature pyramid，RFP），構(gòu)建方法如圖4，主要思想是基于ROI Align 中利用雙線性插值代替量化取整方法的特點(diǎn)，獲得局部關(guān)鍵區(qū)域在全局區(qū)域?qū)?yīng)的卷積特征圖，并在下一個(gè)階段和該關(guān)鍵區(qū)域的自身卷積特征圖共同構(gòu)建特征金字塔。

圖4 區(qū)域特征金字塔Fig.4 Region feature pyramid

在ROI Align 中，利用雙線性插值獲得了關(guān)鍵區(qū)域的浮點(diǎn)數(shù)邊界，解決了局部區(qū)域特征圖區(qū)域定位不準(zhǔn)確的問題，最后按預(yù)設(shè)輸出大小平均化對應(yīng)特征圖進(jìn)行池化操作。雙線性插值計(jì)算如式（3），假設(shè)浮點(diǎn)數(shù)坐標(biāo)為(x,y)，此時(shí)特征圖中該浮點(diǎn)數(shù)周圍四個(gè)坐標(biāo)代入計(jì)算特征值，公式中各坐標(biāo)點(diǎn)的權(quán)重α與浮點(diǎn)數(shù)坐標(biāo)到各點(diǎn)間距離相關(guān)。

1.3 級聯(lián)成本代價(jià)和三維卷積結(jié)構(gòu)

本文在多任務(wù)級聯(lián)卷積網(wǎng)絡(luò)[20]中受到啟發(fā)，采用從粗匹配到精細(xì)匹配的思路，提出了多區(qū)域級聯(lián)成本代價(jià)計(jì)算模塊，減少網(wǎng)絡(luò)用于視差搜索的時(shí)間。

級聯(lián)模塊可以分為兩個(gè)階段，分別代表了視差代價(jià)體構(gòu)建的不同方式，方式1是傳統(tǒng)的視差代價(jià)體構(gòu)建方式，應(yīng)用區(qū)域?yàn)楸尘皡^(qū)域，需要以覆蓋整個(gè)場景的視差范圍進(jìn)行估計(jì)，由于對輸入圖像進(jìn)行降采樣改變了左右圖像像素位置對應(yīng)關(guān)系，需要對視差值和視差范圍進(jìn)行縮小，縮小比例為降采樣比例k，此時(shí)實(shí)際視差搜索間隔從1擴(kuò)大為k。方式2是本文采用的改進(jìn)式視差代價(jià)體構(gòu)建方式，應(yīng)用區(qū)域?yàn)槭植繀^(qū)域1和筆尖區(qū)域2，應(yīng)用區(qū)域在網(wǎng)絡(luò)中提高了輸入分辨率以增加圖像細(xì)節(jié)信息且可利用上一區(qū)域的視差估計(jì)結(jié)果初始化視差，因此階段2的視差范圍可以大幅縮小，同時(shí)低比例的降采樣操作帶來了更小的視差搜索間隔，保證了更高的視差估計(jì)精度。其中三精度模型手部區(qū)域和筆尖區(qū)域的視差范圍分別定義為-8～8和-4～4。

其中視差代價(jià)體的構(gòu)建方式如圖5，由輸出的左右特征張量在預(yù)設(shè)范圍內(nèi)逐視差將對應(yīng)特征元素相關(guān)聯(lián)構(gòu)成四維代價(jià)張量，關(guān)聯(lián)方式由左右特征圖對應(yīng)位置像素的點(diǎn)積和級聯(lián)共同組成，其大小為D×C×H×W，其中D為每個(gè)階段的視差等級范圍大小，C表示輸出通道數(shù)量，W和H分別表示特征圖的寬度和高度。

圖5 級聯(lián)視差代價(jià)體Fig.5 Cascade disparity cost volume

方式1不存在初始視差值，因此視差代價(jià)體的構(gòu)建方式需要以覆蓋全場景的視差范圍逐步搜索，即在右特征圖上從零到場景最大視差值依次找尋左特征圖待匹配點(diǎn)對應(yīng)的目標(biāo)特征點(diǎn)。由于輸入圖像經(jīng)過校對使得左右圖像極線平行，因此目標(biāo)特征點(diǎn)和待匹配點(diǎn)僅在X軸坐標(biāo)方向上存在位置差異，目標(biāo)特征點(diǎn)X軸坐標(biāo)計(jì)算如式（4），Δd為視差搜索范圍內(nèi)的某值。

方式2的輸入補(bǔ)充了圖像細(xì)節(jié)信息，因此可以利用上一尺度階段的粗匹配結(jié)果初始化估計(jì)視差值，并以更小的細(xì)化視差范圍在初始值周圍繼續(xù)搜索來優(yōu)化視差結(jié)果。由于每一階段視差估計(jì)結(jié)果在進(jìn)行初始化時(shí)并不為整數(shù)，需要利用雙線性插值的方法在右特征圖上生成浮點(diǎn)數(shù)特征值。此時(shí)目標(biāo)特征點(diǎn)X軸坐標(biāo)位置為：

式中，dp為上一階段估計(jì)視差值，Δd′為細(xì)化匹配范圍內(nèi)某值且從負(fù)數(shù)開始依次增大。

在構(gòu)建四維匹配成本代價(jià)張量后需要使用三維卷積同時(shí)在視差維度和空間維度上聚合特征信息，本文借助了堆疊沙漏模型組建了一個(gè)三維編解碼卷積結(jié)構(gòu)完成信息提取。模型結(jié)構(gòu)如圖6，N表示沙漏模塊數(shù)量，考慮到不同尺度輸入階段存在不同的精度需求且三維卷積資源占用較大，本文為每個(gè)階段設(shè)置了不同的沙漏模塊數(shù)量。經(jīng)多次實(shí)驗(yàn)驗(yàn)證，本文三精度模型從低尺度到高尺度的三個(gè)階段設(shè)置數(shù)量分別為2、2、3，在訓(xùn)練時(shí)每一個(gè)沙漏模塊會額外給出一個(gè)輸出用于中間監(jiān)督，提高估計(jì)精度。

圖6 三維沙漏卷積結(jié)構(gòu)Fig.6 3D hourglass convolution structure

1.4 視差回歸與損失函數(shù)

圖像特征經(jīng)三維堆疊卷積結(jié)構(gòu)后會輸出一個(gè)四維張量，此時(shí)需要通過視差回歸函數(shù)計(jì)算每個(gè)像素的視差估計(jì)值，本文采用常用的Soft-Argmin[10]方法：

式中，Min和Max分別代表了不同分辨率階段視差估計(jì)范圍中的最小值和最大值；dp表示上一階段視差估計(jì)結(jié)果，在階段1 輸入時(shí)值為0。Cd為卷積后的視差代價(jià)，σ(·)則表示對其進(jìn)行了Softmax操作，將視差成本轉(zhuǎn)化為了每個(gè)視差的可能性。

完成視差的估計(jì)后，可通過坐標(biāo)系轉(zhuǎn)換和雙目相機(jī)存在的空間位置關(guān)系直接計(jì)算絕對深度值Depth。圖像視差信息到空間深度信息轉(zhuǎn)換如式（7）：

式中，B為雙目相機(jī)系統(tǒng)中的基線距離；f為相機(jī)的焦距。

本文總的損失包含了每一個(gè)分辨率階段各自的視差回歸損失并分配了不同的權(quán)重。而基于Smooth L1損失函數(shù)在魯棒性以及異常值敏感度上的優(yōu)勢，選擇其作為視差預(yù)測的損失計(jì)算函數(shù)。三階段視差總損失計(jì)算如式（8）：

式中，λi為每個(gè)階段分配到的損失權(quán)重，選擇λ1=0.6,λ2=0.8,λ3=1；而在具體每個(gè)階段損失中結(jié)合了中間監(jiān)督和最后輸出的結(jié)果，μk表示中間監(jiān)督結(jié)果的系數(shù)，是第i個(gè)階段下標(biāo)K的中間結(jié)果輸出的預(yù)測視差值，則為該階段的視差真值。smooth L1 損失函數(shù)具體的計(jì)算公式如式（9）：

本文算法也為檢測任務(wù)分支構(gòu)建了損失函數(shù)，包含了分類損失和區(qū)域回歸損失，分類損失采用了交叉熵?fù)p失函數(shù)，區(qū)域回歸同樣采用了Smooth L1函數(shù)進(jìn)行損失計(jì)算，分類損失如式（10）：

式中，n為檢測器過程中選擇用于訓(xùn)練的回歸框數(shù)量；k表示類別小標(biāo)，此處僅存在背景以及區(qū)域一和區(qū)域二；pk為回歸框中類別號是k的可能性，p′k表示類別標(biāo)簽值，當(dāng)IOU 計(jì)算超過設(shè)定高閾值0.7 時(shí)為1 而小于設(shè)定低閾值0.3時(shí)為0。區(qū)域回歸損失如式（11）：

式中，tk為回歸框需要預(yù)測的三元數(shù)[Δul,Δur,Δv],t′k則為標(biāo)簽真值回歸量。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)設(shè)置

2.1.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)在Windows 環(huán)境下進(jìn)行；具體使用了PyTorch1.12.1版本，CUDA11.3版本，Python3.7.0版本構(gòu)建網(wǎng)絡(luò)模型；訓(xùn)練過程中均使用Adam優(yōu)化器并設(shè)置參數(shù)β1=0.9,β2=0.99，初始學(xué)習(xí)率為0.001。硬件方面使用了NVIDIA GeForce RTX 3060顯卡，12 GB顯存；CPU為Intel?CoreTMi5-10400F @2.90 GHz 6核處理器。

2.1.2 評價(jià)指標(biāo)

由于本研究主要關(guān)注桌面場景深度信息的獲取，因此主要評價(jià)指標(biāo)采用端點(diǎn)平均誤差（EPE）和錯(cuò)匹配像素誤差比例。其中端點(diǎn)平均誤差（EPE）即視差預(yù)測結(jié)果和標(biāo)注視差真值之間的平均歐式距離值，單位為像素（pixel），用以表示立體匹配網(wǎng)絡(luò)平均學(xué)習(xí)精度，計(jì)算如式（12），其中N表示了計(jì)算區(qū)域內(nèi)所有像素。

錯(cuò)匹配像素誤差比例具體指圖像中視差預(yù)測結(jié)果和真值之間距離大于某個(gè)閾值的像素占所有像素的比例，即式（13），其中δ的值為3：

2.1.3 數(shù)據(jù)集

本實(shí)驗(yàn)的數(shù)據(jù)集是在圖7雙目視覺平臺中采集的，圖中展示了拍攝的部分視角。本文在桌面場景中從多個(gè)不同的書寫方向以不同的交互姿勢拍攝了立體圖像對，圖像分辨率為1 920×1 080，同時(shí)使用采集的深度圖像作為標(biāo)簽真值。此外，本研究同時(shí)在圖像對上使用了模糊、亮度變化、翻轉(zhuǎn)以及增加噪聲等數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)增數(shù)據(jù)集，最終隨機(jī)獲得了2 936 對雙目圖像用于網(wǎng)絡(luò)訓(xùn)練，592對雙目圖像用作測試。

圖7 雙目數(shù)據(jù)集Fig.7 Binocular dataset

2.2 立體匹配網(wǎng)絡(luò)模型驗(yàn)證

2.2.1 降采樣實(shí)驗(yàn)

首先，為觀察輸入圖像空間分辨率對網(wǎng)絡(luò)效率以及精度的影響，本文對輸入圖像進(jìn)行了不同程度的降采樣，為兼顧速度與精度，降采樣方法選擇雙線性插值，并在網(wǎng)絡(luò)預(yù)測完成后對輸出結(jié)果上采樣至原分辨率對比，比較結(jié)果如表1所示，表中加粗部分為每個(gè)指標(biāo)對比最佳值：當(dāng)輸入圖像的空間分辨率增加時(shí)，精度有所提升但網(wǎng)絡(luò)運(yùn)行效率隨之下降，計(jì)算復(fù)雜度增加，而如果降低了輸入分辨率，在上采樣輸出時(shí)視差結(jié)果的平均誤差會上升，無法保證桌面場景高精度交互需求。可以得知，本文提出的區(qū)域檢測器以多尺寸輸入能夠起到平衡網(wǎng)絡(luò)精度和效率的作用，在不損失重要區(qū)域立體精度的同時(shí)防止網(wǎng)絡(luò)消耗過多資源。

表1 降采樣對比實(shí)驗(yàn)Table 1 Experiment of downsampling comparison

2.2.2 網(wǎng)絡(luò)消融實(shí)驗(yàn)

本文在手部區(qū)域（ROI-1）和筆尖區(qū)域（ROI-2）中結(jié)合了金字塔結(jié)構(gòu)和級聯(lián)代價(jià)體結(jié)構(gòu)，為了驗(yàn)證這些模塊的有效性，在相同環(huán)境的實(shí)驗(yàn)中針對這兩個(gè)模塊進(jìn)行了增刪對比，以確定模塊在網(wǎng)絡(luò)中對受關(guān)注區(qū)域的性能是否起到正向作用，對比結(jié)果如表2。

表2 網(wǎng)絡(luò)模塊消融對比結(jié)果Table 2 Comparison results of network module ablation

消融實(shí)驗(yàn)中，首先取消ROI特征金字塔和代價(jià)級聯(lián)結(jié)構(gòu)，僅采用檢測器實(shí)現(xiàn)區(qū)域檢測以及原圖和區(qū)域1的降采樣來完成多階段視差估計(jì)，然后單獨(dú)引入?yún)^(qū)域特征金字塔和級聯(lián)結(jié)構(gòu)分別與單檢測器的模型結(jié)果進(jìn)行對比，由表2可知本文提出的結(jié)構(gòu)在深度預(yù)測的精度上均有所提升，且級聯(lián)結(jié)構(gòu)明顯提升了網(wǎng)絡(luò)的運(yùn)行速度并減少了部分顯存占用。最后同時(shí)加上兩個(gè)結(jié)構(gòu)，視差估計(jì)結(jié)果的誤差進(jìn)一步下降，相比于單檢測器模型，手部關(guān)注區(qū)域（ROI-1）的平均誤差相對下降了14%，三像素錯(cuò)誤匹配率下降了6.4個(gè)百分點(diǎn)；筆尖關(guān)注區(qū)域（ROI-2）平均誤差則相對下降15%，同時(shí)三像素錯(cuò)誤匹配率也減少4.5 個(gè)百分點(diǎn)，而在運(yùn)行效率上，顯存占用從1 769 MB下降到了1 595 MB，推理時(shí)間從209.4 ms 減少到了131.6 ms。在手部關(guān)鍵區(qū)域1（ROI-1）的預(yù)測精度上，本章算法也僅與ACVNet存在著較大差距，原因是本章算法在手部關(guān)鍵區(qū)域1上進(jìn)行了降采樣，限制了精度。由此可知本文提出的區(qū)域特征金字塔（RFP）結(jié)構(gòu)和級聯(lián)結(jié)構(gòu)對受關(guān)注區(qū)域的視差預(yù)測精度和穩(wěn)定性有良好的提升，在運(yùn)行效率方面也有明顯進(jìn)步。

2.2.3 算法對比

本文以GwcNet[12]作為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)，選用了幾種較具代表性的立體匹配算法對桌面場景進(jìn)行視差估計(jì)對比來表明所提算法在性能上的提升。考慮到原分辨率1 920×1 080像素的雙目圖像輸入在主流算法上對硬件要求過高，對比實(shí)驗(yàn)輸入改為檢測到的手部區(qū)域，分辨率大小為640×640 像素，本文方法也修改為兩精度模型。實(shí)驗(yàn)主要在手部區(qū)域（ROI-1）和筆尖區(qū)域（ROI-2）從精度、顯存消耗和推理時(shí)間三個(gè)方面進(jìn)行對比，結(jié)果如表3。

表3 不同算法的性能對比Table 3 Performance comparison of different algorithms

由表3 可知，相比于目前主流的立體匹配算法，本文提出的算法在顯存占用和運(yùn)算速度上有一定的提升，且筆尖關(guān)鍵區(qū)域（區(qū)域2）也保證了足夠的精度，與本文參考網(wǎng)絡(luò)Gwc-Net[12]相比端點(diǎn)誤差（EPE）上相對下降了17%，三像素誤匹配率下降了3.7個(gè)百分點(diǎn)，同時(shí)顯存占用從4 880 MB 下降至了1 532 MB 而運(yùn)算時(shí)間從0.39 s下降至0.09 s。

2.3 桌面交互實(shí)驗(yàn)

本節(jié)的桌面交互實(shí)驗(yàn)主要是對場景中三維交互深度準(zhǔn)確度的驗(yàn)證，圖8為不同視角的輸入在本文算法上的視差圖，為了便于觀察將視差圖視差值轉(zhuǎn)化為了顏色像素值，偏藍(lán)表示視差小深度值大，偏紅表示視差大深度值小。

圖8 視差估計(jì)結(jié)果Fig.8 Results of disparity estimation

此外，為了驗(yàn)證本文方法在書寫交互三維識別技術(shù)中的有效性，本文還利用算法測試了連續(xù)幀筆尖交互深度估計(jì)的效果，圖9 為展示效果圖，其中水平面交互表示在桌面空間中平行于桌面進(jìn)行交互動作，X軸傾斜交互為按圖像坐標(biāo)軸X軸所在的方向進(jìn)行了水平傾斜的交互動作而Y軸傾斜交互則是按圖像坐標(biāo)軸Y軸所在方向進(jìn)行了水平傾斜的交互動作。需要注意的是，由于雙目相機(jī)采集位置不完全與桌面平行而是在圖像坐標(biāo)軸Y軸所在方向和桌面存在一定傾斜角，因此平行于桌面的水平面沿圖像坐標(biāo)軸Y軸正方向深度會逐漸減小。

圖9 書寫交互深度測量效果展示Fig.9 Writing interactive depth measurement effect disparity

本實(shí)驗(yàn)將預(yù)測視差值歸一化到0～255 范圍后轉(zhuǎn)換為了顏色像素值，對應(yīng)方式為JET 顏色映射算法，以達(dá)到明顯化展示效果的目的，顏色由藍(lán)至紅表示距離由遠(yuǎn)至近。除展示效果外，本文實(shí)驗(yàn)還在平行桌面的平面沿圖像坐標(biāo)軸X軸所在方向和Y軸所在方向繪制直線來直觀表達(dá)連續(xù)幀深度測量精度，理想情況下平行桌面的平面深度值在X軸方向不變而在Y軸方向線性變化。精度測試結(jié)果如圖10，其中藍(lán)色曲線為X軸方向直線連續(xù)幀深度估計(jì)結(jié)果，代表理論深度無變化時(shí)的深度精度實(shí)驗(yàn)，曲線圖上縱軸每單位深度為0.5 mm，紅色曲線為Y軸方向直線連續(xù)幀深度估計(jì)結(jié)果，代表理論深度線性變化時(shí)的深度精度實(shí)驗(yàn)，縱軸每單位深度為5 mm。右側(cè)為所繪制曲線及其所在方向，可知X軸方向直線繪制不完全水平，因此藍(lán)色曲線前后存在一定線性變化。由X方向直線測試結(jié)果看出本文在深度測量上的相對精度可以達(dá)到1 mm。

圖10 書寫交互深度測量精度Fig.10 Write interactive depth measurement accuracy

本文實(shí)驗(yàn)結(jié)果顯示，所提方法在桌面小空間場景中基本能夠做到正確的連續(xù)視差估計(jì)，可以應(yīng)用于手筆聯(lián)合的三維識別技術(shù)中提高識別精度，實(shí)現(xiàn)能夠適用于桌面書寫場景的一種新型交互方式，提供良好的書寫交互體驗(yàn)。

3 結(jié)語

本文提出了一種適用于虛擬現(xiàn)實(shí)的桌面書寫應(yīng)用場景深度測量方法，用于輔助手筆聯(lián)合的三維識別技術(shù)。該方法中，通過雙目視覺系統(tǒng)采集高分辨率立體圖像對，然后針對手筆聯(lián)合三維識別的特殊性使用本文搭建的分精度級聯(lián)立體匹配算法MPC-Net 可以實(shí)現(xiàn)書寫場景高精度深度測量。算法構(gòu)建了一個(gè)區(qū)域檢測任務(wù)分支區(qū)分場景中的全局信息以及手部和筆尖局部關(guān)鍵區(qū)域信息，同時(shí)利用區(qū)域特征金字塔模塊和視差級聯(lián)模塊加深了各尺度階段之間的聯(lián)系。與當(dāng)前主流立體匹配模型相比，本文設(shè)計(jì)的模型以更少的運(yùn)算時(shí)間和計(jì)算成本在關(guān)鍵交互區(qū)域達(dá)到了相當(dāng)甚至更好的立體匹配精度，筆尖區(qū)域坐標(biāo)轉(zhuǎn)換后的深度預(yù)測結(jié)果可以達(dá)到1 mm 的連續(xù)相對精度，能夠有效輔助解決虛擬現(xiàn)實(shí)視覺交互方式中三維識別精度不足的問題。

但是本文方法依然存在部分問題：模型不夠輕量化，運(yùn)行速度依然無法滿足虛擬設(shè)備的低延遲要求；連續(xù)交互深度的準(zhǔn)確度有待提升。后續(xù)研究計(jì)劃進(jìn)一步提高網(wǎng)絡(luò)的實(shí)時(shí)性，探索時(shí)序信息對書寫交互的影響，為虛擬桌面場景中的三維識別技術(shù)提供更穩(wěn)定的深度測量方法。