999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進型多模態信息融合深度強化學習的自主超聲掃描方法

2025-08-03 00:00:00徐加開陸奇李祥云李康
計算機應用研究 2025年6期
關鍵詞:特征提取模態機器人

Autonomous ultrasound scanning method based on improved multimodal information fusion and deep reinforcement learning

Xu Jiakaia,Lu Q1υ? ,Li Xiangyunb,Li Kanga,c (a.ColegefclcnUeibelCte pital,Sichuan University,Chengdu 610o65,China)

Abstract:Toaddressthe isses of low training accuracy,prolonged trainingtime,and lowsuccess rateof scanning tasks in ultrasound scanning basedondeep reinforcementlearning(DRL),this paper proposed an autonomous ultrasound scaning method basedonimproved multimodalinformation fusionandDRL.Firstly,the methodintegratedultrasound images,dualview probe manipulation images,and 6D tactile feedback to provide comprehensive multimodal perception.To accurately capturespatiotemporal informationinmultimodaldataandachieveeficientfeaturefusion,thispaperdesignedamultimodal featureextractionandfusionmodulebasedontheself-atentionmechanism(SA).Secondly,itformulatedthe6Dposedecisionmaking task fortherobotasaDRLproblem.Andthis paperdesignedahybridrewardfunction toemulatetoprofesionalultrasonographers.Lastly,to addresslocaloptima andslowconvergence inDRL training,this paper introduced the DSAC-PERDP algorithm.Tests inreal environmentsdemonstrate thattheproposed method improves scanning accuracy,task successrate, and training speed by 49.8% , 13.4% and 260.0% ,respectively,compared to baseline models.Moreover,the method maintainsrobust performanceunder interferenceconditions.Thesefindingsvalidatethattheproposedapproach notonlysignificantlyimprovesscanningaccuracy,task succssrate,and trainingefciencybutalsoexhibitsnotableanti-interferencecapabilities.

Key words:autonomous ultrasound scanning;deepreinforcement learning(DRL);multimodal;self-atention mechanism; DSAC-PERDP algorithm

0 引言

醫學超聲因其非侵入性、安全性和成本效益而成為廣泛應用的診斷工具[1,2],常用于腎臟、肝臟、心臟病學、產科等多個醫學領域[3,4]。然而,超聲檢查的質量在很大程度上依賴于操作員的技能和經驗,這使得超聲檢查在資源有限地區尤為困難[5]。長時間的超聲檢查工作增加了與工作相關的受傷風險并可能導致診斷錯誤[6]。為克服這些問題,研究人員致力于研發自動化的超聲掃描機器人系統[7],旨在通過普及標準化超聲檢查,減少對高技能操作人員的依賴,尤其是在醫療資源匱乏或需要非接觸式醫療的場景中[8]

自主超聲掃描機器人主要采用基于機器學習的方法],包括模仿學習(imitation learning,IL)和深度強化學習(deepreinforcementlearning,DRL)。IL使得機器人系統從專家演示數據學習以獲得執行特定任務的能力。例如,文獻[10]提出了一種用于徒手超聲操作的多模態表示和技能適應框架,采用離線訓練和在線適應的雙向學習過程來進行自主超聲掃描任務。盡管IL在超聲導航任務中展現了一定的應用潛力,但其對大量高質量專家演示數據的依賴,以及在動態環境中有限的泛化能力,限制了其在實際臨床場景中的普適性[11]。DRL結合深度學習的特征提取能力與強化學習的決策能力,使機器人能夠在復雜環境中自主優化其行動策略[12-14],成為超聲導航任務研究的重要方向之—[15]。例如,文獻[16]在模擬環境中首次驗證了DRL能用于自主引導超聲探頭進行超聲圖像采集的可行性。Li等人[17]首次提出了基于實時的超聲圖像反饋和深度Q學習(deepQ-network,DQN)的DRL 模型控制超聲探頭的6D姿態將探頭導航至標準掃描平面。隨后,DRL更多地被用于基于超聲圖像的實時探頭導航[18-20]。文獻[21]提出了多模態深度強化學習模型,將超聲圖像、單外部視覺和觸覺信息集成到超聲機器人系統中,通過實時視覺反饋和觸覺感知以及近端策略優化算法(proximal policyoptimization,PPO)來控制超聲探頭進行超聲圖像采集任務。

然而,現有應用于自主超聲掃描機器人領域的DRL算法(如DQN和PPO)仍面臨特征處理效果不佳、樣本效率低、探索困難及訓練不穩定等挑戰。現有方法通常僅使用超聲圖像、單一外部視覺或觸覺反饋中的一種或幾種,結合卷積神經網絡(convolutional neuralnetwork,CNN)和多層感知機(multilayerperceptron,MLP)等方法進行特征提取[18\~21]。這些方法還有很大的優化空間。首先,與傳統DRL算法相比,最大熵軟演員-評論者算法(softactor-critic,SAC)在很多方面表現出了更強的探索能力和更高的穩定性[22]。其次,單一外部視覺無法全面捕捉超聲探頭的空間位姿信息,這一局限性使得機器人難以有效適應復雜和動態的環境。雙視角圖像在機器人裝配任務中已顯示出提高裝配精度的潛力[23]。再者,現有方法[18\~21]的特征提取未能充分利用多模態數據隨時間變化的動態特性,可能導致關鍵信息的缺失。對于多模態傳感數據的特征提取和融合還有提升空間。最后,提高模型訓練速度對自主超聲掃描機器人的快速部署至關重要,而現有方法未能充分考慮這一點。面對這些局限,開發穩健、高效且具有快速學習能力的算法,以處理和融合多模態數據并指導系統決策尤為重要。

為此,本文提出了一種新型的自主超聲掃描方法,使機器人能夠綜合利用多模態信息,并自主決策控制超聲探頭的位姿以柔順地進行超聲掃描任務,同時保證掃描任務的可靠性和穩定性以獲得最佳超聲圖像。具體而言,本文首次引入雙視角探頭操作圖像,提高了掃描精度和任務成功率,并通過結合雙視角圖像、超聲圖像和6D觸覺信息,為智能體提供豐富的環境感知數據。為了有效處理這些信息,本文設計了基于自注意力機制的多模態特征提取與融合模塊,增強了智能體的環境感知能力。為了貼近專業醫生的操作與提高所采集圖像的質量,本文設計了一個混合獎勵函數,綜合考慮了圖像質量、位置、姿態、交互力和任務完成情況等因素。這一獎勵函數有助于智能體優化其控制策略,提升掃描效率。在算法層面,本文結合了離散動作空間、SAC算法以及基于動態優先經驗回放(priori-tized experience replaybased on dynamicpriority,PERDP)的加速訓練機制,提出了DSAC-PERDP深度強化學習算法,以提高模型訓練的穩定性和速度。基于該算法和多模態特征提取與融合模塊,本文構建了一個應用于多模態自主超聲機器人的多模態深度強化學習模型,稱為DSAC-PERDP模型。該模型輸出的控制命令通過位姿一體化阻抗控制器來控制超聲探頭的6D位姿。最后,本文通過消融實驗、模型對比實驗和系統抗干擾實驗驗證了所提出方法的可行性和穩定性。

1任務描述和多模態自主超聲掃描機器人

如圖1所示,軟腎臟體膜上探頭的目標位置所在的標準平面包含關鍵診斷信息,這對臨床診斷至關重要。因此,多模態自主超聲掃描機器人系統需快速引導超聲探頭定位并獲取關鍵解剖結構的標準掃描平面的超聲圖像。

為了模擬真實操作環境,探頭初始位置被隨機設置在如圖1所示的探頭隨機起始區域內,以增加任務復雜性并提高系統的泛化能力。為了標準化超聲掃描圖像的采集任務,系統通過一名經驗豐富的超聲檢驗醫生采集軟腎臟體膜的目標圖像,并記錄探頭位姿,作為系統學習的參考標準。

圖1軟腎臟體膜 Fig.1Soft kidneyphantom

本文設計了如圖2所示的多模態自主超聲掃描機器人系統。系統以具有七自由度的FrankaEmikaPanda協作機器人基座建立笛卡爾坐標系,通過安裝在機器人末端執行器上的6D力/力矩傳感器和3D打印件連接超聲探頭,測量其與軟腎臟體膜之間的交互力。探頭連接超聲顯像設備實時采集超聲圖像,正向和側向攝像頭以正交布局同步采集探頭操作的雙視角RGB圖像。光源用于提供穩定的照明條件。為了確保安全,系統配備安全停止按鈕,可在突發情況下切斷協作機器人系統的電源。其中超聲顯像設備型號為索諾星SS-10;正向攝像頭型號為thinkplusWL24A,分辨率為2K;側向攝像頭為DGREENCM717-25442,分辨率為2K;6D力/力矩傳感器為KWR75F,采樣頻率1 000Hz 。超聲顯像設備為系統模擬經驗豐富的超聲醫生操作自主引導探頭采集標準超聲圖像。

圖2多模態自主超聲掃描機器人系統Fig.2Multimodal autonomous ultrasound scanning robotic system

2方法

本文提出的基于改進型多模態信息融合深度強化學習的自主超聲掃描方法,其核心為DSAC-PERDP模型。圖3展示了多模態自主超聲掃描機器人系統的原理框架。首先,通過超聲圖像、側向攝像頭圖像、正向攝像頭圖像和6D力/力矩傳感器數據構建多模態信息,將其作為輸入傳遞至DSAC-PERDP模型。DSAC-PERDP模型中的策略網絡輸出動作概率分布,并通過隨機采樣選取離散動作指令。隨后,通過位姿一體化阻抗控制器調整超聲探頭的6D位姿,以實現探頭與軟腎臟體膜的柔順交互。

圖3多模態自主超聲掃描機器人系統原理框架 Fig.3Framework ofmultimodal autonomousultrasound robotic system

本文DSAC-PERDP模型旨在高效融合多模態信息,優化自主超聲掃描任務的執行和智能決策能力。如圖3所示,模型架構包括策略網絡、Q值網絡1和2、目標Q值網絡1和2,其核心均為多模態特征提取與融合模塊。各網絡結構包含的神經網絡尺寸在圖3中進行了詳細的標注。策略網絡由多模態特征提取與融合模塊、MLP網絡與softmax層構成,用于生成動作空間的動作概率分布。Q值網絡1和2,以及其對應的目標Q值網絡,采用完全一致的網絡結構,由多模態特征提取與融合模塊和MLP網絡組成。為簡化圖示,目標Q值網絡未在圖中呈現。這些目標Q值網絡的參數通過軟更新機制從對應的Q值網絡動態更新,用于協同完成模型的優化與決策任務。本文DSAC-PERDP優化整體模型的訓練過程,通過策略網絡和四種Q值網絡的協同作用,顯著提升了訓練效率與決策性能,確保模型在復雜任務中的高效性和穩定性。

2.1多模態特征提取與融合模塊

多模態特征提取與融合模塊通過殘差網絡18(residualnetwork18,ResNet-18)[24]模塊和長短期記憶(longshort-termmemory,LSTM)[25]模塊提取多模態信息中的空間和時間特征,并利用自注意力機制和全局平均池化與全連接層完成特征融合,為各網絡提供統一的特征表示。以下從特征提取和特征融合兩部分詳細介紹該模塊的工作原理。

2.1.1多模態信息的特征提取

如圖3所示,系統輸入包含了超聲圖像、側向攝像頭圖像、正向攝像頭圖像和觸覺傳感器的數據。超聲圖像通過凸陣探頭采集,原始尺寸為 480×640×3 ,后裁剪至 180×260×3 以聚焦感興趣區域。側向攝像頭和正向攝像頭都為RGB攝像頭,兩者從兩個正交角度捕獲探頭操作的圖像,原始尺寸都為480×640×3 ,裁剪至 155×220×3 像素,以聚焦對探頭和體膜之間相對位姿的捕捉。觸覺數據由六軸力傳感器以 1000Hz 的頻率采集,經過低通濾波與歸一化處理。

如圖3中的多模態信息,圖像數據處理采用最近9個時間步的多模態數據構建圖像時間序列。超聲圖像與雙視角圖像通過ResNet-18模塊進行特征提取。ResNet-18通過引人殘差連接有效緩解梯度消失問題,提升了特征學習能力[24]。針對不同模態數據,本文對ResNet-18進行了定制化調整:超聲圖像輸人為 180×260×3×9 ,最后一層替換為全連接層,輸出為FUS∈R48×9 。同理,雙視角操作圖像的輸入層都適配為 155× 220×3×9 ,最后一層替換為全連接層,輸出特征維度為 Fcaml ,Fcam1∈R24×9

6D力/力矩傳感器的數據采集頻率為 1000Hz ,采用LSTM網絡處理六維的觸覺數據。LSTM以其在時間序列建模和長期依賴關系處理中的優勢,被廣泛應用于序列數據處理[25]。將最近900時間步(0.9s內)的傳感器序列 6×900 作為輸人,LSTM 網絡最后一層鏈接全連接層,輸出為 Ftactile∈ R6×9 ,確保充分捕捉觸覺數據的時間特征。

2.1.2基于自注意力機制的特征融合

自注意力機制作為Transformer模型中的核心組件,是一種能夠捕捉輸入序列中元素之間相互關系的機制,廣泛應用于自然語言處理和計算機視覺領域[24]。該機制自動分配注意力到序列的不同部分以匹配不同模態數據處理后的序列部分,關注時間依賴性,有效整合多模態數據處理后的時序信息,從而實現空間與時間特征的深度融合。

來自所有模態的特征被拼接為統一的表示。自注意力機制被用于進一步處理時間序列特征信息以確保關鍵特征的有效提取。將各模態的特征按時間步拼接形成統一的輸人特征矩陣:

X=[FUS;Fcaml;Fcam2;Ftactile]T∈R9×(48+24+24+6)=R9×102

在本系統中,給定一個輸入序列 (其中 Ωn 為序列長度 9,d 為特征維度102),自注意力機制通過引入查詢 鍵K 和值 V 三個矩陣,計算輸入特征的加權表示。輸入特征矩陣經過線性變換生成查詢、鍵和值矩陣。

Q=XWQ,K=XWK,V=XWV

其中: 、 Wν∈Rd×dν 為可學習的線性變換權重矩陣, .dQ、dK 和 dv 分別表示查詢、鍵和值的特征維度。本文設置 dQ=dK=dV=d=102 以簡化計算。

查詢和鍵之間的相關性通過點積計算得到,并通過soft-max函數將結果歸一化,以生成注意力權重。具體公式為

其中: QKT∈Rn×n 是查詢和鍵之間的點積相似性矩陣; 是縮放因子,用于防止點積值過大導致的梯度消失問題; A(Q,K V )為得到融合后的特征表示,維度為 Rn×d ,包含了多模態特征的時空關聯信息。

生成的特征表示經過全局平均池化處理,

接著,通過全連接層映射至目標特征維度:

F=σ(WfZ+bf)∈R128

其中: Wf 的維度為 128×102;bf 為128維的偏置; σ(?) 為Re-LU激活函數;最終特征向量 F 維度為128,作為多模態特征提取與融合模塊的最終輸出。

2.2 強化學習模型建立

超聲探頭的導航任務被建模為強化學習框架下的馬爾可夫決策過程。該框架定義了狀態空間 s 動作空間 A 、獎勵函數 R(st,at) 和終止條件,全面刻畫了超聲探頭導航任務中的決策過程。智能體基于當前狀態 st∈S 選擇動作 at 與環境進行交互,并根據反饋的獎勵信號不斷優化策略,最終實現對目標平面的精確定位與掃描。

a)狀態空間 s 如圖3所示的多模態信息,S匯集多模態信息,包括超聲圖像 It, 正向相機圖像 C1,t 側向相機圖像 C2,t 和力傳感器數據 Ft 。狀態空間定義如下:

st={It,C1,t,C2,t,Ft}

b)動作空間 AA 包含13個維度,涵蓋了機械臂末端六自由度動作及1個停止指令。具體包括12個正向和負向的平移和旋轉,以及1個停止動作指令。動作空間表示為

位置動作表示為沿 x,y 和 z 軸的增量,每個動作對應一個微小位移。機械臂末端位置通過累積位移量表示為

其中 表示在時間步為 χt 時刻時探頭的位置;Δpt=(Δxt,Δyt,Δzt) 表示當前時間步的位移偏移量。位移距離會隨步數增加而線性減小。姿態動作通過旋轉矩陣的累積來實現,基于圍繞 x,y 和 z 軸的旋轉來更新姿態,表示為

其中: Rt 表示時間步為 χt 時刻的探頭姿態的旋轉矩陣; Rx,Ry 和 Rz 分別為圍繞 x,y 和 z 軸的旋轉矩陣; θxtyt 和 θzt 為相應的旋轉角度。動作空間中的停止指令用于指示任務完成,確保探頭在達到目標位置時保持穩定。

c)混合獎勵函數與終止條件的設計。為模仿超聲醫生的操作,混合獎勵函數綜合考慮探頭位置、姿態、圖像質量、施加力以及任務完成情況等因素,鼓勵智能體最小化位置誤差、保持合理姿態、實現高質量成像和安全交互。混合獎勵函數定義為R(st,at)=wpRposition+woRorientation+wsRSSIM+wfRforee+wcRcompletion, (10)其中 和 Rcompletion 分別為考慮探頭位置、探頭姿態、采集的圖像質量、探頭與體膜的交互力和任務完成情況設置的獎勵函數; wp、wo、ws、wf 和 wc 為各獎勵組成部分的權重,均默認為1。

位置獎勵基于當前位置與目標位置之間的歐幾里德距離的變化。設 dt 表示時間步 Φt 時的探頭與目標位置的歐幾里德距離,位置獎勵被定義為

該獎勵鼓勵智能體最小化與目標位置距離,并對遠離目標或超出設定范圍( 30cm )進行懲罰。

姿態獎勵需要引導探頭在合理姿態范圍內進行活動。設Δθxt?Δθyt?Δθzt 分別表示時間步 Ψt 時圍繞 x,y 和 z 軸的當前姿態角度與其目標姿態角度的差值。姿態獎勵定義為

該獎勵對超出合理范圍的姿態動作進行懲罰,鼓勵超聲探頭保持在安全合理的角度范圍內。

圖像質量獎勵旨在引導探頭調整位姿最大化超聲圖像質量。結構相似性指數(structural similarityindexmeasure,SSIM)用于評估當前采集超聲圖像 I 與目標圖像 T 之間的相似性,作為圖像質量指標。SSIM適用于評估超聲圖像質量,因為它能夠捕捉到圖像的結構信息[21],計算公式為

其中 σ:μI 和 μr 分別表示當前圖像和目標圖像的均值; σI2 和 σT2 為方差; σπ 為兩圖像的協方差; c1 和 c2 為穩定性常數。SSIM的獎勵函數被定義為

在掃描過程當中,對使得圖像質量上升的行為進行獎勵,反之給予適當的懲罰。

力獎勵函數確保探頭對體膜所施加的力保持在安全且有效的范圍內。設 Fz 表示沿 z 軸(垂直壓力)的力, Fx 和 Fy 分別表示沿 x 軸和 y 軸的力, τx,τy,τz 分別表示繞這些軸的力矩:

力獎勵函數為 z 軸力獎勵與其他力獎勵之和:

Rforce=RforceZ+Rforceothers

該獎勵函數對使得力和力矩超過預定義限度的動作進行懲罰,以引導超聲探頭在安全舒適的交互下進行掃描任務。

本文設置了嚴苛的任務成功條件,包括探頭離目標位置14mm 以內,姿態和力/力矩符合要求,回合步數少于80步且SSIM值高于0.65以滿足對于圖像質量的要求。任務失敗的

條件包括位置、姿態、力和力矩超出允許范圍、步數超出80步或停留在非目標區域。回合任務結束的獎勵或懲罰被定義為

2.3 DSAC-PERDP決策算法

SAC因其高效的探索和快速學習優勢,在決策密集型任務中表現突出[26]。本文將 SAC 方法擴展至離散動作空間的強化學習任務,為提高學習效率,將PERDP機制集成到離散SAC中。PERDP基于動態時序誤差(timedifferenceerror,TD誤差)和即時獎勵,對經驗進行優先級排序,從而幫助智能體聚焦于最具學習價值的經驗,加速收斂并提高整體性能。本文設計的DSAC-PERDP算法框架如圖4所示。

溫度參數a更新L。 策略網絡更新L更新熵H(π(|s))更新

自主超聲任務環境 a 網 Q值網絡更新策略網絡S 4 自標Q值網絡1 自標Q值網絡2S,S+1(st,at,st+l,Rt) 一 min TD誤差I LQ↓動態優先經驗 采梯 目標Q值Quret回放池

在離散動作空間下, π(a|s) 表示為策略網絡在當前狀態下生成一個13維離散動作的概率分布。如圖3所示,策略網絡最后一層為動作空間中每個動作對應的概率。熵 H(π(a| s) )用于衡量動作選擇的隨機性,定義為

較高的熵值代表策略具有較強的探索性,而較低的熵值則表明策略有更確定的行為模式。熵的引入促使策略在訓練初期探索多種可能的動作,從而避免過早收斂于次優策略。

DSAC-PERDP的目標是最大化累積獎勵,同時通過熵的引入平衡探索與利用。其目標函數為

(20)其中: R(st,at) 表示在狀態 st 下動作 at 后的即時獎勵; γ 為折扣因子; α 是溫度參數,用于調節獎勵最大化與基于熵的探索之間的平衡。

Q值網絡1為 Qθ1 ,Q值網絡2為 Qθ2 ,兩者所對應的目標網絡分別為 Qθ1 和 Qθ2 。目標網絡用于估計給定狀態-動作對Ξ(st,at) 的預期回報。為減輕高估偏差,取兩個目標網絡的最小值來計算,并據此更新兩個Q值網絡。目標Q值的計算公式為

通過最小化Q值網絡輸出的Q值與目標Q值之間的均方誤差來更新Q值網絡1和2,損失函數為

其中: Qθi(st,at) 表示第 i 個Q網絡在狀態 st 下對動作 at 的預測 Q 值。為了確保訓練的穩定性,目標網絡的參數通過軟更新的方式跟蹤值網絡的參數:

其中: λ 為軟更新系數,設定為0.01,以控制目標網絡參數的更新速率,確保穩定的訓練過程。

策略網絡則通過最大化由熵增強的預期回報進行更新,在鼓勵探索的同時優化策略。策略損失函數表示為

(24)其中:第一項通過最大化策略的熵來鼓勵探索,第二項則推動策略朝向具有更高預期回報的動作,這由兩個 Q 值的最小值所指示,從而減輕高估偏差。

溫度參數 α 的更新旨在平衡策略的探索與利用。通過最小化以下損失函數來更新溫度參數:

其中: α 初始值為0.01;目標熵 Htarget 通常設定為動作空間中動作維度的對數[22]。在本文中,由于動作空間包含13個離散動作,目標熵被設定為 。該更新確保策略在訓練初期保持較強的探索性,逐步優化策略至輸出高回報的動作。

PERDP通過實時更新的TD誤差與即時獎勵 Rt 對經驗進行動態優先級排序。即時獎勵反映了經驗的學習價值,能夠衡量經驗對當前學習階段的貢獻,從而使智能體集中學習對策略優化更關鍵的經驗,加速學習過程并提升策略穩定性。

每個經驗 ei=(si,ai,si+1,Ri) 的優先級 pi 計算如下:

pi=|δi|+?

其中: ?δi 表示與經驗相關的當前價值網絡中的TD誤差與即時獎勵 Rt 的混合;e是一個小常數,用于防止優先級為零; δi

每個經驗的采樣概率 Pi 由以下公式確定:

其中: 用于調整經驗優先級。通過整合PERDP、DSAC-PERDP算法有效利用經驗回放緩沖區,重點關注高優先級的經驗,以提升學習效率,實現更快速的收斂和更穩定的策略優化。

在每一回合任務結束后,系統通過從動態優先經驗回放池中采樣一定量批次的經驗,依據不同網絡所對應的損失函數對網絡進行更新。同時,超聲探頭回到圖1中的隨機初始區域,準備開始下一回合的訓練。當所有回合結束后,模型視為訓練完成,整個模型會被保存下來。

2.4位姿一體化阻抗控制

阻抗控制通過調節施加力與運動之間的關系,使機器人手臂能夠根據外部力量的變化作出響應,從而確保平穩、安全與精確的交互。

在本文中,策略網絡在每個時間步定義機器人手臂末端執行器的參考姿態,包括位置 pt 和姿態旋轉矩陣 Rt ,控制過程首先計算當前狀態與目標狀態之間的位姿誤差。位置誤差 ep 定義為期望位置與當前位置信息之間的差值: ep=pt-pc 。姿態誤差通過計算誤差旋轉矩陣 Re=RtRcT ,并轉換為四元數 qe= (204號 [q0,q1,q2,q3]1 來表示,方向誤差 er 定義為四元數的虛部與機械臂當前姿態的旋轉矩陣 Rc 的積 er=Rc[q1,q2,q3]?T ,最終位姿誤差向量為

e(t)=[ep,er]T

阻抗控制根據計算出的誤差和外部力調整關節扭矩。期望交互力 Fdes 由質量-阻尼-彈簧模型給出:

其中: ?M,B 和 K 分別為虛擬慣性、阻尼和剛度參數矩陣,控制末端執行器在響應誤差時的動態行為。

施加于機械臂關節的控制扭矩 τ 由下式確定:

其中: J 是雅可比矩陣; q 是關節位置向量; 分別是關節速度和加速度向量; M(q) 是關節空間慣性矩陣; 表示科里奧利力和離心力; G(q) 考慮了重力作用。此控制框架確保機械臂在適應外部力的同時保持期望姿態,實現柔性交互。

3 實驗設置與分析

3.1 實驗設置

為了全面評估所提方法的可行性,所有實驗均在如圖2所示的多模態自主超聲機器人系統中進行,系統工作于真實環境。實驗使用的是無標記、軟、可移動的腎臟體膜。為驗證方法的泛化能力,每回合的起始點都隨機設置在如圖1所示探頭隨機起始區域中,并通過穩定性測試實驗模擬真實環境干擾。超聲掃描任務遵循文獻[21]所描述的標準超聲掃描任務。實驗平臺采用 Intel°ledast CoreTMi9-12900K處理器和NVIDIA RTX3080TiGPU,Python3.8,運行內存為16GB,使用PyTorch框架進行深度學習計算,優化器為 Adam[27] O

在實驗中,訓練批量大小設定為64,動態優先經驗回放池的容量為 30 000,β=1 ,所有模型的訓練和驗證回合數為300,折扣因子均為0.99,網絡學習率設定為 3×10-4 。位姿一體化阻抗控制器虛擬慣性參數矩陣 M=diag(0.5,0.5,0.5,0.5) 0.5,0.5),阻尼參數矩陣 B=diag(25,25,25,15,15,15) ,剛度參數矩陣 K=diag(150,150,150,50,50,50) 。實驗中采用的性能指標包括每回合累積獎勵、回合結束時超聲探頭與目標之間的距離(掃描精度)、圖像質量(采集圖像與目標圖像的SSIM指數)任務成功率(驗證階段中成功回合數量占總回合的百分比)以及收斂速度(即模型訓練中達到穩定性能所需的回合數)。任務的成功與失敗標準參照方法部分中所定義的任務成功和失敗條件。

3.2 方法對比與分析

本文設計了六組實驗。第一組實驗為DSAC-PERDP驗證實驗,驗證所提方法的性能。第二組為單視角消融實驗,在DSAC-PERDP基礎上去除側向攝像頭視覺輸入和處理部分,模型僅依靠單視角視覺、超聲圖像和觸覺信息進行超聲掃描任務。第三組為探究雙視角視覺作用的消融實驗,在DSAC-PERDP的基礎上去除了雙視角視覺輸入和處理部分,模型僅依靠超聲圖像和觸覺信息進行任務。第四組實驗為無動態優先經驗回放機制實驗,驗證該機制對模型性能的影響,模型為DSAC。第五組實驗是利用文獻[17]提出的基于實時超聲圖像和DQN算法的方法模型(簡稱為文獻[17])實驗。第六組實驗為使用文獻[21]提出的基于單外部視覺、超聲圖像和觸覺信息以及PPO算法的方法作為基線模型。其輸人設置與第二組一致。所有實驗均在相同的物理環境與硬件平臺上進行,且所有實驗的任務設置和獎勵函數設置都保持一致。

表1統計了六種模型在不同性能指標上的表現。DSAC-PERDP在位置誤差、成功率、收斂速度和圖像質量上都取得了最優的性能。DSAC-PERDP在訓練階段的第50回合就達到穩定狀態,驗證階段的位置誤差為 3.38±0.45mm ,驗證階段成功率為 96.7% ,同時采集圖像質量為 與文獻[17]對比,DSAC-PERDP的位置精度提升了 57.2% ,成功率提升了 22.4% ,收斂速度加快了 402.0% 。與基線模型(文獻[21])相比,DSAC-PERDP位置精度提升了 49.8% ,成功率提升了 13.4% ,收斂速度加快了 260. 0% ,圖像質量提高了6.7% 。這些實驗結果展現了本文方法的有效性。

表1六種模型實驗中的性能數據Tab.1Performance data from the six model experiments

在消融實驗中,DSAC-PERDP、DSAC-PERDP單外部視覺和DSAC-PERDP不具雙視覺的主要區別在于輸人模態不同。DSAC-PERDP外部視覺是雙視角的操作圖像,而DSAC-PERDP單外部視角在此基礎上去掉了側向攝像頭圖像的輸入。去除側向攝像頭輸入后,模型的空間感知能力受到了限制,位置誤差由原來的 3.38mm 增大至 4.67mm ,掃描任務成功率和圖像質量也有所下降。進一步移除雙視角攝像頭數據后,DSAC-PERDP不具雙視覺位置誤差顯著增大至 9.81mm ,成功率下降至 73.3% 。這些結果強調了雙視角視覺數據在維持空間感知和確保超聲探頭精準操作中的關鍵作用,驗證了多模態信息融合對系統性能提升的重要性。

為了更好地與基線模型進行對比,DSAC-PERDP單外部視覺與文獻[21]具有一致的輸入,但是DSAC-PERDP單外部視覺的掃描位置誤差、任務成功率、收斂速度以及獲取的圖像質量都優于文獻[21],這印證了本文DSAC-PERDP相比于文獻[21]模型在自主超聲任務中具有顯著優勢。

為了使各項曲線更加平滑,并減少隨機波動帶來的干擾,本文在所有曲線中均統一采用了窗口大小為10的滑動平均對原始數據進行處理,旨在突出模型訓練過程的整體趨勢。

提升回合累計獎勵是模型訓練效果的目標,也是模型是否收斂的直接體現。從圖5可見,文獻「21的回合獎勵曲線在約第180回合后達到穩定,而DSAC-PERDP的回合獎勵曲線在第50回合就趨于穩定。文獻[17]在第251回合趨于穩定,表現最差。DSAC在第90回合后趨于穩定,性能低于DSAC-PERDP,高于文獻[21]。這些結果表明,相比于文獻[17,21],DSAC-PERDP不僅具有穩定和出色的學習能力,而且其引入的動態優先經驗回放機制顯著提升了訓練速度和模型的穩定性。

圖5六種模型訓練回合獎勵曲線 Fig.5Reward curves of sixmodelsintrainingepisodes

如圖6所示,訓練過程中位置誤差的變化反映了模型在超聲圖像采集任務中的表現。DSAC-PERDP收斂速度最快,且最終的穩定性能優于其他模型。DSAC在收斂速度上次之,表現略低于DSAC-PERDP。文獻21]表現低于DSAC-PERDP單視角視覺。DSAC-PERDP不具雙視角視覺表現最差,收斂速度較慢。通過對前三組實驗的對比分析可以看出,隨著外部視覺輸入的減少,模型的目標誤差逐漸增大,這進一步驗證了外部視覺在提升模型掃描精度中的重要作用。

圖6六種模型訓練回合位置誤差曲線 Fig.6Position error curves of six models in training episodes

SSIM值是衡量超聲圖像采集任務的直接指標,圖7展示了六種模型在訓練過程中圖像質量的變化情況。DSAC-PERDP在整個訓練過程采集的圖像質量最優,并且保持了最佳的穩定性。DSAC-PERDP單視角視覺與文獻[21]對比也有明顯的優勢。這一優勢源于基于多模態傳感器數據的融合以及基于注意力機制的多模態特征提取和融合方法,相比于文獻[17,21]中使用的傳統CNN和MLP方法,本文方法顯著提升了所采集圖像的質量。

圖7六種模型訓練回合圖像質量曲線 Fig.7SSIM curves of six models in training episodes

3.3 系統穩定性測試

為了評估所提方法在干擾條件下的穩定性,設計了視覺遮擋、光照強度干擾和體膜移動干擾實驗。每項實驗進行100回合,探頭位置隨機初始化。任務成功定義為所采集的超聲圖像SSIM值超過0.6500,并由專業超聲醫師確認圖像質量滿足要求。

在無干擾實驗中,系統表現出卓越的穩定性和高效性,成功率達到 97% ,SSIM值為0.7625。如圖8(a)所示,超聲探頭能夠高效地從隨機起始位置導航至目標區域并獲得高質量圖像。

在視覺遮擋干擾實驗中(圖8(b)),遮擋正向攝像頭模擬可能存在的環境干擾。盡管遮擋了正向攝像頭,系統仍能成功完成任務,成功率為 83% ,SSIM平均值為0.6937。這表明系統在視覺干擾受限條件下仍具有較強的適應能力。

在光照強度干擾實驗中(圖8(c)),關掉了穩定光源,雙視角攝像頭的圖像亮度明顯下降。實驗結果表明,在光照強度干擾中,系統任務的成功率為 95% ,SSIM平均值為0.7611。由于圖像處理模塊中ResNet-18包含了對圖像的歸一化處理過程,所以系統對于光照強度變化仍保持一定的穩定性能。實驗表明,相比于無外界干擾情況,系統的性能表現沒有明顯下降。

在體膜移動干擾實驗中,通過在掃描任務期間將體膜以遠離探頭方向移動 2cm ,以模擬器官位移或患者移動。如圖8(d)所示,多模態自主超聲掃描機器人系統能夠動態適應目標位置變化,能準確地采集標準的超聲圖像,任務完成成功率為 85% ,SSIM平均值為 0.7155 這表明系統能動態適應目標位置變化,展示了本文方法具有在臨床環境中處理不確定因素的能力。

在三種顯著干擾條件下,本文方法依然具有穩定完成自主超聲掃描任務的能力。這些實驗結果表明,本文方法具有在復雜和不可預測環境中的抗干擾和適應性能力。

圖8自主超聲系統干擾測試軌跡快照Fig.8Snapshotof theinterference test trajectoryof the autonomous ultrasound system

4結束語

本文提出了一種基于改進型多模態信息融合深度強化學習的自主超聲掃描方法,旨在實現高效、精準的超聲圖像采集任務。該方法通過整合探頭超聲圖像、雙視角探頭操作圖像以及6D觸覺信息,構建了多模態信息輸入,設計了基于多模態特征提取與融合的DSAC-PERDP模型,實現了多模態傳感信息的有效特征提取與融合。為貼合專業醫生的超聲掃描操作,本文設計了一個綜合考慮圖像質量、位置、姿態、交互力及任務完成情況等因素的混合獎勵函數。DSAC-PERDP算法實現了對DSAC-PERDP模型的高效訓練和策略優化。通過策略網絡實時輸出的控制命令,結合位姿一體化阻抗控制器,實現了對超聲探頭位姿的精確控制,完成了高質量的超聲掃描圖像采集任務。在所設計的多模態自主超聲掃描機器人系統上進行的實驗驗證表明,本文方法在掃描精度、任務完成成功率及收斂速度方面均優于文獻[17,21]。同時,穩定性測試表明,系統在面對視覺遮擋、光照強度干擾和體膜移動干擾時,依然表現出一定的抗干擾能力。這些結果充分證明了本文方法在真實臨床環境中具有可靠的應用潛力。

在實際臨床應用中,醫生的經驗與判斷也至關重要。未來可研究如何結合學習類方法實現更高效的人機協作,例如通過自然語言交互或者外部觸覺反饋,使系統能夠更好地理解醫生的意圖并輔助決策。

參考文獻:

[1]Hidalgo E M,Wright L, Isaksson M,et al.Current applications of robot-assisted ultrasound examination [J]. Cardiovascular Imaging,2023,16(2):239-247.

[2]Wells P N,Liang H D. Medical ultrasound:imaging of soft tissue strain and elasticity[J]. Journal of the Royal Society Interface, 2011,8(64):1521-1549.

[3]Peng Lingyan,Zhong Tingting,Fan Qiuling,et al.Correlation analysis of renal ultrasound elastography and clinical and pathological changes in patients with chronic kidney disease[J].Clinical Nephrology,2017,87(6):293-300.

[4]Gerstenmaier JF,Gibson RN.Ultrasound in chronic liver disease [J].Insights into Imaging,2014,5(4):441-455.

[5]Pahl C, Supriyanto E. Design of automatic transabdominal ultrasound imaging system[C]//Proc of the 2Oth International Conference on Methods and Models in Automation and Robotics.Piscataway,NJ: IEEE Press,2015:435-440.

[6]Adekunle TA. Sonographers and work-related musculoskeletal disorders(WRMSDs): a systematic review of the prevalence,risk factors, and consequences [D]. [S.1.]: Hochschule fur Angewandte Wissenschaften Hamburg, 2022.

[7].Von HaxthausenF,BottgerS,Wulff D,etal.Medical robotics for ultrasound imaging:current systems and future trends[J].Current Robotics Reports,2021,2(1):55-71.

[8]Li Keyu,Xu Yangxin,Meng M Q. An overview of systems and techniques for autonomous robotic ultrasound acquisitions[J].IEEE Trans on Medical Robotics and Bionics,2021,3(2):510-524.

[9]Bi Yuan, Jiang Zhongliang,Duelmer F,et al. Machine learning in robotic ultrasound imaging:challenges and perspectives[J]. Annual Review of Control,Robotics,and Autonomous Systems, 2024,7: 335-357.

[10]Deng Xutian,Jiang Junnan,Cheng Wen,et al.Learning freehand ultrasound through multimodal representation and skill adaptation [J].IEEE Trans on Automation Science and Engineering, 2024,22:5117-5130.

[11] Jiang Zhongliang,Bi Yuan,Zhou Mingchuan,et al.Intelligent robotic sonographer: mutual information-based disentangled reward learning from few demonstrations[J].The International Journal of Robotics Research,2024,43(7):981-1002.

[12]Wang Xu,Wang Sen,Liang Xingxing,et al.Deep reinforcement learning:a survey[J]. IEEE Trans on Neural Networks and LearningSystems,2024,35(4):5064-5078.

[13]MnihV,KavukcuogluK,SilverD,etal.Human-level control through deep reinforcement learning [J]. Nature,2015,518 (7540):529-533.

[14]時高松,趙清海,董鑫,等.基于PPO算法的自動駕駛人機交互 式強化學習方法[J].計算機應用研究,2024,41(9):2732- 2736.(Shi Gaosong,Zhao Qinghai,Dong Xin,et al.Humanmachine interactive reinforcement learning method for autonomous Computers,2024,41(9):2732-2736.)

[15]TenajasR,MirautD,Illana CI,et al.Recent advances in artificial intelligence-assisted ultrasound scanning [J].Applied Sciences, 2023,13(6):3693.

[16]Jarosik P,Lewandowski M. Automatic ultrasound guidance based on deep reinforcement learning[C]//Proc of IEEE International Ultrasonics Symposium.Piscataway,NJ:IEEE Press,2019:475-478.

[17]Li Keyu,Wang Jian,Xu Yangxin,et al.Autonomous navigation of an ultrasound probe towards standard scan planes with deep reinforcement learning[C]// Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2021:8302- 8308.

[18]Ning Guochen,Zhang Xinran,Liao Hongen.Autonomic robotic ultrasound imaging system based on reinforcement learning[J].IEEE Trans on Bio-Medical Engineering,2021,68(9): 2787-2797.

[19]Hase H,Azampour MF, Tirindelli M,et al.Ultrasound-guided robotic navigation with deep reinforcement learning [C]/′ Proc of IEEE/RSJ International Conference on Inteligent Robotsand Systems.Piscataway,NJ: IEEE Press,2020:5534-5541.

[20]Su Kang,Liu Jingwei,Ren Xiaoqi,et al.Afullyautonomous robotic ultrasound system for thyroid scanning [J].Nature Communications,2024,15(1) : 4004.

[21]Luo Chengwen,Chen Yuhao,Cao Haozheng,et al.Multi-modal autonomous ultrasound scanning for eficient human-machine fusion interaction[J]. IEEE Trans on Automation Science and Engineering,2024,22:4712-4723.

[22]Haarnoja T,ZhouA,AbbeelP,etal.Softactor-critic:ff-policy maximum entropy deep reinforcement learning with a stochastic actor [EB/OL]. (2018-01-04). htps://arxiv.org/abs/1801.01290.

[23]王永志,張禹,趙蕾,等.基于深度強化學習的多視角智能裝配 [J].組合機床與自動化加工技術,2022(8):152-155,159. (WangYongzhi,ZhangYu,ZhaoLei,etal.Multi-viewintelligent assembly based on deep reinforcement learning[J]. Modular Machine Tool amp; Automatic Manufacturing Technique,2022(8): 152-155,159.)

[24]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016:770-778.

[25]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

[26]Guan Jiayi,Chen Guang,Huang Jin,et al.Adiscrete soft actor-critic decision-making strategy with sample filter for freeway autonomous driving[J].IEEE Trans on Vehicular Technology,2023,72 (2):2593-2598.

[27]Kingma DP,Ba J.Adam:a method for stochastic optimization [C]// Proc of International Conference on Learning Representations. Washington DC:ICLR,2015.

[28]Vaswani A,ShazeerN,Parmar N,et al.Attentionis all you need [C]//Proc of the 31st International Conference on Neural InformationProcessing Systems. Red Hook,NY:Curran Associates Inc., 2017: 6000-6010.

猜你喜歡
特征提取模態機器人
北京:具身智能機器人4S店開業
科學導報(2025年57期)2025-08-26 00:00:00
促進機器人產業實現更多創新突破
科學導報(2025年57期)2025-08-26 00:00:00
江蘇淮安:假期玩轉機器人
科學導報(2025年53期)2025-08-19 00:00:00
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
一種基于LBP 特征提取和稀疏表示的肝病識別算法
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
基于MED和循環域解調的多故障特征提取
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
變變機器人
主站蜘蛛池模板: 国产一级在线观看www色 | 国产欧美日韩va| 国产免费怡红院视频| 国产99久久亚洲综合精品西瓜tv| 视频一区视频二区日韩专区| 26uuu国产精品视频| 亚洲人妖在线| 亚洲中文在线看视频一区| 国产亚洲高清在线精品99| 中国毛片网| 999精品色在线观看| 国产一区二区色淫影院| AV天堂资源福利在线观看| 精品色综合| 69av免费视频| 国产91高跟丝袜| 一级一级一片免费| 91po国产在线精品免费观看| 亚洲乱码精品久久久久..| 成人免费网站久久久| 日韩免费无码人妻系列| 老色鬼久久亚洲AV综合| 伊人久久婷婷五月综合97色| 丰满的少妇人妻无码区| 亚洲免费三区| 亚洲综合天堂网| 国产精品三级av及在线观看| 福利片91| 这里只有精品在线| 91在线免费公开视频| 91无码人妻精品一区| 日本不卡在线视频| 一区二区自拍| 亚洲一区国色天香| 精品第一国产综合精品Aⅴ| 一级黄色欧美| 就去色综合| 国产污视频在线观看| 欧美爱爱网| 国国产a国产片免费麻豆| 99ri精品视频在线观看播放| 国产美女自慰在线观看| 免费国产无遮挡又黄又爽| 欧美精品黑人粗大| 国产网站在线看| 男女性午夜福利网站| 在线看片中文字幕| 蜜桃视频一区二区| 毛片久久久| 91精品国产情侣高潮露脸| 精品国产福利在线| 无码一区中文字幕| 中文国产成人精品久久| 亚洲另类第一页| 亚洲国产欧美中日韩成人综合视频| 精品亚洲欧美中文字幕在线看| 午夜人性色福利无码视频在线观看| 国产91丝袜| 午夜精品久久久久久久无码软件 | 欧美亚洲欧美区| 992tv国产人成在线观看| 无码一区18禁| 精品一区二区三区视频免费观看| 57pao国产成视频免费播放| 精品人妻系列无码专区久久| 国产亚卅精品无码| 久久黄色免费电影| 美女一级免费毛片| 少妇被粗大的猛烈进出免费视频| 欧美精品成人一区二区在线观看| 国产96在线 | 99ri精品视频在线观看播放| 国产成人乱无码视频| 日本久久网站| 福利一区在线| 亚洲欧美在线综合图区| 成年人国产网站| 国产第一色| 中美日韩在线网免费毛片视频| 亚洲欧洲日产国码无码av喷潮| 少妇高潮惨叫久久久久久| 日韩欧美高清视频|