孔繁駿
(華中科技大學,湖北 武漢 430074)
2020年初,新冠肺炎疫情在國內暴發。疫情防控成為我國常態化管理的重中之重,滲透在人們生活的方方面面,全民都需要積極做好疫情防護工作。由于新冠病毒具有傳染性強、變異概率大等特點,醫療部門防疫的壓力急劇增大,智能防疫開始逐漸成為醫療部門強有力的服務手段,利用機器人代替人工服務的需求急速上升。如何設計性能優良、自主循環、可持續發展、提高用戶體驗、提高院區內工作效率的綜合服務機器人系統成為了行業共同面臨的挑戰?,F今,機器人在防疫方面的應用已獲得了重大突破,例如寧波地鐵鼓樓站5G 智能巡檢防疫機器人正式上崗[1],它一次最多可以測量10 個人的體溫,并通過人臉識別將圖像信息準確傳送至云端,再由云端進行信息處理;丹麥“藍色海洋”機器人公司研發的一款使用短波紫外線(UV-C)進行消毒的移動機器人,通過自主定位能夠實現室內各個角落的殺菌工作,效率高達90%以上[2]?,F如今,隨著強化學習的深入發展,其主要被用于解決序列決策問題并且在解決極其復雜的決策問題方面取得巨大成功[3],如何將其應用于智能防疫領域逐漸成為人們關注的方向。
機器人選擇樹莓派4B+作為系統的核心控制器。相較于其他單片機,樹莓派4B+可運行Linux 等操作系統,且運算能力更強,可完成復雜多重的任務監控管理與調度[4]?;跇漭?B+,設計系統結構由硬件控制部分與軟件操作部分共同構成。系統的主要功能有:熱感測溫、智能導巡、消殺、顯示、語音交互、人機交互。系統整體設計方案如圖1所示。

圖1 系統整體結構
當指定區域進入正常工作狀態后,系統首先會對進入區域的用戶同時進行紅外傳感測溫,通過數據庫與用戶的信息匹配完成后,將溫度實時傳送到顯示模塊的HMI 顯示屏進行顯示。若人體溫度高于37.3 ℃,溫度信息將會被傳送至中心處理器,并通過云端實時提醒區域附近工作人員前來處理。用戶可以利用手機APP 結合語音發送咨詢需求,語音傳感器接收聲音信息后通過華為云端送至后臺處理,系統的智能導巡模塊引導用戶前往指定區域進行業務辦理。為了提高工作效率和避免發生不必要的碰撞,系統通過障礙感知傳感器與強化學習路徑規劃算法提高機器人的導巡精度。在一天的正常工作結束后,機器人將對工作區域進行全面的消殺。消殺過程中,系統基于強化學習MDP 框架實現自主決策,從而可以不斷補充能源實現循環工作。
系統的HMI 界面硬件組成部分主要包括3 大部分:液晶顯示屏、微型處理器、電路系統[5]。其中液晶顯示屏選用的是LCD12864。該模塊接口方式靈活且簡單,操作指令方便且具有低電壓低功耗的顯著特點,顯示分辨率為128×64點,內置128 個16×8 點陣字符和DC-DC 轉換電路,無需外加負壓和片選信號,可以在0~55 ℃范圍內正常工作。其中V0 端口為驅動電壓輸入端,需要連接滑動變阻器RP1并接地,從而達到調節顯示屏對比度的效果,使數字和字母更加清晰。LEDK 所接的三極管是為增強電流的驅動能力,為背光LED 提供足夠的驅動電流。系統顯示模塊工作流程如圖2所示。

圖2 系統顯示模塊工作流程
系統具有測量人體體溫的功能。當檢測到人員進入工作區域后,控制器向傳感器發送Start 信號,測溫傳感器將人員的溫度信息存入系統并由中心控制處理器加工處理。系統選用HC-SR501 熱釋電紅外線傳感器作為測溫傳感器,HR-SR501 基于紅外線技術,靈敏度高,可靠性強,具有超低電壓工作模式[6]。其中端口IN-與地面之間連接電阻R2可以大大提高傳感器的穩定性。
由于工作區域復雜程度不可預估,機器人系統在導巡過程中遇到障礙物需要隨時緊急更改路線,因此在系統內部安裝障礙感知傳感器。系統中的障礙感知傳感器以雙運算放大器LM358 作為比較器電路[7]。在紅外光譜中,障礙物會發出某種形式的熱輻射,可以通過該傳感器檢測到。在電路圖中可以分別用紅外發光二極IR Transmitter 和IR Receiver 作為發射器和探測器,發射器發射連續的紅外射線以供紅外接收器模塊接收,由于接收器對紅外發光二極管發出的相同波長的紅外光敏感,電阻和輸出電壓將隨接收到的紅外光的大小而成比例變化。為放大這種變化進行定量監測,系統可將其變化反饋至比較器電路,并將測量結果送至后臺處理,告知控制系統本身前方存在障礙物,機器人便會更改路徑。
系統可實現自主消殺功能,考慮到系統工作的區域復雜度較高,為提升消殺效果和有效降低人員感染風險,采用紫外線與汽化過氧化氫同時消毒的策略。將35%過氧化氫溶液完全汽化,在經過汽化裝置和系統四周表面的密網將氣態過氧化氫噴射至室內空間,紫外線光有利于汽化過氧化氫加速分解產生大量的游離羥基,在常溫條件下可對室內空氣和環境表面的細菌芽孢、分枝桿菌、真菌、細菌繁殖體MRSA、沙雷氏菌等進行全面消殺[8]。與此同時,系統內部的原料檢測裝置將實時監測消殺原料的剩余量,當系統內部原料不足或電力不足的情況下,機器人將進行自主決策返回補給區后再重新展開工作,可以較大程度上緩解醫療系統的整體壓力。消殺工作過程如圖3所示。

圖3 消殺工作流程
強化學習算法基本原理是通過讓機器人智能體與環境不斷交互來學習最優策略,以實現回報收益最大化或完成特定目標。實際情況中,動作、狀態和收益的集合都只有有限個元素。隨機變量Rt和St具有定義明確的離散分布,并且只依賴于前繼狀態與動作。進一步說,也就是給定前繼狀態和動作的值時,這些隨機變量的特定值s'∈S和r∈R在t時刻出現的概率是p(s',r|s,a)=Pr{St=s',Rt=r|St-1=s,At-1=a}。智能體的行為由策略π定義,該策略本質上是對特定狀態應采取動作的映射[9-10]。馬爾可夫決策過程中的“智能體-環境”交互如圖4所示。

圖4 馬爾可夫決策過程中的“智能體-環境”交互
融入MDP 強化學習算法后的系統能夠基于當前電量和消殺原料的剩余量做出是否繼續消殺或返回補給區的高級決策。系統將剩余量的狀態定義為一個集合S={不足,充足}。系統可以自行決定是否應該繼續工作或直接返回補給區補充能量。假定初始狀態下系統的收益為0,當機器人在規定時間內完成10 m2范圍內的消殺時收益記為正;而當電量或原料耗盡時就會產生一個巨大的負收益值。機器人在工作時電量和原料都在不斷地消耗,當耗盡之后機器人系統自動關閉等待工作人員營救,這種情況下就會產生低收益;而當電量和原料充足時,系統總是可以進行一段時間的消殺,不用擔心能量不足。當系統以高能量狀態工作了一段時間后仍是高能量的概率為β,下降為低能量的概率為1-β。另外,系統以低能量狀態開始進行一段時間的消殺后,其仍為低能量的概率為α,能量耗盡的概率為1-α。當機器人能量耗盡需要被營救時,會產生一個-4 的收益。記W為機器人工作時的期望收益,系統會根據上述原理進行自主決策,使得收益達到最大化,形成最優策略完成自主循環,將有效提高消殺工作的整體效率。自主決策原理如圖5所示。

圖5 自主決策原理
本文提出了一種基于強化學習的智能服務機器人控制系統,在以樹莓派4B+作為核心控制器、傳感器配合及語音交互的基礎上,通過強化學習實現智能體與環境的交互,融入自主決策模塊,使得機器人在引導客戶時能夠自主規劃行走路徑,在完成消殺工作時能夠自主決策是否繼續工作或返回蓄能區,進一步減少對人力控制的依賴,能夠有效降低醫護人員感染的風險,進一步提高我國防疫工作效率。將機器人更好地應用于醫療物聯網領域,更好地為人民服務,能夠為新一代人工智能技術與醫療物聯網領域做出重大貢獻。