趙 夢 任海玲 廖 聰 陳 婷 何翔宇
1.寧夏醫科大學臨床學院,寧夏銀川 750004;2.銀川市第一人民醫院信息管理部,寧夏銀川 750001
智能語音識別技術(automatic speech recognition,ASR)[1],又稱自動語音識別,是一項利用機器識別人類語言信號并將其轉為文本或命令的技術。簡單來說就是讓機器設備“聽懂”人類語音,從而實現為人類提供便利的目的。
20 世紀50 年代,貝爾實驗室研發出Audry 系統[2],能夠簡單識別10 個英文數字語音;20 世紀70 年代,孤立語句發音的成功識別,為ASR 的突破性發展提供新的可能;20 世紀80 年代,傳統思路的改變及隱馬爾可夫模型的建立,使連續語音識別取得新突破;20 世紀90 年代,ASR 進入快速發展階段,許多產品化、實用化語音識別系統層出不窮,如應用于美國航空公司的PEGASUS 系統、微軟Whisper 系統、Nuance 語音平臺等;進入21 世紀,深度神經網絡的興起使ASR 踏入新征程。人機語音交互成為新的研究方向,如Android 系統下的Voice Actions,蘋果手機上的Siri 等。至今,ASR 的發展進入生態化、產業化時代,不斷應用到智能家居、智能車載、智能音箱、身份識別及農業、工業、畜牧業、服務業、軍事等領域。近年來,ASR 在醫療領域的發展成為人工智能技術的“新戰場”,醫療語音識別成為研究熱點,如科大訊飛、騰訊云等爭相發展,躋身醫療智能語音發展的前列,為智慧醫院建設賦能增效。
本文總結歸納了2019~2021年國內外ASR在醫療領域中的應用發展,主要包括以下5 個方面:①ASR 在醫療文書錄入中的應用;②ASR 在疾病輔助診斷中的應用;③ASR 在醫療設備中的應用;④ASR在導診服務中的應用;⑤ASR 在診后隨訪中的應用。
醫療文書包括病歷、醫技報告等,其質量代表醫院的學術水平和管理水平。ASR 可大幅提高醫療文書的錄入效率、準確度、規范性。因此,眾多學者在該領域開展研究,主要包括在病歷錄入及報告錄入中的應用。
在普通門診電子病歷應用場景中,徐冬等[3]基于“語音云”開發出醫療語音輸入助理,使醫生在使用鍵盤書寫病歷時可一鍵開啟語音輸入,提高病歷錄入效率;多位學者針對識別過程中出現的多字、漏字、識別錯誤等問題建立各個科室的語料數據庫,優化醫療語言模型并增加方言識別功能,解決醫生錄入慢、電子病歷應用推廣難的問題[4-6];姜會珍等[7]研發的診室聽譯機器人通過采用句型識別、問答匹配及歸一化技術和半截詞指代技術,將對話自動生成病歷,增加醫患交流時間和病情處置時間;診室聽譯機器人,無需醫生二次復述,機器人直接理解醫患對話后生成電子病歷,解決醫生對電子病歷模板過分依賴、對患者缺乏個性化描述的問題[8]。在口腔科門診檢查場景中,口腔醫生雙手被器械占用,將智能語音技術應用于口腔電子病歷中,使口腔醫生能夠及時準確記錄病歷[9];針對口腔科病歷使用大量符號的問題,蔣盼等[10]基于ASR 將語音表述轉化為醫學符號,拓寬了語音識別在口腔科的應用范圍。在中醫應用場景中,中醫醫案的記錄和整理是中醫傳承的重要環節,但存在錄入效率低、完整性差等問題。于琦等[11]構建的中醫醫案語音識別模型,通過語音錄入節省95%以上的時間,對門診量大但電腦操作不熟練的老專家來說,極大提高了醫案記錄效率,為中醫創新傳承提供了有力支持。
目前許多大型醫院輔助科室的運轉已達超負荷狀態,醫生報告速度無法匹配檢查速度。ASR 的應用,可有效改善輔助科室醫療資源緊張的處境。
1.2.1 ASR 在放射科的應用 針對放射科診斷報告內專業術語占比達60%~70%且使用重復率極高的問題,李建華[12]以語音應用程序編程接口為基礎結合醫學信息技術實現診斷報告的語音錄入;李偉[13]采用環境自適應技術,降低因使用者聲學特點不同和環境噪音帶來的識別錯誤率;浙江大學基于CMUsphinx 模型針對放射科專業術語使用率高的特點,在原有數據庫中進一步總結現有報告內的高頻詞匯,成功搭建適用于放射科的語音識別系統,提升了識別效率。
1.2.2 ASR 在超聲科的應用 超聲科與放射科不同,其診斷與檢查過程未完全分離,吳龍等[14]構建出語音識別模型與超聲系統的集成,使醫生通過語音命令即可實現叫號、報告錄入、審核、打印等功能,有效節省資源;某些超聲檢查需要“預準備”,如早晨空腹,導致患者檢查時間相對集中、環境混亂,通過無效語音過濾技術對語音識別結果進行分離,解決工作場景嘈雜的問題[15]。針對超聲檢查涉及部位較多、診斷結果復雜等問題,馬莉等[16]基于ASR設計出復雜超聲報告智能生成系統,構建復雜超聲報告生成模型,顯著提升工作效率。
1.2.3 ASR 在病理科的應用 病理診斷在醫院現有診斷方法中具有核心地位,病理報告的生成錄入是其關鍵步驟。由于病理科場景特殊,切片室需保持無菌環境,而醫生雙手被占用,無法及時錄入診斷信息。司超增等[17]利用ASR 進行診斷信息錄入,解決了病理取材與診斷報告生成無法同步進行的痛點;針對病理報告不同組織屬性不同、不同病種使用指標詞不同等問題,可利用依存句法分析將語句結構化,使診斷報告更加精準[18];基于自適應技術建立的病理科語音識別系統,通過聲學模型和語言模型的優化,可進一步提高識別準確率[19]。
近年來,隨著ASR 的發展,基于ASR 的疾病輔助診斷研究逐漸興起。如Tsanas 等[20]基于ASR 借助隨機森林與支持向量機構建分類器,采集并分析出帕金森患者10 個最典型的發音特征,以早期診斷帕金森病;多項研究表明心力衰竭所致聲帶和肺部水腫可影響發聲和言語呼吸,利用ASR 檢測患者的聲學特征,可更快診斷出心力衰竭,提高患者生存質量[21-23];Emna 等[24]提出基于深度遞歸神經網絡的語音抑郁識別框架,可快速、無創、無干擾診斷抑郁癥,并通過言語預測其嚴重程度;Zealouk 等[25]設計出基于梅爾頻率倒譜系數和隱馬爾可夫模型的語音識別系統,鑒別健康人和新型冠狀病毒感染者的咳嗽聲,輔助醫生區分無癥狀感染者,篩選病情嚴重患者;針對新生兒疼痛與非疼痛啼哭難以區分的問題,湯亞南等[26]運用ASR 分類新生兒哭聲,通過收集分析相關聲學特征為新生兒疼痛提供客觀評價方法。
隨著人工智能的發展,ASR 作為其重要分支,在醫療設備領域的應用與改進將是其重要發展方向。
ASR 結合各科室的基礎設備和醫療工具,可有效提高醫護人員工作效率和實時性問題。郭宇峰等[27]研發出智能語音監護儀操控系統,通過語音識別實現非接觸式控制,減少交叉感染的同時使醫療資源得到充分利用;借助ASR 設計的無線手持式語音交互探針,可解決牙周探診中探診力度不可控且參數無法實時記錄的問題[28];醫療語音呼叫系統將NodeMCU 的無線通訊和ASR 引入到呼叫系統中,可解決傳統呼叫系統效率低下且存在溝通缺陷的問題[29];穿戴式全腹部腸鳴音記錄儀,通過語音端點檢測識別有效腸鳴音,為臨床診療提供了理論基礎[30];ASR 與傳統病房呼叫系統相結合,解決病房呼叫系統中信息采集、呼叫類型單一的問題,提高護士工作效率和緊急救援的實效性[31,32];在醫院運輸作業方面,基于語音識別的多功能護理車,采用STM32 單片機實現自主路徑規劃和語音問答等功能,有效降低了醫護人員在新型冠狀病毒肺炎疫情防控期間的工作強度和運輸過程中被感染的風險[33]。
ASR 的興起極大提高患者的生活質量。盧振利等[34]提出的基于語音識別的腦癱康復訓練系統,利用人機交互與仿生手控制來提升患兒康復訓練效果,使其語言、智力和運動功能早日達到正常人水平;對腦卒中患者的康復訓練,劉玉博[35]提出的肢體康復設備可通過語音指令控制主界面,帶動設備牽引患者肢體運動,在一定程度上減輕患者的不便和厭煩情緒;朱西昆[36]則以腦卒中患者手部伸展功能障礙為主,將語音識別與康復訓練系統相結合,使患者通過訓練恢復手部喪失的功能;王園等[37]將ASR 與防壓瘡多功能醫療床結合,通過語音控制醫療床,實現推背翻身、坐姿轉換等功能,提高癱瘓或功能障礙患者的生活質量;對慢性病患者而言,自我健康管理尤為重要,陳強等[38]設計的慢性病管理語音機器人通過人機交互為患者提供體征監測、健康宣教、效果評估和統計分析等管理服務,形成對慢性病人群的一體化治療。
伴隨科學技術的發展,部分學者將目光投向常被科技發展所忽略的特殊群體,包括老年人、殘障人士等。從老年人陪護角度出發,研發出智能輪椅床語音交互系統[39];基于語音識別的醫用護理床,通過語音控制來改善晚年失能老人的養老護理情況[40];老年人不僅要面臨生理功能下降等問題,還要面對孤獨的心理情感,將ASR 與助老陪護機器人結合,可解決護理和陪伴不足的問題,推動助老服務的人性化發展[41]。截止2020 年2 月,中國殘聯統計數據顯示,中國殘障人士總數已達8500 萬,他們的生活狀況亟待改善。華凱晨等[42]提出基于語音合成的殘疾人輔助交互系統,通過搭建Speech SDK 平臺實現高效流暢的人機交互,解決殘疾人與外界交流困難的問題;市場上盲人群體的可穿戴智能設備少之又少,為保障他們生活的安全和便利,儲著華等[43]設計的智能盲人導航眼鏡結合語音識別、GPS定位、傳感器等技術,從而實現避障、導航定位、拍照和掃描二維碼等基礎生活功能。
導診是醫院門診的第一窗口,不僅是患者就醫的首要環節,更貫穿于整個就醫過程,承擔多種職責。由于分級診療的不斷推進,傳統導診模式已然力所不及,信息化、智能化導診服務正逐漸發揮引領作用。ASR 作為人工智能的重要發展方向之一,在導診系統的科技創新和專業化細分上做出極大貢獻,其應用于導診服務場景中,主要以智能語音機器人和第三方信息平臺為依托。
智能語音機器人,如鈦米防疫導診機器人、“曉醫”導診機器人、深圳龍崗婦幼保健院的專科導診機器人及軟銀人形機器人“Pepper”等,通過ASR,借助機器人載體,完成智能分診、消毒、醫療咨詢、語音宣教等工作,防止人員聚集,降低交叉感染的風險[44-47];利用人機對話實現語音掛號,通過語音導航幫助患者快速準確找到診室,節省就診時間;配有多種語言模式的導診機器人,能夠識別口音濃重的“川普”“廣普”,便于外地患者就醫;開啟“聊天”模式時,可有效緩解安撫患者及家屬焦慮緊張的情緒,尤其是容易哭鬧的兒童患者;第三方導診平臺[48],如京東健康、訊飛健康、平安好醫生、丁香醫生等網站或應用APP,利用語音交互實現智能導診、疾病自查等功能,為不會打字的患者提供便利,降低智慧醫療資源的使用門檻。
隨訪是醫生了解患者病情變化、指導患者康復、改善醫患關系的重要手段,但隨訪工作量大且質量參差不齊。針對隨訪工作所存在問題,姚剛等[49]將語音識別與醫院內部隨訪系統集成,實現對患者出院后的全方位管理,減輕醫務人員工作量,緩解疫情暴發以來各醫院資源緊張的現狀;王思源等[50]針對高血壓人群提出基于語音交互的人工智能電話隨訪平臺,總體信息采集正確率達到90.2%,節省大量資源的同時提高慢性病患者就醫體驗,推動慢性病隨訪的高質量發展。
ASR 在醫療領域的應用正向實用化、標準化快速邁進。由于ASR 在醫療領域中的應用研究相比深度學習、數據挖掘等技術發展時間較短,在其應用過程中仍存在一些問題和不足:①受醫療環境、醫生及患者普通話標準程度、電子病歷結構化水平不一等因素影響,語音識別及病歷轉換準確率存在巨大挑戰。②與基于機器學習、醫療數據挖掘等技術的疾病輔助診斷研究相比,基于ASR 的疾病輔助診斷研究較少,只適用于少數疾病且訓練數據集體積小,缺乏足夠的臨床實踐驗證,因此目前無法廣泛應用。ASR 如何作為一種客觀、實用的輔助診斷方法面臨巨大挑戰。③受各醫院科室設備及系統種類繁多、供應廠商不同等因素影響,ASR 在實現系統對接和信息接收處理協調性方面存在巨大挑戰。
在現有ASR 的研究基礎上,應當結合當下醫療行業的發展近況,繼續探索ASR 在智慧醫療領域中的發展潛力,著力解決其應用過程中的問題與不足,使ASR 更加廣泛地應用到實際醫療場景中。