袁駿毅 潘常青 沈曉冬 岑星星 宓林暉
醫技檢查是循證醫學的重要組成部分,檢查報告的及時性對于臨床后續治療有重要影響[1]。出于科學嚴謹的醫療質量要求,報告完成前需經過從提交到審核等多道環節,以盡量保證報告的詳盡和準確。隨著人民健康水平的提高,醫院檢查業務量逐年增加,醫技部門往往人手緊張,工作負荷壓力較大。為避免檢查環節成為醫療流程中的瓶頸,利用智能技術提高報告出具的速度,成為現代醫院管理重點關注的內容[2]。有學者在針對臨床調研的報告中指出,當醫生建立電子健康檔案時,應用語音識別可起到較好的輔助作用[3]。本研究在醫院放射科、病理科的報告軟件中嵌入智能語音平臺,觀察醫生使用的工作情況和書寫報告的數量,分析語音識別技術帶來的效果。為醫生提供便捷的書寫檢查報告的輔助功能,同時為其他醫療機構利用語音識別技術優化臨床工作模式提供借鑒參考。
據相關統計,在放射科或病理科等醫技科室的檢查報告中,約60%~70%的文字屬于專業醫學術語[4]。醫生通常在醫技工作站上事前定制部分病種模板文字,針對患者個體情況加以修改,重復率較高且輸入量大。隨著信息技術在醫療領域的發展,語音識別技術成為非接觸式智能交互的研究熱點[5]。
語音識別研究起源于1950年,Davis在貝爾實驗室構建了首個可識別10個英語單字節字母發音的系統[6]。美國和日本出于軍事用途,1990年研發了口語理解系統[7]??缛?0世紀后,美國的Nuance、Google和Microsoft等公司的語音識別軟件準確率已達到較高水平,我國也出現了如科大訊飛、云知聲等基于深度學習網絡的語音識別軟件公司,日常對話識別率已達97%[8]。醫院也開始嘗試將語音應用在醫療工作中。2017年,安徽省立醫院將語音對話機器人用于門診導診服務。2019年,西安交通大學第二附屬醫院上線了面向社區居民的語音移動隨訪系統[9]。但國內醫療行業中將語音識別深度應用在臨床醫生的案例不多,且尚無統一建設技術規范[10]。
上海市胸科醫院是一家以心胸手術為主的三甲專科醫院,2019年全年手術人次2.8萬,患者均需要進行術前和術后多次檢查。為加快床位周轉率及降低術前等候時間,醫院對檢查報告的出具時間限定十分嚴格。因此,本研究對醫院實施基于智能語音識別平臺的報告軟件改造,以期提高醫生書寫效率,降低臨床等候報告時間。
智能語音識別平臺主要由語音識別組件、知識管理中心和場景適配器3部分組成。
語音識別組件屬于底端輸入層,包括耳麥、話筒和語音識別包,使音頻轉換成文字。語音識別包采用市場上的成熟產品云知聲,語音輸入平均響應時間<500 ms,通過云知聲提供的Win32bit及64bit的軟件開發工具(software development kit,SDK),技術人員無需了解語音技術的具體實現,使用簡單的Windows應用程序接口(application programming interface,API),實現在病理和影像等報告軟件的無縫嵌入[11]。
知識管理中心是平臺的內核,采用SQL Server 2015數據庫,存放醫學術語集和語義控制集數據。考慮到保存安全因素,數據庫放置于醫院內部的局域網。通過精準技術建立特征匹配模型,調整文字或操作的識別度,具有自定義和日志分析功能。
場景適配器負責甄別轉換后的文字,結合場景進行關鍵詞判斷,判斷為報告錄入模式則輸出文字,若遇到換行或保存等命令則轉換為操作指令,替代常規的鍵盤和鼠標操作。智能語音識別平臺總體架構見圖1。

圖1 智能語音識別平臺總體架構
語音識別引擎主要針對音譜進行時頻分析,受具體醫療環境和醫生口音影響。此外,檢查報告中存在大量專業詞匯,需匹配適用的醫療術語集,以便增進口語理解識別度(spoken language understand degree,SLUD),進而達到準確率要求[12]。
為此,需要建立實際醫療環境下醫學術語自適應的最優工作流程。事前調研醫技科室的真實環境,包含工作時的背景聲音、醫療儀器噪聲及特殊醫生方言等,判斷究竟選擇話筒還是耳麥的方式,對聲學模型進行預適應并局部增強,以達到輸入清晰的效果。在常規語料庫基礎上,前期導入80余萬條基本醫學詞匯。并針對醫院??铺厣?,按醫技科室的檢查類型,分門歸納整理現有的海量報告文本,使用數據抽取工具(extract-transform-load,ETL),從中提取近2萬條高頻使用詞匯,納入附加醫學術語集[13]。針對使用過程中醫生反饋錯誤的單詞,建立日志跟蹤隊列,通過自定義方式納入特定詞組,確定糾正搜索算法的輸出,達到更準確的識別效果,通過一系列的工作舉措,最終將文字正確識別率提高到96%左右。自適應設定工作流程見圖2。

圖2 醫學環境及術語自適應設定流程
醫生書寫報告過程中,平臺需通過不同場景下語義的智能分析,理解并模擬部分功能性動作,替代手動的鍵鼠操作。關鍵詞分析(keyword analysis,KWA)是場景識配器的核心模塊,基于語義控制規則集來區分不同界面時醫生的語音意圖,語義控制規則集見表1[14]。
隨著信息互聯互通的日趨完善,現有醫技工作站整合了多項功能,包括報告書寫、模板調用及查看其他輔助信息等,工作中操作步驟較多。尤其是病理取材環節,醫生需同時兼顧查看切片和輸入報告,同時連續性地點選患者,進行大量重復性動作。因此,設計時采取了分層細化方法,在接收到語音轉換的文本后,通過光標具體位置判斷是否處于編輯狀態,確定目的是文本還是控制命令輸出,以便精確執行醫生的語音目標[15]。不同醫技科室操作順序各異,語義理解的規則需結合醫技工作站的操作方法及醫生個人習慣,通過覆蓋應用場景的訓練,才能達到深度優化的使用效果。

表1 語義控制規則集

表2 語音識別技術試用情況反饋匯總
經過前期現場調研和技術對接,智能語音平臺與報告軟件完成嵌入整合,于2019年12月投入試點使用。放射科和病理科的報告室各部署3套,均為話筒輸入;病理科的切片室部署2套,由于取材工作特點選擇耳麥輸入。選取2020年1月間部署了智能語音識別平臺的醫技工作站上醫生的工作情況作為觀察組,選取2019年1月同批醫生采用常規方式的工作情況作為對照組。采集兩組醫生的完成報告情況,通過比較數量的差異性,分析語音識別技術產生的影響作用。
采用SPSS25.0軟件對數據匯總分析。通過兩組樣本的比較,分析存在的差異。計量資料以均值±標準差()表示,進行t檢驗,以P<0.05為差異有統計學意義。
4.3.1 試用情況反饋
試用初期暴露了兩方面問題:①由于傳統工作習慣的改變,醫生需要適應過程;②未能有效識別。經過4周的磨合,隨著使用深入和不斷糾錯,醫生的使用熟練度不斷提升,每分鐘可輸入100~200字,92%的醫生表示較為滿意,形成語音轉化的報告文字>12萬,累計錄音時長達到1 021 min。語音識別技術試用情況反饋見表2。
智能語音平臺成效如下:①利用信息技術提升醫療服務能級,提高醫生書寫效率,加快了出具報告的速度;②基于整合理念內嵌檢查報告軟件,按功能特點將部分語音轉化為操作行為,實現了高可用性。③設定了靈活通用的規則知識庫,對異常及失效情況提供了及時靈活的變更手段。
4.3.2 檢查報告完成量對比
放射科和病理科的兩組樣本在報告類型、當班時段和日排班人數等方面均無統計學上的差異,具有可比性??紤]到可能存在醫生主觀不使用語音等異常情況,排除標準為:①排除雖部署但無使用語音識別痕跡的報告;②排除書寫開始至完成時間間隔>1 d的報告。放射科對比結果見表3,病理科對比結果見表4。
表3 放射科檢查報告完成量對比()

表3 放射科檢查報告完成量對比()
表4 病理科檢查報告完成量對比()

表4 病理科檢查報告完成量對比()
由表3和表4可見,放射科和病理科的觀察組中每日檢查報告的完成數量較多(t=-3.61,t=-2.48,t=-2.61;P<0.05),表明采用智能語音識別平臺的模式有利于文字的快速輸入,節約了醫生操作的時間,加快了工作效率。此外,可觀察到一個現象,病理科冰凍報告差異不明顯(t=-0.99;P>0.05),這是由于冰凍報告已實現全結構化,內容中純文字的輸入量較少,導致語音僅主要在替代操作方面起到作用。
深入推進智能語音識別在臨床信息系統中的應用,可有效提高醫院人力資源的利用率,為醫生提供個性化的精準信息技術服務。本研究通過上海市胸科醫院病理科和放射科醫生工作情況,實證分析將智能語音平臺嵌入檢查報告軟件后的實施效果。研究結果表明,通過平臺的有效整合,改進了傳統工作模式,提升了醫生應用信息系統的滿意度,降低了醫生操作強度,提高了工作效率,間接為患者提供更及時的后續治療。工作推進過程中,發現一些下階段的重點突破方向,如全結構化病歷的快速輔助定位及克服嘈雜使用環境等問題。隨著大數據與人工智能技術的日趨成熟,語音識別技術與其他醫院信息系統的深度融合已是大勢所趨,為醫療機構推廣語音識別在門診及住院的應用場景提供有效的借鑒參考。