北京安慧音通科技有限責任公司 馬多佳 劉孟美
解放軍總醫院 王 旸 栗小艷
數字化醫院已經成為世界上先進醫院的重要組成部分[1,2,3,4,5],是信息技術迅速發展對醫院醫療和管理工作全方位滲透而提出的新概念。以現有信息技術為基礎,提高醫療信息的高度共享,實現全方位的人機交互,提高醫療效率、醫療質量和管理水平是當今醫療技術的前進方向之一。
語音作為人類最重要、最有效、最常用和最方便的交換信息的形式,讓計算機能夠聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。語音識別技術作為該系統實現的核心技術,貫穿于整個系統的操作過程,選用語音增強技術、端點檢測技術作為語音識別的前端處理技術,基于數據驅動的特征提取技術和基于子空間的建模方法,實現其孤立詞識別,其識別率高達95%,在漢語普通話孤立詞識別上為國際領先水平。
由于國內還沒有相關產品,醫院采用一臺超聲診斷儀配一名錄入員人工輸入超聲檢查報告的方法,存儲超聲圖像,運用電子病歷管理病人檢查結果。該設計結合超聲診斷學知識、多媒體技術、數據庫知識、計算機技術、語音識別技術等多;學科跨領域實現超聲檢查報告的語音錄入,無需配備錄入員。通過多位有經驗的超聲檢查醫師對超聲檢查的超聲描述及超聲結論等信息整理總結并參考相關書籍[6],經過一定的積累設計出一套適用于大多數疾病描述情況的模板。本模板靈活度高,集多位權威醫生的經驗積累,規范度高,涵蓋范圍廣,提
高了超聲檢查報告的質量。考慮超聲檢查醫生的工作方式及檢查流程,選用分布式的系統架構提供了高效的執行效率和簡便易用的操作方法。實現同數字醫院應用系統的整合工作,使智能語音處理技術適配于目前的HIS(Hospital Information System,醫院信息系統)。
語音識別技術正直接與醫療衛生、辦公、交通、金融、公安、商業、旅游等行業的語音咨詢與管理,工業生產部門的語音控制,電信的自動撥號系統、輔助控制和查詢以及福利事業的生活支援系統各種實際應用領域相接軌,并終將成為既觸摸屏之后新一代操作系統和應用程序的操作方式。
作為整個系統的核心技術,語音識別技術貫穿系統的整個工作過程。本系統的語音識別技術由三部分組成:穩健的前端處理系統、基于數據驅動的特征提取技術和基于子空間的建模方法。
穩健的前端處理系統包括解碼器、語音增強模塊和端點檢測模塊。解碼器對常見的語音格式如WAV、MP3、WMA、OGG、APE等構建對應的解碼器,轉變成下一步計算機能夠識別的文件格式??紤]到超聲檢查報告語音錄入系統的工作環境為封閉帶混響和噪聲的情況,選用語音增強模塊用于抑制語音噪聲和混響,提升語音有用信息的可懂度,選用頻域維納濾波算法[7,8]完成,該算法適用于環境噪聲較大的情況,較大程度上去除了噪聲信號,并增強了有用信號。端點檢測作為語音識別的必要環節,用于區分語音信號和非語音信號,選用一種基于倒譜距離語音端點檢測的改進算法[9,10],其抗噪性好,具有良好的魯棒性,標記出語音和非語音的時間索引,以便對語音信號進行識別,且該處理會提高語音識別的識別率。
語音識別的本質是統計模式識別,統計模式識別分為特征提取、模式匹配和參考模式庫等三個基本單元。語音識別研究的一個重要進展,就是算法從模式匹配技術轉向基于統計模型的技術。傳統的特征提取方法有線性預測倒譜系數和感知線性預測等。但是傳統的特征提取方法往往是基于某種生理發聲模型,或者人耳的聽感知模型,并且這種生理模型的建模方法取得了很大的成功,并主導了語音識別方法近半個世紀,但對實際應用還需不斷改進?;跀祿寗拥奶卣魈崛〖夹g作為正在發展的前沿技術,其提取有用信息的思路與數據密切相關,根據識別任務,構建基于子空間的隱馬爾可夫模型??紤]到子空間模型可分為對識別有益的子空間和對識別無益的子空間,前者稱為語音內容子空間,后者稱為無用分量子空間或信道子空間,通過類似于主成分分析法,分離出信道子空間的基,并對特征進行變換,去除特征在信道子空間的部分,從而使特征更有利于孤立詞識別系統。該方法是讓數據自我反應特點,通過數據的自我表述,能更加突出目標方法,達到提高識別率的目的,以適用很多人普通話不標準的情況。
建模方法是語音識別系統性能決定性因素。建模技術發展迅速,在孤立詞方面,從早期的動態時間規整等技術,到上世紀廣為流行的隱馬爾可夫模型、人工神經元網絡,以及在隱馬爾可夫模型上鑒別式的訓練方法。這些技術極大提高了語音識別技術的頑健性,提高了識別的準確率。近年來逐漸興起的子空間建模技術將孤立詞識別推向了實用化階段,本系統選用基于子空間的建模方法,該算法采用聲韻母模型,將事先訓練好的基元單元按照聲韻母拼接得到整體模型,在實際應用過程中構建的孤立詞識別系統,通過修改詞表就能用于完成識別任務。聲韻母模型分為單音子模型、雙音子模型和三音子模型,考慮到前后項信息,選用性能最優的三音子模型作為聲韻母模型建模的基本模型,三音子模型考慮上下文信息標注,并根據標注信息構建決策樹,根據決策樹構建三音子模型,最終得到共享的高斯混合模型集。
系統的工作流程如圖1所示,首先系統會自動同步醫院的數據庫系統,調入相關診室的檢查醫生的相關信息和分配到該診室的病人基本信息;然后醫生根據檢查部位通過麥克風語音輸入完成超聲檢查病例模板的選擇,通過語音的方式對超聲診斷儀上顯示的超聲診斷情況進行描述并語音方式給出相應的超聲診斷結論,這些語音會自動轉換成文字形式顯示到系統界面,語音控制采集超聲圖片,也可以通過語音對得到的超聲描述和超聲結論進行修改、確認,若病人多個部位都需做超聲檢查,以上步驟重復操作即可;最后語音控制自動生成超聲檢查報告單,該報告單會通過打印機自動打印,醫生檢查報告單的內容,確認沒有問題簽字,超聲檢查結束。

圖1 系統使用流程圖
對于多次就診的病人,每次就診信息都會記錄到該系統,當醫生想了解該病人的病史時通過該系統調用即可,也可以鏈接到醫院總數據庫,在不同的診室或者檢查中心都可以隨時調用,為醫生和病人節省了時間,提高了問診質量和速率。
超聲檢查報告語音錄入系統分為三個功能模塊:超聲檢查報告語音錄入模塊、超聲描述模板數據維護模塊和超聲檢查監視模塊。
針對超聲檢查人員配備不合理,超聲診斷報告描述規范度低等問題,對超聲檢查的工作流程及相關醫學知識進行了總結設計出該系統。區別于現有超聲檢查系統,該系統省去了超聲檢查錄入員的工作,檢查醫生可以通過語音輸入轉換成文字輸入的方式控制報告單的錄入,語音控制報告單錄入中超聲病例模板的選擇,并且自動打印超聲報告單,也可以通過鍵盤鼠標等外設控制整個超聲檢查報告單的生成過程,操作簡便易學。同時該系統也為醫生根據習慣自定義添加、修改、刪除模板功能。該系統與醫院的數據庫相連,可以與醫院系統同步,保證醫院工作流程的順利進行。此外該系統還會對整個診斷過程進行錄音,提高超聲科日常工作中的抗風險能力。圖2所示為超聲檢查語音錄入系統構成。

圖2 超聲檢查報告語音錄入系統結構圖
超聲檢查報告語音錄入模塊與醫院現有數據庫相連,自動導入被檢查病人及檢查醫生的相關信息,進入檢查界面。醫生根據系統提示語音輸入選擇相關疾病模板,語音輸入相關檢查的超聲描述及超聲結論,醫生也可以根據需要對超聲描述和超聲結論進行修改,對超聲圖片進行采集,最終語音控制打印超聲檢查報告。該模塊提供歷史記錄查詢,對于使用該系統檢查過的病人能夠查詢該病人的以往病史及其治療情況,醫生可以根據相關信息更為快速、準確的做出超聲診斷,也可以與其他相似病人的超聲描述做參考,更為準確的生成超聲檢查報告。
該模塊用于超聲檢查工作之前,用鼠標、鍵盤等輸入控制??偨Y多位經驗豐富的超聲科醫師出具的檢查報告,根據超聲報告單中的描述找到不同病理描述之間的聯系,總結出了規律。超聲診斷描述按每個疾病特點拆分成屬性,參考相關書籍及多位醫生的經驗,在報告書寫規范的基礎上設置成醫生習慣的順序,并對每一個屬性盡可能設置所有可能的值,這些模板就可以涵蓋大多數病人的診斷描述。根據具體格式要求,可以批量導入病例模板也可以逐個導入,既可以對現有模板進行修改也可以新建模板、刪除模板。
超聲檢查監視模塊可以監視記錄下醫生所有的語音錄入信息及醫生對該系統的整個操作過程。方便醫生查詢以往的檢查情況,督促醫生超聲檢查中規范化操作,也為日后可能出現的醫患糾紛提供相關證據。
本系統解決了超聲科檢查效率低,人員配備不合理,超聲診斷描述規范度低,誤診率較高等問題。系統利用語音方式選用麥克風進行語音錄入、命令控制和信息查詢,是人機交互最自然、最方便的方式,使該系統能夠滿足醫院中心報告廳的需求,有利于“三級檢診制度”的落實,提高生產效率,降低誤診率,使得病例報告系統更加準確、高效和快捷。
本系統提供語音輸入和鍵盤鼠標等外部設備兩種方式控制系統工作,操作簡單易學,方便醫生的使用;替代了每次超聲檢查時錄入員的工作,節省了醫院開支,避免出現錄入人員工作不熟練影響超聲檢查效率;對整個診斷過程進行監視記錄,督促醫生規范化操作,為部分醫療糾紛案提供了相關證據,提高超聲科日常工作抗風險能力;醫生用語音的方式控制整個超聲檢查的錄入過程,自動生成報告,無需醫生手動操作;對大量的醫學數據進行整理,為以后病人就診提供相關依據;記錄每個病人利用本系統每次就診的情況,提高醫生診斷的準確率;醫生參考權威書籍并根據相關經驗整理了超聲描述相關模板,對現有的診斷模式進行了規范,結構更為清晰。
目前該系統已經在某醫院試用,實踐證明該系統確實提高了醫生的工作效率。考慮信息技術和醫療技術都在不斷進步,還需繼續研究語音識別技術和豐富超聲檢查描述模板。語音識別方面需考慮復雜的工作環境,醫生普通話的標準程度,改進語音增強、端點檢測、語音識別等技術,研發出適用范圍更廣的語音識別系統;隨著病人的增多,各種稀有病情會越來越多,病例模板還需不斷完善改進,以適用更多的情況。
醫院廣泛應用該系統后,還可以繼續豐富該系統,使其擴展應用到醫院的放射科、病理、心臟介入科、血管介入等醫療系統,為醫院的數字化服務。
[1]GEN ELECTRIC.Voice activated diagnostic imaging control system.America.US7016469B2[P].2006.
[2]GE MED SYS GLOBAL TECH CO LLC.Remote control of a medical device using speech recognition and foot controls.America.US7127401B2[P].2006.
[3]CHEETAH OMNI LLC.System and method for voice control of medical devices.America.US8098423B2[P].2012.
[4]GEN ELECTRIC.Methods and system to generate data associated with a medical report using voice inputs.America.US8312057B2[P].2012.
[5]錢蘊秋.超聲診斷學[M].第四軍醫大學出版社,2008.
[6]張亮,龔衛國.一種改進的維納濾波語音增強算法[J].計算機工程與應用,2010,46(26).
[7]白文雅,黃健群,陳智伶.基于維納濾波語音增強算法的改進實現[J].電聲技術,2007,31(1):44-46.
[8]葉蕾,孫林慧,楊震.基于壓縮感知觀測序列倒譜距離的語音端點檢測算法[J].信號處理,2011,27(001):67-72.
[9]羅元,黃璜,張毅等.一種新的語音端點檢測方法及在智能輪椅人機交互中的應用[J].重慶郵電大學學報:自然科學版,2011,23(4):487-491.