,, , ,,
患者投訴是指患者參與醫療活動時,由于醫務人員醫療機構未能滿足他們的預期而產生的抱怨[1]。患者投訴中包含了大量與醫療服務質量和醫院管理水平相關的信息,如果利用得當,能夠改善醫療服務質量,提升醫院管理水平,有效避免醫患糾紛[2-5]。日常工作中,醫療機構會收到大量患者投訴,這些投訴會針對不同的問題[4]。處理患者投訴的第一步就是進行患者投訴分類,以便將不同的問題分發給不同的科室進行處理。然而人工處理這些患者投訴會消耗大量的人力與時間成本。另外處理人員由于主觀觀念的差異,對于同一個問題有不同看法,導致對患者投訴內容的理解存在偏差,進一步影響處理效率。在實際工作中,一條患者投訴可能會描述多個問題,即有多個分類標簽,如果仍然局限于從一個角度理解的患者投訴分類,必然導致患者投訴內容無法被充分理解,進而導致處理患者投訴問題時出現錯誤。
針對以上問題,本文引進了一套科學的患者投訴分類標準,并根據實際數據調整了該分類標準。參照該標準對收集到的患者投訴語料進行人工標注,解決人員主觀性對分類的影響。利用深度學習的方法,構建基于長短期記憶模型(Long Short Term Memory,LSTM)的多個二元分類器,旨在實現高效的患者投訴自動分類,并探究分類器在醫院實際應用的情況,為更好地理解患者投訴打下堅實基礎。
國內外對患者投訴進行了大量研究。患者投訴對某一個領域的醫生與醫療質量的影響是該領域研究的一個重要方向。Catron TF等[6]研究了患者投訴與外科手術事件的關系,得出了患者投訴與外科手術不良事件發生率成正相關的結果;Hiivala N等[7-8]分別使用牙科病人的投訴進行了牙科病人安全事件的預防干預與有安全隱患的牙醫診所的檢測。患者投訴管理系統也是該領域研究的重要部分。Levin CM等[9]展示了斯坦福醫療保健相關部門設計的一套病人投訴數據管理系統,通過這套系統可以簡化患者的投訴收集和解決流程,進而提高醫療質量;Mirzoev T等[10]收集并分析了相關文獻,得出了有效干預是提高患者投訴管理系統的重要舉措。更多的研究者則著眼于患者投訴的分類標準研究。Montini T等[11]開發了一個由22個病人投訴代碼和5個提供者代碼組成的患者投訴分類標準;Reader TW等[4]匯總了來自59項研究的投訴編碼分類方法,從中選取729個經過特殊處理的代碼,并將這些代碼細化后概念化為一份含有3個大類及7個小類的患者投訴分類標準;Harrison R等[12]證明了Reader T W等設計的患者投訴分類同樣適用于嚴重投訴案件的分類。
國內對于患者投訴的研究主要集中于收集患者投訴并進行人工分類與分析。如收集兒科門急診患者投訴并進行分析,通過對患者投訴內容有針對性地改進,滿足了患兒與家長的需求[13];對174例門診采血患者投訴的分析[14];分析278例住院患者的醫療投訴[15]等。國內針對患者投訴自動分類的研究更加稀少。
選取某大型三甲醫院2012年到2017年的8 000條患者投訴,經過去重合并,去除無意義條目后最終得到實驗語料7 872條。
本文的技術路線如圖1所示。

圖1 本文技術路線圖
2.2.1 人工標注
本研究根據經過調整的Reader TW等[4]人的患者投訴分類標準,由兩組經過嚴格培訓的專業人員對樣本數據進行人工標注之后,對標記結果進行一致性檢驗,并對不一致的標記進行審核校正。本文選用Kappa系數[16]檢驗兩組專業人員標注的一致性。kappa系數的計算結果最小值是0,最大值是1,通常用5個區間來代表一致性的不同級別,分別是最低的一致性系數區間為0到0.2、一般的一致性系數區間為0.21到0.4、中等水平的一致性系數區間為0.41到0.6、較高的一致性系數區間為0.61到0.8以及最高的一致性系數區間為0.81到1。
2.2.2 數據預處理
本研究采用了python平臺的jieba分詞包,并引入自定義詞表進行中文分詞、去除停用詞,通過抓取醫學文獻摘要、百科語料、醫學專業書籍等形成1.95億的詞匯語料庫,使用word2vec進行訓練,最后得到200維高質量的詞向量。將分詞的結果與詞向量進行映射,得到患者投訴文本的分布式表示,作為LSTM神經網絡的矩陣輸入。
2.2.3 分類方法
患者投訴分類是文本分類的子問題,其應用的方法與使用的理論基礎與文本分類基本相同。由于不需要人工提取特征且解決了循環神經網絡長程依賴導致的信息遺忘問題[17],基于深度學習[18]的LSTM模型在文本分類任務中具有更好的性能[19-21],研究者逐漸把這種高效的方法應用在文本分類領域。
Shih,CH等[22]使用一種基于連體LSTM方法對IMDB和20-Newsgroups中的文本進行了分類實驗;Jiang,MY等[23]則提出了一種基于深信念網絡和softmax回歸的混合文本分類模型。趙明等[24]使用LSTM模型對飲食健康文本進行了分類,鄧三鴻等[25]研究了LSTM模型在中文圖書的標簽分類中的應用,兩者均取得了相較于傳統機器學習更好的結果。可見LSTM模型在文本分類領域有著廣泛的應用和更好的效果。
故而本研究選擇LSTM作為分類模型,并根據LSTM模型構建相應的分類器來對患者投訴語料進行自動分類。本研究采用基于Java語言的Deeplearning4j平臺進行所有基于LSTM模型的分類器的構建與訓練。
具體分類方法如下:首先基于LSTM模型構建患者投訴分類器(以下簡稱分類器),再將患者投訴分為訓練數據集與測試數據集,將訓練數據集輸入構建好的基于LSTM模型的分類器中進行訓練,通過測試數據集反映分類器的性能。經過多輪訓練,分類器性能趨于穩定并達到一個較高的水平時,就可以使用該分類器進行患者投訴自動分類。
2.2.4 分類結果評估指標
本研究通過準確率(Precision,P)、召回率(Recall,R) 以及F值(F-measure)3類指標對實驗測試結果進行評價。三個指標值均在0-1之間,結果越接近1,說明分類模型性能越好。
為保證分類標準的科學性,采用Reader TW等人基于59項研究的投訴編碼分類方法構建的具有3個大類(臨床問題、管理問題、關系問題)及7個小類(質量、安全、環境、管理制度、溝通、尊重和患者權利、傾聽)的患者投訴分類標準[4]。由于使用的患者投訴語料實際情況不同,對該患者投訴分類標準進行了微調。根據人工標注結果,本研究使用的患者投訴語料中分到原分類標準中“關系”大類下“傾聽(listening)”小類的投訴只有96例,并且這些語料表達的內容與“尊重和患者權利”基本一致,故將“傾聽”小類合并到“尊重和患者權利”小類中。具體分類標準如表1所示。

表1 患者投訴分類標準
本研究根據分類標準中的6個投訴小類(以下簡稱類別)對收集到的患者投訴進行自動分類。
通過計算兩組標注人員的kappa系數比較標注的一致性。經計算,本研究標注的kappa系數如表2所示。

表2 標注人員標注的kappa系數
除臨床大類下的“質量”類別以外,其他類別標注的kappa系數都達到較高的一致性,總體標注的一致性也達到較高水平,說明標注結果達到了相當滿意的標注一致性。對標注不一致的語料進行審核校正,使所有語料都有確定的唯一的標注結果。患者投訴語料標注的結果如表3所示。

表3 患者投訴語料標注結果
從表3可以看出,患者投訴語料總計7 872條,被分到了42個分類之中。其中單標簽患者投訴7 013條,占89.09%;多標簽語料859條,占10.91%;具有兩個標簽的患者投訴794條,占10.09%;具有三個標簽的患者投訴60條,占0.76%;具有四個標簽的患者投訴5條,占0.06%。
標注結果中有些語料被標注為多個標簽,即一條語料并非只被標記為一個標簽,這是由于一條患者投訴提到了分類標準中的多個問題。實驗語料中多標簽患者投訴只占總體實驗數據的10.91%,多標簽患者投訴在42個分類中的分布是不均勻的,且每個類的分布數量都非常少,有的類別甚至只有一條語料。若將全部類別考慮進去,模型很難學習到有用的信息,因此構建一個多元分類器來進行多標簽患者投訴的分類不可行。故本研究針對每個類別的數據都構建了一個單獨的基于LSTM模型的二元分類器來判斷語料是否屬于該類,即構建了6個二元分類器來對每條語料進行單獨判斷。由于各個類別樣本數量不均衡,會影響學習結果,所以在構建分類器時使用了欠采樣[26]的方法進行語料的采集,即降低負類的數量。具體方法是將所有屬于該類別的單標簽語料作為正向語料,并從剩下5個類別的單標簽語料中按比例抽取總數與正類相當的語料作為負向語料,進行訓練與測試。
首先,本研究使用7013條單標簽患者投訴語料作為實驗語料,每個分類器使用各自類別的欠采樣語料數據進行訓練。表4展示了6個分類器在各自測試集上的測試結果,測試結果使用精確度,召回率和F值作為評價指標。

表4 各類別的分類器性能測試情況
從表4中可以看出,除“質量”和“安全”外,其他4個分類器的F值均超過了90%,各種評價指標基本也均在90%以上,說明本研究構建的分類器具有應用價值與現實意義。
然后使用本研究構建的6個二元分類器,對859條多標簽語料進行分類預測。預測結果如表5所示。

表5 多標簽語料預測結果
對于多標簽語料,有97.20%的語料至少有一個類別被預測了出來,有60.30%的語料所有的類別都被預測了出來。其中32.13%的語料預測結果與標注結果完全一致,只有2.80%的語料沒有類別預測出來。
但在實際應用的環境中,單標簽與多標簽往往混合出現,而且根據標注結果,單標簽患者投訴會遠多于多標簽患者投訴。針對這種情況,我們進行了模擬實驗,即從全部數據集中隨機抽取20%,總計1 575條的語料作為測試集用以測試分類器在實際情況下的應用情況。測試集數據分布如表6所示。

表6 模擬實驗測試集語料分布
使用訓練好的分類器對1 575條模擬實驗語料進行分類預測實驗。實驗結果如表7所示。

表7 模擬實驗預測結果
對于多分類語料,有97.65%的語料至少有一個類被預測了出來,有92.13%的語料所有的類別都被預測了出來。其中57.78%的語料預測結果與標注結果完全一致,只有2.54%的語料沒有類別預測出來,說明分類器有一定的實際應用價值。
但在實際實驗當中,我們發現“質量”類別的分類器的效果較差,極大地影響了整體分類器的性能與實驗的結果,故我們將“質量”類別的語料與分類器排除在外,進行了第二次實驗。實驗結果如表8所示。

表8 去除“質量”類別后的預測結果
在去掉“質量”類別之后,分類器的整體性能得到了極大提升,各個指標在各自的水平上均有很大提高,尤其是“完全預測正確”提升了16%,去掉將“質量”類別可以明顯提高分類器性能與實驗結果。
在實驗過程的各個環節中,“質量”類別的表現都不理想。其原因可能為分到“質量”類別的語料相對于其他類別特征不夠明顯,語料數量也最少。其他類別均有比較明顯的特征,例如“安全”類別的語料很可能提到“失誤”“出錯”等詞語,“環境”類別的語料則會提到“吵鬧”“臟”等詞語,提到“態度差”很有可能是“尊重”類別的語料。而“質量”類別涵蓋范圍比較廣泛,涉及面較多,分類效果自然不及其他類別。
本研究引入一種科學的患者投訴分類標準,并根據實際情況對分類標準進行了細微調整。針對患者投訴多標簽、單標簽混合存在的問題,本文設計了基于長短期記憶模型的多個二元分類器結合的方法,實現了高效的患者投訴自動分類,為更好地理解患者投訴打下堅實基礎。
本研究不足之處在于首先是語料樣本量不夠充足,特別是訓練效果較差的“質量”類別的語料;其次是患者投訴格式內容千差萬別,沒有定式;最后隨著患者投訴量的不斷增加,現有患者投訴分類標準未必適合更大樣本量的患者投訴語料。
未來研究中會進一步擴大語料樣本量,尤其是“質量”類別的語料,提升分類器性能;并設計一套結構化患者投訴收集系統,使得收集到的患者投訴更加規范,易于分析。后續將在現有患者投訴分類標準的基礎上根據收集到的更多語料樣本繼續調整,使其適合更大樣本的患者投訴語料。