,, ,
隨著“新醫(yī)改”的推進(jìn),醫(yī)療機(jī)構(gòu)和相關(guān)管理部門對(duì)改進(jìn)醫(yī)療服務(wù)質(zhì)量的關(guān)注度日益提高。作為衡量醫(yī)療服務(wù)質(zhì)量的主要標(biāo)準(zhǔn)之一,患者體驗(yàn)是一種可監(jiān)測的重要變量,而患者投訴又是反映患者體驗(yàn)的重要指標(biāo)。通過對(duì)患者投訴的分類,可以從中觀測到醫(yī)療糾紛關(guān)注的重點(diǎn)和患者關(guān)心的主要問題。
國內(nèi)對(duì)患者投訴分類主要參照國際上比較通用的分類標(biāo)準(zhǔn)。如使用醫(yī)療投訴分析工具(Healthcare Complaints Analysis Tool,HCAT),將患者投訴分為質(zhì)量、安全、環(huán)境、制度流程、傾聽、溝通及尊重和病人權(quán)利等7類[1-4]。然而,由于語境、醫(yī)療管理制度、文化方面的差異,國外患者投訴的關(guān)注重點(diǎn)和國內(nèi)患者存在著一定差異。因此,根據(jù)國內(nèi)患者的具體情況,結(jié)合已有的患者投訴的文本信息,構(gòu)建一個(gè)關(guān)于患者投訴的科學(xué)合理的分類框架,成為一個(gè)亟待解決的重要問題。目前,患者投訴的主題建模主要使用潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型[5-6]。LDA主題模型有如下缺陷:一是無法確定主題個(gè)數(shù),如果采用交叉驗(yàn)證的方法,確定主題個(gè)數(shù)既浪費(fèi)資源又比較繁瑣;二是模型中Dirichlet隨機(jī)向量各分量間的弱相關(guān)性(其相關(guān)性僅僅是各分量之和必須為1),使得潛在主題之間幾乎是不相關(guān)的,這與很多實(shí)際問題并不相符合[7]。
hierarchical latent Dirichlet allocation(hLDA)層次主題模型是Blei[8-9]等提出的一種基于nCRP(nested Chinese Restaurant Process)的層次潛在狄利克雷分布非參數(shù)模型,是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,能夠從無結(jié)構(gòu)、開放式的數(shù)據(jù)中學(xué)習(xí)層次主題。相比經(jīng)典的LDA主題模型[10]所抽取的平行主題,hLDA層次主題模型基于主題樹更能夠挖掘出語料庫中的語義層次結(jié)構(gòu)[11-12]。另外,hLDA純數(shù)據(jù)驅(qū)動(dòng)的方式,能夠識(shí)別主題間的關(guān)系,即抽象和具體主題之間的關(guān)系。在多文檔摘要生成、圖書信息組織等領(lǐng)域,hLDA層次主題模型得到了很好運(yùn)用,但是在患者投訴文本信息挖掘領(lǐng)域,還未見運(yùn)用hLDA層次主題模型進(jìn)行文本挖掘的相關(guān)研究。
本文利用hLDA層次主題模型,對(duì)患者投訴的文本信息進(jìn)行層次主題挖掘。通過對(duì)患者投訴文檔的分析,挖掘患者投訴文本集中所包含的深層次語義信息,發(fā)現(xiàn)潛在的主題,并基于這些患者投訴關(guān)注的主題構(gòu)建一個(gè)更加科學(xué)合理的分類框架。
本文所用患者投訴的文本數(shù)據(jù)來源于某三甲醫(yī)院患者隨訪系統(tǒng)。患者投訴有10 000條,經(jīng)過人工篩選,去除重復(fù)、殘缺的數(shù)據(jù),最終留下8 690條,作為實(shí)驗(yàn)語料庫。
數(shù)據(jù)預(yù)處理過程是根據(jù)hLDA層次主題模型的數(shù)據(jù)格式需要,對(duì)患者投訴的原始語料進(jìn)行加工處理,生成相應(yīng)層次主題挖掘所需要的數(shù)據(jù)格式。患者投訴語料預(yù)處理的具體流程如圖1所示。

圖1 患者投訴語料預(yù)處理流程
患者投訴語料預(yù)處理具體包含以下4個(gè)步驟:一是分詞及去停用詞,本文采用jieba分詞工具對(duì)患者投訴的語料進(jìn)行分詞,再使用四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞表[13]對(duì)患者投訴的文檔語料進(jìn)行去停用詞處理;二是生成詞表,即對(duì)分詞及去停用詞獲得的所有詞進(jìn)行合并、去重,得到一個(gè)相應(yīng)的詞表;三是生成評(píng)論詞向量,根據(jù)已經(jīng)生成的詞表將評(píng)論轉(zhuǎn)化為詞的向量,然后進(jìn)行詞頻統(tǒng)計(jì),計(jì)算每個(gè)詞在每條評(píng)論中出現(xiàn)的次數(shù);四是生成評(píng)論-詞矩陣,所有患者評(píng)論的詞向量構(gòu)成一個(gè)關(guān)于患者投訴的評(píng)論-詞矩陣,矩陣中每行對(duì)應(yīng)1條患者評(píng)論,每列對(duì)應(yīng)1個(gè)詞,矩陣的每一元素值為評(píng)論中詞的詞頻。
本次實(shí)驗(yàn)使用Blei的hLDA-C軟件包,對(duì)預(yù)處理后的患者投訴語料進(jìn)行主題建模。實(shí)驗(yàn)的關(guān)鍵步驟是確定hLDA建模算法的關(guān)鍵參數(shù)取值,以取得最優(yōu)的建模結(jié)果。hLDA層次主題模型生成的主題樹結(jié)構(gòu)主要取決于迭代次數(shù)、主題樹深度、GEM分布超參數(shù)(m,π)、是否抽樣、狄利克雷分布超參數(shù)η和nCRP超參數(shù)γ。
參考相關(guān)研究的常用參數(shù)[14],本文設(shè)定層次主題樹的深度為L=3,迭代次數(shù)為10 000,GEM分布超參數(shù)的初始值為m=0.35,π=100。hLDA層次主題建模隨著層次主題樹深度的增加,后驗(yàn)推理的復(fù)雜度會(huì)不斷增大,最終得到的最優(yōu)結(jié)果的穩(wěn)定性也會(huì)越差[15]。現(xiàn)有的分類標(biāo)準(zhǔn)通常為兩層結(jié)構(gòu),所以L=3是一個(gè)合適的主題數(shù)深度(hLDA主題樹第一層僅包含一個(gè)根主題)。同時(shí),隨著迭代次數(shù)增加,經(jīng)過吉布斯抽樣而得到的主題樹結(jié)構(gòu)也會(huì)更趨于穩(wěn)定。當(dāng)?shù)螖?shù)設(shè)置為10 000次,得到樹的路徑已經(jīng)趨向于一種較為穩(wěn)定的變化狀態(tài)。另外,GEM分布超參數(shù)m控制著從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的分配比例,而π則指定該分配比例的嚴(yán)格程度。狄利克雷分布超參數(shù)η對(duì)主題詞的分配和路徑數(shù)有影響,nCRP超參數(shù)γ決定先驗(yàn)樹結(jié)構(gòu)的形狀,即每個(gè)文檔每一層的路徑選擇[15]。
參數(shù)SAMPLE_ETA、SAMPLE_GEM會(huì)影響hLDA層次主題建模的時(shí)間復(fù)雜度、人工調(diào)整參數(shù)的作用和結(jié)果的可解釋性[15]。在現(xiàn)有研究中,這些參數(shù)的最優(yōu)取值尚無定論。本文通過實(shí)驗(yàn)調(diào)整參數(shù),比較各種參數(shù)設(shè)置下的建模結(jié)果,選擇主題區(qū)分度最高、層次主題分布均勻的層次主題模型作為最優(yōu)結(jié)果,相應(yīng)參數(shù)設(shè)置作為最優(yōu)參數(shù)取值。
對(duì)實(shí)驗(yàn)得到的最優(yōu)層次主題模型進(jìn)行合并歸納后如表1所示。表1中給出了每個(gè)主題中出現(xiàn)條件概率最高的10個(gè)主題詞,相應(yīng)的參數(shù)值為:L=3,SE=1(抽樣),SG=1(抽樣),m=0.35,γ=5e-1。
由于hLDA層次主題模型隨著層級(jí)的增加,模型的穩(wěn)定性會(huì)變?nèi)酰又对V語料的有些文本包含多種主題的可能性,某些主題相關(guān)投訴的數(shù)量較少,因此對(duì)實(shí)驗(yàn)結(jié)果中第三層主題中出現(xiàn)的相似主題進(jìn)行合并處理,以保證主題之間的可區(qū)分性。如在主題樹中不同第二層主題下,第三層主題都存在相應(yīng)溝通不及時(shí)的情況,故而將其合并到第二層與溝通相關(guān)的主題“搞錯(cuò) 語氣 告知 病情 手術(shù) 懷疑 解釋 主任醫(yī)師 釘太長 醫(yī)生”大類下面,再依次對(duì)相應(yīng)主題時(shí)行歸納,最終生成的分類框架(圖2)。

表1 建模結(jié)果的主題詞對(duì)應(yīng)表

圖2 建模結(jié)果樹狀結(jié)構(gòu)圖
對(duì)模型生成的患者投訴條件概率分布結(jié)果進(jìn)行可視化分析,患者投訴的相關(guān)主題分布如圖3所示。
從圖3可以看出,患者投訴主要集中在臨床服務(wù)類、環(huán)境類、管理類,共計(jì)7 679條,占88.37%。患者投訴的具體子類主要集中在臨床服務(wù)質(zhì)量、生活環(huán)境、制度流程等方面,其中臨床服務(wù)質(zhì)量3 756條,占43%;生活環(huán)境2 199條,占25.57%;制度流程1 169條,占14%。

圖3患者投訴的相關(guān)主題分布(左圖為第二層大類,右圖為第三層子類)
本文運(yùn)用hLDA層次主題建模,對(duì)患者投訴的語料數(shù)據(jù)進(jìn)行層次主題挖掘,進(jìn)而構(gòu)建了一個(gè)關(guān)于患者投訴關(guān)注領(lǐng)域的分類框架,目的是得到一個(gè)更符合真實(shí)患者投訴主題分布的患者投訴分類框架。
4.1.1 獲得了hLDA層次主題建模最優(yōu)參數(shù)配置
根據(jù)相關(guān)研究,參數(shù)SAMPLE_ETA、SAMPLE_GEM對(duì)模型生成的結(jié)果具有重要影響。當(dāng)SAMPLE_ETA、SAMPLE_GEM等于0時(shí),表示對(duì)先驗(yàn)參數(shù)η、m、π不進(jìn)行抽樣估計(jì)。此時(shí)hLDA層次主題建模的時(shí)間復(fù)雜度比較低,人工調(diào)整參數(shù)對(duì)主題結(jié)果的影響較大,但層次主題結(jié)果的可解釋性會(huì)相對(duì)較弱。當(dāng)SAMPLE_ETA(SE)、SAMPLE_GEM(SG)等于1時(shí),表示對(duì)先驗(yàn)參數(shù)η、m、π進(jìn)行抽樣估計(jì)。此時(shí)hLDA層次主題建模的時(shí)間復(fù)雜度比較高,人工調(diào)整參數(shù)對(duì)主題結(jié)果的影響較小,但層次主題結(jié)果的可解釋性會(huì)相對(duì)較強(qiáng)。具體影響分布見表2。
現(xiàn)有研究大多缺乏具體可參考的建模策略。如何通過優(yōu)化hLDA建模實(shí)驗(yàn)流程,獲得滿意的主題模型尚無權(quán)威的結(jié)論。在患者投訴語料層次主題建模的實(shí)驗(yàn)中,本文根據(jù)hLDA層次主題模型參數(shù)的性質(zhì),結(jié)合關(guān)鍵參數(shù)值是否進(jìn)行抽樣估計(jì)對(duì)主題模型的影響,采取參數(shù)設(shè)置——結(jié)果反饋——修正參數(shù)設(shè)置的優(yōu)化策略,獲得了較為理想的實(shí)驗(yàn)結(jié)果。

表2 抽樣與否對(duì)hLDA層次主題建模的影響
4.1.2 獲得了更切合實(shí)際數(shù)據(jù)的患者投訴分類框架
本次實(shí)驗(yàn)中,對(duì)患者投訴的文本進(jìn)行層次主題建模,獲得了圖2所示的患者投訴分類框架。與HACT分類框架對(duì)比,除了在制度流程、環(huán)境、安全醫(yī)療差錯(cuò)、溝通等方面外,兩種分類框架都有涉及相關(guān)患者投訴的問題(圖4)。

圖4 兩種分類框架的對(duì)比
相比較而言,國際通用的HACT分類標(biāo)準(zhǔn)還反映了患者投訴在質(zhì)量、傾聽及尊重和權(quán)利方面的問題,而基于hLDA模型對(duì)國內(nèi)患者投訴數(shù)據(jù)得出的分類框架則反映了患者投訴在生活支持、管理類其他和臨床服務(wù)質(zhì)量方面的問題。國際通用的HACT分類框架與基于國內(nèi)患者投訴數(shù)據(jù)的hLDA建模結(jié)果的主題分布有所差異,說明基于hLDA層次主題建模得到的患者投訴的分類框架更符合國內(nèi)患者投訴的主題分布,是一種更切合實(shí)際數(shù)據(jù)的患者投訴分類框架。
4.2.1 語料來源單一
由于本文所用患者投訴語料均來自于同一家醫(yī)院,患者投訴的主題分布可能具有一定的偏倚,在反映國內(nèi)患者醫(yī)療投訴所關(guān)注的主題和重點(diǎn)時(shí),其通用性會(huì)受到一定限制。
4.2.2 對(duì)主題建模結(jié)果評(píng)估不足
目前,hLDA層次主題建模算法不能自動(dòng)對(duì)建模結(jié)果進(jìn)行合理的評(píng)估。采取人工評(píng)估的方法評(píng)估建模結(jié)果在一定程度上受主觀性的影響,這也是以后的研究需要改進(jìn)和探索的地方。
本文通過hLDA層次主題模型算法,對(duì)某醫(yī)院的患者投訴進(jìn)行主題挖掘,再對(duì)挖掘出的主題進(jìn)行歸納,得到了一個(gè)兩層的患者投訴分類框架。與常用的分類框架(如HACT)相比,存在著一定差異。經(jīng)過對(duì)建模結(jié)果的分析,發(fā)現(xiàn)患者投訴關(guān)注的領(lǐng)域和重點(diǎn)主要集中在臨床服務(wù)質(zhì)量、生活環(huán)境和制度流程等方面。本文基于無監(jiān)督數(shù)據(jù)挖掘得到的分類框架,更貼近患者投訴主題的真實(shí)分布,有利于對(duì)醫(yī)療服務(wù)的質(zhì)量進(jìn)行更加科學(xué)、合理的評(píng)估。