由麗萍 何玲玲



摘?要:[目的/意義]隨著“互聯網+”在醫療服務行業的應用與發展,積累了大量的醫療評價信息,利用情感分析技術可以對其進行有效地挖掘和利用,從而為醫療管理提供決策參考。[方法/過程]基于框架語義理論建立醫療情感語義分類詞典;采用詞典和規則相結合的方法進行在線醫療評論的情感語義分析,標注情感類別、情感主題、極性和強度等信息。[結果/結論]通過在線醫療評論數據測試,驗證了研究方法的有效性和科學性,是情感分析向醫療健康領域縱深發展的一次有益探索。
關鍵詞:框架語義;情感分析;醫療信息;在線醫療評論
DOI:10.3969/j.issn.1008-0821.2020.03.011
〔中圖分類號〕F713.5;G252?〔文獻標識碼〕A?〔文章編號〕1008-0821(2020)03-0111-06
Abstract:[Purpose/Significance]Since a lot of medical evaluation information is accumulated with the application and development of“Internet+”in the medical service industry,sentiment analysis technology can be used to mine and utilize it effectively,so as to provide reference for medical management.[Method/Process]A medical sentiment semantic classification dictionary was constructed based on the Frame Semantics theory.Based on the dictionary and some rules,the sentiment of online medical reviews was analyzed with annotation of sentiment type,sentiment topic,polarity and strength,etc.[Result/Conclusion]Through the test of online medical review data,a higher accuracy rate and recall rate were obtained,which proved the validity and scientificity of the research method.It is a useful exploration for the further development of emotional analysis in the field of medical health.
Key words:frame semantics;sentiment analysis;medical Information;medical online comments
隨著“互聯網+”在醫療服務行業的應用與發展,積累了大量的醫療數據資源。不同于傳統醫療服務中只有院方提供的醫療信息和問診記錄等,在線醫療服務環境下,還包含了大量由患者(用戶)提供的反饋信息,它們以用戶評價方式出現,以文本形式記錄,包含了對醫生服務、醫術、治療效果等方面的評價以及患者的體驗、康復進程、感受、心理狀態等。對這類信息的獲取和處理,有助于全面、準確地評價醫療服務水平或評估患者心理狀態。
目前國內外醫療評論挖掘的研究尚處起步階段,處理任務主要集中在情感極性分類上,但是由于缺乏情感主題、情感對象和情感強度等信息,導致對文本情感語義的理解不完整。尤其是很多評論中既包含了對某些方面的正面評價又包含了對另外某些方面的負面評價,如評論句“苗醫生醫術挺好的,但是掛他的號太難了”,句中既表達了對醫生醫術的正面評價,又表達了對掛號的負面評價,這時試圖確定整條評論的極性信息不僅是困難的而且是無價值的。因此,近年開始出現屬性層面的情感分析:Hao H[1]利用中文在線評論數據,將主題設置為療效、醫療技術、治療過程、臨床態度、尋醫過程、并發癥等,進行了患者情感分析;James T等[2]采用LDA聚類算法進行屬性層的醫療服務質量評價研究;Cavalcanti D[3]、Salas-Zárate María del Pilar等[4]利用句法特征分別做了用藥反饋和糖尿病患者評論的情感分析。
然而,目前醫療領域的情感分析主要基于關鍵詞或淺層句法分析,雖然可計算性、可操作性強,但由于缺少詞匯資源的有效組織和語義關聯的描述,其完備性不足,處理精度不高,所提取信息的應用價值也有限。要實現醫療評論的語義分析,需要構建語義分類詞典,對領域中的詞匯進行合理的語義分類和極性標注??蚣苷Z義理論是美國語言學家Fillmore C J[5]提出的一種以框架(Frame)為單位描述詞語意義以及句子語義結構的一種理論方法。框架是語言使用者在其認知經驗中存儲的關于詞語和句子語義理解的圖式化情境。目前,英語[6]、阿拉伯語、法語、日語、瑞典語乃至漢語[7]等的框架語義知識工程都已啟動并不斷發展。該類型語義資源在事件知識提取[8]、文本摘要[9]、機器翻譯[10]等許多任務中都被證明具有較高的價值。在情感分析領域,Gangemi A等[11]、Chatterji S等[12]利用FrameNet挖掘框架和情感語義角色信息;由麗萍等[13-14]將框架語義分析用于手機商品評論和酒店評論的情感分析。在醫療情感分析領域,Bringay S等[15]采用框架語義體系,基于法語的在線健康論壇數據提取特定的語義角色——情感對象。這些研究顯示了框架語義分析體系在情感分析任務中的應用價值,它既可以提供細分類的情感語義信息,又有助于準確識別情感詞和情感主題之間的語義角色關系。
因此,本文基于框架語義理論,構建醫療評價領域專用語義分類詞典,采用基于詞典和規則的方法標注評論句的情感類別、情感主題、極性和強度等信息,從而實現在線醫療評論情感信息的語義理解。
1?研究設計
本研究包含資源建設和文本分析兩方面任務:資源建設包括醫療領域框架語義詞典的構建和語義標注規則的描述;文本分析任務主要包括醫療評論的采集、詞法、句法處理和框架語義標注等過程。研究模型如圖1所示。
2?醫療評價領域框架語義詞典的構建
醫療評價領域框架語義詞典的構建任務將表達相同情感范疇的詞語歸入同一框架類別進行描述,定義框架中的相關框架元素、框架關系等。
2.1?詞匯收集
參考相關研究[14],以2018年3月5日為時間節點,從阿亮醫生網(http://www.alyisheng.com/)和好大夫在線(https://www.haodf.com/)抓取時間最近的3 000多條用戶評論數據,對其進行分詞和詞性標注,提取其中的形容詞和動詞作為初始集合;由項目組內成員人工篩選其中的情感詞匯,對存疑詞匯進行相關查證和商討后確定最終結果;參考《現代漢語分類詞典》、《新編同義詞詞林》等詞典擴充同義詞。
2.2?釋義方法
框架語義分類詞典定義框架、框架元素、框架—框架關系、詞元(一個義項下的一個詞)及其情感傾向值,具體的詞匯釋義工作流程和方法參考前期研究成果[16]。相較于簡單的正負兩極性情感傾向設置,我們參考相關研究[17]將詞元情感傾向值的取值范圍細化到0~1.0之間的浮點數,以綜合體現極性和強度兩方面信息。其中,低于0.5的數值表示負面評價,且數值越低,負面情感強度越大;0.5表示中性評價;高于0.5表示正面評價,且數值越高,正面情感的強度越大。采用語料標注的一致性檢驗法確定情感傾向值的具體取值:由3名相關專業研究生各自標注情感傾向值,對標注結果不一致的情況進行商討,進入下一輪標注,直到最后取得一致為止。最終,我們構建的醫療情感語義詞典包含129個框架,1 734個詞元。經過對醫療領域情感詞詞頻進行研究,發現醫療領域內的情感詞匯在頻率分布上較為集中,因此,對高頻情感詞的集中研究,能有效地解決大部分評論文本的情感分析。本文所構建的詞典基本覆蓋了醫療領域情感表達的常用詞匯。選取其中具有代表性且框架元素、框架關系較豐富的框架[社交態度]示例如表1。
框架—框架關系主要描述框架之間的繼承關系,為滿足不同粒度的語義分析提供多層次的概念體系。與“社交態度”框架有關的繼承關系如圖2所示。
3?框架語義標注
3.1?情感語義表示模型
在線醫療評論情感分析的任務包括確定情感詞所屬的框架、識別情感主題以及計算情感傾向值,其形式化定義如下:
3.2?框架及情感主題標注
情感語義結構(式1)中的Fi(框架)可以通過定位句子中的動詞和形容詞,匹配框架語義詞典而確定。情感語義結構中的Ei(情感主題)在語義角色關系上是核心框架元素的一類,即被評價者或被評價主題。其句法特征與依存句法結構(Tesniere L[18])有較強的對應規律,因此,采用基于依存句法規則的方法識別??蚣芎颓楦兄黝}的匹配規則為:
式(2)中,LU為評論文本中的情感詞,依據框架語義詞典確定其對應的框架(frame)。由于醫療評論在表達方式上具有句式簡短、主語省略甚至獨詞成句等特點,因此,式中除了情感詞LU是必有成分外,其他主語和修飾語均為可選項,以“[]”表示。根據依存句法分析結果,若情感詞支配一個主語成分(SBV),則該成分標注為情感主題類框架元素(theme);若情感詞處于偏正結構中定語中心語(ATT-head)的位置,則標注為情感主題。符號表示兩種情況是邏輯“異或”關系,即要么SBV為真,要么ATT-head為真,但不能二者同時為真。若依存句法結構中出現以程度副詞做狀語的成分(ADVd),則標注為框架元素“程度”(degree);若出現以否定副詞做狀語的成分(ADVn),標注其為“否定修飾”(negative),二者將作為情感傾向值的判定依據。程度副詞子類和否定副詞子類都依據《漢語語法信息詞典》[19]而定。
3.3?情感傾向值的計算
情感傾向值(vi)以框架語義詞典中詞語的情感傾向值為基礎,結合框架元素標注結果中的“程度”和“否定修飾”信息加以調節,得到最終的賦值。其中,對于情感值為0.5的情感詞(即中性詞)建立主題詞調節量表,根據主題信息確定情感詞的情感傾向值,如中性詞“高”在評論句“費用高”中為0.4,而在“技術高”中則為“0.6”。對于情感傾向值不等于0.5的情感詞,如果出現程度副詞,則依據副詞調節量表給予一定的調整,量表內容詳見前期研究[13];如果評論句中出現否定修飾,則將程度值賦值為(1-原值)。賦值邏輯如圖3所示。
3.4?實例分析
以兩個醫療評論句“醫生態度很不認真”、“負責的大夫”為例,其依存關系分別如圖4和圖5所示。
首先將形容詞“認真”和動詞“負責”匹配相應的框架,即[慎疏]和[責任心]。然后根據框架元素匹配規則,將主語(SBV)“醫生態度”和定中結構的中心語(ATT-HED)“大夫”識別為情感主題;再根據副詞和否定詞表,將“很”識別為“程度”元素,將“不”識別為“否定修飾”。根據情感傾向值賦值規則,情感詞“認真”的初始情感值為0.6,句中出現了程度修飾詞“很”,其調節量為0.1,因此將情感傾向值+0.1,得0.7,又由于句中出現了否定修飾“不”,再用1減原值,因此輸出的情感傾向值為0.3;情感詞“負責”的初始情感值為0.6,無“程度”和“否定修飾”信息,因此輸出的情感傾向值為0.6。最終,將情感語義元素填入式(1),結果為:
4?實驗分析
4.1?數據來源
將詞典和規則構建階段使用的3 000條評論作為封閉測試數據,另外爬取2 000條評論作為開放測試數據,見表2。實驗數據包含對醫生工作、醫療服務系統、藥品以及患者心理等多方面情感內容。
4.2?分析工具
實驗中分詞、詞性標注和依存句法分析采用哈爾濱工業大學語言技術平臺LTP[20]??蚣苷Z義分析采用自主研發的軟件“基于框架本體的中文情感語義標注與查詢系統”(軟件著作權登記號:2018SR823004)。本軟件系統采用Python語言開發,可以對中文情感詞語和框架進行編輯和本體存儲;對在線評論語句進行情感語義分析,標注框架、框架元素和情感傾向值等信息,支持模糊語義檢索。使用界面如圖6所示。
4.3?實驗結果
采用準確率(Precision)、召回率(Recall)和F1值評價情感分析的性能。表3為實驗結果。
由表3可以看出,封閉測試獲得了較好的準確率和召回率;進入開放測試后,準確率影響不大,下降了約2個百分點,但召回率和F1值下降較多。
由于情感語義分析是在依存句法分析基礎上進行的,依存句法分析又基于分詞和詞性標注,因此,這些自然語言處理技術帶來的誤差對情感語義分析會形成累積效應。為考查本研究所建詞典和規則在語義分析階段的效果,我們對分詞、詞性標注和依存句法分析做了人工校對:由3名相關專業研究生各自校對自然語言處理結果,對不一致的情況進行商討,進入下一輪校對,直到最后取得一致為止。在修正了詞法、句法處理結果后再次進行語義標注實驗,結果如表4所示。
表4顯示,修正詞法、句法錯誤后,準確率和召回率均得到了明顯提高,最終開放測試的F1值達到了85%,這對于醫療評論情感分析是比較理想的??梢娮匀徽Z言詞法和句法處理技術是制約情感語義分析的關鍵因素。
5?結?語
本文研究了基于框架語義的在線醫療評論的情感分析問題,該分析體系將情感信息表示細化到句子內部,提供了有效的情感語義分類體系和語義角色標注技術。其研究貢獻一方面是構建了醫療評論領域的框架語義分類詞典,為醫療評論的語義分析提供了實際可用的詞匯知識資源;另一方面,采用基于框架語義分類詞典和依存句法規則相結合的方法對醫療評論進行框架語義標注,實驗結果顯示該方法具有較高的準確率;同時通過對比實驗,顯示出自然語言詞法和句法處理技術是影響情感語義分析效率的關鍵。本文的研究是情感分析向醫療健康領域縱深發展的一次有益探索。
參考文獻
[1]Hao H.The Voice of Chinese Health Consumers:A Text Mining Approach to Web-Based Physician Reviews[J].Journal of Medical Internet Research,2016,18(5):e108.
[2]Cook,Deborah F,et al.Exploring Patient Perceptions of Healthcare Service Quality Through Analysis of Unstructured Feedback[J].Expert Systems with Applications,2017,(71):479-492.
[3]Cavalcanti D,Prudêncio R.Aspect-Based Opinion Mining in Drug Reviews[C]//EPIA 2017,Springer,2017:815-827.
[4]Salas-Zárate María del Pilar,Medina-Moreira José,Katty L O,et al.Sentiment Analysis on Tweets about Diabetes:An Aspect-Level Approach[J].Computational and Mathematical Methods in Medicine,2017:1-9.
[5]Fillmore C J.Frame Semantics and the Nature of Language[J].Annals of the NY Academy of Sciences,1976,280:20-32.
[6]University of California,Berkeley.FrameNet[DB/OL].https://framenet.icsi.berkeley.edu/fndrupal/,2018-08-03.
[7]由麗萍.面向中文信息處理的框架語義分析[M].北京:經濟科學出版社,2013.
[8]Alam M,Recupero D R,Mongiovi M,et al.Event-Based Knowledge Reconciliation Using Frame Embeddings and Frame Similarity[J].Knowledge-Based Systems,2017,135(NOV):192-203.
[9]Xu H,Tao L,Zhirui H,et al.Text Summarization Using FrameNet-Based Semantic Graph Model[J].cientific Programming,2016:1-10.
[10]PeronCorrêa,Simone,Diniz A,Lara M,et al.FrameNet-Based Automatic Suggestion of Translation Equivalents.[C]//International Conference on Computational Processing of the Portuguese Language,2016:347-352.
[11]Gangemi A,Presutti V,Reforgiato Recupero D.Frame-Based Detection of Opinion Holders and Topics:A Model and a Tool[J].IEEE Computational Intelligence Magazine,2014,9(1):20-30.
[12]Chatterji S,Varshney N,Rahul R K.Aspect-FrameNet:A FrameNet Extension for Analysis of Sentiments Around Product Aspects[J].Journal of Supercomputing,2016,73(3):1-12.
[13]由麗萍,王嘉敏.基于情感分析和VIKOR多屬性決策法的電子商務顧客滿意感測度[J].情報學報,2015,34(10):1098-1110.
[14]由麗萍,白旭云.基于在線評論情感語義分析和TOPSIS法的酒店服務質量測量[J]情報科學,2017,35(10):13-17.
[15]Bringay S,Kergosien E,Pompidor P.Identifying the Targets of the Emotions Expressed in Health Forums[J].Lecture Notes in Computer Science,2014,8404:85-97.
[16]劉開瑛,由麗萍.現代漢語框架語義網[M].北京:科學出版社,2015.
[17]Sánchez-Rada,J Fernando,Iglesias C A.Onyx:A Linked Data Approach to Emotion Representation[J].Information Processing and Management,2016,52(1):99-114.
[18]Tesniere L.Elements De Syntaxe Structural[M].Paris:Klincksieck,1959.
[19]俞士汶,朱學鋒,等.現代漢語語法信息詞典詳解(第2版)[M].北京:清華大學出版社,2003.
[20]Che W X,Li Z H,Liu T.LTP:A Chinese Language Technology Platform[C]//Proceedings of the Coling 2010:Demonstrations,2010:13-16.
(責任編輯:孫國雷)