于彤,賈李蓉,張竹綠,朱玲
?
面向中醫(yī)藥文獻的語義關(guān)系發(fā)現(xiàn)方法研究
于彤,賈李蓉,張竹綠,朱玲
中國中醫(yī)科學院中醫(yī)藥信息研究所,北京 100700
從中醫(yī)藥文獻中提取語義關(guān)系的方法,能充實中醫(yī)藥知識庫系統(tǒng),提升知識獲取效率,改進知識檢索效果。本研究通過搜集中醫(yī)藥文獻并從中找出在一起頻繁出現(xiàn)的詞對,基于中醫(yī)藥學語言系統(tǒng)判斷語義關(guān)系的性質(zhì),再將所發(fā)現(xiàn)的語義關(guān)系交由領(lǐng)域?qū)<疫M行檢驗。該方法向中醫(yī)藥領(lǐng)域?qū)<姨峁┝藦奈谋局邪l(fā)現(xiàn)語義關(guān)系的新穎技術(shù)手段。
語義關(guān)系;中醫(yī)藥學語言系統(tǒng);知識庫
目前,中醫(yī)藥領(lǐng)域?qū)嵱玫闹R庫系統(tǒng)顯現(xiàn)出大型化的趨勢,往往包含百萬條語義關(guān)系。例如,中醫(yī)藥學語言系統(tǒng)(Traditional Chinese Medicine Language System, TCMLS)已收錄概念12萬余條,術(shù)語30萬余條,語義關(guān)系127萬多條[1]。由人工編輯如此大量的語義關(guān)系,是一個耗時費力的大工程。若能實現(xiàn)從文獻中自動抽取語義關(guān)系,則可大幅提升知識獲取效率。因此,語義關(guān)系發(fā)現(xiàn)方法對領(lǐng)域知識庫的構(gòu)建具有很大意義。本文介紹了一項基于TCMLS從文本中發(fā)現(xiàn)語義關(guān)系的初步嘗試。該研究試圖將文本中蘊含的語義關(guān)系挖掘出來,與TCMLS現(xiàn)有的語義關(guān)系結(jié)合,得到更為全面、準確的語義關(guān)系,并明確系統(tǒng)中語義關(guān)系的文獻來源,從而擴充TCMLS的數(shù)據(jù)規(guī)模,提升TCMLS中語義關(guān)系的準確性和可靠性。
中醫(yī)藥學是經(jīng)過幾千年的發(fā)展而形成的,文獻記載是其重要的知識流傳的方式之一。近年來,中醫(yī)團體開展了大量的知識工程工作,采用各種文獻中的知識來構(gòu)建中醫(yī)藥領(lǐng)域知識庫,提供知識檢索服務。以TCMLS為例,因缺乏實用的中醫(yī)藥文本挖掘方法,在語義關(guān)系抽取方面,主要依賴于加工人員的個人知識和手工操作。這種方法與加工人員個人的知識、素養(yǎng)和責任心有很大關(guān)系,造成數(shù)據(jù)準確性良莠不齊,難以對數(shù)據(jù)質(zhì)量進行有效管理。隨著系統(tǒng)規(guī)模的不斷擴大,人工編輯的復雜性也不斷增大,制約著TCMLS的進一步發(fā)展。鑒于此,擬對中醫(yī)藥文獻內(nèi)容進行語義關(guān)系提取,得到具體概念之間的語義關(guān)系,與TCMLS的語義關(guān)系進行比較,并對TCMLS進行進一步擴充。
從自由文本中挖掘語義關(guān)系是一個非常困難的問題,因為同一種關(guān)系在文本中會有多種表達方式[2]。常見的語義關(guān)系發(fā)現(xiàn)方法,主要包括如下2大類。
1.1 基于語法分析的語義關(guān)系發(fā)現(xiàn)
此類方法的主要思路是:基于自然語言處理(NLP)技術(shù),通過對文本進行語法分析,構(gòu)建出語法樹,再通過語法和詞性的分析得到其中的語義關(guān)系[3]。這類方法的優(yōu)點是對語義關(guān)系定位比較準確,并可以通過語法特征得到文本中的隱含信息。但其缺點在于:此類方法的效果嚴重依賴于語法分析的結(jié)果,對于一些特殊的領(lǐng)域,現(xiàn)有的語法分析方法往往無法取得令人滿意的結(jié)果。因此,基于語法分析的語義關(guān)系抽取算法其應用范圍受到了很大的限制,特別是在一些有著獨特語法規(guī)則的領(lǐng)域中更是如此,本文中提到的中醫(yī)藥領(lǐng)域就是一個例子。
1.2 基于模式匹配的語義關(guān)系發(fā)現(xiàn)
這種方法是用某種模式對文本進行匹配,根據(jù)匹配的情況得到相應的語義關(guān)系。根據(jù)匹配模式的不同來源,可以分為兩類:基于領(lǐng)域知識的模式匹配和基于學習的模式匹配[4]。基于領(lǐng)域知識的模式是由領(lǐng)域?qū)<覍⑵漕I(lǐng)域知識總結(jié)、升華得到的通用知識模式,然后再使用這些模式作為模板,從文獻中找到相應的關(guān)系。基于學習的模式匹配方法,是指使用機器學習方法,通過對文獻特征的分析得到有用的模式。這類方法的目標一般限定為僅挖掘某些特定類別的實體的幾種特定關(guān)系,無法勝任中醫(yī)藥領(lǐng)域中語義關(guān)系種類很多的情況。
綜上所述,這兩類方法都不適合中醫(yī)藥領(lǐng)域的需求。本研究提出基于TCMLS的文本語義關(guān)系發(fā)現(xiàn)方法,該方法以TCMLS中的詞匯為基礎,發(fā)現(xiàn)語義關(guān)系中的主體和客體;以TCMLS中已有的語義關(guān)系為根據(jù),推測從文本中挖出的語義關(guān)系的類型。本研究的基本策略,是基于TCMLS從文本中發(fā)現(xiàn)更多的關(guān)系,經(jīng)用戶驗證后加入TCMLS之中,從而豐富TCMLS的語義關(guān)系;再用豐富后的TCMLS進行新一輪的文本挖掘,進一步豐富TCMLS;以此類推,從而形成一套基于文本語義關(guān)系發(fā)現(xiàn)來驅(qū)動TCMLS加工的技術(shù)方案。下面具體介紹基于TCMLS的語義關(guān)系發(fā)現(xiàn)方法。
如圖1所示,文本語義關(guān)系發(fā)現(xiàn),是指從“……人參有‘補五臟、安精神、定魂魄、止驚悸、除邪氣、明目開心益智’的功效……”的文本中,發(fā)現(xiàn)“人參 補 五臟”、“人參 安 精神”、“人參 止 驚悸”、“人參 除 邪氣”這樣的關(guān)系。該方法會統(tǒng)計每條關(guān)系出現(xiàn)的頻數(shù):如果在文檔D1,D2……Dn中都出現(xiàn)了某條關(guān)系R,則R出現(xiàn)的頻數(shù)即為n。該方法的基本策略是:以TCMLS作為領(lǐng)域詞庫,從文獻庫中找出在同一文檔中出現(xiàn)的兩個領(lǐng)域術(shù)語(如“人參、邪氣”、“人參、五臟”等),構(gòu)成候選的文本語義關(guān)系,并統(tǒng)計每條關(guān)系的頻數(shù),以供語言學家進行檢閱和處理。由機器判斷語義關(guān)系的謂詞(如“人參”與“邪氣”之間的謂詞為“除”)仍是一個技術(shù)難題。本方法會在這兩個詞附近找出一些候選性謂詞(如“補”、“除”等)推薦給用戶;并提供TCMLS中的相關(guān)用法,供用戶參考(例如,針對“人參”和“腎陽虛證”,系統(tǒng)會根據(jù)TCMLS中的用法向用戶推薦“治療”這一謂詞)。

圖1 文本語義關(guān)系發(fā)現(xiàn)過程示意圖
為實現(xiàn)該策略,首先需要將中醫(yī)藥文本分解成一系列獨立的語義單元。中醫(yī)藥文獻資源包括書籍、期刊、會議論文集、病歷、報告等,語義單元劃分要針對不同類型的文獻進行具體分析。本研究主要考慮書籍、期刊和會議論文集。這些文獻都可被分為一系列“文章”(在書籍中對應一章或一節(jié),在期刊和會議論文集中對應一篇論文),可對文章進一步細分,將文章分為小節(jié),將小節(jié)分為段落,將段落分為句子。
理論上,在一篇文章中出現(xiàn)的任意兩個詞匯之間都可能存在或強或弱、或直接或間接的語義關(guān)系。因此也可將“文章”作為語義單元進行語義關(guān)系發(fā)現(xiàn)。但在語義關(guān)系識別階段,關(guān)鍵詞組過長會極大增加算法復雜性。為保證算法效率,關(guān)鍵詞組內(nèi)詞匯數(shù)量不宜過多,因此本研究未將整篇文章作為語義單元進行挖掘。與全文相比,“句子”是一個相對較小、且有完整語義的單元。“句子”通常描述一個完整的意思,且其中的詞匯之間通常有某種聯(lián)系,因此“句子”為中文分詞及后續(xù)處理提供了天然的單元。但語義關(guān)系的主體和客體也有可能分散在不同的句子中,僅以句子作為語義單元會遺失掉很多的關(guān)系。鑒于此,本項目分別以句子和小節(jié)作為基本的語義單元,進行語義關(guān)系發(fā)現(xiàn),下面介紹其核心思想和設計原則。
第一,在文中距離越近的“名詞、動詞、名詞”,越有可能表達一條語義關(guān)系。因此,本方法會記錄語義關(guān)系中的詞匯在文中的最短距離,作為反映語義關(guān)系真實性的一個參數(shù)。
第二,在各種文獻中多次出現(xiàn)的“主語-謂語-賓語”,更有可能代表一條語義關(guān)系。若一條關(guān)系頻繁出現(xiàn)于各種文獻中,則其很可能是領(lǐng)域?qū)<艺J可的。因此,本方法對從各種文獻中發(fā)現(xiàn)的關(guān)系進行匯總,統(tǒng)計每條關(guān)系在文中共現(xiàn)的頻數(shù),將其作為一個參數(shù)提供給術(shù)語學家。
第三,文獻量越大、越全面,所得到的語義網(wǎng)絡就越具有統(tǒng)計價值。鑒于此,采用TCMLS對萬方文獻庫進行檢索,以期獲得盡可能全面的文獻。
第四,構(gòu)建在中醫(yī)藥領(lǐng)域中常用的動詞列表,以該表為基礎推測語義關(guān)系中的謂詞。將主語或賓語附近出現(xiàn)的動詞記錄下來,作為語義關(guān)系的候選謂詞,推薦給術(shù)語學家。
第五,鑒于文本語義關(guān)系發(fā)現(xiàn)方法尚不能保證結(jié)果的準確性,開發(fā)了一個文本語義關(guān)系的檢閱系統(tǒng),對文本語義關(guān)系進行檢查、分析和標注等工作,使術(shù)語學家了解語義關(guān)系與相關(guān)文本的關(guān)聯(lián)。
在本研究中,采用Java語言開發(fā)了一套文本語義關(guān)系發(fā)現(xiàn)程序,以實現(xiàn)文本語義關(guān)系發(fā)現(xiàn)方法。以TCMLS作為關(guān)鍵詞,從萬方數(shù)據(jù)知識服務平臺檢出了217 667條文獻題錄信息(含摘要),再用文本語義關(guān)系發(fā)現(xiàn)程序從摘要中挖出了87 826條關(guān)系,其中部分的關(guān)系如表1所示。所得出的關(guān)系被存入一個關(guān)系型數(shù)據(jù)庫(MySQL數(shù)據(jù)庫)中,通過文本語義關(guān)系檢閱系統(tǒng)展示出來,供語言學家進行檢閱。

表1 文本語義關(guān)系發(fā)現(xiàn)結(jié)果舉例
如圖2所示,開發(fā)了一套文本語義關(guān)系的檢閱系統(tǒng),支持用戶對文本語義關(guān)系進行檢閱、分析和標注,查看文本語義關(guān)系的文獻依據(jù)和相關(guān)網(wǎng)頁,并將文本語義關(guān)系正式插入某個術(shù)語系統(tǒng)(如TCMLS)。在語義關(guān)系檢索界面中,系統(tǒng)會將機器發(fā)現(xiàn)的語義關(guān)系分頁列出。用戶可輸入關(guān)鍵詞(如“陽痿 腎陽虛證”)搜索個人關(guān)心的語義關(guān)系。系統(tǒng)列出了每條關(guān)系的主體和客體(如“益腎丸-腎陽虛證”),給出每個概念的類型、正名和定義。用戶可點擊查看某個概念,系統(tǒng)會轉(zhuǎn)到這一概念的信息頁面。當用戶在上文提到的

圖2 文本語義關(guān)系檢閱系統(tǒng)界面
“語義關(guān)系檢索界面”中點擊查看某條關(guān)系,系統(tǒng)就會跳轉(zhuǎn)到這條語義關(guān)系的展示和處理界面。
在語義關(guān)系的展示和處理界面中,用戶可以查看這條關(guān)系的主體信息、候選謂詞、客體信息、參考性參數(shù)。其中,對于主體和客體,都給出了概念的類型、正名、定義以及概念信息頁面的鏈接。候選謂詞是基于TCMLS中的用法來生成的,例如,若主體為“人參”,客體為“腎陽虛證”,則系統(tǒng)會推薦“治療”作為候選謂詞。用戶可以點擊“文獻資源”,查看該語義關(guān)系所出自的文獻。對于每篇文獻,系統(tǒng)都給出了題名和摘要。用戶單擊選擇某篇文獻的題名時,系統(tǒng)會跳轉(zhuǎn)到該文獻的題錄信息頁面。用戶可以點擊“百度搜索”,查看該語義關(guān)系相關(guān)的百度搜索結(jié)果,也可以點擊“相關(guān)陳述”,查看該語義關(guān)系在TCMLS中的相關(guān)陳述,以供語言學家參考。用戶還可通過系統(tǒng)提供的表單,將這條語義關(guān)系加入語言系統(tǒng)中。系統(tǒng)會根據(jù)TCMLS中的相關(guān)用法,列出一些相關(guān)屬性以供用戶選擇。用戶也可以輸入新的屬性,例如,為添加“人參 除 邪氣”這條關(guān)系,用戶可輸入“除”這一新屬性。用戶也可以添加一些注釋信息。另外,當關(guān)系被錄入TCMLS后,系統(tǒng)會記錄這條關(guān)系的文獻來源。
數(shù)字化文獻是中醫(yī)藥知識密集型數(shù)據(jù)的基礎。中醫(yī)藥語義網(wǎng)若與文獻資源相脫節(jié),則必成為無源之水、無本之木。從文獻中提取語義關(guān)系的方法,能有效豐富中醫(yī)藥語義網(wǎng)的內(nèi)容,建立中醫(yī)藥語義網(wǎng)和文獻資源的有機聯(lián)系,改進中醫(yī)藥文獻檢索的效果。本研究開展了中醫(yī)藥文獻語義關(guān)系發(fā)現(xiàn)方法的初步探索:基于TCMLS,搜集中醫(yī)藥文獻,對文獻進行分詞處理,從中找出在一起頻繁出現(xiàn)的詞對,判斷語義關(guān)系的性質(zhì),交由領(lǐng)域?qū)<疫M行檢驗。本研究所開發(fā)的文本語義關(guān)系發(fā)現(xiàn)和檢閱系統(tǒng),向術(shù)語專家提供從文本中發(fā)現(xiàn)新穎語義關(guān)系的技術(shù)能力。
這項工作尚存在一些局限性。例如,我們尚缺乏判斷文本語義關(guān)系準確類型的有效手段,也尚未實現(xiàn)發(fā)現(xiàn)新詞的方法。另外,有些中醫(yī)藥領(lǐng)域的詞匯尚未收入TCMLS之中,這影響了語義關(guān)系發(fā)現(xiàn)的效果。在進一步研究中,擬對從文本中獲得的語義關(guān)系與TCMLS現(xiàn)有的語義關(guān)系進行比較,補充完善TCMLS現(xiàn)有的語義關(guān)系網(wǎng)絡。擬對從文本中獲得的語義關(guān)系按概念的語義類型進行歸納,得到語義類型間的語義關(guān)系,融合成一個基于文獻的頂層語義網(wǎng)絡。對TCMLS的頂層語義網(wǎng)絡和從文獻中實際抽取的語義網(wǎng)絡進行比較,對TCMLS現(xiàn)有的頂層語義網(wǎng)絡進行補充和修正,從而指導中醫(yī)藥學語言系統(tǒng)實際發(fā)展和應用。
[1]賈李蓉,朱玲,董燕,等.中醫(yī)藥學語言系統(tǒng)評價體系的研究與建立[J].中國數(shù)字醫(yī)學,2012,7(10):13-16.
[2]S. Mukherjea, B. Bamba, P.Kankar. Information Retrieval and Knowledge Discovery Utilizing a BioMedical Patent Semantic Web[J]. IEEE Transactions on Knowledge and Data Engineering,2005,17(8):1099-1110.
[3]Tao Jiang, Ah-Hwee Tan, Ke Wang. Mining Generalized Associations of Semantic Relations from Textual Web Content[J]. IEEE Transactions on Knowledge and Data Engineering,2007,19(2):164-179.
[4]Andreas Hotho, Andreas Nürnberger, Gerhard Paass. A Brief Survey of Text Mining[J]. In LDV Forum-GLDV Journal for Computational Linguistics and Language Technology,2005,20(1):19-62.
Research on the Method of Discovering Semantic Relations from Traditional Chinese Medicine Literature
Yu Tong, Jia Lirong, Zhang Zhulv, Zhu Ling
(Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)
In traditional Chinese medicine (TCM) domain, the method for literature-based semantic relation discovery can effectively enrich the content of TCM knowledge base, improve the efficiency of knowledge acquisition, and perfect the performance of knowledge retrieval. This research explored the method of literature-based semantic relation discovery based on Traditional Chinese Medicine Language System (TCMLS). The authors retrieved TCM literature and discovered semantic relations based on frequent co-occurrence of words, and predicted the type of semantic relations based on TCMLS. The discovered semantic relations were displayed for evaluation conducted by experts in this domain. This method provides a novel technical approach for TCM experts to discover semantic relations from TCM literature.
semantic relation; Traditional Chinese Medicine Language System; knowledge base
10.3969/j.issn.2095-5707.2014.06.001
中國博士后科學基金(2012M520559);中國中醫(yī)科學院基本科研業(yè)務費自主選題(ZZ070309,ZZ070311)
于彤,助理研究員,研究方向:中醫(yī)藥信息學。E-mail: yutongoracle@hotmail.com
(2014-04-08,編輯:張華敏)