劉瀏 王東波 黃水清 蘇新寧



摘 ? 要:實體知識的自動識別是古文智能處理的重要內容,也是古文數字人文研究的技術支撐。以實體知識為基礎的數字人文研究若不考慮古籍中普遍存在的實體歧義,將難以得到準確可靠的數據和結論。文章以《春秋經傳引得》為文本語料,考察了語料中同名異指和異名同指兩大類人名實體歧義,根據古文實體歧義消解的特殊性,提出兩類歧義的消解方法和思路。研究基于實體語境和時間知識,構建了消歧規則并以先秦古漢語為實例進行了驗證。上述方法在其他古漢語語料中的適用性值得進一步探究,基于消歧后的語料,文章呈現了先秦人物的基本全貌,表明了本研究的價值所在。
關鍵詞:古文信息處理;實體歧義;古文智能處理;古文數字人文
中圖分類號:TP393.1 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2020089
Abstract In Ancient Chinese Information Processing, the extraction of entity knowledge is one of the most important studies. Study of digital humanities with entity knowledge should concern more about entity ambiguity for more precise results. The article presents two rule-based methods on entity disambiguation with the ancient Chinese corpus. Two types of entity ambiguity were deeply discussed and two methods with examples of entities in Chunqiu Jingzhuan Yinde were presented. Further research on more ancient Chinese corpus would have shown better understanding of the methods presented above. A visualization study with the data of disambiguated entities was carried out at last and thus showed the value of this study.
Key words ancient Chinese information processing; entity ambiguity; intelligent processing; ancient Chinese digital humanities
1 ? 引言
近年來,得益于古籍數字化資源規模的迅速增長和古文智能處理技術的飛速進步,以人名、地名為主的實體識別研究得到了較為廣泛的關注和研究,識別的技術和方法也得到了不斷的改進,識別效果逐漸提升。實體識別技術的進步,使得面向大規模古籍文本的實體知識自動獲取越發高效[1],以實體知識為基礎的數字人文研究也因此得以逐步開展[2-3],且成為古籍文本數字人文中值得期待的發展方向[4]。
然而,圍繞實體展開的古文智能處理及以此為基礎的古文數字人文研究,為簡化實體知識的獲取難度,大多以實體詞語代替實體知識,忽略了古籍中大量存在的實體指稱歧義,尤其是人名指稱歧義,因而難以保證研究結論的準確。實體歧義的消解,尤其是大規模文本中實體歧義的自動消解,是古文數字人文研究深入開展前無法回避的話題,這也正是本文研究的意義和目的所在。
本文主要分為三個部分,首先介紹了兩類典型的實體歧義,分析了古漢語實體歧義的特殊性,探討了古漢語實體歧義消解的方法;其次以先秦時期古漢語實體歧義為例,在《春秋經傳引得》語料的基礎上,結合具體的實體歧義實例,分析了基于規則的實體消歧的可行性;最后使用上述方法完成了《春秋經傳引得》中實體歧義的消解,并在該消歧語料的基礎上,從計量統計、影響力分析和數據可視化的角度展現了先秦人物的基本全貌。
2 ? 研究背景和語料介紹
2.1 ? ?實體歧義相關研究
實體歧義可以定義為“一個命名實體指稱項可對應到多個命名實體概念”,古籍中的實體歧義以人名歧義為主,如《左傳》中的實體詞“吳王”,可能是指“夫差”、也可能是指“諸樊”。歧義實體詞的指稱一般因語境而不同,實體消歧需要做的就是判斷在某個語境下,有歧義的實體詞語具體指稱的實體概念。雖然古文實體消歧目前還未得到重視,但在現代漢語和英語等文本語境下,相關研究從實體識別研究提出伊始便已得到了充分的關注[5]。
實體消歧方法最先以構建規則為主,實體的上下文和外部知識得到了充分的嘗試[6-7],相關方法構建的規則受限于特定文本領域,可擴展性不高,但總體而言消歧效果不錯;在此之后興起的機器學習方法主要關注開放領域的實體消歧,早期的方法以聚類為主,將文本表示為向量空間,并根據文本向量的相似度實現歧義的消解[8]。不同聚類模型都得到了深入探究,各類特征如二元詞語[9]、社會化網絡[10]、外部知識[11]等也得到了充分的嘗試。隨著機器學習方法的不斷深入,實體消歧轉向一種將實體識別和實體消歧同時包含在內的研究新框架,也就是實體鏈接,該方法先找出文本中表示實體的指稱,再與特定知識源中的實體概念相鏈接,以此達到實體消歧目的[12],其中維基百科等百科知識是最常見的知識源。對于實體鏈接來說,選取知識源中的候選實體是任務的關鍵,一般通過實體指稱和候選實體之間的相似度來決定候選實體排名,而在相似度計算過程中,特征的選取就顯得尤為重要[13]。近年來,隨著深度學習的不斷發展,實體鏈接問題得到了進一步的推進,并與語義分析、實體關系抽取、跨語言實體消歧研究等問題聯系密切。
實體消歧研究仍然是自然語言處理中十分火熱的研究問題,基于實體鏈接的消歧方法也在不斷提高消歧的效果,但目前實體消歧極少有面向古漢語的研究,這一方面是由于沒有適當規模的語料和知識源作為支撐,另一方面古漢語實體的歧義較之于現代漢語要復雜的多,這也加大了消歧的難度。
2.2 ? ?語料選取和處理
本研究語料來源于《春秋經傳引得》,“春秋經傳”是《春秋》《春秋左氏傳》《春秋谷梁傳》及《春秋公羊傳》四部典籍的合稱,該資源在前期研究工作中完成了數字化工作,全文錄入共計320030字(含標點)。作為《漢學引得叢刊》的特刊,《春秋經傳引得》包含了正文部分以及引得(索引)部分,其中引得部分包括引得詞表以及詞表對應的全文語境。詞表進行了細致的人工消歧,對于多義詞,詞表中設立多個同形詞頭,并且這些詞頭下的語境互不交叉。對于人名實體來說,相關消歧做得更為細致,所有同名的實體,不僅詞頭和語境做了準確的區分,詞頭本身還添加了更為詳細的人名參考信息,用以區分這些詞頭,詳見下例:
例1: 宋公(參:宋莊公)
故遂相宋公
宋人者宋公也
……
宋公(參:宋共公)
宋公使公孫壽來納幣
公會晉侯齊侯宋公衞侯曹伯伐鄭
……
宋襄公(參:大子慈父,襄公,宋子,宋公,宋公慈父)
宋襄公卽位
宋襄公問焉
……
宋宣公
宋宣公可謂知人矣
……
本研究以此為基礎,對詞表中的人名實體進行人工識別,從而得到了“春秋經傳”中所有人名及其相關語境,并構建了語料庫。與語境的關聯以及引得本身的專業背景,使其成為研究古漢語實體歧義的優秀資源,其在實體歧義標注中的專業性,保證了本研究實體歧義研究的可靠,避免了古漢語專業問題的爭議。另一方面,實體歧義的研究須以實體識別為基礎,而古漢語實體識別研究多以“春秋”為對象,因此本研究以“春秋經傳”為語料資源,進行古漢語實體歧義的探究,這也是對已有古漢語實體研究的有效補充。
3 ? 古漢語中的實體歧義
3.1 ? ?兩類實體歧義
實體歧義可以看作實體詞語和實體概念之間存在的多對一或者一對多的關系,根據關系的不同,可以分為同名異指歧義和異名同指歧義。同名異指歧義是一種一對多的關系,即一個實體詞語可以指稱多個實體;而異名同指歧義是多對一的關系,即多個實體詞語可以指向同一個實體。
以上兩類實體歧義在古漢語中均十分常見,且往往相互關聯,構成十分復雜的實體歧義網絡(見圖1)。實體歧義的大量存在及復雜關聯,表明了古漢語實體歧義研究的必要性,以及實體消歧的困難性。在兩類實體歧義中,同名異指歧義在現代漢語及英語等自然語言處理中得到的關注明顯更多,這源于其相對更廣泛的應用場景和較低的解決難度;但在古文尤其是先秦古文中,由于名詞性實體的顯著地位(如“晉侯”“宋襄公”等包含爵位或尊稱的實體名稱),異名同指歧義的重要性同樣不容忽視。對于面向實體知識的古文數字人文而言,同時消解同名異指和異名同指兩類歧義,是順利開展研究并得到準確結論的重要前提。
3.2 ? ?古漢語實體消歧的特殊性
實體消歧是古漢語實體歧義研究的重要目標,不同于現代漢語或英語,古漢語文本中的實體消歧問題具有較強的特殊性,這種特殊性體現在歧義實體所在語料和歧義實體本身。了解這一特殊性,是開展古漢語實體消歧研究的重要前提。
(1)固定的語料。古文信息處理和古文數字人文研究主要以傳世的古籍文本為語料來源,而對于特定的研究問題和對象而言,可以選擇的文本語料總體較為固定,以先秦實體研究為例,合適的語料基本以《春秋》及三傳為主。有限的語料帶來了相對固定的實體歧義,古漢語實體消歧研究因而不可能、也不需要像現代漢語那樣關注開放領域問題。在這樣的前提下,如何充分利用前人的研究成果,獲取語料外部的實體知識,構建基于規則的消歧方法,以獲取更準確的消歧結果,成為古漢語實體消歧中最實際可行的研究思路。
(2)較小的語料規模。與現代漢語相關研究相比,研究古漢語實體消歧時可獲取的語料規模較小,這使得現代漢語實體消歧中常用的機器學習方法很難發揮出理想的效果。如以《春秋經傳引得》為例,該書包含了《春秋》及三傳4部古籍的內容,對于春秋時期實體歧義研究來說,該語料就內容而言已經足夠充分,但全文也僅有32萬余字,若要使用現代漢語實體消歧中常用的文本聚類或實體鏈接方法,這樣的語料規模遠遠不夠。從該角度來看,機器學習方法并不適用于古漢語實體消歧研究。
(3)較多的歧義數量。對于現代漢語實體消歧來說,待消解的同名異指實體一般只包含2個歧義;而在古漢語語料中,實體歧義的情況要更為復雜,名詞性實體的存在帶來了大量的同名異指實體,這類實體包含的歧義數量也很多,在《春秋經傳引得》中,一個實體詞語最多可能包含15種同名異指歧義(見表1)。另一方面,正如本文所述,大量的歧義實體對應的卻是小規模的語料,這導致語料中大多數歧義實體對應的只有一兩個句子。在面對如此復雜的實體歧義問題時,僅利用一兩個句子的內容而不借助于外部的知識,顯然難以獲得準確的實體消歧結果。如何有效地利用外部的知識來減少歧義的復雜性,是解決古漢語實體消歧問題的關鍵。
3.3 ? ?古漢語實體消歧方法探討
正如本文所述,由于語料固定、語料規模小、歧義數量多等特點,機器學習方法用于古漢語實體消歧的難度相當高,利用外部實體知識構建規則的方法則更為適合。
(1)古漢語實體消歧的對象。根據古漢語實體歧義的特殊性,在進行消歧之前,還可以從另一個角度將實體歧義分為兩類,一類實體的歧義只存在于不相關的典籍之間,如“孟子”既可以指稱魯惠公的原配夫人,也可以指稱儒家思想家孟軻;但“孟子”在《春秋》中指稱前者,在《孟子》中指稱后者,該實體詞在單部典籍的內部不存在歧義,這類實體詞的歧義消解通過限定典籍的范圍就可以完成。
另一類實體詞語的歧義存在于單部典籍內部,這些實體詞的歧義消解一般需要上下文語境的幫助。如以實體詞語“晉侯”為例,該詞可以指稱“晉成公”“晉文公”和“晉襄公”等,在語境“晉侯伐鄭及郔”中“晉侯”表示“晉成公”;在語境“晉侯潛會秦伯于王城”中“晉侯”表示“晉文公”,“晉侯”歧義的消解與其出現的上下文語境密切相關。
(2)實體消歧的思路。在以上兩類實體歧義消解中,本文主要關注單部典籍內部的實體消歧,這類實體歧義消解一般圍繞和利用實體詞所在的上下文語境,主要思路是將實體消歧轉化為對實體詞語所在語境的消歧。據此,同名異指歧義消解就是將出現歧義實體詞的語境劃分為多個類別,每個類別指稱一個實體;而異名同指歧義消解就是將包含多個實體詞語的語境合并為一個類別,使得它們指稱同一個實體(見表2、表3)。上述思路可以通過構建規則的方式來實現,結合實體上下文語境特點,借助實體外部知識可以有效地實現實體歧義的自動消解。
對于同名異指歧義來說,由于古籍中同一時間段一般不會出現同名現象,因此可以借助實體語境的時間知識來消解歧義。如以“晉侯”為例,根據《春秋》,“晉景公”在位于魯宣公到魯成公時期,“晉昭公”在位于魯昭公時期,“晉獻公”在位于魯莊公到魯僖公時期,“晉成公”在位于魯宣公時期,對于實體詞“晉侯”而言,其指稱的不同實體存在于不同的時間段中,且時間段相互之間不交叉。因此,可以直接通過標注“晉侯”所在語境的時間,根據上述時間段劃分語境類別,實現實體詞“晉侯”的歧義消解。同樣的情況在《春秋經傳引得》來說十分常見,不大的語料規模,以史實為主文本內容和以名詞性指稱詞為主的歧義實體,使得這種實體歧義消解方法十分可靠。
異名同指歧義依然可以通過語境進行消解,方法以同名異指歧義的消解為基礎,且需要借助實體百科知識。異名同指歧義的消解總體可以分為兩個部分,以表3中實體詞“晉文公”為例,首先需要借助實體百科知識得到“重耳”“晉侯”與“晉文公”之間的對應關系,并以此為基礎獲取“晉文公”的候選實體詞及相應語境;接著,對于“晉侯”這類本身具有同名異指歧義的實體詞,其相關候選語境還應該再進行消岐,消岐方法與上文方法相同。異名同指歧義消解時,一般選取最常見和通用的實體詞作為消歧后的實體詞,如“晉文公”“鄭莊公”等,選取標準可以參考百科知識。
4 ? 古漢語同名異指消歧規則初探
本文簡單闡述了古漢語實體歧義的特點以及該特點下最合適的實體消歧方法,并提出了使用實體語境時間知識消解同名異指歧義的基本思路。本研究將以先秦古漢語實體歧義為例,通過細化和制定相關規則,結合典型實例,來驗證該方法在消解同名異指歧義時的可行性和有效性。研究以《春秋經傳引得》為語料,該語料包含了4695個人名實體詞,共表示了1421個人物,正如本文所述,對于研究先秦古漢語實體歧義來說,該語料已足夠充分。
4.1 ? ?《春秋》的時間表示
《春秋》使用魯國國君的謚號加年份來表示年號,這些年號與公元紀年相互對應(見表4),據此,可以將《春秋經傳引得》所有語境發生的時間以公元紀年的方式來表示,這樣更有利于后續消歧研究中進行的時間比較,詳見下例:
例2:{桓公十二年}
1 ?十有二年,春,正月。
2 ?夏,六月,壬寅,公會紀侯莒子盟于歐蛇。
左 ?十二年,夏,盟于曲池,平杞莒也。
4.2 ? ?語境的時間標注
完成語料中年號和公元紀年的轉換之后,自動查找并標注《春秋經傳引得》中每一個實體詞頭下,所有語境在原文中對應的時間,完成標注后的實體語境見例3所示:
例3:晉侯(參:晉襄公)
晉侯敗狄于箕 前627年
晉侯伐衞 ? 前632年
晉侯朝王於溫 前626年
公孫敖會晉侯于戚 ? 前626年
晉侯疆戚田 ?前626年
晉侯及秦師戰于彭衙 ?前625年
晉侯禦之 ? 前625年
公及晉侯盟 ?前614年
4.3 ? ?基于時間規則的兩類同名異指歧義消解
標注了語境的時間之后,可以得到語境所屬實體詞的時間區間,如“晉侯(參:晉襄公)”的時間區間就是[前614年:前632年]。使用時間規則進行同名異指歧義消解需要滿足一個要求,即同名實體詞之間的時間區間不能交叉。本文以《春秋經傳引得》為語料,該語料中的同名異指歧義實體均滿足這一要求。根據實體歧義的數量以及實體語境的規模,同名實體不同指稱下的實體時間區間有可能間隔較大,也有可能基本連續。對于前者,可以直接利用時間間隔進行歧義消解;對于后者,需要借助額外的時間知識幫助歧義消解。
(1)基于時間間隔的歧義消解。當實體歧義數量較少或實體語境規模較小時,歧義實體的時間區間間隔較為明顯,利用這些間隔實現語境的分類,可以迅速實現同名異指歧義的消解。本文將以“趙孟”為例,詳細描述這種方法。“趙孟”在《春秋》中有四個歧義指稱,分別為“趙武”“趙襄子”“趙鞅”和“趙盾”,對“趙孟”所屬的語境的時間進行標注之后,可以統計出每一年出現相關語境的次數(見表5),統計可知該實體詞出現的年份并不連續,有時甚至跨度很大(見圖2),如“趙孟”所屬語境很鮮明地分為四個部分,即四個時間區間,這個四個時間區間也就對應了 “趙孟”所指向的四個不同的實體。語境出現次數隨時間分布類似于“趙孟”的同名異指實體詞,可以通過時間區間的間隔實現語境劃分,從而實現歧義消解。
(2)基于時間知識的歧義消解。當然實體的歧義數量較多或實體相關語境數量較多時,很難從語境的時間分布中找出明顯的時間間隔,這類實體歧義的消解還需要借助額外的時間知識。如以“晉侯”為例,該實體詞在《春秋經傳引得》中可以指向15個實體,從其出現的時間分布(見圖3),可見由于歧義數量相對比較多,難以在語境時間分布上準確區分出時間間隔,此時想要根據時間區間和時間間隔進行準確的同名異指歧義消解十分困難。這種情況對于“鄭伯”“齊侯”等實體詞來說同樣如此(見圖4、圖5)。
對于這一類語境時間分布較為復雜的同名異指實體詞來說,需要借助外部知識來劃分時間區間。根據魯國國君年號的轉換方式,可以同樣對“晉侯”“鄭伯”和“齊侯”等進行在位年份的轉換。如以“鄭伯”為例,其對應了14個實體的在位年份(見表6),根據表6的時間區間可以劃分得到“鄭伯”指向的14個實體的所屬語境,從而完成對“鄭伯”的歧義消解。該方法同樣適用于“晉侯”“齊侯”這類表示諸侯的實體詞,對于其他人名實體詞,也可以通過類似的百科知識構建語境年份對照表,從而實現歧義消解。
綜上可以看出,對于同名異指歧義實體來說,通過語境的時間間隔或實體相關時間知識構建規則,可以有效地消解歧義。在《春秋》這類編年體古籍中,語境時間的獲取較為容易;而對于其他類型的古籍來說,可以結合機器學習的方法自動識別實體語境中的時間實體,并將之轉換為可用的語境時間。實體相關的時間知識,可以從《漢語大詞典》《春秋左傳詞典》為主的詞典或百科中自動獲取。基于規則的方法可以保證歧義消解的準確性,也可以為異名同指歧義的消解提供可靠的知識來源。
5 ? 基于消歧實體的春秋人物概貌
消歧完成后得到的實體知識更加準確,以此為基礎進行的實體知識挖掘和數字人文研究也將得到更可靠的結果。本研究對《春秋經傳引得》中所有人名實體進行了歧義消解,并對消歧后的實體進行了計量統計、影響力分析和數據可視化呈現,從整體上描繪出春秋時期的人物概貌。
5.1 ? ?春秋人物異名解析
《春秋經傳引得》中包含了4695個人名實體詞,共表示了1421個人物,其中875個人物有兩個以上的名稱,占總數的61.58%,可見異名同指現象在春秋時期十分普遍。有超過188個(近30%)的人物有三個以上名稱,超過87個人物有四個以上名稱,這表明了該時期異名同指現象的普遍和復雜。異名同指現象實際上反映了春秋時期人物的成長和經歷,如異名數目排第一的“士會”還有“士季、隨會、隨季、范子、范會、武季、隨武子、范武子、會”等名稱。其中“士會”表明了他父親的“氏”和他自己的“名”;“隨會、范會”是由于他被封于“隨”和“范”之后以封地為氏;“士季、隨季”表明了他在家族中的排行(四子);“武季、隨武子、范武子”則是根據“謚號”對他的尊稱。通過對“士會”異名的分析,可以發現他豐富的人生經歷和較高的社會地位。《春秋》中異名數量較多的人物大多如“士會”一樣有自己的封地和相應的謚號,在當時具有較高的社會影響力,人物異名統計相關數據也支持這一論斷(異名數量排名靠前的人物大多是大諸侯和地位顯赫的貴族)。因此從一定程度上可以認為,人物的異名數量越多,其人生經歷越豐富,社會地位越高(異名實體分布的相關數據見圖6、表7)。
5.2 ? ?春秋人物影響力分析
人物的異名數量可以看出其社會地位,但并不能準確反映他對時代的影響力。衡量一個人物影響力的高低,可以參考文獻計量的思路,通過其在語料中出現的次數來計量,而這樣的計量必須基于消歧后的統計數據才能保證準確。根據實體消歧后的語料,可以統計得到《春秋經傳引得》中人物出現次數的分布數據(見表8),將之與消歧前人物出現次數的分布數據(見表9)相比較,可以發現實體歧義消解對數字人文研究的重要影響。
對比分析表8和表9可以發現,絕大多數的人物排名出現了較大的變化,尤其是“晉文公、齊桓公”等消歧前排名并不靠前的人物,在歧義消解之后排名躍居前列,而這恰與他們在“春秋”時代的影響力相符,因此歧義的消解可以使得通過人物出現次數獲得的影響力分析數據更加準確。具體來看,公孫僑(也就是子產)始終是出現次數最多的人名實體,無愧于其“春秋第一人”的稱號;在眾多諸侯中,“晉文公”消歧后的排名提高了很多,達到第2名的水平,符合其“春秋五霸”地位,“齊桓公”也同樣如此,而齊國的三位君主排列3至5名,展現了他們強大的實力和對魯國的影響力,除此之外,著名的“鄭莊公”也高居第11位,無愧其“春秋三小霸之首”的地位。除諸侯之外,其余的實體也都是“春秋”中重要的人物,其中“趙氏”非常顯著,晉國大夫趙盾、其孫“趙氏孤兒”趙武、趙武之孫趙鞅均排名靠前,而與趙武關系密切的韓起的排名也很高,表明了“韓氏”在晉國的顯赫,“趙氏”“韓氏”的重要地位也預示著春秋末期“三家分晉”的必然性。
根據消歧后人物出現次數統計數據,可以通過詞云的形式進行可視化的數據展示,以對“春秋”中的人物有一個更為直觀的了解(見圖7),從圖中可以看出實體的字號與該實體的出現次數有關,字號越大說明該人名實體出現次數越多,排名前200的人名實體均包含在該圖中,該圖可以看作“春秋”人物的一個縮影。
6 ? 結論
對于以實體知識為基礎的數字人文研究來說,知識的準確與否決定了相關研究結論是否可靠,本文以《春秋》中的人名歧義為例,一方面發現了歧義存在的普遍性和歧義消解的必要性,另一方面也驗證了基于規則的方法在歧義消解問題中的可行性。本文通過人物異名數來考察其人生經歷和社會地位,說明了消歧后的實體知識可以為古文數字人文研究提供新的研究視角;而通過對出現次數排名靠前人物進行的統計分析,本文也驗證了消歧后的實體知識可以帶來更加準確的分析結果。通過獲取更大規模的消歧實體語料和相應的實體知識,可以期待更加豐富同時更加可靠的古文數字人文研究。
參考文獻:
[1] ?王東波,高瑞卿,沈思,等.面向先秦典籍的歷史事件基本實體構件自動識別研究[J].國家圖書館學刊,2018,27(1):65-77.
[2] ?范佳.“數字人文”內涵與古籍數字化的深度開發[J].圖書館學研究,2013(3):29-32.
[3] ?歐陽劍.大規模古籍文本在中國史定量研究中的應用探索[J].大學圖書館學報,2016,34(3):5-15.
[4] ?歐陽劍.面向數字人文研究的大規模古籍文本可視化分析與挖掘[J].中國圖書館學報,2016,42(2):66-80.
[5] ?Wacholder N,Ravin Y,Choi M.Disambiguation of proper names in text[C].In Association for Computational Linguistics,1997:202-208.
[6] ?Ravin Y,Kazi Z.Is Hillary Rodham Clinton the president?:disambiguating names across documents[C].In Association for Computational Linguistics,1999:9-16.
[7] ?Smith D A,Crane G.Disambiguating geographic names in a historical digital library[C].In Springer,2001:127-136.
[8] ?Bagga A,Baldwin B.Entity-based cross-document coreferencing using the vector space model[C].In Association for Computational Linguistics,1998:79-85.
[9] ?Pedersen T,Purandare A,Kulkarni A.Name discrimination by clustering similar contexts[C].In Springer,2005:226-237.
[10] ?Bekkerman R,McCallum A.Disambiguating web appearances of people in a social network[C].In ACM,2005:463-470.
[11] ?Han X,Zhao J.Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C].In Association for Computational Linguistics,2010:50-59.
[12] ?Bikel D M,Castelli V,Florian R,et al.Entity Linking and Slot Filling through Statistical Processing and Inference Rules[C].TAC,2009.
[13] ?線巖團,余正濤,洪旭東,等.基于特征加權重疊度的中文實體協同消歧方法[J].中文信息學報,2017,31(2):36-41.
作者簡介:劉瀏,男,南京農業大學信息管理學院講師;王東波,男,南京農業大學信息管理學院教授;黃水清,男,南京農業大學信息管理學院教授;蘇新寧,男,南京大學信息管理學院教授。