向 宇 郭云龍 徐 瀟 曾維剛 李 莉
(西南大學計算機與信息科學學院 重慶 400715)
?
多策略中文微博實體詞消歧及實體鏈接
向宇郭云龍徐瀟曾維剛李莉*
(西南大學計算機與信息科學學院重慶 400715)
在社交網絡迅猛發展的今天,如何對有歧義的微博實體進行消歧和如何將微博實體連接到知識庫已成為當今研究熱點。對實體消歧和實體鏈接提出了多種策略方案。首先利用ICTCLAS對微博文本進行分詞處理,利用百度百科、實體專家庫對實體進行規范化處理。然后利用由爬蟲爬取的百度百科信息、微博數據、網絡詞語構建了消歧文本數據庫,再結合TF-IDF算法和Fast-Newman聚類算法對實體進行消歧和鏈接。使用第二屆自然語言處理與中文計算會議(NLP&CC 2013)中的中文微博實體鏈接任務給的數據進行測試,測評中準確率為84.99%,繼續改進模型后準確率達91.40%。
中文微博 實體消歧TF-IDFFast-Newman聚類
微博作為新生的社交網絡平臺在快速發展,其規模、用戶人數及產生的數據量急劇增長。據2015年2月3日中國互聯網絡信息中心發布的《第35次中國互聯網絡發展狀況統計報告》,截至2014年12月,我國網民達6.49億,互聯網普及率為47.9%。其中微博用戶達2.49億。微博己成為網民頻繁使用的社交主流應用,龐大的用戶規模鞏固其網絡輿論傳播的中心地位。微博的內容簡短,每條微博內容不超過140個字符,使得用戶頻繁發表。但微博巨大的信息量使用戶很難在短時間內準確獲取微博中命名實體的含義,又因微博中充斥大量網絡用語、口語、縮略語,實體名稱往往具有歧義性,給識別帶來了很大挑戰。中文微博實體與知識庫條目的鏈接,能夠有效地解決上述實體消歧的問題。將微博文本中的實體與知識庫中的實體加以鏈接,有助于利用社交媒體內容進行知識庫的構建與擴展后更好的呈現給用戶,方便用戶理解與閱讀。
中文微博實體詞消歧:是專門針對中文微博文本中的實體在存在多個義項情況下,辨別實體指示的是哪個義項。比如微博“熱火27連勝!熱火勝猛龍、勝山貓、勝火箭……熱火各種的勝,并成為了NBA第二長連勝。”中的實體“猛龍”就是一個存在多義項的實體,“猛龍”既可以是多倫多猛龍隊,又是一部電影的名字,還是時尚品牌皮具名字。微博實體消歧義就是辨別出文本中的“猛龍”指的是多倫多猛龍隊。
中文微博實體鏈接:指的是給出中文微博中的實體,在指定的知識庫中匹配與之相符的目標條目,也就是返回知識庫中目標條目的主鍵或返回NIL。同樣以上述微博為例子,若給定知識庫中有條目為“多倫多猛龍隊”且此條目的主鍵為KB123456,鏈接任務要求輸出條目的主鍵KB123456。若給定知識庫中不存在“多倫多猛龍隊”這個條目,直接輸出NIL。
本文進行了如下工作:
(1) 提出并構建了多策略的命名實體消歧和鏈接流程。
(2) 構建地名專家知識庫系統、人名專家知識庫系統。
(3) 對待測實體做了有效的預處理和優化了數據庫。
(4) 提出了結合TF-IDF算法和Fast-Newman聚類算法對命名實體消歧,此為重點工作。
關于命名實體識別與消歧,國內已經有了很多相關的研究。
有學者采用基于規則匹配或概率統計進行研究:王寧等采用建立規則的方法對中文金融信息中公司名稱的組成方式與特征進行了深入的分析[1]。張小衡等就中文機構名稱尤其是中文高校名稱采用基于規則的方式進行實體識別[2]。肖計劃就地名和地名語料庫采用了概率統計的方法來進行識別與匹配[3]。
有的學者采用基于最大熵模型和基于CRF(條件隨機場)來研究命名實體:YiFeng Lin等人在生物醫學領域利用基于最大熵模型進行實體識別[4]。張祝玉等研究了使用CRF進行實體識別的有效性[5]。何炎祥等采用了CRF和規則相結合的方法對地名實體進行識別[6]。劉凱就中醫病歷中的實體采用了CRF模型[7]。
有的學者采用HMM(隱馬爾可夫模型)來研究命名實體:王丹等在利用HMM以詞性做觀察值避行初步實體識別之后,構建拼音同指關系庫來識別潛在實體[8]。俞鴻魁等則提出了一種基于層疊HMM的中文實體一體化識別方法[9]。樂娟等對京劇機構實體采用了結合Viterbi 算法和規則樹HMM[10]。李幸等提出了一種層次化句法分析方法,統計提取了關于標點符號的語法規則以及相應的分布信息,從而降低了實體消歧的難度[11]。
上述學者對命名實體研究都有不同的研究對象,但是很少學者對微博中命名實體進行研究,所以就中文微博這種不超過140個字短文本中的實體消歧和實體鏈接進行專題研究。受到王寧等[1]和張小衡等[2]在命名實體研究中建立規則的啟發,建立了正則表達式規則、采用百度百科跳轉、通過人名地名專家庫映射對待測實體進行預處理。受到王丹等[8]在命名實體識別中關注詞性的做法的啟發,通過ICTCLAS對待測實體所在微博文本進行分詞處理,只保留名詞。針對命名實體識別,本文單獨提出結合了TF-IDF算法和Fast-Newman聚類算法的實體消歧算法。
針對中文微博中實體消歧和鏈接,工作整體流程如圖1所示。首先待測實體進入這個系統后,要通過策略1、策略2、策略4,最后得到最終的規范名稱組。然后進入策略5,當遇到待測實體有多個義項時再采取策略6和策略7,最后返回待測實體在知識庫中主鍵或NIL。

圖1 多策略中文微博實體消歧和鏈接知識庫整體流程
2.1數據來源
涉及到的數據分為兩類,一類是待測實體和對應微博、知識庫,另一類是百度百科文本、新浪微博文本。
待測實體和知識庫主要來自NLP&&CC2013官方測評數據中的待測實體和對應微博、知識庫,待測實體和對應的微博都來自新浪微博。前者一共包括1274個待測實體,而在實際測評中主辦方只針對前826個待測實體進行測試。而知識庫中一共包含了44 492個實體。但是這些待測實體往往存在許多噪聲,另外知識庫中也有不正確的數據,具體情況如表1所示。百度百科文本和新浪微博文本是用來對微博中的實體進行消歧的,都是通過網頁爬蟲獲取的,以txt文件形式存放在本地。

表1 中文微博文本知識庫文本噪聲類型、說明及舉例
2.2策略1:正則表達式處理
從CCF測評數據中得到的實體的形式是相當混亂的,如表1所示,所以對給出的待測實體進行規范化處理就很有必要,受到王寧等[1]和張小衡等[2]在命名實體研究中建立規則的啟發,通過正則表達式去掉實體中的標點符號以及將外國人名中間的符號規范為·(例如書名號、感嘆號等,例如“<霸王別姬>”規范為“霸王別姬”和“本·拉登”規范為“本·拉登”)。
2.3策略2:百度百科搜索跳轉
在策略1完成之后,利用百度百科搜索跳轉,爬去百度百科不同義項的百科頁面的title以獲取規范名稱組。例如“柯南”這一實體,柯南在百度百科中有5個義項,分別獲取這5個義項的title然后取重后得到“‘柯南·奧布萊恩’、‘名偵探柯南’、‘阿瑟·柯南·道爾’、‘柯南’、‘江戶川柯南’”這一組規范名稱組,同時英文實體轉化為中文實體也是在這一步中完成的(例如“eagles”規范為老鷹樂隊)。具體情況如表2所示。

表2 百度百科跳轉對待測實體預處理舉例
2.4策略3:分詞及去停用詞處理
采用了中科院張華平博士開發的漢語詞法分析系統ICTCLAS對文本數據進行分詞及詞性標注[12]。之所以使用ICTCLAS分詞工具對微博文本進行分詞處理,是因為ICTCLAS分詞效果好和ICTCLAS具有詞性標注功能。然后只采用具有實際意義的名詞作為保留詞,其他如形容詞、副詞、介詞等詞語均被視為停用詞而去掉。
2.5策略4:人名和地名實體專家庫的映射
在實體識別中經常遇到人名實體處理、地名實體處理等問題,這就造成了數據嚴重稀疏、知識庫無法檢索等問題。吳友政引入了專家知識來規范實體[13],本文采用此方法構建了人名實體專家庫、地名實體專家庫,從而達到了提高檢索命中率、消歧系統效率。
人名實體專家庫:主要包含NBA明星綽號、足球明星綽號等,如果當前實體是某個人的綽號,則人名實體專家庫會規范化實體,例如“大鯊魚”規范為“沙奎爾·奧尼爾”、“詹皇帝”規范為“勒布朗·詹姆斯”。
地名實體專家庫:包括了中國大陸直轄市、自治區、特區、省、市、縣。專家庫會將地名實體規范為帶地名后綴和不帶地名后綴的兩個實體,例如實體“泰順縣”會規范為“泰順縣”和“泰順”,實體“紅河谷景區”會規范為“紅河谷景區”和“紅河谷”。這里地名后綴為“省、開發區、風景區”等。
2.6策略5:在優化后的知識庫選擇性查找
知識庫中有不少的噪音,如表1所示的“雍正王朝”錯分為皇帝類別,還出現了不同主鍵的條目對應同一個命名實體的情況。所以對知識庫做了優化,將知識庫中分類錯誤的條目劃分到正確類別以及去除重復的條目。
把規范名稱組拿到優化后的知識庫中做選擇性查找,這時候有三種情況:
① 知識庫中不存在這個實體,那么直接返回空(NIL);
② 知識庫中這個實體只有1個義項,那么直接輸出實體在知識庫中的主健;
③ 知識庫中這個實體有多個義項,那么此時要利用策略2中得到的待測實體對應的名詞詞組進入策略6(TF-IDF算法消歧)和策略7(Fast-Newman聚類)中對實體進行消歧,最后最符合待測實體的義項在知識庫中的主健。
本小節包括2個消歧算法。分別是策略6結合百度百科的TF-IDF算法和策略7結合新浪微博的Fast-Newman聚類。因為NLP&&CC2013官方給定的知識庫是由百度百科構建,所以采用了結合百度百科的TF-IDF算法進行基本消歧。但是由于知識庫中實體文本的過于專一性,又因為待測實體都位于新浪微博中,所以采用了結合新浪微博的Fast-Newman聚類用來形成詞語簇進行擴展消歧。這2個算法都是用于實體鏈接知識庫遇到多義項時進行消歧的,使得待測實體和知識庫中義項實體產生距離一個介于0到1之間的“距離”。然后兩者相加,產生一個介于0到2之間的“距離”,這個“距離”越靠近2則越說明該義項實體越接近待測實體。
3.1策略6:基于TF-IDF實體義項消歧算法
結合百度百科的TF-IDF算法進行消歧的數據流如圖2所示。首先使用待測命名實體作為輸入數據,先用規范化的命名實體去百度百科中搜索,從百度百科中返回不同的義項頁面。但是進行消歧并不需所有義項頁面,只需要待測命名實體在百度百科對應的義項頁面。舉個例,比如用待測命名實體E去百度百科中搜到T1、T2、T3、T4、T5、T6等義項的百度百科頁面,而待測命名實體E在知識庫中只有T1、T3、T6三個義項,那么只需要提取T1、T3、T6這三個義項的百度百科頁面。接下來就是對提取得到的義項頁面進行詞頻統計,然后計算TF-IDF值,最后結合微博詞頻統計文本計算余弦距離。

圖2 TF-IDF算法整體流程
3.1.1構建待消歧實體百科文本詞頻統計庫
對于待測實體E,它在知識庫中有T1,T2,…,Ti等義項。在百度百科中爬去對應的T1,T2,…,Ti等義項的百科頁面中的正文,得到Text1,Text2,…,Texti。然后對其進行分詞,通過去掉停用詞處理得到百科文本詞頻統計文本。在此以“猛龍”為例進行說明,它在知識庫中有“球隊”、“電影”、“品牌”這3個不同義項。如圖3所示。

圖3 從百度百科爬去“實體”猛龍3個不同義項的文本
在獲得3個不同義項百度百科義項頁面后得到Text1、Text2、Text3這3個不同義項的百度百科正文文本,然后分別對Text1、Text2、Text3利用ICTCLAS進行分詞處理,在去掉停用詞后統計所得詞語及其頻數,其結果如圖4所示。

圖4 “猛龍”3個義項百科文本詞頻統計圖
3.1.2TF-IDF模型計算詞語權重
TF-IDF模型常用評估一個詞語對于一個文檔的重要程度,經常應用于搜索技術和信息檢索的領域。一個詞語TF-IDF值與它在文檔中出現頻數成正比,與它在語料庫中出現的頻率成反比。TF-IDF由TF詞頻和IDF逆向文件頻率相乘而得,對于詞語ti來說:
(1)

另外值得注意的是,如果詞語ti不在語料庫中那么式(1)中|{j:ti∈dj}|為0,那么會導致IDFj中分母為0,則無法計算出IDFj值。所以需要改進為如下:
(2)
3.1.3向量空間中進行實體消歧
對于待測實體E和對應微博W,經過ICTCLAS分詞取停用詞后得到詞語組“w1,w2,w3,w1,E,w2,w1,w4,……”,然后統計這一組詞語頻數,并且移除待測實體e及其詞頻,于是得到微博W文本詞頻特征向量:
w1w2w3w4w5…
W=(m1,m2,m3,m4,m5…)
以待測實體“猛龍”的微博W“【熱火27連勝!】熱火勝猛龍、勝山貓、勝火箭……熱火各種的勝,并成為了NBA第二長連勝。錯過了昨日《NBA最前線》的童鞋,沒關系,這里為你再次奉上熱火27連勝的完整回顧,很勁爆、很熱力。”為例,通過上述方法可得微博W文本詞頻特征向量:
熱火NBA熱力回顧火箭山貓
W=(4,2,1,1,1,1)
假設待測實體E在知識庫中對應T1、T2……等m個不同的義項。采用3.1.1 節中的方法構建待消歧實體百科文本詞頻統計庫,根據詞語及詞頻得到這幾個不同義項的文本詞頻特征向量。再通過TF-IDF模型計算這幾個不同義項對應的TF-IDF向量。
在得到待測實體E、義項T1、T2……的詞向量,然后通過余弦相似度公式[14]:
(3)
其中ωj,e是待測實體E對應詞向量的第j個分量,ωj,t(i)是義項Ti對應詞向量的第j個分量。依次計算E和T1、E和T2……的相似度,cos(E,Ti)越大越表明義項Ti符合待測實體E含義。
3.2策略7:基于Fast-Newman聚類實體義項消歧
Fast-Newman聚類消歧算法是利用海量微博信息,將微博文本進行分詞處理,通過此算法,會得到待測命名實體不同義項的詞語簇,將此詞語簇作為待測命名實體消歧的擴展數據,因為每一個詞語簇能夠表示實體的義項。圖5為Fast-Newman聚類消歧的數據流圖,如圖6為對數據流圖中Fast-Newman聚類流程的詳細描述。

圖5 Fast-Newman聚類消歧數據流圖

圖6 Fast-Newman聚類消歧流程
3.2.1新浪微博文本的預處理
① 用第i個待測實體為關鍵詞,去新浪微博搜索大量微博并存放在文件夾D中,若一共獲取了j條微博,顯然有D={f1,f2,…,fj}。
② 對D里每一條微博進行分詞處理,假設通過D文件夾。


算法 獲得詞語矩陣1:foreachmicroblogfi,j∈Ddo2: entity[]<-wordSegment(fi,j)//微博fi,j分詞提取名詞3: forp=1toSize(entity)-1do//Size(entity)為數組entity大小4: forq=1toSize(entity)-pdo5: x<-index_entity_map[entity[p]];//通過鍵值對映射找6: y<-index_entity_map[entity[q]];//到entity[p]的編號7: Mi[x][x]++;8: M[x][y]++;9: M[y][y]++;10: endfor11: endfor12:endfor

(4)


表[x][y]和數值大小與詞語y和詞語x關聯度
3.2.2主要流程



圖7 Fast-Newman算法聚類中詞語簇并列化過程圖
Fast-Newman算法[17]初始網絡為n個社團,開始每個節點都是獨立一個社團。初始化開始有:
(5)
(6)
然后合并有邊相連的社團同時計算有邊相連的社團對,并計算合并后的模塊度增量ΔQ=eij+eji-2aiaj=2(eij-aiaj)。依次迭代進行,最后n個社團在n次迭代中逐漸并列化,如圖8所示。

圖8 待測實體“猛龍”紐曼函數聚類結果圖
通過Fast-Newman算法聚類后,最后就會使每一個詞語歸并到簇ci中,i∈[1,K],K為簇的總個數。對所分得簇進行分析并人工打上標簽,即不同的簇對應不用的該實體的不同義項。
3.2.3根據Jaccard相似度計算待測實體與義項相似性
Jaccard相似度[12]被定義為:
(7)

待測實體E在知識庫中對應T1,T2,…等m不同的義項。通過Fast-Newman聚類得到關聯詞語簇為C1={c1,1,c1,2,…,c1,i}、C2={c2,1,c2,2,…,c2,j}……等m不同義項的詞語簇。同樣按照3.1.3節中文本詞頻特征向量方法得到在去掉待測實體E本身后微博文本自身的詞語簇為T={t1,t2,…,tj}。然后依次計算Ci和T的Jaccard相似度。若Ci使得Jd(Ci,T),k∈{1,2,…,m}取最大值,那么則說明義項Ti最匹配微博文本中待測實體E。
4.1評價標準
NLP&&CC2013對測評結果的評價標準有正確輸出、總準確率、in-KB結果準確率、NIL結果準確率、in-KB結果召回率、NIL結果召回率、in-KB結果F值、NIL結果F值。其中F值是準確率和召回率的調和平均數。In-KB結果表明實體在知識庫中查詢后知識庫中有與之相匹配的記錄,其中返回的結果是實體在知識庫中主健,形如“KBBD027673”;NIL結果表明們實體在知識庫中查詢后知識庫中沒有與之相匹配的記錄。以上評價標準的計算法公式如下,其中字母含義見表4所示。

表4 評價指標公式中數據說明

4.2結果及分析
抽取了政治社會人名、娛樂體育人名、虛擬人名、中國地名、外國地名、教育機構、企業機構、政法機構、娛樂體育機構作為著重考察對象,且分別對應著表5中第一列類別中的A、B、C、D、E、F、G、H、I。在826個待測實體中政治社會人名141個、娛樂體育人名188個、虛擬人名36個、中國地名109個、外國地名19個、教育機構16個、企業機構57個、政法機構36個、娛樂體育機構35個,總共637個,這幾類實體占實體比例為77.1%,可以體現實體實體識別的效果。表5為改進后NLP&&2013測評中不同類型的實體識別準確率、召回率、F值統計表。
從表5中可以看出,模型得到不同類別實體識別結果的準確率基本都在90%以上,特別針對教育機構識別率達到了100%,由此可見算法對實體消歧有具有較好的有效性、準確性。 利用策略1到策略8的方法,對數據集進行實體鏈接匹配。通過測試樣例數據以及相關實體微博數據進行百科數據搜集與詞語聚類,建立消歧文本,通過實體消歧算法輸出結果在NLP&&CC2013測評中實體識別的準確率為84.99%,名列第4[18]。

表5 NLP&&2013測評中不同類型實體識別準確率、召回率、F值統計表
模型改進之后準確率提高到了91.40%,與評測方已知結果進行比對,準確率、召回率以及F值均有提高,遠高于評測的平均結果,部分指標甚至超過了評測的最好結果,如表6所示。
從表6中可以看出,在改進之后和測評相比in-KB和NIL的結果都有了明顯的提升了,其中正確數和準確率等指標已經超過測評時位居第一的富士通研究與開發中心和測評時位居第二的西南交通大學思維與智慧研究所 。其中in-KB提升原因主要是采用了策略6和策略7消歧算法,找到的待測實體正確的對應義項。比如例子中的“猛龍”,在沒有采用消歧算法前找到的是“電影猛龍”而不是“多倫多猛龍隊”。總的來說,本文建立起的方法對微博中的命名實體消歧和命名實體鏈接具有很好的效果。

表6 實驗縱向比較結果
當下,微博作為新媒體強勢崛起,有關于中文微博的研究引起了各方的極大興趣。本文構建了多策略的命名實體消歧和鏈
接流程,首先使用策略1(正則表達式處理)、策略2(百度百科搜索跳轉)、策略4(人名地名實體映射)對待測實體做出有效的預處理,然后進入策略5(在優化后的知識庫中選擇性查詢)進行命名實體到知識庫的鏈接,當遇到有歧義的命名實體時采用策略6(TF-IDF算法)和策略7(Fast-Newman聚類算法)對有歧義的命名實體進行消歧處理。通過上訴方法,在中文微博實體鏈接任務中取得了非常不錯效果。
本文在基于中文微博實體消歧和鏈接方面做了一定的研究,還有很多工作有待進一步完善并深入研究,歸納起來有以下幾點:
(1) 對獲取的網頁百科資源及知識庫資源梳理工作效果還有待提高。因傳統關系數據庫分類不清晰,可在此基礎上引入語義關系,將不同類別下但又具有相關性的實體進行語義鏈接處理,這樣在查詢檢索體現語義推理的特性。
(2) 采用多策略算法。單一算法的有效性與準確性通過反復嘗試和驗證,已充分優化,但方法之間的組合上,方法結果的權重設置上還具有改善空間。
(3) TF-IDF算法所涉及的數據全部來自于百度百科,來源比較單一,而有些人名命名實體沒有被百度百科收錄。但是被維基百科、互動百科等其他百科收錄。所以TF-IDF算法消歧文本還可以從維基百科、互動百科等其他百科中擴充。
[1] 王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識別[J].中文信息學報,2002,16(2):1-6.
[2] 張小衡,王玲玲.中文機構名稱的識別與分析[J].中文信息學報,1997,11(4):21-31.
[3] 肖計劃.地名識別與匹配的概率統計方法[J].測繪科學技術學報,2014,31(4):408-412.
[4] YiFeng Lin,TzongHan Tsai,WenChi Chou,et al.A Maximum Entropy Approach to Biomedical Named Entity Recognition[J].ProcediaTechnology,2012,6:379-386.
[5] 張祝玉,任飛亮,朱靖波.基于條件隨機場的中文命名實體識別特征比較研究[C]//第四屆全國信息檢索與內容安全學術會議論文集.北京:中國中文信息學會,2008.
[6] 何炎祥,羅楚威,胡彬堯.基于CRF 和規則相結合的地理命名實體識別方法[J].計算機應用與軟件,2015,32(1):179-185,202.
[7] 劉凱.基于條件隨機場的中醫病歷命名實體抽取方法研究[D].北京:北京交通大學,2013.
[8] 王丹,樊興華.面向短文本的命名實體識別[J].計算機應用,2009,29(1):143-145.
[9] 俞鴻魁,張華平,劉群.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006,27(2):87-94.
[10] 樂娟,趙璽.基于HMM的京劇機構命名實體識別算法[J].計算機工程,2013,39(6):266-271.
[11] 李幸,宗成慶.引入標點處理的層次化漢語長句句法分析方法[J].中文信息學報,2006,20(4):8-15.
[12] http://ictclas.nlpir.org/.
[13] 吳友政.漢語問答系統關鍵技術研究[D].北京:中國科學院自動化研究所,2006.
[14] Hector Garcia-Molina,Jeffrey D Ullman,Jennifer Widom.數據庫系統實現[M].北京:機械工業出版社,2011.
[15] Chao Gao,Jinming Liu.Clustering-Based Media Analysis for Understanding Human Emotional Reaction in an Extreme Event[J].Foundations of Intelligent Systems,2012,7661:125-135.
[16] David Chavalarias,Jean-philippe Cointet.Bottom-up scientific field detection for dynamical and hierarchical science mapping,methodology and case study[J].Scientometrics,2008,75(1):37-50.
[17] Newman M E J.Fast algorithm for detecting community structure in networks[J].Physical review E,2004,69(066133):1-5.
[18] http://tcci.ccf.org.cn/conference/2013/dldoc/evres04.pdf.
ENTITY WORDS DISAMBIGUATION AND ENTITY LINKING WITH MULTI-STRATEGY IN CHINESE MICROBLOGS
Xiang YuGuo YunlongXu XiaoZeng WeigangLi Li*
(SchoolofComputerandInformationScience,SouthwestUniversity,Chongqing400715,China)
Nowadays,the social networks are highly developing.How to disambiguate the microblogging entities with equivocal meaning and to link the entities to knowledge base have become the research focus at present.The paper proposes multiple strategic schemes in regard to entity disambiguation and entity linking.First it uses ICTCLAS to make word segmentation on microblogging texts,and uses Baidu Baike and entity expert database to normalise the entities.Then the paper uses Baidu Baike information,microblogging data and network terms caught by the web crawler to construct the disambiguation text database,and combines TF-IDF algorithm and Fast-Newman clustering algorithm to disambiguate and link the entities.We tested the data fetched from Chinese microblog entity linking task in 2rd Natural Language Processing & Chinese Computation conference (NLP&CC 2013).In the assessment the accuracy rate achieved 84.99%,and further achieved 91.40% after the constant improve of the model.
Chinese microblogEntity disambiguationTF-IDFFast-Newman clustering
2015-03-23。國家自然科學基金項目(61170192)。向宇,本科生,主研領域:自然語言處理。郭云龍,碩士生。徐瀟,本科生。曾維剛,本科生。李莉,教授。
TP3
A
10.3969/j.issn.1000-386x.2016.08.003