鄭 偉,侯宏旭 ,班志杰
1.內(nèi)蒙古大學(xué) 計算機學(xué)院,呼和浩特 010021
2.河北北方學(xué)院 理學(xué)院,河北 張家口 075000
近年來,隨著互聯(lián)網(wǎng)技術(shù)快速發(fā)展,人們信息需求更加多樣化,信息檢索的內(nèi)涵更加豐富與多樣化,檢索技術(shù)在各個領(lǐng)域都有著獨特的應(yīng)用。實體檢索(Entity Retrieval,ER)是信息檢索技術(shù)中一個重要分支[1-3],專家發(fā)現(xiàn)也稱專家檢索,是ER的一個特例,主要研究如何根據(jù)給定的查詢找到相關(guān)領(lǐng)域具有一定威望和專長的專家,并按照專業(yè)水平對相關(guān)人員進行排序[3-5]。專家發(fā)現(xiàn)在企業(yè)界和科技知識領(lǐng)域有著廣泛應(yīng)用,如何在海量科技文獻信息中準(zhǔn)確有效地發(fā)現(xiàn)某個領(lǐng)域的專家群體,近年來成為信息檢索和知識發(fā)現(xiàn)領(lǐng)域的一個研究熱點。
國際文本檢索會議組織的企業(yè)專家檢索任務(wù)推動了專家檢索技術(shù)的發(fā)展[6-9],F(xiàn)ang等人[6]提出了一個通用概率模型框架,用候選人生成模型和主題生成模型實現(xiàn)檢索,在TREC enterprise collections上的實驗取得了較好效果。Cifariello 等人[10]提出一種基于實體鏈接的語義方法用于專家發(fā)現(xiàn),使用語言模型與維基百科中通過實體鏈接形成的知識語義圖進行專家檢索。Sharad 等人[11]提出基于一種社會網(wǎng)絡(luò)計算與本體學(xué)習(xí)相結(jié)合的專家發(fā)現(xiàn)算法,該算法通過獲取專家profile,使用概念計算和社會網(wǎng)絡(luò)分析進行專家的綜合排序。Zhang 等人[12]利用文獻中主題信息構(gòu)建了局部的專家候選人網(wǎng)絡(luò),通過候選人間認可度進行相似關(guān)系傳播,通過多輪迭代得到專家后選人的最終分數(shù)。鄭義平等人[13]針對專家與文檔的建模問題,提出使用逆向頻率方法實現(xiàn)專家與文檔的關(guān)聯(lián)強度計算,通過學(xué)術(shù)合作關(guān)系構(gòu)建專家關(guān)系圖,經(jīng)過專家間相似信息的多輪傳播計算可得到最終得分。
上述研究中,專家檢索性能的提升很大程度上依賴概念匹配和實體網(wǎng)絡(luò)計算,通過計算概念間距離進行文本匹配,采用圖模型分析進行證據(jù)的獲取與傳播。其中文獻[12-13]中的相關(guān)性傳播模型屬于兩階段模型,在本文中記為Pa_Model,專家檢索時取得了一定的效果,但其沒有形成一個有機的整體推理框架,不確定分析存在一定難度,另外如數(shù)據(jù)規(guī)模較大時,計算時間復(fù)雜度較高。針對上述問題,本文將貝葉斯網(wǎng)絡(luò)技術(shù)引入到專家發(fā)現(xiàn)任務(wù)中,提出一種具有查詢語義擴展功能的專家發(fā)現(xiàn)模型。該模型使用貝葉斯網(wǎng)絡(luò)對檢索任務(wù)進行建模,模型具有四層網(wǎng)絡(luò)結(jié)構(gòu),整體連接性好,可實現(xiàn)推理計算,借助Word2Vec 技術(shù)深入挖掘術(shù)語間的語義關(guān)系來實現(xiàn)查詢語義擴展。
在TREC2005中,研究人員介紹了兩種用于專家檢索任務(wù)的語言模型,即候選專家模型(Candidate Model)和文檔模型(Document Model),它們是目前較常用的專家檢索模型框架[6-7,14],許多擴展方法和新理論均基于該框架。候選專家模型和文檔模型均假定候選專家與查詢之間是相互獨立的。相對于候選專家模型,文檔模型的優(yōu)點在于其保留了完整的查詢和文檔之間的查詢接口,進而可以結(jié)合其他檢索模型實現(xiàn)專家發(fā)現(xiàn)算法的改進,目前較為常用,一般情況下檢索性能優(yōu)于候選專家模型[7,14]。
Document Model基本思想是使用文檔檢索方法獲得與查詢相關(guān)的文檔,然后按照候選專家與這些文檔的相關(guān)程度對專家進行排序[15],具體算法如下。
給定查詢query的條件下,候選專家ca出現(xiàn)的概率為P(ca|query),根據(jù)貝葉斯公式有:

Dca為與ca相關(guān)的文檔集合,假定查詢query中,各個詞項是獨立分布的,則:

根據(jù)文獻[1,7],假設(shè)term與ca之間是條件獨立的,θca是候選專家ca的模型,term是查詢query中的一個詞項,則:

對式(5)進行平滑處理得到:

綜合上述各式可得:

其中,n(term,query)表示term在query中出現(xiàn)的次數(shù),P(term|doc)是term在文檔doc中出現(xiàn)的概率,P(term)是term在文檔集中出現(xiàn)的概率。
Word2Vec[16]是google 提出的一個學(xué)習(xí)詞向量的框架,可以把輸入的每個長短不一的詞轉(zhuǎn)換為維度相同的向量,使得文字處理變得簡單化,Word2vec 也叫Word embedding,Word2vec 的訓(xùn)練過程可以看作是通過神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)算法來訓(xùn)練N-gram語言模型,并在訓(xùn)練過程中求出word 所對應(yīng)的vector 的方法。根據(jù)語言模型的不同,又可分為“CBOW”和“Skip-gram”兩種模型[16],具體實現(xiàn)原理如圖1所示。
CBOW 模型利用上下文的若干詞去預(yù)測當(dāng)前詞,Skip-gram 模型恰好相反,利用當(dāng)前詞預(yù)測上下文的若干詞。Word2vec訓(xùn)練出的詞向量蘊含了詞與詞之間的聯(lián)系與相關(guān)信息,有助于對文本語義的理解與挖掘,Word2vec技術(shù)在自然語言處理領(lǐng)域應(yīng)用具有較高應(yīng)用價值。

圖1 Word2vec原理模型
貝葉斯網(wǎng)絡(luò)是一種采用有向無環(huán)圖,能夠?qū)崿F(xiàn)不確定性推理計算,應(yīng)用領(lǐng)域較為廣泛[17-19]。本文提出一種新的專家發(fā)現(xiàn)方法,基本思想是采用貝葉斯網(wǎng)絡(luò)構(gòu)建一個專家發(fā)現(xiàn)算法模型,該模型具有多層結(jié)構(gòu),能夠?qū)崿F(xiàn)專家發(fā)現(xiàn)任務(wù)的推理和查詢術(shù)語的語義擴展。在術(shù)語層間采用Word2vec技術(shù)對術(shù)語進行向量語義相似度計算,找出語義相近的詞進而實現(xiàn)查詢術(shù)語語義挖掘與擴展。
使用貝葉斯網(wǎng)絡(luò)圖模型的推理機制構(gòu)建了一個具有查詢語義擴展的專家發(fā)現(xiàn)模型,命名為NEF(New Expert Finding),模型如圖2 所示,其具有四層結(jié)構(gòu),分別為雙術(shù)語層T與T′、文檔層D和專家層C,模型中的變量集合V可表示為V=T′∪T∪D∪C。

圖2 NEF模型
對由于術(shù)語層T中的任意節(jié)點Ti,其父節(jié)點集合為Pa(Ti),若Tj'∈Q且Tj'和Ti存在滿足一定條件的語義關(guān)系,則父節(jié)點集合由其本身Ti'和Tj'構(gòu)成,存在由Ti'和Tj'節(jié)點指向Ti的虛線,術(shù)語層間節(jié)點的關(guān)聯(lián)可以為查詢提供證據(jù)支撐信息,能夠起到有效擴展查詢的功效。專家有與本身相關(guān)聯(lián)的文檔,故存在由集合D中節(jié)點指向集合C中節(jié)點的多條弧。據(jù)拓撲結(jié)構(gòu)中弧的指向,可知術(shù)語相互邊緣獨立,文檔在給定其包含術(shù)語的情況下相互條件獨立,專家分布獨立,由此可以估計節(jié)點的概率分布。給定一個用戶查詢時,NEF模型將其作為一個證據(jù)引入系統(tǒng)中,考慮到網(wǎng)絡(luò)中存在大量的節(jié)點,使用一個與概率傳播算法效果等價的簡單推理算法來計算每個候選專家C與查詢Q的相關(guān)概率。
模型對應(yīng)的檢索推理過程如下:
(1)術(shù)語節(jié)點ti與查詢Q的關(guān)系可通過術(shù)語子網(wǎng)來計算P(ti|Q),uij為術(shù)語Ti與Tj'之間的語義關(guān)聯(lián)強度,術(shù)語Ti父節(jié)點的集合用Pa(Ti)表示。

由于術(shù)語節(jié)點是邊緣獨立的,如果Tj'∈Q,則P(tj'|Q)=1,如果Tj'?Q,則P(tj'|Q)=1/M。
(2)為了區(qū)分Ti父節(jié)點集合中原節(jié)點Ti'與有語義關(guān)系的擴展各節(jié)點在檢索中的作用,采用sim函數(shù)來衡量兩個不同術(shù)語間的語義相關(guān)度,β是平滑參數(shù),uij用sim函數(shù)展開后公式(7)可變?yōu)楣剑?)。

(3)根據(jù)上述步驟,基于查詢Q的文檔dj后驗概率為:

公式中,wij為術(shù)語Ti在文檔Dj的權(quán)重值,η是一歸化常量保證P(dj|Q)值小于等于1。權(quán)重wij有多種定義方法,本文中使用的是TFIDF方法。
(4)根據(jù)上述步驟,基于查詢Q的候選專家Cj后驗概率為:

其中,P(Ci|Q)表示候選專家Ci在查詢Q條件下的相關(guān)概率,是檢索結(jié)果排序的依據(jù),hij是候選專家Ci與其所屬文檔dj的相關(guān)強度,文章設(shè)定hij值為1。
本文實驗的目是構(gòu)建貝葉斯網(wǎng)絡(luò)專家發(fā)現(xiàn)算法模型并實現(xiàn)查詢語義擴展,通過實驗將文獻[7,14]中的Document Model、文獻[12-13]提出的傳播 Pa_Model 與本文提出的NEF 模型進行檢索性能比對,驗證NEF 模型檢索性能的有效性。本文中Pa_Model 的實現(xiàn)是在Document Model基礎(chǔ)上構(gòu)建的兩階段傳播模型。
實驗數(shù)據(jù)來自Aminer[20]學(xué)術(shù)文獻數(shù)字數(shù)據(jù)平臺中的學(xué)術(shù)數(shù)據(jù)集,AMiner平臺是計算機科學(xué)領(lǐng)域的科研數(shù)據(jù)平臺,其學(xué)術(shù)資源社會網(wǎng)絡(luò)數(shù)據(jù)集是由2 092 356篇文章、1 712 433 個作者、8 024 869 條引用、4 248 615 條協(xié)作關(guān)系組成的。實驗前對該數(shù)據(jù)集進行清洗,去除具有不完整信息的論文及作者,剔除hi因子較低的作者及對應(yīng)論文,最終保留文獻數(shù)量為129 617篇、作者數(shù)目33 828名。專家數(shù)據(jù)來源于AMiner平臺專家數(shù)據(jù)庫[21],表1展示了實驗中采用的查詢主題及對應(yīng)的專家數(shù)目。

表1 計算機科學(xué)領(lǐng)域?qū)<乙挥[表
實驗分為四個部分:(1)Document Model 上進行專家檢索任務(wù)實驗,找到其最佳的平滑參數(shù)設(shè)置;(2)word2vec 參數(shù)選擇,驗證查詢擴展性能。(3)通過調(diào)節(jié)NEF 模型的平滑參數(shù)β,對其檢索性能進行比較分析。(4)將最優(yōu)參數(shù)下的 Document Model 與 Pa_Model作為基線系統(tǒng),檢驗NEF模型對檢索性能的有效性。實驗采用準(zhǔn)確率和召回率,P@5,P@10,P@20,P@30 和MAP指標(biāo)進行評價[22],輸出截斷值設(shè)為100。
在經(jīng)典專家發(fā)現(xiàn)模型實驗中,表2數(shù)據(jù)對應(yīng)平滑參數(shù)α取6個不同值時的檢索結(jié)果,其中α分別于0.5、0.9與1.0時其P@30值最佳,在0.5、0.9與1.0這3個值中,α等于0.5 時具有最佳MAP 值,故將α=0.5 作為經(jīng)典模型的平滑參數(shù)。

表2 文檔模型檢索性能比較
NEF模型中查詢術(shù)語語義擴展采用了Word2vec技術(shù),在Windows 平臺下開展訓(xùn)練,詞向量上下文窗口設(shè)置為5,維度設(shè)置為1 000,其他參數(shù)按照經(jīng)驗值來設(shè)置,選擇Skip-gram模型來訓(xùn)練。表3 為NEF 模型在參數(shù)β和查詢術(shù)語擴展數(shù)目N取不同值時對應(yīng)的P@10 和MAP值。

表3 查詢術(shù)語擴展實驗MAP值比較
從表3 中的數(shù)據(jù)發(fā)現(xiàn),當(dāng)平滑參數(shù)β值等于1 時對應(yīng)的是貝葉斯網(wǎng)絡(luò)專家檢索模型無查詢術(shù)語擴展的情況,隨著查詢術(shù)語擴展數(shù)目的增加,其檢索P@10 和MAP 值保持恒定;當(dāng)β在[0.7,0.9]區(qū)間段取值時,發(fā)現(xiàn)隨著查詢術(shù)語擴展數(shù)目N值的增加,其P@10 和MAP值也在遞增,并在N等于30時P@10達到最大值0.225,MAP 值達到最大值0.218,當(dāng)β從[0.5,0.6]區(qū)間段取值時發(fā)現(xiàn),N值增加時其MAP值呈現(xiàn)下降趨勢,其P@10值也較低。綜合表3中的P@10和MAP值分析可知,查詢術(shù)語擴展數(shù)目選取30時檢索系統(tǒng)能夠很好地起到查詢術(shù)語擴展的功效。
圖3 為NEF 模型查詢術(shù)語擴展數(shù)目為30 時的實驗結(jié)果,圖中顯示在平滑參數(shù)β等于0.8時,專家檢索模型NEF 具有較高的 P@5、P@10 和 MAP 值,因此該點具有較高的參考價值,參數(shù)β取值1時,對應(yīng)的是無查詢擴展的實驗結(jié)果,其各項評估指標(biāo)均低于有擴展的查詢實驗。

圖3 NEF專家發(fā)現(xiàn)模型性能分析
將NEF 模型與基線系統(tǒng)進行的專家檢索實驗評價指標(biāo)值進行對比,其中Document Model和Pa_Model選用最優(yōu)參數(shù)下的評價指標(biāo)值,NEF 模型選用β=0.8 時對應(yīng)的評價指標(biāo)值,對比結(jié)果如表4 所示,表中結(jié)果顯示 Pa_Model 與 Document Model 具有相同的 P@5 和P@10 值,但在 P@20、P@30、MAP 值上 Pa_Model 要優(yōu)于Document Model,這是由于Pa_Model 在傳播階段能夠有效實現(xiàn)了專家間的信息傳遞,進一步提升了部分專家的權(quán)威度。總體上看NEF模型檢索性能良好,相對比Baseline 系統(tǒng)的兩個模型,其P@5、P@10 值增幅較大,P@5 增長了10%,P@10 增長了 12.5%,P@20、P@30 和MAP值略有下降。

表4 模型評估分數(shù)比較
NEF 模型在P@5、P@10 兩項指標(biāo)上取得了較好評估值,對比基線系統(tǒng) P@20、P@30 指標(biāo),NEF 模型指標(biāo)值下降的原因在于查詢語義擴展的同時會帶來查詢主題的漂移,導(dǎo)致了部分查詢語句對應(yīng)的結(jié)果很不理想,導(dǎo)致平均分下降。在排序前100名作者的條件下,一部分作者排名較靠后,故MAP 值會降低。總體上看實驗結(jié)果顯示出了NEF模型良好的檢索效果,P@5和P@10值經(jīng)過查詢擴展后得到了較大提升,有效實現(xiàn)了查詢術(shù)語的語義擴展。
在分析貝葉斯網(wǎng)絡(luò)檢索和詞向量技術(shù)的基礎(chǔ)上,提出了一種可擴展查詢術(shù)語語義的專家發(fā)現(xiàn)方法。該方法可控制術(shù)語語義的擴展程度,更準(zhǔn)確地解決了術(shù)語間語義概念的匹配問題,比單一使用術(shù)語查詢?nèi)〉昧烁玫臋z索效果。由于當(dāng)前語料規(guī)模限制及模型參數(shù)選擇等因素的影響,實驗結(jié)果還不夠理想,后續(xù)研究工作將聚焦于主題提煉及進一步尋求優(yōu)化參數(shù),逐步改善模型的檢索性能。