田 野(上海財(cái)經(jīng)大學(xué)人事處)
近年來(lái),伴隨著 Thomson Reuters、MIT、JISC、美國(guó)國(guó)會(huì)圖書(shū)館、美國(guó)政府、英國(guó)政府及英國(guó)廣播公司、紐約時(shí)報(bào)等機(jī)構(gòu)出版發(fā)行關(guān)聯(lián)數(shù)據(jù),[1]關(guān)聯(lián)數(shù)據(jù)的應(yīng)用研究逐漸引起學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。關(guān)聯(lián)數(shù)據(jù)允許用戶發(fā)現(xiàn)、關(guān)聯(lián)、描述并利用各種數(shù)據(jù),它已經(jīng)成為推動(dòng)語(yǔ)義Web發(fā)展的重要力量之一,從關(guān)聯(lián)數(shù)據(jù)中獲取的數(shù)據(jù)既可以來(lái)自一個(gè)組織內(nèi)部的不同系統(tǒng),也可以來(lái)自不同組織的不同系統(tǒng),這些數(shù)據(jù)在內(nèi)容、存儲(chǔ)地點(diǎn)及存儲(chǔ)方式等方面可能是完全不同的。關(guān)聯(lián)數(shù)據(jù)作為語(yǔ)義網(wǎng)的重要特征之一,提供了一種基于可鏈接的URI發(fā)布、分享和連接Web頁(yè)面中各種資源的有效方法,[2]其目的在于構(gòu)建一種計(jì)算機(jī)和用戶都能理解的結(jié)構(gòu)化語(yǔ)義數(shù)據(jù)網(wǎng)絡(luò)。它把原來(lái)相互孤立的數(shù)據(jù)通過(guò)語(yǔ)義關(guān)聯(lián)的形式連接在一起,形成一個(gè)巨大的數(shù)據(jù)網(wǎng)絡(luò)中心,實(shí)現(xiàn)了可動(dòng)態(tài)關(guān)聯(lián)的知識(shí)對(duì)象網(wǎng)絡(luò),并支持構(gòu)建各種智能化的應(yīng)用系統(tǒng)及各種知識(shí)挖掘與應(yīng)用。[3,4]
Hausenblas[5]指出,關(guān)聯(lián)數(shù)據(jù)應(yīng)用主要包括兩方面:關(guān)聯(lián)數(shù)據(jù)在特定領(lǐng)域的應(yīng)用;基于關(guān)聯(lián)數(shù)據(jù)的各種Web應(yīng)用系統(tǒng)。黃永文等[1]從目前已進(jìn)行關(guān)聯(lián)數(shù)據(jù)發(fā)布和實(shí)踐應(yīng)用的多個(gè)國(guó)家型圖書(shū)館、大學(xué)圖書(shū)館及圖書(shū)館聯(lián)盟機(jī)構(gòu)案例角度分析,指出在圖書(shū)館領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的應(yīng)用主要包括改善檢索服務(wù)系統(tǒng)的效果、增強(qiáng)資源發(fā)現(xiàn)服務(wù)、提供靈活的跨領(lǐng)域數(shù)據(jù)存取和重用。
Health等人[6]指出,關(guān)聯(lián)數(shù)據(jù)應(yīng)用系統(tǒng)的一般體系框架主要包括關(guān)聯(lián)數(shù)據(jù)的發(fā)布層,關(guān)聯(lián)數(shù)據(jù)的獲取、集成和存儲(chǔ)層及應(yīng)用層(見(jiàn)圖1)。基于關(guān)聯(lián)數(shù)據(jù)的應(yīng)用系統(tǒng)包含以下幾個(gè)特點(diǎn):① 使用遵循關(guān)聯(lián)數(shù)據(jù)發(fā)布原則的數(shù)據(jù),對(duì)可訪問(wèn)數(shù)據(jù)發(fā)出請(qǐng)求、檢索和處理指令;② 根據(jù)不同數(shù)據(jù)源間的關(guān)聯(lián)關(guān)系,進(jìn)一步挖掘知識(shí)信息;③ 把關(guān)聯(lián)數(shù)據(jù)與已有數(shù)據(jù)(可能是非關(guān)聯(lián)數(shù)據(jù))結(jié)合;④ 根據(jù)關(guān)聯(lián)數(shù)據(jù)的創(chuàng)建原則,把融合后的數(shù)據(jù)再發(fā)布到Web頁(yè)面上;⑤ 為用戶提供增值服務(wù)。[7]
目前,推薦系統(tǒng)已經(jīng)廣泛應(yīng)用于多種學(xué)術(shù)資源信息庫(kù)中。如,萬(wàn)方數(shù)據(jù)知識(shí)平臺(tái)會(huì)根據(jù)用戶輸入的單一關(guān)鍵詞,推薦相似論文、引證文獻(xiàn)、讀者關(guān)聯(lián)閱讀文獻(xiàn)及相關(guān)博文等;Elsevier數(shù)據(jù)庫(kù)同樣也有檢索相似文獻(xiàn)的推薦功能。

圖1 關(guān)聯(lián)數(shù)據(jù)應(yīng)用的一般體系框架[6]
學(xué)術(shù)資源信息庫(kù)中所有文獻(xiàn)間的關(guān)聯(lián)性主要包括以下幾個(gè)方面:① 類(lèi)別關(guān)聯(lián)性,即在學(xué)術(shù)資源數(shù)據(jù)庫(kù)中的所有資源可以劃分成多種類(lèi)型,相同類(lèi)型的資源歸于同一集合中;② 引用關(guān)聯(lián)性,即在學(xué)術(shù)資源數(shù)據(jù)庫(kù)中所有資源間的相互引用關(guān)系;③ 語(yǔ)義關(guān)聯(lián)性,即在學(xué)術(shù)資源數(shù)據(jù)庫(kù)中所有資源間在文本語(yǔ)義上的關(guān)聯(lián)性;④ 時(shí)間關(guān)聯(lián)性,即在學(xué)術(shù)資源數(shù)據(jù)庫(kù)中所有資源出現(xiàn)時(shí)間的先后順序。
學(xué)術(shù)資源數(shù)據(jù)庫(kù)推薦系統(tǒng)大都以用戶閱讀行為為基礎(chǔ),利用所有文獻(xiàn)在類(lèi)別、引用、語(yǔ)義及時(shí)間上的關(guān)聯(lián)性,為用戶推薦學(xué)術(shù)資源。Watanabe等[8]開(kāi)發(fā)了文獻(xiàn)支持系統(tǒng)Papits,該系統(tǒng)具有論文共享、論文推薦、論文抽取、論文分類(lèi)等功能,基于用戶的瀏覽記錄利用Scale-free網(wǎng)絡(luò)構(gòu)建用戶模型,然后通過(guò)計(jì)算用戶模型與文獻(xiàn)模型之間的相似度,將具有較高相似度的文獻(xiàn)推薦給用戶。這屬于基于內(nèi)容的推薦方法,只需要考慮用戶模型與文獻(xiàn)模型間匹配度,不需要關(guān)注用戶對(duì)文獻(xiàn)的任何評(píng)價(jià),對(duì)于瀏覽記錄比較稀少的用戶,此推薦方法是失效的。Huang等[9]提出了基于圖模型的文獻(xiàn)推薦系統(tǒng),系統(tǒng)包括兩層:第一層是書(shū)與書(shū)之間的關(guān)聯(lián),第二層是用戶與用戶之間的關(guān)聯(lián),兩層節(jié)點(diǎn)之間的鏈接是用戶對(duì)書(shū)的打分或者預(yù)測(cè)打分。Gori等[10]根據(jù)文獻(xiàn)之間的引用關(guān)系,以圖表形式展示了整個(gè)文獻(xiàn)數(shù)據(jù)庫(kù),將相應(yīng)的圖矩陣進(jìn)行歸一化處理后,使用改進(jìn)的PageRank算法進(jìn)行推薦。Sullivan等[11]將激活-擴(kuò)散模型應(yīng)用于文獻(xiàn)推薦中,用戶輸入的不再是一些關(guān)鍵詞,而是其感興趣的文檔,發(fā)現(xiàn)基于文本信息的算法要優(yōu)于基于引文信息的算法,基于文本信息和引文信息的算法要優(yōu)于僅僅基于單一信息的算法。李琳娜等[12]和Goodrum A[13]利用文獻(xiàn)共引關(guān)系實(shí)現(xiàn)文獻(xiàn)的查找與推薦。
雖然這些推薦方法靈活地利用了學(xué)術(shù)資源信息庫(kù)中所有文獻(xiàn)間的關(guān)聯(lián)關(guān)系及用戶查詢?yōu)g覽文獻(xiàn)時(shí)的歷史行為數(shù)據(jù),在推薦效果與用戶體驗(yàn)方面取得了較好的效果,但是,這些方法大都忽略了學(xué)術(shù)資源信息庫(kù)中所有文獻(xiàn)間最重要的一種關(guān)聯(lián)關(guān)系——語(yǔ)義關(guān)聯(lián)性。幾乎所有的文獻(xiàn)都是以文字形式存儲(chǔ)在學(xué)術(shù)資源信息庫(kù)中,對(duì)文獻(xiàn)內(nèi)容的文字語(yǔ)義及文獻(xiàn)間文字語(yǔ)義關(guān)聯(lián)性的認(rèn)知和研究就顯得至關(guān)重要,特別是隨著語(yǔ)義網(wǎng)技術(shù)的發(fā)展及關(guān)聯(lián)開(kāi)放數(shù)據(jù)源的不斷擴(kuò)大,原來(lái)相互隔離的數(shù)據(jù)源逐步以語(yǔ)義關(guān)聯(lián)性串聯(lián)在一起,這使得用戶可以實(shí)現(xiàn)跨多數(shù)據(jù)源的信息檢索與查詢,有效擴(kuò)展了用戶檢索查詢的范圍。Zarrinkalam等[14]把外部關(guān)聯(lián)數(shù)據(jù)與本地?cái)?shù)據(jù)相融合,填補(bǔ)本地出版物數(shù)據(jù)在介紹文本、引用列表、參考列表、作者名單和出版年份等方面的缺失,把參考關(guān)系、引用關(guān)系及作者的共著關(guān)系作為建立出版物關(guān)聯(lián)機(jī)制的準(zhǔn)則,提出一種基于用戶輸入文件相關(guān)聯(lián)的混合式引文推薦方法。其中,文獻(xiàn)間的語(yǔ)義關(guān)聯(lián)性是通過(guò)文獻(xiàn)間引用關(guān)系反襯出來(lái)的,并沒(méi)有真正利用文獻(xiàn)內(nèi)容的文本語(yǔ)義關(guān)聯(lián)性。
已有的大多數(shù)學(xué)術(shù)資源推薦系統(tǒng)利用了學(xué)術(shù)資源間的類(lèi)別關(guān)聯(lián)性、互引關(guān)聯(lián)性和學(xué)術(shù)資源本身的語(yǔ)義關(guān)聯(lián)性。[8,10,14]在這些學(xué)術(shù)資源檢索推薦系統(tǒng)中,學(xué)術(shù)資源相關(guān)性的計(jì)算通常僅通過(guò)單一的本地?cái)?shù)據(jù)源,不能為用戶推薦與查詢關(guān)鍵詞匹配度更高的學(xué)術(shù)資源信息。為了克服上述缺陷,筆者在本地?cái)?shù)據(jù)源的基礎(chǔ)上,以本體關(guān)聯(lián)的形式引入外部關(guān)聯(lián)數(shù)據(jù),提出一種基于本體的文本語(yǔ)義關(guān)聯(lián)性計(jì)算方法,構(gòu)建一個(gè)關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的學(xué)術(shù)資源語(yǔ)義檢索推薦系統(tǒng)。關(guān)聯(lián)數(shù)據(jù)一方面能夠幫助提高文本語(yǔ)義相關(guān)聯(lián)的匹配度,提高用戶對(duì)推薦結(jié)果的滿意度;另一方面能夠緩解單一數(shù)據(jù)源而導(dǎo)致的數(shù)據(jù)稀疏性推薦的冷啟動(dòng)問(wèn)題。
把關(guān)聯(lián)數(shù)據(jù)和推薦系統(tǒng)應(yīng)用到學(xué)術(shù)資源檢索過(guò)程中,能夠進(jìn)一步改善學(xué)術(shù)資源檢索系統(tǒng)的效果,并實(shí)現(xiàn)多數(shù)據(jù)源系統(tǒng)的檢索查詢功能,同時(shí)推薦給用戶與檢索內(nèi)容相關(guān)的文獻(xiàn)資源,擴(kuò)展檢索功能。根據(jù)關(guān)聯(lián)數(shù)據(jù)應(yīng)用的一般框架,[6]筆者把推薦系統(tǒng)及關(guān)聯(lián)數(shù)據(jù)應(yīng)用到學(xué)術(shù)資源檢索推薦中,設(shè)計(jì)關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的學(xué)術(shù)資源語(yǔ)義檢索推薦系統(tǒng)的框架模型,本文的創(chuàng)新點(diǎn)是探索關(guān)聯(lián)數(shù)據(jù)的引入對(duì)語(yǔ)義相似性計(jì)算的改進(jìn)(見(jiàn)圖 2)。

圖2 關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)義檢索推薦系統(tǒng)框架
① 關(guān)聯(lián)數(shù)據(jù)的融合。首先,將中科院機(jī)構(gòu)知識(shí)庫(kù)網(wǎng)格平臺(tái)中的本地?cái)?shù)據(jù)發(fā)布成五星級(jí)的關(guān)聯(lián)數(shù)據(jù)(http://5stardata.info),這種由本體支持的關(guān)聯(lián)數(shù)據(jù)形式可以直接與LOD云中其他學(xué)術(shù)資源數(shù)據(jù)進(jìn)行融合;其次,從LOD云中挑選出可用的學(xué)術(shù)資源,采用恰當(dāng)?shù)年P(guān)聯(lián)數(shù)據(jù)融合手段實(shí)現(xiàn)外部關(guān)聯(lián)數(shù)據(jù)與本地?cái)?shù)據(jù)的融合,形成最終的檢索推薦數(shù)據(jù)集。② 語(yǔ)義相關(guān)性的計(jì)算。計(jì)算出與用戶輸入關(guān)鍵詞語(yǔ)義相關(guān)的檢索文獻(xiàn)和推薦文獻(xiàn),筆者選擇直接在融合關(guān)聯(lián)數(shù)據(jù)上采用基于本體的語(yǔ)義相關(guān)性計(jì)算方法,避免了在單一本地?cái)?shù)據(jù)集上的語(yǔ)義相關(guān)計(jì)算而產(chǎn)生低匹配度問(wèn)題。③推薦引擎。選擇合適的推薦算法,并把推薦結(jié)果反饋給用戶。
如,在Elsevier和萬(wàn)方知識(shí)服務(wù)平臺(tái)中,當(dāng)用戶在對(duì)話框中輸入檢索關(guān)鍵詞之后,檢索系統(tǒng)把數(shù)據(jù)庫(kù)與用戶輸入關(guān)鍵詞匹配度最高的學(xué)術(shù)資源文獻(xiàn)反饋給用戶,同時(shí)還把與每一個(gè)反饋文獻(xiàn)相似度較高的文獻(xiàn)資源形成推薦列表,反饋給用戶。在此應(yīng)用背景下,結(jié)合關(guān)聯(lián)數(shù)據(jù),學(xué)術(shù)資源檢索推薦系統(tǒng)主要由如下模塊構(gòu)成:① 學(xué)術(shù)關(guān)聯(lián)數(shù)據(jù)的整理和數(shù)據(jù)庫(kù)的構(gòu)建,包括檢索數(shù)據(jù)庫(kù)的設(shè)計(jì)與構(gòu)建、學(xué)術(shù)關(guān)聯(lián)數(shù)據(jù)的融合、數(shù)據(jù)的導(dǎo)入;② 用戶交互界面,主要包括檢索關(guān)鍵詞的輸入界面和檢索推薦結(jié)果的呈現(xiàn)界面;③檢索推薦過(guò)程。
在學(xué)術(shù)資源檢索推薦系統(tǒng)中,用戶輸入檢索關(guān)鍵詞發(fā)起檢索查詢請(qǐng)求,系統(tǒng)要根據(jù)用戶輸入的關(guān)鍵字從資源庫(kù)為用戶返回語(yǔ)義相關(guān)性較高的文獻(xiàn)資源,同時(shí)把文獻(xiàn)資源語(yǔ)義相關(guān)性較高的其他文獻(xiàn)資源以推薦列表的形式推薦給用戶。此過(guò)程主要涉及兩方面的語(yǔ)義相關(guān)性:用戶輸入關(guān)鍵詞與文獻(xiàn)文本的語(yǔ)義相關(guān)性、文獻(xiàn)資源文本的語(yǔ)義相關(guān)性。其中,文獻(xiàn)資源可以用多維關(guān)鍵詞向量表示。
假設(shè)是一文檔資源,那么此文檔資源的多維關(guān)鍵詞為:D={w1,w2,w3,…,wn}。因此,如果能夠計(jì)算兩個(gè)詞語(yǔ)間的語(yǔ)義相關(guān)性,那么就可以解決用戶輸入的關(guān)鍵詞與文獻(xiàn)文本的語(yǔ)義相關(guān)性的計(jì)算問(wèn)題。一般來(lái)說(shuō),兩個(gè)詞語(yǔ)間的語(yǔ)義相關(guān)性被定義為一個(gè)0-1之間的實(shí)數(shù)值,當(dāng)兩個(gè)詞語(yǔ)語(yǔ)義完全一樣時(shí),他們之間的語(yǔ)義相關(guān)性為1,當(dāng)兩個(gè)詞語(yǔ)屬于兩個(gè)完全不同語(yǔ)義概念時(shí),它們之間的相關(guān)性為0。
詞語(yǔ)間的語(yǔ)義相關(guān)性與語(yǔ)義距離之間存在著密切關(guān)系:兩個(gè)詞語(yǔ)間的語(yǔ)義距離越大,其語(yǔ)義相關(guān)性越低;兩個(gè)詞語(yǔ)間的語(yǔ)義距離越小,其語(yǔ)義相關(guān)性越大。[15]
設(shè)w1和w2是兩個(gè)詞語(yǔ),記sim(w1,w2)為其語(yǔ)義相關(guān)性,dis(w1,w2)為其語(yǔ)義距離,那么sim(w1,w2)和dis(w1,w2)之間存在反比關(guān)系,即dis(w1,w2)越大,sim(w1,w2)就越小。① 當(dāng)dis(w1,w2)為0時(shí),則sim(w1,w2)為1,表示兩個(gè)詞語(yǔ)在語(yǔ)義上完全相關(guān)的;② 當(dāng)趨于無(wú)窮大時(shí),則sim(w1,w2)為0,表示兩個(gè)詞語(yǔ)間在語(yǔ)義上完全無(wú)關(guān)。兩者之間的對(duì)應(yīng)關(guān)系計(jì)算方法見(jiàn)式(1):

其中,α為調(diào)節(jié)因子。詞語(yǔ)的語(yǔ)義距離有兩種常見(jiàn)的計(jì)算方法:基于某種世界知識(shí)的或者分類(lèi)體系的計(jì)算方法、基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)計(jì)算方法。基于分類(lèi)體系語(yǔ)義距離計(jì)算方法又稱(chēng)為基于樹(shù)的語(yǔ)義相關(guān)性計(jì)算方法,此類(lèi)方法可以分為基于距離的語(yǔ)義相關(guān)性測(cè)度和基于信息內(nèi)容的語(yǔ)義相關(guān)性測(cè)度。一般情況下,利用一部語(yǔ)義詞典將所有的詞組織在一顆或者幾顆樹(shù)狀的層次結(jié)構(gòu)中,[16]任意兩個(gè)節(jié)點(diǎn)(詞語(yǔ))之間有且只有一條路徑,那么這條路徑的長(zhǎng)度可以作為這兩個(gè)詞語(yǔ)概念間語(yǔ)義距離的一種度量,詞語(yǔ)概念在樹(shù)結(jié)構(gòu)中的節(jié)點(diǎn)越深,其包含的語(yǔ)義信息就越深,也越能準(zhǔn)確地決定概念的性質(zhì)。基于語(yǔ)料庫(kù)的詞語(yǔ)相關(guān)性度量的研究大都采用上下文語(yǔ)境的統(tǒng)計(jì)描述方法,即認(rèn)同如下論斷:詞語(yǔ)的上下文可以為詞語(yǔ)定義提供足夠信息。[17]詞語(yǔ)向量空間模型是目前基于統(tǒng)計(jì)的詞語(yǔ)相關(guān)性計(jì)算策略使用比較廣泛的一種。
Lin[18]利用信息理論,提出通過(guò)樹(shù)狀結(jié)構(gòu)中兩個(gè)節(jié)點(diǎn)所含的信息量的大小來(lái)計(jì)算語(yǔ)義相關(guān)性。設(shè)s1和s2是兩個(gè)義原,sp為距離它們最近的共同祖先,P(s)為節(jié)點(diǎn)s的子節(jié)點(diǎn)個(gè)數(shù)(包括其本身)與樹(shù)中所有節(jié)點(diǎn)個(gè)數(shù)的比值。則s1和s2之間的相關(guān)性計(jì)算方法見(jiàn)式(2):

Rudi L C等利用信息論、壓縮原理、柯?tīng)柲缏宸驈?fù)雜性、語(yǔ)義學(xué)等知識(shí),把Internet作為一個(gè)大型的語(yǔ)料庫(kù),以Google搜索的結(jié)果數(shù)為計(jì)算的數(shù)據(jù)依據(jù),提出了一種語(yǔ)義相關(guān)性計(jì)算方法。[19]設(shè)NGD(Normalized Google Distance,0-1之間)表示標(biāo)準(zhǔn)谷歌距離,用以衡量語(yǔ)義相關(guān)性的大小,f(x)和f(y)分別表示包含概念x和y的網(wǎng)頁(yè)數(shù),N表示Google引用網(wǎng)頁(yè)總數(shù),那么概念間的語(yǔ)義相關(guān)性計(jì)算方法見(jiàn)式 (3):

在關(guān)聯(lián)數(shù)據(jù)中,領(lǐng)域本體提供共享詞表,用來(lái)表示特定領(lǐng)域中存在的個(gè)體概念和個(gè)體間的相互關(guān)系。每個(gè)個(gè)體包含多種屬性信息,不同屬性信息對(duì)個(gè)體相似性會(huì)有不同的影響力。如,在文獻(xiàn)相關(guān)性計(jì)算過(guò)程中,文獻(xiàn)標(biāo)題明顯比文獻(xiàn)出版年份更重要。設(shè)文獻(xiàn)i和文獻(xiàn)j的基本屬性集分別為{ia1,ia2,…,ia}I和{ja1,ja2,…,ja}J,其中I和J分別表示文獻(xiàn)i和文獻(xiàn)j的屬性數(shù)目。那么文獻(xiàn)i和文獻(xiàn)j的屬性相似權(quán)重和定義為如下形式:


文獻(xiàn)和文獻(xiàn)間本體語(yǔ)義相關(guān)性計(jì)算方法為:

大多數(shù)文本語(yǔ)義相關(guān)性的計(jì)算都會(huì)涉及本體語(yǔ)義相似性的計(jì)算。劉宏哲等[21]把基于本體的語(yǔ)義相似性計(jì)算粗略分成基于樹(shù)狀本體結(jié)構(gòu)的語(yǔ)義相似性計(jì)算方法和基于有向圖的語(yǔ)義相關(guān)度計(jì)算方法。前者是基于概念語(yǔ)義分類(lèi)詞典WordNet構(gòu)建的本體樹(shù)型結(jié)構(gòu)圖,樹(shù)中節(jié)點(diǎn)稱(chēng)為本體概念,將文本的每一個(gè)關(guān)鍵詞映射到本體樹(shù)型結(jié)構(gòu)的概念節(jié)點(diǎn),從而把文本語(yǔ)義相關(guān)性的計(jì)算轉(zhuǎn)化成多維關(guān)聯(lián)詞組的語(yǔ)義相關(guān)性計(jì)算,兩個(gè)關(guān)鍵詞之間的語(yǔ)義相關(guān)性通常采用關(guān)鍵詞在本體樹(shù)型分類(lèi)體系中的路徑長(zhǎng)度來(lái)度量,路徑長(zhǎng)度越大,關(guān)鍵詞的語(yǔ)義相似性就越小;后者是基于Wikipedia中的頁(yè)面網(wǎng)和類(lèi)別網(wǎng)的抽象有向圖結(jié)構(gòu),包含多種本體語(yǔ)義相關(guān)性計(jì)算方法。[22,23]
許多文獻(xiàn)[24,25]把文本表示成一個(gè)個(gè)相關(guān)孤立的關(guān)鍵詞列表,在文本語(yǔ)義相關(guān)性的計(jì)算過(guò)程中忽略了概念本體間的語(yǔ)義關(guān)聯(lián)和語(yǔ)義擴(kuò)展。本文把構(gòu)成文本的每一個(gè)關(guān)鍵詞在本體概念樹(shù)中的映射節(jié)點(diǎn)的父節(jié)點(diǎn)和子節(jié)點(diǎn)的集合稱(chēng)為語(yǔ)義擴(kuò)展集,并將其應(yīng)用到語(yǔ)義相關(guān)性的計(jì)算過(guò)程中。
在如圖3所示的本體概念層次樹(shù)中,文本中的任意兩個(gè)關(guān)鍵詞為worda和wordb,它們?cè)诒倔w概念層次樹(shù)中的映射對(duì)象分別為C3和C4,用dis(worda,wordb)表示它們之間的本體語(yǔ)義距離。此外,對(duì)C3和C4進(jìn)行本體語(yǔ)義擴(kuò)展:如果向上擴(kuò)展,那么概念節(jié)點(diǎn)的本體語(yǔ)義擴(kuò)展集合由該節(jié)點(diǎn)的父節(jié)點(diǎn)組成;如果向下擴(kuò)展,則概念節(jié)點(diǎn)的本體語(yǔ)義擴(kuò)展集合由該節(jié)點(diǎn)的子節(jié)點(diǎn)組成;把這兩種擴(kuò)展方式形成的本體語(yǔ)義擴(kuò)展集合的并集稱(chēng)為此概念節(jié)點(diǎn)的本體語(yǔ)義擴(kuò)展集。概念節(jié)點(diǎn)C3父節(jié)點(diǎn)本體語(yǔ)義擴(kuò)展集為{C1},子節(jié)點(diǎn)的本體語(yǔ)義擴(kuò)展集為{C7,C8,C9,C10};同樣的,C4的父節(jié)點(diǎn)本體語(yǔ)義擴(kuò)展集為{C1,C2},子節(jié)點(diǎn)的本體語(yǔ)義擴(kuò)展集為空。那么,概念節(jié)點(diǎn)C3和C4的本體語(yǔ)義擴(kuò)展集分別為 ={C1,C7,C8,C9,C10}和 ={C1,C2}。
筆者結(jié)合概念節(jié)點(diǎn)的本體語(yǔ)義距離和本體語(yǔ)義擴(kuò)展集的相似性,計(jì)算兩個(gè)關(guān)鍵詞在本體語(yǔ)義上的相似性。采用Jaccard系數(shù)來(lái)計(jì)算兩個(gè)關(guān)鍵詞在本體概念層次樹(shù)中的本體語(yǔ)義擴(kuò)展上的相似性,具體計(jì)算方法如下:

基于本體語(yǔ)義距離的相似度為:

筆者采用加權(quán)平均法,計(jì)算兩個(gè)關(guān)鍵詞的最終的本體語(yǔ)義相似度:


圖3 本體概念層次樹(shù)
在沒(méi)有涉及關(guān)聯(lián)數(shù)據(jù)條件下,文本(本體)語(yǔ)義相關(guān)性的計(jì)算方法只會(huì)涉及本地單一數(shù)據(jù)庫(kù)中的文檔信息,如果存在缺失或遺漏,就很難計(jì)算出此類(lèi)文檔的語(yǔ)義相關(guān)文檔,這容易導(dǎo)致推薦系統(tǒng)冷啟動(dòng)問(wèn)題的出現(xiàn)。此外,在計(jì)算本體語(yǔ)義相關(guān)性的過(guò)程中,還需要領(lǐng)域?qū)<覅⑴c領(lǐng)域本體的定義。在關(guān)聯(lián)數(shù)據(jù)中,語(yǔ)義相關(guān)性的算法過(guò)程就不會(huì)存在此類(lèi)問(wèn)題。關(guān)聯(lián)數(shù)據(jù)條件下的語(yǔ)義相關(guān)性計(jì)算方法融合了文獻(xiàn)間的互引關(guān)系和本體語(yǔ)義性,充分利用了關(guān)聯(lián)數(shù)據(jù)學(xué)術(shù)資源數(shù)據(jù)庫(kù)中固有的屬性本體語(yǔ)義關(guān)聯(lián)性和相互引用關(guān)聯(lián)性,提高了文獻(xiàn)的查準(zhǔn)率。
推薦算法是推薦系統(tǒng)的核心部分,能夠直接影響推薦系統(tǒng)的效率和性能。推薦算法的類(lèi)型大致可以分為3種:基于內(nèi)容的推薦方法、協(xié)同過(guò)濾方法、組合推薦方法。為了適應(yīng)學(xué)術(shù)資源檢索推薦系統(tǒng)的要求,筆者采用基于內(nèi)容的推薦方法,該方法不需要存儲(chǔ)用戶歷史瀏覽日志,能夠有效降低系統(tǒng)的存儲(chǔ)空間,也不需要建立用戶模型,更不涉及其他用戶的歷史數(shù)據(jù)。因此,該方法不存在用戶冷啟動(dòng)問(wèn)題。學(xué)術(shù)資源檢索推薦算法的簡(jiǎn)化流程見(jiàn)圖4。

圖4 學(xué)術(shù)資源檢索推薦算法簡(jiǎn)化流程
① 用戶輸入檢索關(guān)鍵詞。② 采用分類(lèi)體系語(yǔ)義距離計(jì)算方法,計(jì)算關(guān)鍵詞與學(xué)術(shù)資源文獻(xiàn)詞語(yǔ)向量中每個(gè)元素間的語(yǔ)義相關(guān)性。③ 根據(jù)預(yù)設(shè)的語(yǔ)義相關(guān)性閾值,判斷學(xué)術(shù)資源信息庫(kù)中的每個(gè)文獻(xiàn)與用戶輸入關(guān)鍵詞間的語(yǔ)義相關(guān)性是否大于預(yù)設(shè)相關(guān)性閾值。如果成立,把這些學(xué)術(shù)資源文獻(xiàn)進(jìn)行排序,選出相關(guān)性最大的前Top-N項(xiàng)文獻(xiàn),稱(chēng)之為檢索文獻(xiàn);如果不成立,舍棄。④ 采用文獻(xiàn)文本語(yǔ)義相關(guān)性的計(jì)算方法,計(jì)算之前選出的Top-N項(xiàng)文獻(xiàn)與學(xué)術(shù)資源信息庫(kù)中其他文獻(xiàn)的相關(guān)性,并為每個(gè)文獻(xiàn)挑選出語(yǔ)義相關(guān)性較高的Top-M項(xiàng)文獻(xiàn)資源,稱(chēng)之為推薦文獻(xiàn)。⑤ 把與用戶輸入關(guān)鍵詞語(yǔ)義相關(guān)性較高的前Top-N項(xiàng)檢索文獻(xiàn)及每個(gè)檢索文獻(xiàn)的Top-M項(xiàng)推薦文獻(xiàn)反饋給用戶,完成檢索推薦任務(wù)。
伴隨著關(guān)聯(lián)開(kāi)放數(shù)據(jù)的不斷增加,基于關(guān)聯(lián)數(shù)據(jù)的應(yīng)用研究逐漸成為熱點(diǎn)。為了便于數(shù)據(jù)的融合,本文把中科院機(jī)構(gòu)知識(shí)庫(kù)網(wǎng)格(CAS IR GRID)平臺(tái)中的本地?cái)?shù)據(jù)發(fā)布成五星級(jí)的關(guān)聯(lián)數(shù)據(jù),提出一種基于本體語(yǔ)義的文本語(yǔ)義相關(guān)性計(jì)算方法,并構(gòu)建了基于文本語(yǔ)義的文獻(xiàn)檢索推薦方法和具體實(shí)現(xiàn)框架模型。在此推薦模型中,實(shí)現(xiàn)了本體數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義融合,避免了一般推薦系統(tǒng)因數(shù)據(jù)源單一而造成的數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題,同時(shí)擴(kuò)大了用戶檢索查詢的范圍,能夠有效提高檢索查詢的效率。