蒙古文信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2018-08-17 07:10:38溫子瀟包飛龍高光來王勇和蘇向東

中文信息學(xué)報(bào) 2018年7期

溫子瀟，包飛龍，高光來，王勇和，蘇向東

(內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院，內(nèi)蒙古呼和浩特 010021)

0 引言

隨著科學(xué)技術(shù)的不斷發(fā)展，互聯(lián)網(wǎng)上的信息也在呈指數(shù)增長。目前，很多中英文信息檢索系統(tǒng)層出不窮，但針對(duì)蒙古文的信息檢索系統(tǒng)還不夠完善，且相對(duì)較少。

蒙古文是蒙古族使用的語言文字，主要分布在中國的內(nèi)蒙古自治區(qū)和蒙古國。中國與蒙古國使用的蒙古文字具有一定的差異。“語同文不同”，即指語言相同，但文字不同。蒙古國使用的蒙古文稱為“西里爾蒙古文”(也稱為新蒙文[1])，中國使用的蒙古文稱為“傳統(tǒng)蒙古文”(也稱為舊蒙文或老蒙文)。隨著信息的日益增長，蒙古文也急需一種信息檢索系統(tǒng)，來滿足人們的信息檢索層次的需求[2]。

一些科研工作者對(duì)蒙古文信息檢索系統(tǒng)進(jìn)行了很多相關(guān)研究工作。金威[3]通過對(duì)傳統(tǒng)蒙古文語法及構(gòu)詞進(jìn)行詳細(xì)分析后，解決了如何構(gòu)建蒙古文索引詞的問題。同時(shí)，搭建了一個(gè)較為完善的蒙古文信息檢索平臺(tái)。李業(yè)榮[4]根據(jù)傳統(tǒng)蒙古文語言特點(diǎn)，利用信息檢索技術(shù)實(shí)現(xiàn)了一個(gè)相對(duì)完善的蒙古文搜索引擎原型系統(tǒng)。劉娜[5]在基于傳統(tǒng)蒙古文語義的基礎(chǔ)上，利用信息檢索模型，構(gòu)建了蒙古文信息檢索系統(tǒng)。以上研究工作均是基于傳統(tǒng)蒙古文而言的，而基于西里爾蒙古文的信息檢索系統(tǒng)研究成果還相對(duì)較少。上述研究人員不僅為蒙古文信息檢索的發(fā)展起到了積極促進(jìn)作用，還為本系統(tǒng)的構(gòu)建提供了重要參考價(jià)值。

本文基于傳統(tǒng)蒙古文和西里爾蒙古文，構(gòu)建了一個(gè)性能優(yōu)良的信息檢索系統(tǒng)。該系統(tǒng)可以同時(shí)對(duì)傳統(tǒng)蒙古文和西里爾蒙古文進(jìn)行關(guān)鍵詞檢索。本文結(jié)構(gòu)如下: 第一部分介紹了系統(tǒng)的整體框架；第二部分介紹了對(duì)網(wǎng)絡(luò)爬蟲改進(jìn)的MD5算法；第三部分介紹了對(duì)蒙古文編碼轉(zhuǎn)換、詞綴切分和編碼校正等預(yù)處理操作；第四部分介紹了蒙古文索引的構(gòu)建方法；第五部分介紹了向量空間模型的檢索原理、搜索結(jié)果排序打分的算法原理；第六部分介紹了系統(tǒng)具體實(shí)現(xiàn)以及性能評(píng)價(jià)。

1 系統(tǒng)框架

系統(tǒng)整體框架如圖1所示。系統(tǒng)整體框架主要分為兩大模塊，即文檔獲取模塊和文檔檢索模塊。文檔獲取模塊，通過網(wǎng)絡(luò)爬蟲獲取傳統(tǒng)蒙古文和西里爾蒙古文文檔庫，對(duì)每篇文檔進(jìn)行編碼轉(zhuǎn)換、詞綴切分以及編碼校正等預(yù)處理操作，最后對(duì)處理后的文檔建立索引。文檔檢索模塊，首先對(duì)輸入的關(guān)鍵詞進(jìn)行詞綴切分，然后在索引庫中進(jìn)行檢索，最后將檢索出的文檔根據(jù)與輸入關(guān)鍵詞的相關(guān)性排序輸出。此外，為了方便用戶對(duì)西里爾蒙古文的閱讀，在系統(tǒng)中加入了西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換以及網(wǎng)站更新統(tǒng)計(jì)等功能模塊，滿足用戶多樣化的需求。

圖1 檢索系統(tǒng)框架圖

2 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲[6-8]是一個(gè)自動(dòng)提取網(wǎng)頁的程序。它為搜索引擎從因特網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。抓取流程主要分為三個(gè)部分: 產(chǎn)生、解析和提取。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始，即種子URL。獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入待抓取隊(duì)列。然后，采用廣度優(yōu)先或者深度優(yōu)先遍歷的方法，遍歷整個(gè)隊(duì)列，直到滿足系統(tǒng)的一定停止條件。例如，抓取的深度達(dá)到設(shè)定的閾值爬蟲則停止[9]。爬蟲的工作流程較為復(fù)雜。需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，并對(duì)重復(fù)的URL進(jìn)行去重操作。去重操作可以大大提高爬蟲的效率，最后保留有用的新產(chǎn)生的鏈接并將其放入等待抓取的URL隊(duì)列。

2.1 爬蟲優(yōu)化改進(jìn)

去重操作對(duì)爬蟲性能的改善有決定性作用。本文在爬蟲中使用MD5[10]去重算法，使爬蟲的性能得到了極大的提升。本文中爬蟲的去重操作并不是指對(duì)單個(gè)URL進(jìn)行重復(fù)性判斷，而是對(duì)整個(gè)網(wǎng)頁html進(jìn)行去重。使用單個(gè)鏈接去重的方法不僅要重新解析當(dāng)前網(wǎng)頁中URL，還要對(duì)這些URL進(jìn)行重復(fù)性判斷，嚴(yán)重影響了爬蟲的速度。使用MD5算法對(duì)整個(gè)網(wǎng)頁html文件進(jìn)行去重操作，觀測整個(gè)網(wǎng)頁的內(nèi)容是否發(fā)生變化。若網(wǎng)頁中的內(nèi)容并沒有變化，將該網(wǎng)頁直接去掉即可。這樣會(huì)省去很多不必要的操作，最大限度降低時(shí)間和空間的復(fù)雜度，提升爬取效率。

MD5即Message Digest Algorithm 5(信息—摘要算法5)，用于確保信息傳輸完整一致。是計(jì)算機(jī)廣泛使用的雜湊算法之一(又譯摘要算法、哈希算法)。MD5算法具有以下特點(diǎn)。

(1) 壓縮性: 任意長度的數(shù)據(jù)，算出的MD5值長度都是固定的。

(2) 容易計(jì)算: 從原數(shù)據(jù)計(jì)算出MD5值很容易。

(3) 抗修改性: 對(duì)原數(shù)據(jù)進(jìn)行任何改動(dòng)，哪怕只修改1個(gè)字節(jié)，所得到的MD5值都有很大區(qū)別。

(4) 抗碰撞性: 已知原數(shù)據(jù)和其MD5值，想找到一個(gè)具有相同MD5值的數(shù)據(jù)(即偽造數(shù)據(jù))是非常困難的。

通過簡單的計(jì)算，我們可以知道使用該算法理論上可以使空間的利用率提高60倍。同時(shí)經(jīng)過試驗(yàn)，我們對(duì)將近30萬條的URL進(jìn)行去重實(shí)驗(yàn)，并對(duì)不同的去重方法進(jìn)行了比較，從表1中可以看出，爬蟲的效率提高了很多。

表1 去重方式對(duì)比

本文使用的測試環(huán)境為Inter Core i3-21003.10Ghz的內(nèi)存大小為10GB。在30萬條URL中，進(jìn)行了30次實(shí)驗(yàn)，最終得出了每種去重算法耗時(shí)的平均時(shí)間。從表1中可以看出，使用MD5去重耗時(shí)最短。使用MD5算法進(jìn)行去重時(shí)，去重時(shí)間跟URL的多少是沒有關(guān)系的。而其他兩種去重算法隨著URL數(shù)量的增大，去重時(shí)間也會(huì)隨之成正比例的增長。因此，在URL很大的情況下，MD5算法仍然可以保持高效的去重效率。當(dāng)數(shù)據(jù)量相對(duì)較小時(shí)，MD5算法的性能并不一定優(yōu)于其他兩種去重方法，該算法只在大數(shù)據(jù)量的情況下有較好的去重效率。

3 文本預(yù)處理

在實(shí)現(xiàn)蒙古文檢索時(shí)，考慮到蒙古文的特點(diǎn)及數(shù)據(jù)來源(均是從各大網(wǎng)站上抓取下來的)，故文本的格式、編碼均不統(tǒng)一。所以，需要對(duì)提取的文本進(jìn)行預(yù)處理，將原始數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式，以方便后續(xù)的檢索處理。

文本預(yù)處理的一般步驟主要有: 文本的獲取、轉(zhuǎn)碼、詞綴的切分以及去除停用詞等操作。此外，由于蒙古文自身結(jié)構(gòu)特點(diǎn)，有的詞從字形上看是正確的，可它的內(nèi)部編碼卻是錯(cuò)誤的。而在多數(shù)情況下，計(jì)算機(jī)是按照字符編碼識(shí)別詞匯，若不糾正這些錯(cuò)誤，將加大后續(xù)處理的難度，故在預(yù)處理階段還需要對(duì)蒙古文進(jìn)行編碼校對(duì)。預(yù)處理過程不僅可以減小索引的空間，還可以提高搜索的精度。

3.1 編碼轉(zhuǎn)換

獲取到文章后，需要對(duì)蒙古文的文檔進(jìn)行格式統(tǒng)一，以方便計(jì)算機(jī)辨認(rèn)出文檔的不同部分然后進(jìn)行檢索。這些內(nèi)容的區(qū)分對(duì)信息檢索來說是十分必要的，也是檢索系統(tǒng)實(shí)現(xiàn)的一個(gè)重要先決條件。大部分蒙古文的網(wǎng)站使用的編碼方式均為蒙科立編碼。因此，本文將蒙科立編碼的蒙古文轉(zhuǎn)換為國際標(biāo)準(zhǔn)編碼的蒙古文。

蒙科立編碼采用變形顯現(xiàn)字符編碼，國際標(biāo)準(zhǔn)編碼采用名義字符編碼。在使用蒙科立編碼的蒙古文中，一個(gè)相同的字符，出現(xiàn)在不同蒙古文詞的不同位置時(shí)，它的編碼不同。而在國際標(biāo)準(zhǔn)編碼中，無論該字符出現(xiàn)在任何位置，均使用統(tǒng)一編碼。為了使所有的數(shù)據(jù)在我們的系統(tǒng)中具有唯一的編碼，需要對(duì)蒙古文進(jìn)行編碼轉(zhuǎn)換。采用基于規(guī)則和詞典的方法，來實(shí)現(xiàn)蒙科立編碼的蒙文轉(zhuǎn)換為國際標(biāo)準(zhǔn)編碼的蒙古文，圖2為轉(zhuǎn)換后的文檔。

圖2 處理后的文檔

3.2 詞綴切分

蒙古文依據(jù)其本身的構(gòu)詞特點(diǎn)與書寫規(guī)則，是由空格進(jìn)行分詞的。蒙古文詞匯通常包括兩部分，詞干和詞綴。與英文的區(qū)別在于，蒙古文詞匯中沒有前綴和中綴，只有后綴。蒙古文中一個(gè)詞干后面可以連接多種后綴，形成大量代表不同意義的詞。如果不對(duì)其進(jìn)行詞干的切分，將會(huì)導(dǎo)致索引庫規(guī)模過于龐大，嚴(yán)重影響檢索的速度。因此，對(duì)蒙古文進(jìn)行詞干提取是很有必要的。蒙古文在去除詞綴后，不僅可以有效地提高搜索的效率，還能減少索引的存儲(chǔ)空間。

傳統(tǒng)蒙古文和西里爾蒙古文切詞: 首先要將蒙古文按照空格分詞。以詞級(jí)為單位，從后綴表和詞干庫中匹配到當(dāng)前單詞的后綴和詞干。再采用基于規(guī)則的方法進(jìn)行詞綴切分，提取詞干。表2為西里爾蒙古文切分詞綴后得到的詞干表。

表2 切分后得到的詞干表

4 索引構(gòu)建

將非結(jié)構(gòu)化數(shù)據(jù)中的一部分信息提取出來，重新組織，使其具有一定結(jié)構(gòu)。然后，對(duì)這些有一定結(jié)構(gòu)的數(shù)據(jù)進(jìn)行搜索，從而達(dá)到搜索相對(duì)較快的目的。這部分從非結(jié)構(gòu)化數(shù)據(jù)中提取出來的數(shù)據(jù)，重新組織后的信息，稱之為索引。將輸入的數(shù)據(jù)以倒排索引的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ)，索引的建立可以極大地提升搜索速度。倒排索引主要用來存儲(chǔ)全文搜索條件下，某一個(gè)單詞在一篇文檔或文檔集中存儲(chǔ)位置的映射關(guān)系及其他信息。本文倒排索引如表3所示。

表3 倒排索引

5 檢索模型與重排序

信息的檢索與排序是信息檢索系統(tǒng)的核心部件。檢索部分是從用戶那里得到需求信息，利用向量空間模型的檢索原理在索引文件中進(jìn)行查詢，檢索的效率依賴于構(gòu)建索引的結(jié)構(gòu)。排序部分是將檢索出的結(jié)果生成一個(gè)按分值排序的文檔列表。目的是盡量給用戶返回和用戶提問最相關(guān)的文檔集合。

5.1 向量空間模型

將建立完成后的索引，利用向量空間模型[11]，將查詢關(guān)鍵詞和文檔都表示成為向量。文檔和查詢關(guān)鍵詞之間的相似度通過向量夾角的余弦值表示。在檢索時(shí),查詢關(guān)鍵詞為Q，文檔集合D=(D1,D2,...,Dn)，則檢索的過程可以描述為計(jì)算Q與Dj的相關(guān)程度。

在向量空間檢索模型中,把文檔和用戶查詢均用一組相互獨(dú)立的詞條組成,設(shè)在文本集中,共使用了n個(gè)詞條t1,t2,...,tn。文本集中某一文檔dj可表示為:dj=(wj1,wj2,...,wjn),其中wi1,wi2,...,win分別為詞t1,t2,...,tn在文檔dj中的權(quán)值。權(quán)值越大,表示該詞在文檔中的份量越大,即該詞越能反映dj的內(nèi)容: 如果權(quán)值越小，說明該詞的份量越小,越不能反映dj的內(nèi)容。權(quán)值的取值范圍是[0,1]。同樣地,用戶的查詢可表示為q=(w1,w2,...,wn),其中w1,w2,...,wn分別為給出的t1,t2,...,tn的權(quán)值。把幾個(gè)詞看作為n維坐標(biāo)系中的坐標(biāo),權(quán)植對(duì)應(yīng)其坐標(biāo)值。這樣,文檔和用戶查詢均可看成是由這坐標(biāo)軸組成空間中的一個(gè)點(diǎn),或稱為一個(gè)矢量。計(jì)算相似度有多種方法,一般常用式(1)計(jì)算。

(1)

Wi代表權(quán)重，即這個(gè)詞在文本檢索中的重要程度。一般地，通過式(2)計(jì)算權(quán)值。

Wij=TFi,j×IDFi

(2)

TF是指Term Frequency表示詞i在文檔Dj中出現(xiàn)的次數(shù)，即詞頻；IDF是指Inverse Document Frequency。IDF定義如式(3)所示。

(3)

公式中，N表示文檔集合中所有的文檔的數(shù)目，ni表示整個(gè)文檔集合中出現(xiàn)過詞i的文檔的總數(shù)，稱為逆文檔頻率。

模型的優(yōu)點(diǎn): 利用向量空間模型進(jìn)行檢索，可以通過調(diào)節(jié)權(quán)值的大小來反映關(guān)鍵詞與文檔的相關(guān)程度。檢索時(shí)要計(jì)算文檔間的相似度，使得屬相相似的文檔會(huì)聚集在一起，提高檢索的效率。

5.2 搜索排序算法

我們需要將搜索出的文章根據(jù)其與查詢的相關(guān)性進(jìn)行打分排序。目的是將與用戶提問最相關(guān)的檢索結(jié)果排在最前面返回給用戶，更好地滿足用戶的需求。本系統(tǒng)使用的是一種改進(jìn)的TF-IDF的排序算法，排序如式(4)所示。

Score(q,d)=cord(q,d)×queryNorm(q)×

∑(tf(tind)×idf(t)2t.getBoost()×norm(t,d)

(4)

(1)cord(q,d)為協(xié)調(diào)因子。表示文檔(d)中Term(t)出現(xiàn)的百分比，也就是計(jì)算查詢條件(q)中不同Term(t)，以及在文檔中出現(xiàn)的數(shù)量之和，兩者的數(shù)量之比。通常在文檔中出現(xiàn)查詢Term種類越多，分值越高。

(2)queryNorm(q)，為調(diào)節(jié)因子。不影響索引排序情況，只在檢索時(shí)使用。主要是用來讓排序結(jié)果在不同的查詢條件之間可以比較。這個(gè)條件是在搜索時(shí)計(jì)算。數(shù)值是根據(jù)每一個(gè)查詢項(xiàng)權(quán)重的平方和計(jì)算得到。計(jì)算如式(5)所示。

queryNorm(q)=

(5)

(3)tf(tind)，為文檔頻率，表示查詢詞中，每個(gè)Term在對(duì)應(yīng)的結(jié)果文檔(d)中出現(xiàn)的次數(shù)。查詢詞出現(xiàn)的次數(shù)越多，表示出現(xiàn)頻率越高，文檔的檢索得分就越高。為了避免獲得更大的相關(guān)性函數(shù)，實(shí)際中，使用次數(shù)的平方根作為文檔頻率tf的值，避免數(shù)值過度放大。

(4)idf(t)2，為逆文檔頻率。用于檢索匹配文檔數(shù)量的反向函數(shù)。按照信息理論，文檔出現(xiàn)的次數(shù)越少，每一篇文檔的信息量就會(huì)越大。所以匹配的文檔數(shù)越少，得分就越高。而索引庫中文檔總數(shù)越多，找到一篇目標(biāo)文檔難度越大，相應(yīng)的信息量也會(huì)越大。

(5)norm(t,d)，為長度因子。由每個(gè)索引詞匯在域中的總體長度決定的，這個(gè)參數(shù)在索引建立時(shí)確定。數(shù)值根據(jù)文檔中實(shí)際具有的索引項(xiàng)個(gè)數(shù)確定。檢索詞長度在文檔總長度中占的比例越大，長度因子的數(shù)值也越大。

根據(jù)文檔與查詢的相關(guān)程度的大小，綜合考慮關(guān)鍵詞在文檔中出現(xiàn)的詞頻等各項(xiàng)指標(biāo)。對(duì)檢索出的每一篇文檔進(jìn)行打分，分值越高說明該篇文檔與查詢詞的相關(guān)程度越高。返回結(jié)果時(shí)，隨著分?jǐn)?shù)的高低依次排列輸出給用戶。

6 系統(tǒng)實(shí)現(xiàn)

在系統(tǒng)實(shí)現(xiàn)階段，本系統(tǒng)可以同時(shí)對(duì)傳統(tǒng)蒙古文和西里爾蒙古文進(jìn)行檢索。并在系統(tǒng)中加入了西里爾蒙古文轉(zhuǎn)換傳統(tǒng)蒙古文和網(wǎng)站更新統(tǒng)計(jì)模塊，方便用戶使用，最后對(duì)系統(tǒng)的性能進(jìn)行了評(píng)測。

6.1 檢索模塊

在預(yù)處理后的文檔上，采用Lucene[12-14]工具對(duì)蒙古文文檔構(gòu)建索引并實(shí)現(xiàn)檢索，索引的內(nèi)容包括新聞的標(biāo)題，正文。檢索的實(shí)現(xiàn)分為三個(gè)步驟: 第一，用戶輸入要檢索的關(guān)鍵詞；第二，使用向量空間檢索模型，在建立的倒排文檔中進(jìn)行關(guān)鍵詞檢索；第三，將結(jié)果打分排序后反饋給用戶。系統(tǒng)在文檔庫中的檢索結(jié)果分別如下圖所示。圖3為使用西里爾蒙古文檢索得到的結(jié)果，圖4為使用傳統(tǒng)蒙古文檢索得到的結(jié)果，系統(tǒng)采用豎排的方式顯示傳統(tǒng)蒙古文，檢索的關(guān)鍵字會(huì)在文中標(biāo)紅。

圖3 西里爾蒙古文檢索結(jié)果

圖4 傳統(tǒng)蒙古文檢索結(jié)果

6.1.1 檢索測試

本文將三個(gè)關(guān)鍵詞，放在不同索引規(guī)模中進(jìn)行檢索測試。從表4中可以看出，對(duì)于同一個(gè)關(guān)鍵詞，索引的規(guī)模對(duì)于系統(tǒng)檢索速度影響不大，并不是索引規(guī)模越大檢索時(shí)間越長，檢索的時(shí)間主要是受命中數(shù)影響。從檢索時(shí)間上可以看出系統(tǒng)在實(shí)際應(yīng)用中，基本可以滿足用戶快速檢索的需求。

表4 檢索測試

續(xù)表

6.2 西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換模塊

為了方便我國用戶的使用、加快對(duì)西里爾蒙古文的閱讀速度，對(duì)于系統(tǒng)中檢索出的西里爾蒙古文，利用SOPA調(diào)用了西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換的Web Service接口，在系統(tǒng)中加入西里爾蒙古文轉(zhuǎn)換為傳統(tǒng)蒙古文的功能模塊。對(duì)于西里爾蒙古文轉(zhuǎn)換為傳統(tǒng)蒙古文，采用基于詞典和規(guī)則的方法與基于統(tǒng)計(jì)模型的方法[15-16]相結(jié)合的方法，使得轉(zhuǎn)換更高效。圖5為轉(zhuǎn)換后的結(jié)果。

圖5 西里爾蒙文轉(zhuǎn)換為傳統(tǒng)蒙文

6.3 網(wǎng)站更新統(tǒng)計(jì)模塊

系統(tǒng)中加入了對(duì)蒙古文網(wǎng)站的更新統(tǒng)計(jì)和管理模塊。用戶不僅可以自己增減想要查看的蒙古文的網(wǎng)站，還可以查看蒙古文網(wǎng)站每天、每月、每年的更新量。系統(tǒng)會(huì)將統(tǒng)計(jì)的數(shù)據(jù)以圖表的形式顯示，給用戶一個(gè)相對(duì)直觀的感覺。該模塊充分考慮到用戶對(duì)網(wǎng)站側(cè)重度的不同，可以自主增、刪、改所要關(guān)注的網(wǎng)站，同時(shí)，系統(tǒng)還提供了不同網(wǎng)站的更新統(tǒng)計(jì)圖，滿足用戶對(duì)系統(tǒng)的個(gè)性化需求，如圖6所示。

圖6 網(wǎng)站更新統(tǒng)計(jì)

6.4 系統(tǒng)性能評(píng)價(jià)

本文利用爬蟲從網(wǎng)上抓取了30多萬個(gè)新聞網(wǎng)頁作為測試文檔集，設(shè)計(jì)了10個(gè)查詢作為查詢集，通過人工比較的方法本文獲得這些查詢的相關(guān)文檔數(shù)。參評(píng)指標(biāo)主要采用MAP和P@N兩個(gè)指標(biāo)，其含義如下:

(1) MAP(Mean Average Precision)

單個(gè)主題的平均準(zhǔn)確率是每篇相關(guān)文檔檢索出結(jié)果后的準(zhǔn)確率的平均值,是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)。系統(tǒng)檢索出來的相關(guān)文檔越靠前則分?jǐn)?shù)就越高，反之則分?jǐn)?shù)越低。

(2) P@N(Precision @ N)

是系統(tǒng)對(duì)于該主題返回的前N個(gè)結(jié)果的準(zhǔn)確率。考慮到用戶在查看搜索引擎結(jié)果時(shí)，往往希望在第一頁或者第二頁就找到自己所需的信息。因此，取N為10、15、20來對(duì)系統(tǒng)進(jìn)行性能評(píng)價(jià)，常常能比較有效地反映系統(tǒng)在真實(shí)應(yīng)用環(huán)境下所表現(xiàn)的性能。

從表5中可以看出，MAP與檢索出的文檔位置有關(guān)，誤檢的文檔越靠前MAP值越小，隨著N值的增大誤檢的錯(cuò)誤率也增大，但是系統(tǒng)平均的MAP值基本保持在80%左右。

表5 不同N值下檢索結(jié)果的MAP和P@N

7 結(jié)論與展望

本文基于蒙古文的語言特點(diǎn)構(gòu)建了一個(gè)可以同時(shí)檢索傳統(tǒng)蒙古文和西里爾蒙古文的信息檢索系統(tǒng)。在文檔獲取階段，對(duì)網(wǎng)絡(luò)爬蟲進(jìn)行了改進(jìn)，使用MD5算法對(duì)網(wǎng)頁文件進(jìn)行去重，提升了爬蟲的爬取速度。在文本預(yù)處理階段，對(duì)蒙古文進(jìn)行編碼轉(zhuǎn)換、詞綴切分以及編碼校正等操作，將原始的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式，方便后續(xù)建立索引和檢索處理。在檢索階段，使用向量空間檢索模型對(duì)倒排索引文檔進(jìn)行檢索。系統(tǒng)可以對(duì)傳統(tǒng)蒙古文和西里爾蒙古文兩種不同形式的蒙古文進(jìn)行檢索，并對(duì)檢索到的文檔集合進(jìn)行打分排序，返回給用戶最相關(guān)的查詢結(jié)果。在系統(tǒng)的實(shí)現(xiàn)階段，考慮到我國大部分人使用的是傳統(tǒng)蒙古文。系統(tǒng)中加入了西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換的模塊，以方便用戶閱讀。同時(shí)，在系統(tǒng)中加入了網(wǎng)站更新統(tǒng)計(jì)的模塊，用戶不僅可以獲得每個(gè)網(wǎng)站每天、每月以及每年的更新統(tǒng)計(jì)量，還可以根據(jù)需要增、刪、改想要關(guān)注的網(wǎng)站，滿足用戶個(gè)性化的需求。最后對(duì)系統(tǒng)的性能進(jìn)行了評(píng)測，從結(jié)果來看，系統(tǒng)已經(jīng)達(dá)到了可應(yīng)用的水平。