999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

蒙古文信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2018-08-17 07:10:38溫子瀟包飛龍高光來王勇和蘇向東
中文信息學(xué)報(bào) 2018年7期
關(guān)鍵詞:信息檢索系統(tǒng)

溫子瀟,包飛龍,高光來,王勇和,蘇向東

(內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021)

0 引言

隨著科學(xué)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)上的信息也在呈指數(shù)增長。目前,很多中英文信息檢索系統(tǒng)層出不窮,但針對(duì)蒙古文的信息檢索系統(tǒng)還不夠完善,且相對(duì)較少。

蒙古文是蒙古族使用的語言文字,主要分布在中國的內(nèi)蒙古自治區(qū)和蒙古國。中國與蒙古國使用的蒙古文字具有一定的差異。“語同文不同”,即指語言相同,但文字不同。蒙古國使用的蒙古文稱為“西里爾蒙古文”(也稱為新蒙文[1]),中國使用的蒙古文稱為“傳統(tǒng)蒙古文”(也稱為舊蒙文或老蒙文)。隨著信息的日益增長,蒙古文也急需一種信息檢索系統(tǒng),來滿足人們的信息檢索層次的需求[2]。

一些科研工作者對(duì)蒙古文信息檢索系統(tǒng)進(jìn)行了很多相關(guān)研究工作。金威[3]通過對(duì)傳統(tǒng)蒙古文語法及構(gòu)詞進(jìn)行詳細(xì)分析后,解決了如何構(gòu)建蒙古文索引詞的問題。同時(shí),搭建了一個(gè)較為完善的蒙古文信息檢索平臺(tái)。李業(yè)榮[4]根據(jù)傳統(tǒng)蒙古文語言特點(diǎn),利用信息檢索技術(shù)實(shí)現(xiàn)了一個(gè)相對(duì)完善的蒙古文搜索引擎原型系統(tǒng)。劉娜[5]在基于傳統(tǒng)蒙古文語義的基礎(chǔ)上,利用信息檢索模型,構(gòu)建了蒙古文信息檢索系統(tǒng)。以上研究工作均是基于傳統(tǒng)蒙古文而言的,而基于西里爾蒙古文的信息檢索系統(tǒng)研究成果還相對(duì)較少。上述研究人員不僅為蒙古文信息檢索的發(fā)展起到了積極促進(jìn)作用,還為本系統(tǒng)的構(gòu)建提供了重要參考價(jià)值。

本文基于傳統(tǒng)蒙古文和西里爾蒙古文,構(gòu)建了一個(gè)性能優(yōu)良的信息檢索系統(tǒng)。該系統(tǒng)可以同時(shí)對(duì)傳統(tǒng)蒙古文和西里爾蒙古文進(jìn)行關(guān)鍵詞檢索。本文結(jié)構(gòu)如下: 第一部分介紹了系統(tǒng)的整體框架;第二部分介紹了對(duì)網(wǎng)絡(luò)爬蟲改進(jìn)的MD5算法;第三部分介紹了對(duì)蒙古文編碼轉(zhuǎn)換、詞綴切分和編碼校正等預(yù)處理操作;第四部分介紹了蒙古文索引的構(gòu)建方法;第五部分介紹了向量空間模型的檢索原理、搜索結(jié)果排序打分的算法原理;第六部分介紹了系統(tǒng)具體實(shí)現(xiàn)以及性能評(píng)價(jià)。

1 系統(tǒng)框架

系統(tǒng)整體框架如圖1所示。系統(tǒng)整體框架主要分為兩大模塊,即文檔獲取模塊和文檔檢索模塊。文檔獲取模塊,通過網(wǎng)絡(luò)爬蟲獲取傳統(tǒng)蒙古文和西里爾蒙古文文檔庫,對(duì)每篇文檔進(jìn)行編碼轉(zhuǎn)換、詞綴切分以及編碼校正等預(yù)處理操作,最后對(duì)處理后的文檔建立索引。文檔檢索模塊,首先對(duì)輸入的關(guān)鍵詞進(jìn)行詞綴切分,然后在索引庫中進(jìn)行檢索,最后將檢索出的文檔根據(jù)與輸入關(guān)鍵詞的相關(guān)性排序輸出。此外,為了方便用戶對(duì)西里爾蒙古文的閱讀,在系統(tǒng)中加入了西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換以及網(wǎng)站更新統(tǒng)計(jì)等功能模塊,滿足用戶多樣化的需求。

圖1 檢索系統(tǒng)框架圖

2 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲[6-8]是一個(gè)自動(dòng)提取網(wǎng)頁的程序。它為搜索引擎從因特網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。抓取流程主要分為三個(gè)部分: 產(chǎn)生、解析和提取。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,即種子URL。獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入待抓取隊(duì)列。然后,采用廣度優(yōu)先或者深度優(yōu)先遍歷的方法,遍歷整個(gè)隊(duì)列,直到滿足系統(tǒng)的一定停止條件。例如,抓取的深度達(dá)到設(shè)定的閾值爬蟲則停止[9]。爬蟲的工作流程較為復(fù)雜。需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,并對(duì)重復(fù)的URL進(jìn)行去重操作。去重操作可以大大提高爬蟲的效率,最后保留有用的新產(chǎn)生的鏈接并將其放入等待抓取的URL隊(duì)列。

2.1 爬蟲優(yōu)化改進(jìn)

去重操作對(duì)爬蟲性能的改善有決定性作用。本文在爬蟲中使用MD5[10]去重算法,使爬蟲的性能得到了極大的提升。本文中爬蟲的去重操作并不是指對(duì)單個(gè)URL進(jìn)行重復(fù)性判斷,而是對(duì)整個(gè)網(wǎng)頁html進(jìn)行去重。使用單個(gè)鏈接去重的方法不僅要重新解析當(dāng)前網(wǎng)頁中URL,還要對(duì)這些URL進(jìn)行重復(fù)性判斷,嚴(yán)重影響了爬蟲的速度。使用MD5算法對(duì)整個(gè)網(wǎng)頁html文件進(jìn)行去重操作,觀測整個(gè)網(wǎng)頁的內(nèi)容是否發(fā)生變化。若網(wǎng)頁中的內(nèi)容并沒有變化,將該網(wǎng)頁直接去掉即可。這樣會(huì)省去很多不必要的操作,最大限度降低時(shí)間和空間的復(fù)雜度,提升爬取效率。

MD5即Message Digest Algorithm 5(信息—摘要算法5),用于確保信息傳輸完整一致。是計(jì)算機(jī)廣泛使用的雜湊算法之一(又譯摘要算法、哈希算法)。MD5算法具有以下特點(diǎn)。

(1) 壓縮性: 任意長度的數(shù)據(jù),算出的MD5值長度都是固定的。

(2) 容易計(jì)算: 從原數(shù)據(jù)計(jì)算出MD5值很容易。

(3) 抗修改性: 對(duì)原數(shù)據(jù)進(jìn)行任何改動(dòng),哪怕只修改1個(gè)字節(jié),所得到的MD5值都有很大區(qū)別。

(4) 抗碰撞性: 已知原數(shù)據(jù)和其MD5值,想找到一個(gè)具有相同MD5值的數(shù)據(jù)(即偽造數(shù)據(jù))是非常困難的。

通過簡單的計(jì)算,我們可以知道使用該算法理論上可以使空間的利用率提高60倍。同時(shí)經(jīng)過試驗(yàn),我們對(duì)將近30萬條的URL進(jìn)行去重實(shí)驗(yàn),并對(duì)不同的去重方法進(jìn)行了比較,從表1中可以看出,爬蟲的效率提高了很多。

表1 去重方式對(duì)比

本文使用的測試環(huán)境為Inter Core i3-21003.10Ghz的內(nèi)存大小為10GB。在30萬條URL中,進(jìn)行了30次實(shí)驗(yàn),最終得出了每種去重算法耗時(shí)的平均時(shí)間。從表1中可以看出,使用MD5去重耗時(shí)最短。使用MD5算法進(jìn)行去重時(shí),去重時(shí)間跟URL的多少是沒有關(guān)系的。而其他兩種去重算法隨著URL數(shù)量的增大,去重時(shí)間也會(huì)隨之成正比例的增長。因此,在URL很大的情況下,MD5算法仍然可以保持高效的去重效率。當(dāng)數(shù)據(jù)量相對(duì)較小時(shí),MD5算法的性能并不一定優(yōu)于其他兩種去重方法,該算法只在大數(shù)據(jù)量的情況下有較好的去重效率。

3 文本預(yù)處理

在實(shí)現(xiàn)蒙古文檢索時(shí),考慮到蒙古文的特點(diǎn)及數(shù)據(jù)來源(均是從各大網(wǎng)站上抓取下來的),故文本的格式、編碼均不統(tǒng)一。所以,需要對(duì)提取的文本進(jìn)行預(yù)處理,將原始數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式,以方便后續(xù)的檢索處理。

文本預(yù)處理的一般步驟主要有: 文本的獲取、轉(zhuǎn)碼、詞綴的切分以及去除停用詞等操作。此外,由于蒙古文自身結(jié)構(gòu)特點(diǎn),有的詞從字形上看是正確的,可它的內(nèi)部編碼卻是錯(cuò)誤的。而在多數(shù)情況下,計(jì)算機(jī)是按照字符編碼識(shí)別詞匯,若不糾正這些錯(cuò)誤,將加大后續(xù)處理的難度,故在預(yù)處理階段還需要對(duì)蒙古文進(jìn)行編碼校對(duì)。預(yù)處理過程不僅可以減小索引的空間,還可以提高搜索的精度。

3.1 編碼轉(zhuǎn)換

獲取到文章后,需要對(duì)蒙古文的文檔進(jìn)行格式統(tǒng)一,以方便計(jì)算機(jī)辨認(rèn)出文檔的不同部分然后進(jìn)行檢索。這些內(nèi)容的區(qū)分對(duì)信息檢索來說是十分必要的,也是檢索系統(tǒng)實(shí)現(xiàn)的一個(gè)重要先決條件。大部分蒙古文的網(wǎng)站使用的編碼方式均為蒙科立編碼。因此,本文將蒙科立編碼的蒙古文轉(zhuǎn)換為國際標(biāo)準(zhǔn)編碼的蒙古文。

蒙科立編碼采用變形顯現(xiàn)字符編碼,國際標(biāo)準(zhǔn)編碼采用名義字符編碼。在使用蒙科立編碼的蒙古文中,一個(gè)相同的字符,出現(xiàn)在不同蒙古文詞的不同位置時(shí),它的編碼不同。而在國際標(biāo)準(zhǔn)編碼中,無論該字符出現(xiàn)在任何位置,均使用統(tǒng)一編碼。為了使所有的數(shù)據(jù)在我們的系統(tǒng)中具有唯一的編碼,需要對(duì)蒙古文進(jìn)行編碼轉(zhuǎn)換。采用基于規(guī)則和詞典的方法,來實(shí)現(xiàn)蒙科立編碼的蒙文轉(zhuǎn)換為國際標(biāo)準(zhǔn)編碼的蒙古文,圖2為轉(zhuǎn)換后的文檔。

圖2 處理后的文檔

3.2 詞綴切分

蒙古文依據(jù)其本身的構(gòu)詞特點(diǎn)與書寫規(guī)則,是由空格進(jìn)行分詞的。蒙古文詞匯通常包括兩部分,詞干和詞綴。與英文的區(qū)別在于,蒙古文詞匯中沒有前綴和中綴,只有后綴。蒙古文中一個(gè)詞干后面可以連接多種后綴,形成大量代表不同意義的詞。如果不對(duì)其進(jìn)行詞干的切分,將會(huì)導(dǎo)致索引庫規(guī)模過于龐大,嚴(yán)重影響檢索的速度。因此,對(duì)蒙古文進(jìn)行詞干提取是很有必要的。蒙古文在去除詞綴后,不僅可以有效地提高搜索的效率,還能減少索引的存儲(chǔ)空間。

傳統(tǒng)蒙古文和西里爾蒙古文切詞: 首先要將蒙古文按照空格分詞。以詞級(jí)為單位,從后綴表和詞干庫中匹配到當(dāng)前單詞的后綴和詞干。再采用基于規(guī)則的方法進(jìn)行詞綴切分,提取詞干。表2為西里爾蒙古文切分詞綴后得到的詞干表。

表2 切分后得到的詞干表

4 索引構(gòu)建

將非結(jié)構(gòu)化數(shù)據(jù)中的一部分信息提取出來,重新組織,使其具有一定結(jié)構(gòu)。然后,對(duì)這些有一定結(jié)構(gòu)的數(shù)據(jù)進(jìn)行搜索,從而達(dá)到搜索相對(duì)較快的目的。這部分從非結(jié)構(gòu)化數(shù)據(jù)中提取出來的數(shù)據(jù),重新組織后的信息,稱之為索引。將輸入的數(shù)據(jù)以倒排索引的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ),索引的建立可以極大地提升搜索速度。倒排索引主要用來存儲(chǔ)全文搜索條件下,某一個(gè)單詞在一篇文檔或文檔集中存儲(chǔ)位置的映射關(guān)系及其他信息。本文倒排索引如表3所示。

表3 倒排索引

5 檢索模型與重排序

信息的檢索與排序是信息檢索系統(tǒng)的核心部件。檢索部分是從用戶那里得到需求信息,利用向量空間模型的檢索原理在索引文件中進(jìn)行查詢,檢索的效率依賴于構(gòu)建索引的結(jié)構(gòu)。排序部分是將檢索出的結(jié)果生成一個(gè)按分值排序的文檔列表。目的是盡量給用戶返回和用戶提問最相關(guān)的文檔集合。

5.1 向量空間模型

將建立完成后的索引,利用向量空間模型[11],將查詢關(guān)鍵詞和文檔都表示成為向量。文檔和查詢關(guān)鍵詞之間的相似度通過向量夾角的余弦值表示。在檢索時(shí),查詢關(guān)鍵詞為Q,文檔集合D=(D1,D2,...,Dn),則檢索的過程可以描述為計(jì)算Q與Dj的相關(guān)程度。

在向量空間檢索模型中,把文檔和用戶查詢均用一組相互獨(dú)立的詞條組成,設(shè)在文本集中,共使用了n個(gè)詞條t1,t2,...,tn。文本集中某一文檔dj可表示為:dj=(wj1,wj2,...,wjn),其中wi1,wi2,...,win分別為詞t1,t2,...,tn在文檔dj中的權(quán)值。權(quán)值越大,表示該詞在文檔中的份量越大,即該詞越能反映dj的內(nèi)容: 如果權(quán)值越小,說明該詞的份量越小,越不能反映dj的內(nèi)容。權(quán)值的取值范圍是[0,1]。同樣地,用戶的查詢可表示為q=(w1,w2,...,wn),其中w1,w2,...,wn分別為給出的t1,t2,...,tn的權(quán)值。把幾個(gè)詞看作為n維坐標(biāo)系中的坐標(biāo),權(quán)植對(duì)應(yīng)其坐標(biāo)值。這樣,文檔和用戶查詢均可看成是由這坐標(biāo)軸組成空間中的一個(gè)點(diǎn),或稱為一個(gè)矢量。計(jì)算相似度有多種方法,一般常用式(1)計(jì)算。

(1)

Wi代表權(quán)重,即這個(gè)詞在文本檢索中的重要程度。一般地,通過式(2)計(jì)算權(quán)值。

Wij=TFi,j×IDFi

(2)

TF是指Term Frequency表示詞i在文檔Dj中出現(xiàn)的次數(shù),即詞頻;IDF是指Inverse Document Frequency。IDF定義如式(3)所示。

(3)

公式中,N表示文檔集合中所有的文檔的數(shù)目,ni表示整個(gè)文檔集合中出現(xiàn)過詞i的文檔的總數(shù),稱為逆文檔頻率。

模型的優(yōu)點(diǎn): 利用向量空間模型進(jìn)行檢索,可以通過調(diào)節(jié)權(quán)值的大小來反映關(guān)鍵詞與文檔的相關(guān)程度。檢索時(shí)要計(jì)算文檔間的相似度,使得屬相相似的文檔會(huì)聚集在一起,提高檢索的效率。

5.2 搜索排序算法

我們需要將搜索出的文章根據(jù)其與查詢的相關(guān)性進(jìn)行打分排序。目的是將與用戶提問最相關(guān)的檢索結(jié)果排在最前面返回給用戶,更好地滿足用戶的需求。本系統(tǒng)使用的是一種改進(jìn)的TF-IDF的排序算法,排序如式(4)所示。

Score(q,d)=cord(q,d)×queryNorm(q)×

∑(tf(tind)×idf(t)2t.getBoost()×norm(t,d)

(4)

(1)cord(q,d)為協(xié)調(diào)因子。表示文檔(d)中Term(t)出現(xiàn)的百分比,也就是計(jì)算查詢條件(q)中不同Term(t),以及在文檔中出現(xiàn)的數(shù)量之和,兩者的數(shù)量之比。通常在文檔中出現(xiàn)查詢Term種類越多,分值越高。

(2)queryNorm(q),為調(diào)節(jié)因子。不影響索引排序情況,只在檢索時(shí)使用。主要是用來讓排序結(jié)果在不同的查詢條件之間可以比較。這個(gè)條件是在搜索時(shí)計(jì)算。數(shù)值是根據(jù)每一個(gè)查詢項(xiàng)權(quán)重的平方和計(jì)算得到。計(jì)算如式(5)所示。

queryNorm(q)=

(5)

(3)tf(tind),為文檔頻率,表示查詢詞中,每個(gè)Term在對(duì)應(yīng)的結(jié)果文檔(d)中出現(xiàn)的次數(shù)。查詢詞出現(xiàn)的次數(shù)越多,表示出現(xiàn)頻率越高,文檔的檢索得分就越高。為了避免獲得更大的相關(guān)性函數(shù),實(shí)際中,使用次數(shù)的平方根作為文檔頻率tf的值,避免數(shù)值過度放大。

(4)idf(t)2,為逆文檔頻率。用于檢索匹配文檔數(shù)量的反向函數(shù)。按照信息理論,文檔出現(xiàn)的次數(shù)越少,每一篇文檔的信息量就會(huì)越大。所以匹配的文檔數(shù)越少,得分就越高。而索引庫中文檔總數(shù)越多,找到一篇目標(biāo)文檔難度越大,相應(yīng)的信息量也會(huì)越大。

(5)norm(t,d),為長度因子。由每個(gè)索引詞匯在域中的總體長度決定的,這個(gè)參數(shù)在索引建立時(shí)確定。數(shù)值根據(jù)文檔中實(shí)際具有的索引項(xiàng)個(gè)數(shù)確定。檢索詞長度在文檔總長度中占的比例越大,長度因子的數(shù)值也越大。

根據(jù)文檔與查詢的相關(guān)程度的大小,綜合考慮關(guān)鍵詞在文檔中出現(xiàn)的詞頻等各項(xiàng)指標(biāo)。對(duì)檢索出的每一篇文檔進(jìn)行打分,分值越高說明該篇文檔與查詢詞的相關(guān)程度越高。返回結(jié)果時(shí),隨著分?jǐn)?shù)的高低依次排列輸出給用戶。

6 系統(tǒng)實(shí)現(xiàn)

在系統(tǒng)實(shí)現(xiàn)階段,本系統(tǒng)可以同時(shí)對(duì)傳統(tǒng)蒙古文和西里爾蒙古文進(jìn)行檢索。并在系統(tǒng)中加入了西里爾蒙古文轉(zhuǎn)換傳統(tǒng)蒙古文和網(wǎng)站更新統(tǒng)計(jì)模塊,方便用戶使用,最后對(duì)系統(tǒng)的性能進(jìn)行了評(píng)測。

6.1 檢索模塊

在預(yù)處理后的文檔上,采用Lucene[12-14]工具對(duì)蒙古文文檔構(gòu)建索引并實(shí)現(xiàn)檢索,索引的內(nèi)容包括新聞的標(biāo)題,正文。檢索的實(shí)現(xiàn)分為三個(gè)步驟: 第一,用戶輸入要檢索的關(guān)鍵詞;第二,使用向量空間檢索模型,在建立的倒排文檔中進(jìn)行關(guān)鍵詞檢索;第三,將結(jié)果打分排序后反饋給用戶。系統(tǒng)在文檔庫中的檢索結(jié)果分別如下圖所示。圖3為使用西里爾蒙古文檢索得到的結(jié)果,圖4為使用傳統(tǒng)蒙古文檢索得到的結(jié)果,系統(tǒng)采用豎排的方式顯示傳統(tǒng)蒙古文,檢索的關(guān)鍵字會(huì)在文中標(biāo)紅。

圖3 西里爾蒙古文檢索結(jié)果

圖4 傳統(tǒng)蒙古文檢索結(jié)果

6.1.1 檢索測試

本文將三個(gè)關(guān)鍵詞,放在不同索引規(guī)模中進(jìn)行檢索測試。從表4中可以看出,對(duì)于同一個(gè)關(guān)鍵詞,索引的規(guī)模對(duì)于系統(tǒng)檢索速度影響不大,并不是索引規(guī)模越大檢索時(shí)間越長,檢索的時(shí)間主要是受命中數(shù)影響。從檢索時(shí)間上可以看出系統(tǒng)在實(shí)際應(yīng)用中,基本可以滿足用戶快速檢索的需求。

表4 檢索測試

續(xù)表

6.2 西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換模塊

為了方便我國用戶的使用、加快對(duì)西里爾蒙古文的閱讀速度,對(duì)于系統(tǒng)中檢索出的西里爾蒙古文,利用SOPA調(diào)用了西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換的Web Service接口,在系統(tǒng)中加入西里爾蒙古文轉(zhuǎn)換為傳統(tǒng)蒙古文的功能模塊。對(duì)于西里爾蒙古文轉(zhuǎn)換為傳統(tǒng)蒙古文,采用基于詞典和規(guī)則的方法與基于統(tǒng)計(jì)模型的方法[15-16]相結(jié)合的方法,使得轉(zhuǎn)換更高效。圖5為轉(zhuǎn)換后的結(jié)果。

圖5 西里爾蒙文轉(zhuǎn)換為傳統(tǒng)蒙文

6.3 網(wǎng)站更新統(tǒng)計(jì)模塊

系統(tǒng)中加入了對(duì)蒙古文網(wǎng)站的更新統(tǒng)計(jì)和管理模塊。用戶不僅可以自己增減想要查看的蒙古文的網(wǎng)站,還可以查看蒙古文網(wǎng)站每天、每月、每年的更新量。系統(tǒng)會(huì)將統(tǒng)計(jì)的數(shù)據(jù)以圖表的形式顯示,給用戶一個(gè)相對(duì)直觀的感覺。該模塊充分考慮到用戶對(duì)網(wǎng)站側(cè)重度的不同,可以自主增、刪、改所要關(guān)注的網(wǎng)站,同時(shí),系統(tǒng)還提供了不同網(wǎng)站的更新統(tǒng)計(jì)圖,滿足用戶對(duì)系統(tǒng)的個(gè)性化需求,如圖6所示。

圖6 網(wǎng)站更新統(tǒng)計(jì)

6.4 系統(tǒng)性能評(píng)價(jià)

本文利用爬蟲從網(wǎng)上抓取了30多萬個(gè)新聞網(wǎng)頁作為測試文檔集,設(shè)計(jì)了10個(gè)查詢作為查詢集,通過人工比較的方法本文獲得這些查詢的相關(guān)文檔數(shù)。參評(píng)指標(biāo)主要采用MAP和P@N兩個(gè)指標(biāo),其含義如下:

(1) MAP(Mean Average Precision)

單個(gè)主題的平均準(zhǔn)確率是每篇相關(guān)文檔檢索出結(jié)果后的準(zhǔn)確率的平均值,是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)。系統(tǒng)檢索出來的相關(guān)文檔越靠前則分?jǐn)?shù)就越高,反之則分?jǐn)?shù)越低。

(2) P@N(Precision @ N)

是系統(tǒng)對(duì)于該主題返回的前N個(gè)結(jié)果的準(zhǔn)確率。考慮到用戶在查看搜索引擎結(jié)果時(shí),往往希望在第一頁或者第二頁就找到自己所需的信息。因此,取N為10、15、20來對(duì)系統(tǒng)進(jìn)行性能評(píng)價(jià),常常能比較有效地反映系統(tǒng)在真實(shí)應(yīng)用環(huán)境下所表現(xiàn)的性能。

從表5中可以看出,MAP與檢索出的文檔位置有關(guān),誤檢的文檔越靠前MAP值越小,隨著N值的增大誤檢的錯(cuò)誤率也增大,但是系統(tǒng)平均的MAP值基本保持在80%左右。

表5 不同N值下檢索結(jié)果的MAP和P@N

7 結(jié)論與展望

本文基于蒙古文的語言特點(diǎn)構(gòu)建了一個(gè)可以同時(shí)檢索傳統(tǒng)蒙古文和西里爾蒙古文的信息檢索系統(tǒng)。在文檔獲取階段,對(duì)網(wǎng)絡(luò)爬蟲進(jìn)行了改進(jìn),使用MD5算法對(duì)網(wǎng)頁文件進(jìn)行去重,提升了爬蟲的爬取速度。在文本預(yù)處理階段,對(duì)蒙古文進(jìn)行編碼轉(zhuǎn)換、詞綴切分以及編碼校正等操作,將原始的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式,方便后續(xù)建立索引和檢索處理。在檢索階段,使用向量空間檢索模型對(duì)倒排索引文檔進(jìn)行檢索。系統(tǒng)可以對(duì)傳統(tǒng)蒙古文和西里爾蒙古文兩種不同形式的蒙古文進(jìn)行檢索,并對(duì)檢索到的文檔集合進(jìn)行打分排序,返回給用戶最相關(guān)的查詢結(jié)果。在系統(tǒng)的實(shí)現(xiàn)階段,考慮到我國大部分人使用的是傳統(tǒng)蒙古文。系統(tǒng)中加入了西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換的模塊,以方便用戶閱讀。同時(shí),在系統(tǒng)中加入了網(wǎng)站更新統(tǒng)計(jì)的模塊,用戶不僅可以獲得每個(gè)網(wǎng)站每天、每月以及每年的更新統(tǒng)計(jì)量,還可以根據(jù)需要增、刪、改想要關(guān)注的網(wǎng)站,滿足用戶個(gè)性化的需求。最后對(duì)系統(tǒng)的性能進(jìn)行了評(píng)測,從結(jié)果來看,系統(tǒng)已經(jīng)達(dá)到了可應(yīng)用的水平。

猜你喜歡
信息檢索系統(tǒng)
基于同態(tài)加密支持模糊查詢的高效隱私信息檢索協(xié)議
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網(wǎng)絡(luò)環(huán)境下高職院校開設(shè)信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
主站蜘蛛池模板: 中文字幕66页| 亚洲浓毛av| 91麻豆国产精品91久久久| 欧美日韩精品在线播放| 国产一二视频| 亚洲人成网站色7799在线播放| 国产精品太粉嫩高中在线观看| 精品国产成人av免费| 最新国产午夜精品视频成人| 毛片卡一卡二| 老司国产精品视频| 精品久久久久久成人AV| JIZZ亚洲国产| 日日拍夜夜操| 国产一区二区三区精品久久呦| 美女国产在线| 亚洲精品国产成人7777| 一级毛片基地| 国产精品免费久久久久影院无码| 国产成人8x视频一区二区| 精品国产中文一级毛片在线看 | 伊人91在线| 国产亚洲精品97在线观看| 久久综合婷婷| 中文字幕伦视频| 日韩AV无码免费一二三区| 狠狠色香婷婷久久亚洲精品| 亚洲国产看片基地久久1024| AV无码一区二区三区四区| 国产永久在线视频| 色综合婷婷| 欧美亚洲另类在线观看| 2021国产乱人伦在线播放| 久久五月视频| 国产中文在线亚洲精品官网| 国产亚卅精品无码| 成人中文字幕在线| 日韩专区欧美| 国产美女精品在线| 国产福利微拍精品一区二区| 欧美国产成人在线| 欧美成在线视频| 国产欧美专区在线观看| 激情国产精品一区| 欧美有码在线| 国产欧美又粗又猛又爽老| 久久99精品久久久久纯品| 一级香蕉视频在线观看| 青青草国产免费国产| 亚洲精品黄| 国产第一福利影院| 亚洲制服中文字幕一区二区| 无码不卡的中文字幕视频| 国产99视频精品免费视频7| 国产在线精彩视频二区| 中国国产一级毛片| 欧美乱妇高清无乱码免费| 91久久偷偷做嫩草影院| 国产色婷婷视频在线观看| 首页亚洲国产丝袜长腿综合| 蜜桃臀无码内射一区二区三区| 东京热一区二区三区无码视频| 伊人婷婷色香五月综合缴缴情| 成人在线不卡| 国产在线观看成人91| 色婷婷综合在线| 在线日韩一区二区| 亚洲第一成网站| 91 九色视频丝袜| 在线欧美日韩| 亚洲国产黄色| 亚洲无限乱码一二三四区| 十八禁美女裸体网站| 国产成人h在线观看网站站| 狠狠亚洲婷婷综合色香| 久久精品娱乐亚洲领先| 老司机久久99久久精品播放| 制服丝袜一区| 国产精品一区在线麻豆| 九色视频线上播放| 456亚洲人成高清在线| 九九视频免费在线观看|