999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息管理中的中文信息檢索

2008-12-31 00:00:00蔣運韞
商場現(xiàn)代化 2008年12期

[摘要] 本文首先從起源,概念,影響范圍,中西文信息檢索之比較及檢索模型幾個方面總體介紹了信息檢索。繼而引入基于向量模型的信息檢索方法,從它的相關(guān)概念包括向量、權(quán)值、相似度等到它的實現(xiàn)方法。在此基礎(chǔ)上以經(jīng)濟類文檔信息檢索為例詳細(xì)解釋了向量空間模型的實際應(yīng)用。最后總結(jié)此算法的不足之處及其對傳統(tǒng)檢索方法的改良。

[關(guān)鍵詞] 向量空間 中文 信息檢索 經(jīng)濟

信息檢索( Information Retrieval) 是一個古老而又全新的話題。說它古老,因為自從有了文獻便有了信息檢索。當(dāng)人們從中查找所需信息時,信息檢索也就應(yīng)運而生。只不過那時可檢索的對象較少,因而檢索是一個不自覺的過程。早期的信息檢索主要是手工檢索,人們通過“心想——手翻——眼看”的方式進行。隨著社會的發(fā)展和信息量的增加,人們逐漸認(rèn)識到信息檢索的必要性與重要性,信息檢索逐漸作為一門新興的學(xué)科發(fā)展起來。現(xiàn)代信息檢索是以計算機科學(xué)與技術(shù)、網(wǎng)絡(luò)技術(shù)、光盤技術(shù)、通信技術(shù)等現(xiàn)代信息技術(shù)在信息存儲與檢索中的應(yīng)用為基礎(chǔ)發(fā)展起來的。

一、信息檢索簡介

1.概念

廣義的信息檢索范圍很大,可以說從書本、報紙以及其他的各種媒體中查找人們需要的信息都可以稱為信息檢索。

狹義的信息檢索是特指利用計算機這個高效的工具對各種信息進行檢索的技術(shù)。信息檢索的內(nèi)容包括文本、圖像、視頻和音頻等多種,但本文只討論文本信息的檢索技術(shù),特別是中文信息的檢索技術(shù)。

信息檢索是一門研究從一定規(guī)模的文檔庫(Document Collection)中找出滿足用戶提出的信息需求(User Information Need)的技術(shù)。

2.Web信息檢索

Web的出現(xiàn)大大地促進了信息檢索技術(shù)的發(fā)展。Web上有異常豐富但又十分混亂的信息資源,其中絕大部分有用的信息還沒有挖掘出來。這是因為目前還沒有特別好的信息處理和檢索工具。這一領(lǐng)域的開發(fā)仍然處于初級階段。

3.中西文信息檢索比較

在文本信息檢索領(lǐng)域,西文信息檢索的發(fā)展較為迅速。西文信息檢索系統(tǒng)可以利用向量空間表示檢索信息內(nèi)容,并將自然語言處理應(yīng)用于信息檢索,大大提高了信息檢索的準(zhǔn)確性。中文信息的檢索和英文信息的檢索在很多地方是一致的,但也有一些不同。比如中文詞語之間沒有空格,因此在索引前需要進行詞語切分。此外,與英文相比,漢語句法分析和語義理解更為困難。

4.信息檢索的模型

一般有兩種信息檢索模型:基于統(tǒng)計的模型和基于語義的模型。基于統(tǒng)計的模型是應(yīng)用某些統(tǒng)計的手段從被檢索文檔和高標(biāo)注等級文檔中查詢與用戶需求匹配程度最好的文檔;而基于語義的模型則嘗試對需求實現(xiàn)一定程度語法語義分析,即對自然語言文本進行一定程度的理解并重新生成查詢。

基于統(tǒng)計的模型主要有:布爾模型(Boolean Model)、擴展布爾模型(Extended Boolean Model)、向量空間模型(Vector Space Model)以及概率模型(Probabilistic Model)等。

二、向量模型

向量模型是重要的檢索模型,其主要優(yōu)點在于:a、通過對特征項的加權(quán)改進了模型的檢索效果;b.模型的部分匹配策略允許檢索出與查詢條件相接近的文獻;c.相似度的引進使得能夠?qū)Σ樵兘Y(jié)果進行排序,以倒排文檔方式提交結(jié)果。

1.文檔和項的向量空間表示

首先把一個文檔進行分詞處理,并去除那些停用詞,如“我”、“的”、“人們”等。然后對剩余的詞進行合并處理。

在一個給定的集合中先對每個文檔進行以上的操作,獲得每個文檔索引項的集合。再把所有文檔的索引項進行合并,形成了一個代表整個文檔集合的索引項集合,整個索引項集合表示了一個“空間”。在一個文檔空間中,可以給每個索引項賦一個權(quán)值,代表這個索引項在這個文檔中的地位。如表1所示,文檔1的向量空間是(3,4,5),文檔2的向量空間是(2,3,3)。

與文檔空間相對應(yīng)的一個概念是“項空間”,它是指一個索引項在文檔集合中的各個文檔權(quán)值的集合。如表1所示,索引項“經(jīng)濟”的向量空間是(4,3,0,0),索引項“金融”的向量空間是(5,3,0,5)。

于是文獻和查詢均可用由項構(gòu)成的向量來表示:d=(t1,t2, ……,tn) 。項的權(quán)重(term weight) :對于有n 個不同的項的系統(tǒng),文獻D=(t1,t2,……,tn)。

2.項權(quán)值

項t k(1≤k≤n)常常被賦予一個數(shù)值Wk,表示它在文獻中的重要程度,稱為項t k 的權(quán)重。因此,我們一般用D=(w1,w2,…,wn)的形式表示文獻。特征項的權(quán)重計算,是人為賦予的,因此主觀性較強,但比較權(quán)威的確定權(quán)重的方法是運用TF - IDF 公式,即Wik = tfik/dfk=tfik ×idfk,其中tfik為特征項Tk在文檔Di中的出現(xiàn)頻率,稱為項頻率(term frequency);dfk則是文檔集D中出現(xiàn)特征項Tk的文檔的數(shù)量,稱為文檔頻率;idfk為dfk的倒數(shù),稱為反轉(zhuǎn)文檔頻率(inverteddocument frequency)。另外,還應(yīng)考慮到文檔的長度,否則長文檔易被檢出,而短文檔會被漏檢,所以通常還要對上面公式進行標(biāo)準(zhǔn)化處理。

假設(shè)有三個項:“經(jīng)濟”、“金融”和“計算機”,它們在不同文檔中的權(quán)值如表1所示。

根據(jù)這個表,可以畫出權(quán)值和文檔的三維向量空間。

3.計算向量之間的相似程度

相似度S(Similarity):指兩個文檔內(nèi)容相關(guān)程度的大小,當(dāng)文檔以向量來表示時,可以使用向量文檔向量間的距離來衡量,一般使用內(nèi)積或夾角θ的余弦來計算,兩者夾角越小說明相似度越高。由于查詢也可以在同一空間里表示為一個查詢向量(見圖1),可以通過相似度計算公式計算出每個文檔向量與查詢向量的相似度,排序這個結(jié)果后與設(shè)立的閾值進行比較。如果大于閾值則頁面與查詢相關(guān),保留該頁面查詢結(jié)果;如果小于則不相關(guān),過濾此頁。這樣就可以控制查詢結(jié)果的數(shù)量,加快查詢速度。

三、以經(jīng)濟信息檢索為例的實例分析

經(jīng)濟發(fā)展依賴于自然資源的開發(fā)與利用,也離不開經(jīng)濟信息資源的開發(fā)和利用。開發(fā)經(jīng)濟信息資源,實際上是對人類智力的開發(fā),是一種知識和科學(xué)技術(shù)的開發(fā),一種生產(chǎn)技能和管理技能的開發(fā)。現(xiàn)在,經(jīng)濟信息已經(jīng)滲透到現(xiàn)代生活的各個領(lǐng)域,有效地地開發(fā)和利用經(jīng)濟信息,提高經(jīng)濟信息的傳播速度已經(jīng)成為現(xiàn)代經(jīng)濟發(fā)展的一種推動力,能夠大大提高勞動者的智力水平,從而促進經(jīng)濟的發(fā)展。因此,在以經(jīng)濟建設(shè)為中心、大力發(fā)展社會主義經(jīng)濟的過程中,必須不斷地開發(fā)和利用經(jīng)濟信息資源。

經(jīng)濟信息是一種社會資源,作用于經(jīng)濟活動過程,已經(jīng)成為現(xiàn)代社會經(jīng)濟發(fā)展的一個先決條件。現(xiàn)代經(jīng)濟建設(shè)是一個龐大而復(fù)雜的系統(tǒng),需要依據(jù)大量的經(jīng)濟信息去控制、指揮、協(xié)調(diào)和組織系統(tǒng)的內(nèi)部關(guān)系,系統(tǒng)和系統(tǒng)之間也需要靠經(jīng)濟信息去聯(lián)系,才能使經(jīng)濟活動達到人們預(yù)期的目標(biāo)。在科學(xué)技術(shù)迅猛發(fā)展的社會里,經(jīng)濟信息資源顯得更加重要。

假設(shè)現(xiàn)有一個包含4篇經(jīng)濟金融類相關(guān)信息文檔的集合,這4篇文檔如下:

D1:金融投資的對象是金融資產(chǎn)……

D2:金融資產(chǎn)是獲得投資收益的資產(chǎn)……

D3:證券投資、基金投資和期權(quán)投資組成金融投資……

D4:獲得投資收益是證券性金融投資的主要目的……

檢索表達式Q為:金融投資的資產(chǎn)收益。

首先,需要對文檔和檢索表達式進行分詞處理,其結(jié)果如下:

D1:金融/投資/的/對象/是/金融/資產(chǎn)/……

D2:金融/資產(chǎn)/是/獲得/投資/收益/的/資產(chǎn)/……

D3:證券/投資/、/基金/投資/和/期權(quán)/投資/組成/金融/投資/……

D4:獲得/投資/收益/是/證券/性/金融/投資/的/主要/目的/……

Q:金融/投資/的/資產(chǎn)/收益/。

然后除去停用詞,去除后的文檔如下:

D1:金融/投資/對象/金融/資產(chǎn)/……

D2:金融/資產(chǎn)/獲得/投資/收益/資產(chǎn)/……

D3:證券/投資/基金/投資/期權(quán)/投資/組成/金融/投資/……

D4:獲得/投資/收益/證券/金融/投資/主要/目的/……

Q:金融/投資/資產(chǎn)/收益/。

計算項的權(quán)值根據(jù)公式

各個索引項的df和idf值如表2所示

各個索引項在文檔中的頻度如表3所示

則各個索引項在文檔中的權(quán)值如表4所示

檢索表達式的權(quán)值很簡單,如表5所示

采用內(nèi)積法計算向量的相似度,則可以看出,文檔D3與檢索表達式的相似度最高,D1、D2、D4相同且低于D3。

四、算法分析總結(jié)

算法的計算復(fù)雜程度還需要進一步探討,目前這些研究都還不夠深入,許多問題還有待于進一步探討;同時由于自然語言的復(fù)雜性,新查詢向量的查全率和查準(zhǔn)率雖然有所提高向量模型是以假設(shè)向量空間的各維之間相互正交(即各關(guān)鍵字之間相互獨立) 為前提的,因而不可避免地存在由此帶來的損失關(guān)鍵字間的相關(guān)性的缺點,可它把對文檔內(nèi)容和查詢要求的處理簡化為向量空間中向量的運算,克服了布爾模型的二值評價的缺點,可以計算出文檔與查詢式的相關(guān)程度,因而可以很容易地進行輸出結(jié)果的排序,用戶相關(guān)性反饋機制也很容易實現(xiàn),尤其是具有對處理海量數(shù)據(jù)的適應(yīng)性等種種優(yōu)點使得它自誕生以來,至今都有很強的生命力。

參考文獻:

[1]雷景生林冬雪符淺淺:基于改進向量空間模型的Web信息檢索技術(shù)研究[J].計算機工程, 2005, 1: 14~16

[2]王曉黎王文杰:基于向量空間模型的文本檢索系統(tǒng) [J].微電子學(xué)與計算機, 2006, 23: 188~190

[3]包金龍:基于向量空間模型的信息檢索系統(tǒng)的設(shè)計 [J].情報檢索, 2005, 7:44~45

[4]安茹娜:淺析經(jīng)濟文獻信息的開發(fā)和利用[J].科技情報開發(fā)與經(jīng)濟,2007,12:54~55

[5]劉海峰王元元:基于向量模型的文本檢索若干問題研究 [J].情報雜志,2006,10:57~59

[6]齊繼國高埃汪東升:基于多用戶協(xié)同反饋的信息檢索模型[J].小型微型計算機系統(tǒng),2003,7:1152~1155

主站蜘蛛池模板: 日韩精品久久无码中文字幕色欲| 国产成人8x视频一区二区| 国产国拍精品视频免费看 | 亚洲AV无码久久精品色欲| 亚洲最新网址| 中文字幕 日韩 欧美| 国产无码制服丝袜| 中文字幕欧美成人免费| 99热这里都是国产精品| 日韩东京热无码人妻| 国产精品久久久久婷婷五月| 亚洲an第二区国产精品| 国产综合在线观看视频| 成人av专区精品无码国产| 亚洲色图在线观看| 777午夜精品电影免费看| 久久这里只精品国产99热8| 色精品视频| 91丝袜在线观看| 中文字幕日韩欧美| 国产精品白浆在线播放| 中文字幕自拍偷拍| 亚洲无码视频图片| 精品人妻无码中字系列| 中日无码在线观看| 日韩 欧美 国产 精品 综合| 女人18毛片一级毛片在线 | 香蕉视频在线观看www| 亚洲欧美人成电影在线观看| 亚洲综合日韩精品| 国产精品一区在线麻豆| 中文字幕有乳无码| 99国产精品一区二区| 92午夜福利影院一区二区三区| 国产高清在线观看91精品| 成人久久精品一区二区三区| 久久人午夜亚洲精品无码区| 国产专区综合另类日韩一区| 天天躁日日躁狠狠躁中文字幕| 三级欧美在线| 国产欧美日韩va另类在线播放 | 女同国产精品一区二区| 亚洲美女一级毛片| 嫩草国产在线| 成人精品视频一区二区在线| 国产麻豆精品手机在线观看| 欧美午夜小视频| 香蕉精品在线| 日韩美毛片| 日本福利视频网站| 9丨情侣偷在线精品国产| 在线播放国产一区| 最新无码专区超级碰碰碰| 九九热免费在线视频| 欧美.成人.综合在线| 黑人巨大精品欧美一区二区区| 一本视频精品中文字幕| 日本草草视频在线观看| 午夜无码一区二区三区在线app| 一区二区三区四区日韩| 国产美女主播一级成人毛片| 亚洲人成人伊人成综合网无码| 亚洲欧洲日产无码AV| 国产在线观看高清不卡| 无码人妻免费| 19国产精品麻豆免费观看| 成人毛片免费在线观看| 精品国产乱码久久久久久一区二区| 亚洲无码免费黄色网址| 在线免费a视频| 亚洲欧美在线综合一区二区三区| 99精品视频在线观看免费播放| 高清国产在线| 国产福利在线免费| 在线免费a视频| 亚洲综合精品香蕉久久网| 国模在线视频一区二区三区| 日韩欧美国产成人| 毛片一级在线| 成人欧美日韩| 青青草欧美| 久久99热66这里只有精品一|