
摘 要
在我國(guó)當(dāng)下的網(wǎng)絡(luò)信息檢索中,傳統(tǒng)的向量空間模型因?yàn)椴荒茌^好的解決索引項(xiàng)之間的相互獨(dú)立型和Web文檔半結(jié)構(gòu)化之間的矛盾,已經(jīng)不能較好的滿足我國(guó)民眾對(duì)于網(wǎng)絡(luò)信息檢索的需求,在這種背景下,結(jié)構(gòu)化向量空間模型開始被用于網(wǎng)絡(luò)信息檢索之中,且發(fā)揮著不俗的應(yīng)用效果,在這種網(wǎng)絡(luò)信息檢索的發(fā)展現(xiàn)狀下,本文就結(jié)構(gòu)化向量空間模型進(jìn)行了具體研究,希望能夠進(jìn)一步推動(dòng)結(jié)構(gòu)化向量空間模型在網(wǎng)絡(luò)信息檢索中的應(yīng)用發(fā)展。
【關(guān)鍵詞】向量空間模型 結(jié)構(gòu)化
1 傳統(tǒng)向量空間模型
在Web信息檢索所使用的傳統(tǒng)向量模型中,傳統(tǒng)向量模型本身將文檔與用戶視為由相互獨(dú)立索引項(xiàng)組成的等長(zhǎng)向量。而在傳統(tǒng)向量模型的使用中,我們還可以通過對(duì)某索引項(xiàng)Tj在文檔集Dj中權(quán)重Wij,表示這一索引的重要程度,通過我國(guó)當(dāng)下流行的權(quán)重計(jì)算公式
,就可以計(jì)算得出某索引項(xiàng)Tj在文檔中的具體重要程度,也就是指Tj這一索引項(xiàng)的文檔集中比例,但這種計(jì)算方式不能夠很好地對(duì)索引項(xiàng)Tj在文檔中的分布差異性進(jìn)行較好而表現(xiàn)。在對(duì)文中分布差異性表現(xiàn)存在的問題中,半結(jié)構(gòu)化的Web文檔集合由于自身不同位置存在著不同的權(quán)重,這就使得這種文檔集合本身包含的信息量較大,而這種信息量較大的特點(diǎn)對(duì)于具體索引項(xiàng)在半結(jié)構(gòu)化的Web文檔集合中的分布差異性的表現(xiàn)也就變得更加困難。值得注意的是,傳統(tǒng)的向量空間模型每增加一個(gè)文檔都需要通過
公式進(jìn)行向量的重新計(jì)算,這種特點(diǎn)的存在客觀上降低了傳統(tǒng)向量模型的運(yùn)行效率,制約了傳統(tǒng)向量模型的發(fā)展。
2 結(jié)構(gòu)化向量空間模型的優(yōu)點(diǎn)
由于傳統(tǒng)的向量空間模型在應(yīng)用中存在著一些問題,制約著Web信息檢索效率的提升,這就催生了結(jié)構(gòu)化向量空間模型在Web信息檢索中的應(yīng)用。由于結(jié)構(gòu)化向量空間模型本身是從傳統(tǒng)向量空間模型發(fā)展而來的,這就使得結(jié)構(gòu)化向量空間模型既具有傳統(tǒng)向量空間模型的特點(diǎn),又能夠較好的對(duì)半結(jié)構(gòu)化的Web文檔集合中索引項(xiàng)的分布差異性進(jìn)行表現(xiàn),在實(shí)現(xiàn)這一功用中,結(jié)構(gòu)化向量空間模型會(huì)將具體的文檔按照一定策略進(jìn)行區(qū)域劃分,這種劃分會(huì)將Web文檔本身分為長(zhǎng)度與內(nèi)容都不同的文本段,這樣就可以較好的對(duì)不同文本段索引項(xiàng)的權(quán)值進(jìn)行較好的區(qū)分。在這種結(jié)構(gòu)化向量空間模型的應(yīng)用中,傳統(tǒng)向量模型所無法解決的運(yùn)行效率降低的問題,結(jié)構(gòu)化向量空間模型能夠予以輕松解決,而如果將兩種模型進(jìn)行具體對(duì)比,我們就能夠發(fā)現(xiàn)結(jié)構(gòu)化向量空間模型所具有的較高的查準(zhǔn)率。值得注意的是,在結(jié)構(gòu)化向量空間模型的應(yīng)用中,對(duì)于傳統(tǒng)向量空間模型沒有考慮過的索引項(xiàng)的具體出現(xiàn)位置與索引項(xiàng)的附加信息,其能夠通過自身功用較好的進(jìn)行解決,保證自身應(yīng)用對(duì)Web文檔中索引項(xiàng)權(quán)值頻度、位置、大小等信息的具體計(jì)算,最大程度上提高Web信息檢索中匹配結(jié)果的精確程度。
3 結(jié)構(gòu)化向量空間模型的應(yīng)用
結(jié)構(gòu)化向量空間模型在Web信息檢索中的具體應(yīng)用,能夠有效解決傳統(tǒng)向量空間模型在應(yīng)用中存在的問題,并會(huì)切實(shí)通過解決索引項(xiàng)之間的相互獨(dú)立和Web文檔半結(jié)構(gòu)化的矛盾,保證Web信息檢索效率與質(zhì)量的提高。在結(jié)構(gòu)化向量空間模型在Web信息檢索中的具體應(yīng)用,結(jié)構(gòu)化向量空間模型會(huì)通過自身邏輯將Web文檔分為文本段,通過對(duì)不同文本段的特征向量計(jì)算,組成具體的結(jié)構(gòu)化向量組,這就使得結(jié)構(gòu)化向量空間模型的具體應(yīng)用形式。筆者將在下文中對(duì)結(jié)構(gòu)化向量空間模型應(yīng)用中文檔索引項(xiàng)分段權(quán)值以及查詢向量與文檔向量的相似度這兩方面重點(diǎn)環(huán)節(jié)進(jìn)行詳細(xì)論述。
3.1 文檔索引項(xiàng)分段權(quán)值
結(jié)構(gòu)化向量空間模型在Web信息檢索的具體應(yīng)用中,我們提到了結(jié)構(gòu)化向量空間模型會(huì)將Web文檔本身分為長(zhǎng)度與內(nèi)容都不同的文本段,在這里我們將第k個(gè)文本段記錄為Sik,將文檔本身用Di表示,這樣我們就可以通過公式
,對(duì)結(jié)構(gòu)化向量空間模型中索引項(xiàng)Tj在文本段Sik中的分段權(quán)重進(jìn)行具體計(jì)算。在這一公式之中,λk代表位置加權(quán)系數(shù),這一系數(shù)主要對(duì)結(jié)構(gòu)化向量空間模型不同位置索引對(duì)文檔主題的貢獻(xiàn)大小進(jìn)行描述。
3.2 查詢向量與文檔向量的相似度
在結(jié)構(gòu)化向量空間模型的應(yīng)用中,對(duì)于查詢向量與文檔向量相似度的計(jì)算,也是結(jié)構(gòu)化向量空間模型能夠完成的任務(wù)之一,而為了完成這一計(jì)算,我們首先將詢串q的查詢向量設(shè)為Qq,這樣我們就可以利用公式1進(jìn)行具體的計(jì)算。
(1)
4 結(jié)構(gòu)化向量空間模型的應(yīng)用
通過結(jié)構(gòu)化向量空間模型的應(yīng)用,我們就能夠設(shè)計(jì)出較為優(yōu)秀的Web信息檢索系統(tǒng),這一系統(tǒng)的具體系統(tǒng)框架如圖1所示。
在這一框架中,其本身主要包括數(shù)據(jù)源處理模塊、頁(yè)面解析模塊、鏈接分析模塊、索引組織模塊、檢索模塊以及用戶接口模塊。在這些模塊組成的系統(tǒng)中,其通過PageRank和結(jié)構(gòu)化向量空間模型所組成的檢索系統(tǒng),就能夠很好地對(duì)網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化解析,并通過開源系統(tǒng)ICTCLASS實(shí)現(xiàn)網(wǎng)頁(yè)的分詞,利用TFIDF實(shí)現(xiàn)文檔的相似度查詢,并通過兩者集合的方式實(shí)現(xiàn)網(wǎng)頁(yè)的排序。
5 結(jié)論
綜上所述,在我國(guó)當(dāng)下的Web信息檢索中,傳統(tǒng)的向量空間模型已經(jīng)不能滿足我國(guó)民眾的需要,而通過對(duì)傳統(tǒng)向量空間模型升級(jí)而得到的結(jié)構(gòu)化向量空間模型的應(yīng)用,卻能切實(shí)提高Web信息的檢索效率與質(zhì)量,因此本文對(duì)其進(jìn)行了具體研究。
參考文獻(xiàn)
[1]DavidC.McClelland.TestingforCompetencyRatherThanfor"Intelligence"[J].AmericanPsychologist,2009(28):1-14.
[2]LyleM.Spencer,SigeM.Spencer.ComptenceatWork:ModelsforSuperiorPerformance[M].NewYork:JohnWiley&Sons,Inc,2013.
[3]李旭丹,吳文艷.結(jié)構(gòu)化向量空間模型的文本聚類算法研究[M].上海:華東理工大學(xué)出版,2013.
作者簡(jiǎn)介
魏芊匯(1996-),女,福建省福清市人。2013年起就讀于華南理工大學(xué)計(jì)算機(jī)學(xué)院網(wǎng)絡(luò)工程專業(yè),研究方向?yàn)橛?jì)算機(jī)。
作者單位
華南理工大學(xué)計(jì)算機(jī)學(xué)院 廣東省廣州市 510006