關(guān)于結(jié)構(gòu)化向量空間模型的研究

2017-03-17 08:36:30魏芊匯

電子技術(shù)與軟件工程 2016年16期

摘要

在我國(guó)當(dāng)下的網(wǎng)絡(luò)信息檢索中，傳統(tǒng)的向量空間模型因?yàn)椴荒茌^好的解決索引項(xiàng)之間的相互獨(dú)立型和Web文檔半結(jié)構(gòu)化之間的矛盾，已經(jīng)不能較好的滿足我國(guó)民眾對(duì)于網(wǎng)絡(luò)信息檢索的需求，在這種背景下，結(jié)構(gòu)化向量空間模型開始被用于網(wǎng)絡(luò)信息檢索之中，且發(fā)揮著不俗的應(yīng)用效果，在這種網(wǎng)絡(luò)信息檢索的發(fā)展現(xiàn)狀下，本文就結(jié)構(gòu)化向量空間模型進(jìn)行了具體研究，希望能夠進(jìn)一步推動(dòng)結(jié)構(gòu)化向量空間模型在網(wǎng)絡(luò)信息檢索中的應(yīng)用發(fā)展。

【關(guān)鍵詞】向量空間模型結(jié)構(gòu)化

1 傳統(tǒng)向量空間模型

在Web信息檢索所使用的傳統(tǒng)向量模型中，傳統(tǒng)向量模型本身將文檔與用戶視為由相互獨(dú)立索引項(xiàng)組成的等長(zhǎng)向量。而在傳統(tǒng)向量模型的使用中，我們還可以通過對(duì)某索引項(xiàng)Tj在文檔集Dj中權(quán)重Wij，表示這一索引的重要程度，通過我國(guó)當(dāng)下流行的權(quán)重計(jì)算公式

，就可以計(jì)算得出某索引項(xiàng)Tj在文檔中的具體重要程度，也就是指Tj這一索引項(xiàng)的文檔集中比例，但這種計(jì)算方式不能夠很好地對(duì)索引項(xiàng)Tj在文檔中的分布差異性進(jìn)行較好而表現(xiàn)。在對(duì)文中分布差異性表現(xiàn)存在的問題中，半結(jié)構(gòu)化的Web文檔集合由于自身不同位置存在著不同的權(quán)重，這就使得這種文檔集合本身包含的信息量較大，而這種信息量較大的特點(diǎn)對(duì)于具體索引項(xiàng)在半結(jié)構(gòu)化的Web文檔集合中的分布差異性的表現(xiàn)也就變得更加困難。值得注意的是，傳統(tǒng)的向量空間模型每增加一個(gè)文檔都需要通過

公式進(jìn)行向量的重新計(jì)算，這種特點(diǎn)的存在客觀上降低了傳統(tǒng)向量模型的運(yùn)行效率，制約了傳統(tǒng)向量模型的發(fā)展。

2 結(jié)構(gòu)化向量空間模型的優(yōu)點(diǎn)

由于傳統(tǒng)的向量空間模型在應(yīng)用中存在著一些問題，制約著Web信息檢索效率的提升，這就催生了結(jié)構(gòu)化向量空間模型在Web信息檢索中的應(yīng)用。由于結(jié)構(gòu)化向量空間模型本身是從傳統(tǒng)向量空間模型發(fā)展而來的，這就使得結(jié)構(gòu)化向量空間模型既具有傳統(tǒng)向量空間模型的特點(diǎn)，又能夠較好的對(duì)半結(jié)構(gòu)化的Web文檔集合中索引項(xiàng)的分布差異性進(jìn)行表現(xiàn)，在實(shí)現(xiàn)這一功用中，結(jié)構(gòu)化向量空間模型會(huì)將具體的文檔按照一定策略進(jìn)行區(qū)域劃分，這種劃分會(huì)將Web文檔本身分為長(zhǎng)度與內(nèi)容都不同的文本段，這樣就可以較好的對(duì)不同文本段索引項(xiàng)的權(quán)值進(jìn)行較好的區(qū)分。在這種結(jié)構(gòu)化向量空間模型的應(yīng)用中，傳統(tǒng)向量模型所無法解決的運(yùn)行效率降低的問題，結(jié)構(gòu)化向量空間模型能夠予以輕松解決，而如果將兩種模型進(jìn)行具體對(duì)比，我們就能夠發(fā)現(xiàn)結(jié)構(gòu)化向量空間模型所具有的較高的查準(zhǔn)率。值得注意的是，在結(jié)構(gòu)化向量空間模型的應(yīng)用中，對(duì)于傳統(tǒng)向量空間模型沒有考慮過的索引項(xiàng)的具體出現(xiàn)位置與索引項(xiàng)的附加信息，其能夠通過自身功用較好的進(jìn)行解決，保證自身應(yīng)用對(duì)Web文檔中索引項(xiàng)權(quán)值頻度、位置、大小等信息的具體計(jì)算，最大程度上提高Web信息檢索中匹配結(jié)果的精確程度。

3 結(jié)構(gòu)化向量空間模型的應(yīng)用

結(jié)構(gòu)化向量空間模型在Web信息檢索中的具體應(yīng)用，能夠有效解決傳統(tǒng)向量空間模型在應(yīng)用中存在的問題，并會(huì)切實(shí)通過解決索引項(xiàng)之間的相互獨(dú)立和Web文檔半結(jié)構(gòu)化的矛盾，保證Web信息檢索效率與質(zhì)量的提高。在結(jié)構(gòu)化向量空間模型在Web信息檢索中的具體應(yīng)用，結(jié)構(gòu)化向量空間模型會(huì)通過自身邏輯將Web文檔分為文本段，通過對(duì)不同文本段的特征向量計(jì)算，組成具體的結(jié)構(gòu)化向量組，這就使得結(jié)構(gòu)化向量空間模型的具體應(yīng)用形式。筆者將在下文中對(duì)結(jié)構(gòu)化向量空間模型應(yīng)用中文檔索引項(xiàng)分段權(quán)值以及查詢向量與文檔向量的相似度這兩方面重點(diǎn)環(huán)節(jié)進(jìn)行詳細(xì)論述。

3.1 文檔索引項(xiàng)分段權(quán)值

結(jié)構(gòu)化向量空間模型在Web信息檢索的具體應(yīng)用中，我們提到了結(jié)構(gòu)化向量空間模型會(huì)將Web文檔本身分為長(zhǎng)度與內(nèi)容都不同的文本段，在這里我們將第k個(gè)文本段記錄為Sik，將文檔本身用Di表示，這樣我們就可以通過公式

，對(duì)結(jié)構(gòu)化向量空間模型中索引項(xiàng)Tj在文本段Sik中的分段權(quán)重進(jìn)行具體計(jì)算。在這一公式之中，λk代表位置加權(quán)系數(shù)，這一系數(shù)主要對(duì)結(jié)構(gòu)化向量空間模型不同位置索引對(duì)文檔主題的貢獻(xiàn)大小進(jìn)行描述。

3.2 查詢向量與文檔向量的相似度

在結(jié)構(gòu)化向量空間模型的應(yīng)用中，對(duì)于查詢向量與文檔向量相似度的計(jì)算，也是結(jié)構(gòu)化向量空間模型能夠完成的任務(wù)之一，而為了完成這一計(jì)算，我們首先將詢串q的查詢向量設(shè)為Qq，這樣我們就可以利用公式1進(jìn)行具體的計(jì)算。

（1）

4 結(jié)構(gòu)化向量空間模型的應(yīng)用

通過結(jié)構(gòu)化向量空間模型的應(yīng)用，我們就能夠設(shè)計(jì)出較為優(yōu)秀的Web信息檢索系統(tǒng)，這一系統(tǒng)的具體系統(tǒng)框架如圖1所示。

在這一框架中，其本身主要包括數(shù)據(jù)源處理模塊、頁(yè)面解析模塊、鏈接分析模塊、索引組織模塊、檢索模塊以及用戶接口模塊。在這些模塊組成的系統(tǒng)中，其通過PageRank和結(jié)構(gòu)化向量空間模型所組成的檢索系統(tǒng)，就能夠很好地對(duì)網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化解析，并通過開源系統(tǒng)ICTCLASS實(shí)現(xiàn)網(wǎng)頁(yè)的分詞，利用TFIDF實(shí)現(xiàn)文檔的相似度查詢，并通過兩者集合的方式實(shí)現(xiàn)網(wǎng)頁(yè)的排序。

5 結(jié)論

綜上所述，在我國(guó)當(dāng)下的Web信息檢索中，傳統(tǒng)的向量空間模型已經(jīng)不能滿足我國(guó)民眾的需要，而通過對(duì)傳統(tǒng)向量空間模型升級(jí)而得到的結(jié)構(gòu)化向量空間模型的應(yīng)用，卻能切實(shí)提高Web信息的檢索效率與質(zhì)量，因此本文對(duì)其進(jìn)行了具體研究。

參考文獻(xiàn)

[1]DavidC.McClelland.TestingforCompetencyRatherThanfor"Intelligence"[J].AmericanPsychologist，2009（28）：1-14.

[2]LyleM.Spencer，SigeM.Spencer.ComptenceatWork：ModelsforSuperiorPerformance[M].NewYork：JohnWiley&Sons，Inc，2013.

[3]李旭丹，吳文艷.結(jié)構(gòu)化向量空間模型的文本聚類算法研究[M].上海：華東理工大學(xué)出版，2013.

作者簡(jiǎn)介

魏芊匯（1996-），女，福建省福清市人。2013年起就讀于華南理工大學(xué)計(jì)算機(jī)學(xué)院網(wǎng)絡(luò)工程專業(yè)，研究方向?yàn)橛?jì)算機(jī)。

作者單位

華南理工大學(xué)計(jì)算機(jī)學(xué)院廣東省廣州市 510006