張 金,倪曉軍
(南京郵電大學(xué) 計算機(jī)學(xué)院,江蘇 南京 210003)
基于語義樹與VSM的主題爬取策略研究
張 金,倪曉軍
(南京郵電大學(xué) 計算機(jī)學(xué)院,江蘇 南京 210003)
主題爬蟲主要用于解決用戶的定制化搜索需求,即在日益增長的網(wǎng)絡(luò)數(shù)據(jù)中快速、有效、準(zhǔn)確地選取用戶關(guān)注的主題內(nèi)容進(jìn)行爬取。提高爬取特定信息的準(zhǔn)確性,需要對網(wǎng)頁的內(nèi)容相關(guān)度進(jìn)行主題相關(guān)判斷,而主題爬蟲關(guān)注的核心問題就是相關(guān)度計算,但現(xiàn)有的改進(jìn)算法大多采用人工智能和機(jī)器學(xué)習(xí)等技術(shù),不僅引起算法復(fù)雜度的提高,而且提升效果有限。為此,提出了一種基于語義樹與VSM的主題爬取策略,將語義相似度的計算加入到內(nèi)容相關(guān)度計算與鏈接排序中,并通過對策略中算法細(xì)節(jié)的改進(jìn)優(yōu)化相關(guān)度的主題判別。實(shí)驗結(jié)果表明,使用基于語義樹與VSM爬取策略的主題爬蟲可將爬行路線一直保持在相關(guān)度較高的網(wǎng)頁鏈接中,對網(wǎng)頁鏈接進(jìn)行了相關(guān)與不相關(guān)的有效分類,顯著地提高了爬取的準(zhǔn)確率。
主題爬蟲;語義樹;向量空間模型;內(nèi)容相關(guān)度;鏈接排序
主題爬取是指遵循一定的規(guī)則對相應(yīng)主題進(jìn)行爬取操作,有別于傳統(tǒng)的爬取策略(爬取所有的頁面以供用戶后期的檢索,信息范圍廣泛),而主題爬取盡可能多地爬取只與主題相關(guān)的網(wǎng)頁,避免其他無關(guān)頁面,信息領(lǐng)域特定,結(jié)果專業(yè),提高了爬蟲爬取的效率。在互聯(lián)網(wǎng)的飛速發(fā)展下,網(wǎng)絡(luò)上的信息資源呈指數(shù)級增長,爬取的信息量也隨之增長,如何在海量數(shù)據(jù)中為用戶提供個性化需求的信息成為當(dāng)下爬取研究的重點(diǎn)。……