摘要:針對互聯網農業信息的多樣性、復雜性以及我國“三農”的特殊性,研究并實現了智能中文農業垂直搜索引擎AgriRoom,介紹了AgriRoom的體系架構和系統實現中涉及到的關鍵技術:基于網頁分類和多元線性回歸分析的信息過濾技術、物理存儲模式的分頁式倒排索引技術、基于隨機索引和潛在語義分析的語義檢索模型。該系統目前已投入使用,取得了較顯著的應用效果。
關鍵詞:農業信息;垂直搜索引擎;體系架構
中圖分類號:TP393.02 ? ? ? 文獻標識碼:A ? ? ? 文章編號:0439-8114(2014)12-2913-05
The Architecture and Implementation of Intelligent Chinese Agriculture
Vertical Search Engine
CHEN Yan-hong
(College of Computer and Information Engineering, Xinjiang Agriculture University, Urumqi ?830052, China)
Abstract:For the diversity and complexity of agricultural information on the Internet, and the particularity of “three rural” in China, the AgriRoom which was a intelligent Chinese agriculture vertical search engine was studied and achieved. The architecture of AgriRoom and the key technologies related to the system implementation included: information filtering technology based on web page classification and multiple linear regression analysis, tabbed inverted index in physical storage mode, semantic retrieval model based on random index and latent semantic analysis. Now, the system has been put into use, and made significant application effect.
Key words:agricultural information;vertical search engine;architecture
20世紀90年代初,搜索引擎開始應用于農業領域,多由商業公司開發,也有一些是由組織機構和政府部門研發的。從搜索引擎的質量來看,組織機構、政府部門開發和維護的農業搜索引擎的質量高于商業公司,主要是因為政府部門和組織機構都是農業相關部門,擁有先天優勢。典型代表有美國農業網絡信息中心(AGNIC)與美國普林斯頓建立的Agriscape Search等[1]。2007年,中國首個農業垂直搜索引擎——“農搜”上線,是目前全球數據量最大的中文農業垂直搜索引擎,其實現了“全文檢索+語義檢索”的智能檢索功能[2]。同年上線的“華農在線”利用自然語言語義分析技術實現了信息處理的應用和在農業行業的垂直搜索。與此同時,我國還出現了一些提供農業信息搜索功能的網站。隨著搜索引擎技術的發展,面對我國“三農”的特殊性以及互聯網農業信息的多樣性和復雜性,許多問題需要探討,本研究構建了智能中文農業垂直搜索引擎AgriRoom,并從體系的架構、信息過濾、物理存儲模式以及語義檢索模型等方面進行了介紹,為構建智能中文農業垂直搜索引擎奠定了基礎。
1 ?智能中文農業垂直搜索引擎體系的架構
課題組基于前期研究成果設計并實現了一個功能完備的智能農業垂直搜索引擎AgriRoom,其體系架構如圖1所示。AgriRoom作為專注于互聯網農業信息的垂直搜索引擎,從初始的種子站點到主題詞庫等都體現了農業特性,同時系統還具有專門的信息過濾模塊篩選與農業相關性高的網頁,從而既可以節約存儲空間,又保證了信息的準確性。同時,為后期高效地檢索打下良好的基礎及保證系統的查準率和查全率,AgriRoom采用基于雙索引庫模式的潛在語義檢索方式。首先,系統利用索引模塊建立高效的分頁式倒排索引庫;然后,利用檢索模塊將其轉換為雙重語義空間,為后面的語義檢索作準備。體系的架構圖見圖1。
1)專業網絡蜘蛛[1]從農業種子站點列表中獲得網頁的URL,如果該地址不在舍棄URL隊列中,則對互聯網中相應的Web服務器進行網頁抓取,并解析抓取的網頁,提取該網頁中的超鏈接信息和網頁內容信息送信息過濾模塊。然后,網絡蜘蛛再繼續抓取下一個網頁進行同樣的處理。
2)信息過濾模塊接到專業網絡蜘蛛送來的已解析頁面后,根據農業主題詞庫中的主題詞及其權值,分析該頁面的內容是否與農業主題相關、是否是垃圾網頁或導航頁面。如果頁面與農業主題相關度比設定的閾值低或頁面為垃圾頁面,則將此頁面的URL送入舍棄URL隊列。否則,將頁面送入索引模塊準備建立索引,同時,還將該頁面存入農業網頁數據庫中。
3)索引模塊將獲得的頁面信息,進行相應處理后,建立分頁式倒排索引并存入索引庫[3]中。
4)當所有抓取的頁面都被索引后,檢索模塊讀取分頁式倒排索引庫中的索引,通過隨機索引[4]和潛在語義分析[5]建立較高效的雙重語義空間。endprint
5)用戶輸入查詢條件后,檢索模塊對其進行解析和處理,轉換為標準的查詢語句;檢索模塊將查詢語句和語義空間中的信息進行語義分析后,獲得查詢結果。最后,形成結果頁面返回給用戶。
2 ?智能中文農業垂直搜索引擎體系的關鍵技術
AgriRoom的實現需要綜合應用多項技術,除了常規的網頁抓取[1]、中文分詞技術[6]外還涉及到了3項關鍵技術:信息過濾技術、分頁式倒排索引技術以及語義檢索技術。
2.1 ?信息過濾
為了有效地減小索引規模和提高系統效率,AgriRoom采用了一種基于網頁分類技術和多元回歸分析[7]的信息過濾模型如圖2所示。整個工作流程可以分為訓練過程和測試過程。在訓練過程中,訓練集實例經過預處理(文本抽取、中文分詞)、抽取特征項、向量表示后,構建多元線性回歸的數學模型,最后進行回歸分析獲得回歸方程;在信息過濾過程中,每一個待過濾的中文網頁經過預處理、向量表示后,代入多元回歸方程中,判定該網頁是否為農業網頁。
從圖2可以看出,構建該信息過濾模型的關鍵因素包括:建立訓練集、網頁預處理、特征選擇算法、多元線性回歸分析:
1)建立訓練集。訓練集是研究的起點和基礎,但是與眾多的面向英文的標準網頁訓練集相比,標準的中文網頁訓練集的起步很晚。到目前為止,只有一些中文文本訓練集,還沒有出現標準的中文網頁訓練集。為了解決該問題,動員100個學生手工在互聯網上采集農業網頁50 000張,其中,35 000張作為訓練集,15 000張作為測試集;然后,以百度作為網絡蜘蛛的種子站點,在互聯網上隨機抓取 12 000張網頁,人工挑出7 000張非農業網頁,其中的4 000張作為訓練集,3 000張作為測試集。通過反復測試,最終確定訓練集實例用于信息過濾。
2)網頁預處理。網頁預處理過程主要包括網頁正文抽取;借助于中文分詞工具對抽取后的文本進行中文分詞;對分詞后的結果建立索引。
3)特征選擇算法。特征詞不但是用來建立回歸模型的因子,也是區分農業網頁和非農業網頁的最關鍵因素,特征詞選取方法將對模型的識別效果產生重大影響。文本在深入研究了中文網頁分類中典型的特征詞提取方法的基礎上,結合實際應用提出了一種新的特征詞選取方法,其步驟如下:
a.從農業訓練集索引文件中獲取農業訓練集分詞結果集合Term1(t1,t2,…,tn)和對應文檔頻率集合Df1(df1,df2,…,dfn);
b.從非農業訓練集索引文件中獲取非農業訓練集分詞結果集合Term2(t1,t2,…,tm)和對應文檔頻率集合Df2(df1,df2,…,dfm);
c.從集合Df1中查詢Term1中所有詞條ti的文檔頻率,記為ny_dfi,再從集合Df2中查詢詞ti的文檔頻率dfi,記為fny_dfi,計算詞條ti在農業訓練集和非農業訓練集中文檔頻率差值的絕對值C,即C=ABS(ny_dfi-fny_dfi)。對詞條ti按C值逆序排序,選取C值大于預先設定的閾值的詞條ti為區分農業網頁和非農業網頁的特征詞。通過分別比較不同分詞工具的特征詞選取結果,最終確定了前100個特征詞(表1)。
4)多元線性回歸分析。多元回歸分析[8]是一種處理自變量與因變量的統計相關關系的一種數理統計方法。雖然自變量和因變量之間沒有確定性的函數關系,但可以設法找出最能代表它們之間關系的數學表達形式。回歸分析有很廣泛的應用,例如經驗公式的求得、因素分析、產品質量的控制等。在進行中文農業網頁識別過程中,利用獲得的前40個特征詞和MATLAB進行多元線性回歸分析,最終獲得可用于分類的回歸方程,即分類器:y= -0.368 4+0.187 4x[0]+0.210 4x[1]+0.202 4x[2]+0.125 8x[3]+0.364 2x[4]+0.188 2x[5]+0.135 7x[6]+0.083 7x[7]+0.126 8x[8]+0.045 5x[9]+0.061 6x[10]+0.053 8x[11]+0.105 0x[12]+0.097 0x[13]+0.404 0x[14]+0.071 1x[15]-0.018 4x[16]+0.076 1x[17]-0.372 7x[18]+0.118 8x[19]-0.098 9x[20]+0.078 7x[21]+0.065 8x[22]-0.088 4x[23]-0.054 9x[24]-0.028 5x[25]+0.047 5x[26]-0.083 6x[27]+0.036 6x[28]-0.134 3x[29]+0.003 4x[30]+0.004 5x[31]+0.034 4x[32]+0.045 6x[33]+0.020 3x[34]+0.038 0x[35]-0.063 9x[36]-0.026 6x[37]+0.092 7x[38]-0.083 2x[39]。
式中的x[i]為第i個特征詞的對應值,若該詞在網頁中出現了,x[i]的值為1,否則為0;最終計算出的y值如果大于0,說明網頁為農業網頁,否則不是農業網頁。
2.2 ?分頁式倒排索引
為了解決常規倒排索引的檢索效率低、不易更新等缺點[9],AgriRoom采用一種分頁式倒排索引結構(圖3)。該倒排索引的存儲模式采用數據庫與磁盤文件混合存儲,只將文檔集合D存入數據庫中而將詞條集合T和倒排索引集合IT存入磁盤文件中。為了提高檢索速度,AgriRoom將倒排索引散列為100份。每個文件夾下有3個文件,分別是IND、SITES和URLS,均為順序文件。其中,IND文件中存儲了每個詞條在SITES文件中的偏移量(SitesOffset),包含該詞條的站點個數(SiteCount)、該詞條的文檔個數(UrlCount)以及詞條在文檔集合D中出現的總次數(TotalCount)。SITES文件中存儲了詞條在各站點(Site_ID)倒排索引中的偏移量(UrlsOffset)。URLS文件存儲詞條的倒排索引并按照Site_ID聚合。endprint
為了提高倒排索引的檢索和更新效率,倒排索引文件在磁盤中以分頁方式存儲[10]。為了減少文件頁內碎片,AgriRoom將倒排索引集合IT存入多個文件中,每個文件具有不同頁大小,并在配置文件中指定每個文件的路徑、文件名以及頁大小(頁大小是文件系統頁大小的整數倍)。每個倒排文件有一個頭頁(HeadPage)和若干個數據頁(DataPage)。在頭頁中存儲該文件的頁大小(PageSize)、頁個數(PageCount)以及下一個空閑頁的頁號(NextFreePageNo)。在數據頁中存儲該頁的頁號(PageNo),如果單個詞條的倒排索引數據長度大于數據頁的大小則存儲下一個數據頁的頁號(NextPageNo)、索引長度以及索引數據。一個數據頁中最多只能存一個詞條的倒排索引數據。由于HASH數據結構在內存中的等值查找性能最好,所以詞條集合T和倒排索引集合IT在內存中以HASH數據結構存儲以提高檢索效率。倒排文件和詞典文件在磁盤和內存中的結構如圖4所示。
2.3 ?基于雙重語義空間的語義檢索模型
檢索技術是智能中文農業垂直搜索引擎實現高效檢索的核心技術之一,針對語義檢索的現狀和存在的問題,AgriRoom采用了一種新型的基于雙重語義空間的語義檢索模型[11]。該檢索模型的基本思路是將檢索過程分解為兩個階段:①利用改進后的隨機索引技術[11]生成農業測試集的文檔空間和詞空間,然后獲得查詢句的語義向量,與文檔空間中的向量進行比較,獲得初選文檔列表;②利用潛在語義分析技術生成文檔空間的文檔相似度矩陣[12],利用文檔間的相似度值,對初選文檔列表中大于指定閾值的文檔查找相關文檔,并更新文檔列表,最終獲得結果列表返回給用戶。AgriRoom的語義檢索模型見圖5。
3 ?系統的實現
基于系統的總體設計和相關研究成果,課題組構建了功能完備的智能中文農業垂直搜索引擎AgriRoom。從種子站點開始抓取互聯網中的相關網頁,并經過信息過濾后,建立農業網頁數據庫和分頁式倒排索引庫,再經過進一步的語義分析后,建立語義索引庫,最終能夠為用戶提供方便、準確的農業信息檢索服務。
3.1 ?開發環境與工具
系統開發的硬件環境為:64位曙光刀片服務器,其主要配置為4 GB內存,260 GB硬盤容量;軟件配置為:Redhat Linux操作系統,其內核為2.6.31.5-127.fc12.i686.PAE,編譯器為GCC 4.4.2,Web服務器為Apache 2.x。系統的后臺數據庫為:MySQL。
3.2 ?系統運行實例
在IE地址欄內輸入相應網址訪問AgriRoom的首頁面,結果如圖6所示。
在搜索框中輸入“新疆棉花價格”后,搜索結果如圖7所示。
在檢索結果頁面內點擊第一個結果的超鏈接即可跳轉到該網頁,結果如圖8所示。
4 ?小結
面對海量的互聯網信息資源,如何快速而有效地獲取個性化的農業知識和信息資源成為數字農業迫切需要解決的問題。智能中文農業垂直搜索引擎的出現將有效解決農業信息“迷航”問題。因此研究構建了智能中文農業垂直搜索引擎的關鍵技術,提出了基于網頁分類和多元線性回歸分析的信息過濾技術、分頁式倒排索引技術以及基于隨機索引和潛在語義分析的語義檢索模型。最終,構建了功能完備的智能中文農業垂直搜索引擎AgriRoom。經過實際應用證明,該系統能夠為用戶提供方便、準確的農業信息檢索服務。
參考文獻:
[1] CHRISTOPHER M, PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge:Cambridge University Press,2008.
[2] 陳 ?苒,董占球.WWW信息搜索技術研究[J].計算機工程與應用,2001,37(14):62-64.
[3] CHULEERAT J, CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton, New Jersey:CiteSeer, 2002.
[4] COHEN T, SCHVANEVELDT R, WIDDOWS D.Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics, 2010,43(2):240-256.
[5] DEERWESTER S,DUMAIS S T, LANDAUER T K ,et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.
[6] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網頁分類上的效果比較[J].計算機工程與應用,2003,39(22):146-148.
[7] 劉艷民.中文網頁分類方法研究[J].微電子學與計算機,2009, 26(9):167-169.
[8] 茆詩松,程依明,濮曉龍.概率論與數理統計教程[M].北京:高等教育出版社,2009.
[9] NGOCANH V,ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval, 2007,8(1):151-166.
[10] 劉小珠,彭智勇,陳 ?旭.高效的隨機訪問分塊倒排文件自索引技術[J].計算機學報, 2010,33(6):977-987.
[11] 陳燕紅,張太紅,馮向萍,等.基于雙重語義空間的農業信息檢索模型研究[J].新疆農業大學學報,2012,35(3):253-258.
[12] LANDAUER T K,DUMAIS S T. A solution to Platos problem: The latent semantic analysis theory of acquisition,induction,and representation of knowledge[J]. Psychological Review,1997,104(2):211-240.endprint
為了提高倒排索引的檢索和更新效率,倒排索引文件在磁盤中以分頁方式存儲[10]。為了減少文件頁內碎片,AgriRoom將倒排索引集合IT存入多個文件中,每個文件具有不同頁大小,并在配置文件中指定每個文件的路徑、文件名以及頁大小(頁大小是文件系統頁大小的整數倍)。每個倒排文件有一個頭頁(HeadPage)和若干個數據頁(DataPage)。在頭頁中存儲該文件的頁大小(PageSize)、頁個數(PageCount)以及下一個空閑頁的頁號(NextFreePageNo)。在數據頁中存儲該頁的頁號(PageNo),如果單個詞條的倒排索引數據長度大于數據頁的大小則存儲下一個數據頁的頁號(NextPageNo)、索引長度以及索引數據。一個數據頁中最多只能存一個詞條的倒排索引數據。由于HASH數據結構在內存中的等值查找性能最好,所以詞條集合T和倒排索引集合IT在內存中以HASH數據結構存儲以提高檢索效率。倒排文件和詞典文件在磁盤和內存中的結構如圖4所示。
2.3 ?基于雙重語義空間的語義檢索模型
檢索技術是智能中文農業垂直搜索引擎實現高效檢索的核心技術之一,針對語義檢索的現狀和存在的問題,AgriRoom采用了一種新型的基于雙重語義空間的語義檢索模型[11]。該檢索模型的基本思路是將檢索過程分解為兩個階段:①利用改進后的隨機索引技術[11]生成農業測試集的文檔空間和詞空間,然后獲得查詢句的語義向量,與文檔空間中的向量進行比較,獲得初選文檔列表;②利用潛在語義分析技術生成文檔空間的文檔相似度矩陣[12],利用文檔間的相似度值,對初選文檔列表中大于指定閾值的文檔查找相關文檔,并更新文檔列表,最終獲得結果列表返回給用戶。AgriRoom的語義檢索模型見圖5。
3 ?系統的實現
基于系統的總體設計和相關研究成果,課題組構建了功能完備的智能中文農業垂直搜索引擎AgriRoom。從種子站點開始抓取互聯網中的相關網頁,并經過信息過濾后,建立農業網頁數據庫和分頁式倒排索引庫,再經過進一步的語義分析后,建立語義索引庫,最終能夠為用戶提供方便、準確的農業信息檢索服務。
3.1 ?開發環境與工具
系統開發的硬件環境為:64位曙光刀片服務器,其主要配置為4 GB內存,260 GB硬盤容量;軟件配置為:Redhat Linux操作系統,其內核為2.6.31.5-127.fc12.i686.PAE,編譯器為GCC 4.4.2,Web服務器為Apache 2.x。系統的后臺數據庫為:MySQL。
3.2 ?系統運行實例
在IE地址欄內輸入相應網址訪問AgriRoom的首頁面,結果如圖6所示。
在搜索框中輸入“新疆棉花價格”后,搜索結果如圖7所示。
在檢索結果頁面內點擊第一個結果的超鏈接即可跳轉到該網頁,結果如圖8所示。
4 ?小結
面對海量的互聯網信息資源,如何快速而有效地獲取個性化的農業知識和信息資源成為數字農業迫切需要解決的問題。智能中文農業垂直搜索引擎的出現將有效解決農業信息“迷航”問題。因此研究構建了智能中文農業垂直搜索引擎的關鍵技術,提出了基于網頁分類和多元線性回歸分析的信息過濾技術、分頁式倒排索引技術以及基于隨機索引和潛在語義分析的語義檢索模型。最終,構建了功能完備的智能中文農業垂直搜索引擎AgriRoom。經過實際應用證明,該系統能夠為用戶提供方便、準確的農業信息檢索服務。
參考文獻:
[1] CHRISTOPHER M, PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge:Cambridge University Press,2008.
[2] 陳 ?苒,董占球.WWW信息搜索技術研究[J].計算機工程與應用,2001,37(14):62-64.
[3] CHULEERAT J, CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton, New Jersey:CiteSeer, 2002.
[4] COHEN T, SCHVANEVELDT R, WIDDOWS D.Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics, 2010,43(2):240-256.
[5] DEERWESTER S,DUMAIS S T, LANDAUER T K ,et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.
[6] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網頁分類上的效果比較[J].計算機工程與應用,2003,39(22):146-148.
[7] 劉艷民.中文網頁分類方法研究[J].微電子學與計算機,2009, 26(9):167-169.
[8] 茆詩松,程依明,濮曉龍.概率論與數理統計教程[M].北京:高等教育出版社,2009.
[9] NGOCANH V,ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval, 2007,8(1):151-166.
[10] 劉小珠,彭智勇,陳 ?旭.高效的隨機訪問分塊倒排文件自索引技術[J].計算機學報, 2010,33(6):977-987.
[11] 陳燕紅,張太紅,馮向萍,等.基于雙重語義空間的農業信息檢索模型研究[J].新疆農業大學學報,2012,35(3):253-258.
[12] LANDAUER T K,DUMAIS S T. A solution to Platos problem: The latent semantic analysis theory of acquisition,induction,and representation of knowledge[J]. Psychological Review,1997,104(2):211-240.endprint
為了提高倒排索引的檢索和更新效率,倒排索引文件在磁盤中以分頁方式存儲[10]。為了減少文件頁內碎片,AgriRoom將倒排索引集合IT存入多個文件中,每個文件具有不同頁大小,并在配置文件中指定每個文件的路徑、文件名以及頁大小(頁大小是文件系統頁大小的整數倍)。每個倒排文件有一個頭頁(HeadPage)和若干個數據頁(DataPage)。在頭頁中存儲該文件的頁大小(PageSize)、頁個數(PageCount)以及下一個空閑頁的頁號(NextFreePageNo)。在數據頁中存儲該頁的頁號(PageNo),如果單個詞條的倒排索引數據長度大于數據頁的大小則存儲下一個數據頁的頁號(NextPageNo)、索引長度以及索引數據。一個數據頁中最多只能存一個詞條的倒排索引數據。由于HASH數據結構在內存中的等值查找性能最好,所以詞條集合T和倒排索引集合IT在內存中以HASH數據結構存儲以提高檢索效率。倒排文件和詞典文件在磁盤和內存中的結構如圖4所示。
2.3 ?基于雙重語義空間的語義檢索模型
檢索技術是智能中文農業垂直搜索引擎實現高效檢索的核心技術之一,針對語義檢索的現狀和存在的問題,AgriRoom采用了一種新型的基于雙重語義空間的語義檢索模型[11]。該檢索模型的基本思路是將檢索過程分解為兩個階段:①利用改進后的隨機索引技術[11]生成農業測試集的文檔空間和詞空間,然后獲得查詢句的語義向量,與文檔空間中的向量進行比較,獲得初選文檔列表;②利用潛在語義分析技術生成文檔空間的文檔相似度矩陣[12],利用文檔間的相似度值,對初選文檔列表中大于指定閾值的文檔查找相關文檔,并更新文檔列表,最終獲得結果列表返回給用戶。AgriRoom的語義檢索模型見圖5。
3 ?系統的實現
基于系統的總體設計和相關研究成果,課題組構建了功能完備的智能中文農業垂直搜索引擎AgriRoom。從種子站點開始抓取互聯網中的相關網頁,并經過信息過濾后,建立農業網頁數據庫和分頁式倒排索引庫,再經過進一步的語義分析后,建立語義索引庫,最終能夠為用戶提供方便、準確的農業信息檢索服務。
3.1 ?開發環境與工具
系統開發的硬件環境為:64位曙光刀片服務器,其主要配置為4 GB內存,260 GB硬盤容量;軟件配置為:Redhat Linux操作系統,其內核為2.6.31.5-127.fc12.i686.PAE,編譯器為GCC 4.4.2,Web服務器為Apache 2.x。系統的后臺數據庫為:MySQL。
3.2 ?系統運行實例
在IE地址欄內輸入相應網址訪問AgriRoom的首頁面,結果如圖6所示。
在搜索框中輸入“新疆棉花價格”后,搜索結果如圖7所示。
在檢索結果頁面內點擊第一個結果的超鏈接即可跳轉到該網頁,結果如圖8所示。
4 ?小結
面對海量的互聯網信息資源,如何快速而有效地獲取個性化的農業知識和信息資源成為數字農業迫切需要解決的問題。智能中文農業垂直搜索引擎的出現將有效解決農業信息“迷航”問題。因此研究構建了智能中文農業垂直搜索引擎的關鍵技術,提出了基于網頁分類和多元線性回歸分析的信息過濾技術、分頁式倒排索引技術以及基于隨機索引和潛在語義分析的語義檢索模型。最終,構建了功能完備的智能中文農業垂直搜索引擎AgriRoom。經過實際應用證明,該系統能夠為用戶提供方便、準確的農業信息檢索服務。
參考文獻:
[1] CHRISTOPHER M, PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge:Cambridge University Press,2008.
[2] 陳 ?苒,董占球.WWW信息搜索技術研究[J].計算機工程與應用,2001,37(14):62-64.
[3] CHULEERAT J, CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton, New Jersey:CiteSeer, 2002.
[4] COHEN T, SCHVANEVELDT R, WIDDOWS D.Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics, 2010,43(2):240-256.
[5] DEERWESTER S,DUMAIS S T, LANDAUER T K ,et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.
[6] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網頁分類上的效果比較[J].計算機工程與應用,2003,39(22):146-148.
[7] 劉艷民.中文網頁分類方法研究[J].微電子學與計算機,2009, 26(9):167-169.
[8] 茆詩松,程依明,濮曉龍.概率論與數理統計教程[M].北京:高等教育出版社,2009.
[9] NGOCANH V,ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval, 2007,8(1):151-166.
[10] 劉小珠,彭智勇,陳 ?旭.高效的隨機訪問分塊倒排文件自索引技術[J].計算機學報, 2010,33(6):977-987.
[11] 陳燕紅,張太紅,馮向萍,等.基于雙重語義空間的農業信息檢索模型研究[J].新疆農業大學學報,2012,35(3):253-258.
[12] LANDAUER T K,DUMAIS S T. A solution to Platos problem: The latent semantic analysis theory of acquisition,induction,and representation of knowledge[J]. Psychological Review,1997,104(2):211-240.endprint