孫 洋, 楊曉蓉
(中國農業科學院農業信息研究所,北京 100081)
?
中國農業科學院網站平臺智能搜索技術與方法研究
孫 洋, 楊曉蓉
(中國農業科學院農業信息研究所,北京 100081)
為了解決原有檢索技術已經不能滿足中國農業科學院網站檢索需求的問題,研究了智能搜索引擎方面相關的關鍵技術和方法。探討了利用智能搜索引擎關鍵技術在中國農科院網站平臺改進搜索技術的方法,將搜索結果與現有的搜索技術在中國農科院網站平臺搜索時所得到的結果相比較,結果表明,基于智能搜索引擎方面的關鍵技術改進的搜索平臺在檢索結果上明顯占優,實際應用效果令人滿意。
智能搜索技術;全文檢索;中國農業科學院網站搜索服務
自互聯網誕生和普及以來,網絡信息和資源浩瀚如海,并且網絡數據繼續呈現爆炸式增長趨勢,《2014年中國網民搜索行為研究報告》[1]顯示,在通用搜索引擎中的查詢需求中,大量網民搜索的內容與本地生活息息相關,截至2014年6月,我國搜索引擎用戶規模已達50 749萬,較2013年同期增長3 711萬,增長率為7.9%,網民使用率為80.3%。自2011年以來,搜索引擎在網民中的使用率一直維持在80%左右,是我國網民的第二大互聯網應用,具有不可替代的基礎性作用。因此,如何使網絡用戶快捷、準確和有效地定位需求信息成為信息服務提供者不斷努力的方向。搜索引擎是一種對網絡數據進行搜索、提取、組織、處理并提供檢索服務的工具,目前存在商業搜索引擎和站內搜索引擎兩大搜索陣營。面對信息海量化發展現狀,站內搜索因其針對性強,在一定的檢索范圍內的便利性,更能滿足用戶的檢索需求,并為后續研究用戶行為提供來源保障。
中國農業科學院網站門戶網站(www.caas.net.cn/)作為國內農業最高學術機構和農業技術成果展示中心,成為科研機構發布信息、提供服務、提高社會影響力的重要平臺;中國農業科技信息網(www.cast.net.cn/)立足農業科技信息的傳播,成為為廣大網絡用戶提供實用性強的農業資訊、技術、服務及資源等的重要平臺。這2個重要網站平臺自建立運行以來,搜集、發布和共享各種農科院政務信息和農業實用數據,積累大量的信息數據,建立站內全文檢索系統是對于網站資源合理利用的重要體現。通過高效實用的站內檢索,可以了解訪問者的閱讀喜好,有效幫助訪問者快速、準確定位到目標信息,從而為農業科技管理決策、農業科技創新和農業實用功能提供農業科學資源信息的支撐和保障,增強網站實用能力和確保網站在本地區農業網站中的領先地位。隨著搜索引擎市場的發展,用戶對搜索引擎的功能、其搜索內容的體現和結果的顯示將會有更高的要求,期待搜索引擎能夠為其提供更加專業、細致的信息服務,搜索速度更快,顯示結果盡量精準而全面。
1.1 現狀調查
中國農業科學院網站平臺的站內搜索引擎是以中國農業科學院門戶網站及其下屬部分網站為檢索范圍的檢索工具。由于農業管理和實用服務的復雜性和廣泛性,使得農業科學數據的數據量增長迅速,截至2015年6月僅中國農業科學院門戶網站平臺共有一級欄目19個、二級欄100多個,涵蓋院所新聞、農業實用技術、服務、合作交流、科普等,數據超過16萬條。網站豐富的內容吸引了大量的涉農用戶,但由于網站信息量指數級增長,用戶想要快速定位到所需資源非常困難,所以亟需研究智能搜索技術,在現有網站搜索系統的基礎上改進現有的搜索技術。
該研究主要調查當前中國農業科學院網站上檢索服務的功能設置和搜索結果顯示情況,其中,檢索功能設置主要包括普通檢索和高級檢索兩方面。普通檢索功能主要支持用戶對檢索關鍵詞的輸入和檢索范圍的選擇,高級檢索是通過用戶根據檢索需求選擇的邏輯關系組配而完成的快速查詢, 其優點是能提高查全率和查準率。當前中國農業科學院網站上檢索服務的高級檢索功能提供關鍵詞,包含全部、完整或任一字詞,發布日期,字詞位置,每頁顯示結果數等邏輯組合檢索,并進行結果排序。高級檢索的輔助選項提供有起始結束時間選擇、排序方式選擇、每頁顯示結果數定義和使用幫助,滿足不同用戶對檢索的不同需求。
另外從檢索結果的內容、檢索結果的數量和排序兩方面分析。檢索結果主要包括 9個方面內容, 按出現順序分別為: 總條數、檢索耗費時間、關鍵字、排序、標題、內容簡介、URL、日期、網頁大小。排序主要以按照相關度、文件日期、文件名和文件大小順序排序。檢索結果并不需要面面俱到,只要滿足用戶需要,有效提示用戶判斷該結果是否有用即可,比如統一資源定位符(Uniform Resource Locator,URL)有助于用戶定位和判斷來源。
但是,由于網站數據呈海量速度增多,訪問者對于站內檢索系統的要求不斷提高,當前中國農業科學院網站上檢索服務的功能已不能滿足訪問者的搜索需求。
1.2 問題分析
當前站內搜索功能比較弱,不能支持有效的相關性排序和海量數據快速并發查詢以及不能保證搜索耗時短等。
1.2.1 系統方面。
(1)不能跨網站。由于中國農業科學院網站及其下屬部分網站和數據庫處于不同的服務器,缺乏統一的整合與集成方式,沒有有效整合搜索入口,無法解決“多個信息系統”和“統一檢索入口”的矛盾[2],使信息檢索不夠全面和精確。因此,如何應用現代信息技術,動態整合集成跨系統、跨數據庫的數據資源,充分利用網站管理特點和相關技術,把分散孤立的數據資源在統一平臺下實現存儲和全文檢索是網站亟待解決的關鍵技術問題。
(2) 海量大規模內容搜索能力有限。系統運行中每天發布的數據不斷增長,現有的數據管理平臺對支持大數據量的全文索引、檢索等能力有限。這些問題嚴重阻礙了網站數據資源共享。
1.2.2 檢索功能設置方面和檢索結果內容和排序方面。
(1)搜索關鍵詞不準確,造成返回結果數較大或根本查詢不到結果。由于多數搜索用戶在檢索策略和檢索技巧上缺乏必要的經驗,提交的查詢請求往往比較短,不能使用文中的任意字、詞、短語、句和片段進行有效檢索。這就造成搜索引擎的返回結果相關性差的缺點,直接導致返回結果數較大或根本查詢不到結果,用戶想要在這樣的搜索結果中找到目標信息非常困難,在查詢詞方面, 由于存在同義詞、歧義詞和同音詞等問題, 用戶鍵入的詞與存儲中的詞常常造成不匹配情況,導致檢索結果的查準率偏低, 偏離用戶的信息需求。
(2)不能提供相關搜索和智能提示。很多用戶并不能準確知道想要搜索內容的關鍵詞,造成搜索查準率低,如果網站搜索平臺可以提供查詢頻率較高的相關詞語搜索,將極大地提高用戶查找的速度。比如用戶輸入關鍵詞“農業”進行搜索,系統可以提示“現代農業”“農業科技”等。
(3)不可提供同音詞提示。用戶在輸入時有時可能出現同音但并非想搜索的關鍵詞的情況,系統如果能夠提供查詢頻率較高的同音詞提示,將極大地方便用戶的搜索。比如用戶輸入關鍵詞“科技”進行搜索,系統會提示“克己”“客機”“科級”等。
(4)不可拼音搜索。用戶在輸入時有時可能出現拼音輸入關鍵詞的情況,系統如果能夠提供拼音所對應的常用關鍵詞查詢,將會提升用戶搜索體驗和查詢速度。比如用戶輸入關鍵詞“xinxi”,系統會查詢“信息”,并羅列查詢結果。
(5)不可二次檢索。有時用戶在不熟悉想要查找內容時,并不能經過一次查詢得到滿意結果,需要在查詢結果中進行二次查詢。
(6)無其他搜索網頁格式,搜索結果內容不夠豐富。現有的檢索系統僅是針對文字進行操作,搜索文字也是以網頁文字類型顯示。隨著網站平臺上.pdf、.doc、.xls等類型的文件逐漸增多,將這些資源納入到檢索范圍已是大勢所趨,同時可以大大提高用戶使用網站資源的利用率。
(7)無法選擇關鍵詞位置。用戶有時需要通過關鍵詞位置進行有針對性快速的查詢,比如網頁的標題、正文,網頁內的網址,在網頁內的鏈接等。
2.1 智能搜索相關技術介紹
目前,搜索引擎的使用已成為排在收發電子郵件之后的第二大互聯網應用技術。憑借通用搜索引擎檢索某個特定網站門戶網站的資料,雖然可以指定網站進行搜索,但因搜索引擎釋放的網絡蜘蛛沿著超鏈接去爬行,由于網頁的層數過多或時間過長時,對某些網頁就不能進行抓取或不能及時檢索出最新內容等,其在內容的精確性、索引時間的及時性上不能得到保證[3]。因此,針對某個門戶網站平臺,開發屬于某個門戶網站平臺的站內搜索引擎,成為了單位門戶網站建設的迫切需要。
2.1.1 全文檢索[3]。全文檢索站內搜索原理是對數據庫數據進行超文本標記語言(HTML)解析、圖片縮略,分詞、索引,實現站內搜索,提高檢索效率,檢索范圍涉及網站上所有內容,用戶可對搜索的內容范圍和體現的結果做精確的控制。支持標準的國際搜索語法,提供動態摘要,摘要清晰,便于用戶快速尋找到需要的信息;有關鍵詞標紅,可有效控制;有同義詞相關性排序,方便用戶在網站海量數據中快速查找信息。
2.1.2 拼音檢索。要實現拼音檢索[4],只有具備漢字拼音對照表,才能讓系統知道用戶輸入的拼音與漢字對應關系。漢字拼音對照表是通過編程把碼表源文件winpy.txt中漢字與拼音的對應關系提取并存入相應數據庫,而winpy.txt文件是通過輸入法生成器將微軟全拼的碼表文件winpy.mb逆轉換而來。用戶只要輸入包含拼音字符中的部分字符, 就可以查找到對應信息。
2.1.3 二次檢索。目前二次檢索的主要方法可分為重排序和過濾2大類[5]。重排序方法目的是實現重新計算查詢與文檔之間的相關度,實現手段是文檔聚類或使用受控詞表等,因此二次查詢后的顯示結果會按照新的相關度進行排序顯示。這一方法能很好地提高檢索結果的前N項的準確率。過濾方法目的是篩選和去除與用戶查詢無關的文檔,實現手段是從用戶查詢出的附加信息中篩選檢索返回的文檔。
2.1.4 中文分詞。中文分詞是指將一個連續的漢字序列按照一定的預言規范組合切分成多個單獨有意義的詞序列[6]。例如,“農業科技信息”的切分結果為農業/科技/信息。中文詞語相較英文文本來說,詞與詞之間沒有空格作為自然分界符,所以對于中文詞語的有效切分并使計算機理解分析是關鍵。中文分詞算法歸納起來主要分為3類:基于字符串匹配的分詞方法、基于統計的分詞方法、基于理解的分詞方法[7-8]。
2.1.5 相關詞。在全文檢索過程中,想要總結出與查詢信息相關的文件,需要用戶進行相當大程度的瀏覽,而系統自動的相關詞提示可以幫助用戶優化查詢式,使系統明確用戶的信息檢索需求,更為用戶減少了額外的負擔。相關詞提示是搜索引擎系統為用戶提供相關詞,幫助用戶重新構造更加有效的查詢式,從而減少多余檢索步驟的檢索技術[9]。實現方面,應把相關詞的選擇權給用戶,人工重新構造查詢式。相關詞提示的基本原理,搜索引擎通過聚類技術獲取與查詢式相關的詞,經過相關度計算, 將排在前面的相關詞以一定的形式反饋給用戶[10]。
2.2 基于相關技術在中國農科院網站平臺檢索服務的改進應用
該研究采用的搜索技術平臺是基于Lucence開發的,是將原關系型數據庫中的數據進行抽取、存儲和索引,抽取到全文數據倉庫中提供檢索服務,對原有的內容管理系統影響較小,可擴展性更強,系統支持跨平臺、跨數據庫、跨站點的全文檢索,用的分詞器是JE-Analysis,其作用是把一個字符序列按某種規則劃分成獨立的詞語,并去除其中的無效詞語,從而有利于縮小索引文件,提高效率,提高命中率。以垂直搜索方式整合多網站,實時索引企業已有的資料庫,并結合互聯網信息抓取技術,進行內容和服務的采集,實現了按信息分類、條件組合、多語種等檢索方式,能夠索引中國農業科學院網站內的信息內容,并提供個性豐富的檢索體驗的搜索引擎服務。其框架結構見圖1。
從技術角度來看,在網站的搜索引擎框架中,很好地解決了搜索引擎應用中的2個核心環節:海量數據管理、內容索引和全文檢索技術。
2.2.1 海量數據和內容索引。該研究設計的全文檢索數據庫系統在數據存儲方面(特別是對于海量數據)有著獨特的技術, 實現了索引空間膨脹率低于0.5,支持大量的并發用戶檢索,實現集群和負載均衡應用。采用增量更新方式對內容進行更新,即每次檢查數據變化時,只更新添加或發生變化的數據進行更新,索引速度明顯高于僅僅完全更新的系統。
在農業保險運營中,政府的選擇為補貼與不補貼,保險公司的決定仍為經營與不經營。假設政府補貼B,保險公司經營,政府所得的收益為Q;保險公司不經營損失為D,做出分析,結果如表3所示。
2.2.2 全文檢索。該研究跨平臺跨站點智能檢索系統檢索功能設置中,在普通檢索方面,針對輸入的關鍵詞,智能識別中文人名單詞、數量詞,Email、URL等信息,搜索范圍提供各站點單獨或集成搜索;高級檢索方面,提供包括全文檢索、日期(范圍)檢索、標題檢索、URL檢索等在內的全方位信息查詢手段。對用戶檢索關鍵詞的處理方面,支持對中文、英文、數字的混合分詞。對檢索詞進行智能提示,可以實現拼寫檢查、相關詞建議和同音詞列表等,增強用戶搜索體驗,提高有效搜索效率;并可以實現拼音檢索和二次檢索,在用戶誤輸等情況下,也能幫助用戶有效定位,在一次搜索結果中繼續搜索,可逐步縮小結果范圍,鎖定自己需要的結果。
搜索結果方面,可以根據字段進行排序,如相關度(默認)、日期等,相關度排序以檢索詞與網頁的相關性為依據對檢索結果排序,相關性是對詞頻、詞位(詞在文章中出現的位置)以及文件大小等因素綜合評價的結果;時間排序則可以保證把最新的數據優先輸出,使用戶在眾多搜索結果中優先找到需要的信息。
此跨平臺跨站點智能檢索系統融合了高效的全文檢索引擎和非結構化文檔(Word、HTML、PDF等)分析技術,支持對多種格式化資源檢索(如PDF、Word、Excel、PPT等文件),整合內部對象信息資源,可實現一個(或多個)網站的站內搜索,支持的數據源包括文件系統、Internet網站、關系數據庫、FTP服務器等。
2.2.3 系統及管理方面。該研究系統全面支持Web服務,可以與各個系統(包括.NET系統)集成,采用Java語言開發,可運行于Windows、UNIX、Linux平臺,在內核上采用多級索引、緩存技術;管理方面,采用B/S架構,無需安裝任何客戶端,對于數據庫索引提供配置向導并可實現定時更新。
3.1 檢索功能設置方面
3.2 檢索結果內容、數量和排序方面
當前中國農科院網站搜索服務檢索結果顯示情況主要從檢索結果的內容、檢索結果的數量和排序兩方面分析。檢索結果主要包括 9個方面內容, 按出現順序分別為: 總條數、檢索耗費時間、關鍵字、排序、標題、內容簡介、URL、日期、網頁大小。排序主要以按照文件日期、文件名和文件大小順序排序。改進后,檢索結果顯示主要增加以下幾個方面內容:智能提示(圖2)、同音詞列表、拼音檢索、搜索網頁類型顯示、相關度顯示及排序、相關搜索提示和二次檢索(圖3)。其中相關度主要說明檢索詞與檢索結果頁面的匹配程度, 通過相關度的合理排序可以使用戶快速定位所需的精準信息。
3.3 搜索性能方面
為了說明該研究改進后的平臺的搜索性能,分別選擇了當前和改進后的中國農科院網站某一下屬網站對“自主創新”進行關鍵詞搜索。系統改進前后搜索性能對比見表1。

表1 改進前后搜索性能對比
表1測試結果表明,該研究改進后的中國農業科學院網站搜索服務比當前網站在搜索耗費時間上明顯減少,說明搜索引擎的檢索效率明顯提高。同時實現中國農業科學院網站及下屬網站的跨平臺搜索,解決“信息孤島”[2]問題,通過網頁格式關鍵詞位置選擇功能的添加,進一步提高了搜索的針對性和準確率,并且增加了除網頁文字外的多種搜索結果表現形式。用戶體驗上,由于增加智能提示、拼音搜索等,使搜索引擎關鍵字處理能力更加智能,從而提高搜索效率。同音詞和相關搜索詞的羅列,為用戶深度搜索提供便利。當前搜索引擎并沒有提供搜索結果的相關度顯示及按照相關度排序,改進后的搜索引擎根據搜索結果相關度進行合理排序,使用戶很快找到相關度最高的搜索結果。
從中國農業科學院網站搜索服務現狀出發,分析了其存在的問題,研究了智能搜索應用在中國農業科學院網站搜索服務平臺進行全文檢索的技術,并與當前平臺的檢索方法進行了比較。結果表明:改進后的相關搜索技術在海量數據的跨平臺搜索中搜索速度、查全和準確性明顯提高,能夠成功地應用于中國農業科學院網站搜索服務平臺;同時,使用者還可以根據實際需要個性化組配搜索選項,結合搜索結果頁面的同義詞、相關詞、二次檢索和智能提示等功能,完成更加快速精準的搜索。當然,相關搜索技術改進后的中國農業科學院網站搜索服務還有許多不足,如無法對搜索結果進行優化重排,將近期用戶搜索次數多的信息排在結果最前列等,難以對后續的收集的海量信息進行分析以獲取知識,這些問題將在以后的工作中不斷研究并解決。
[1] 百度百科.2014 年中國網民搜索行為研究報告[EB/OL].[2015-11-01].http://wenku.baidu.com/link?url=4uyvlw31BHX27FUSPZcI7g41T9Sel46aGFzeqQSk9qaceZJWsxovkOPw-7t7Ko3bSsjG4QBh4edsvS_44qI21sQQEB7EMPivaEsYPNXoYHy.
[2] 陳福生.全文檢索在網站搜索系統中的應用[J].電腦編程技巧與維護,2009(12):17-19.
[3] 王非.面向Web2.0社區的站內搜索引擎技術的研究與實現[D].長沙: 國防科學技術大學, 2008.
[4] 劉風華,陳燕紅,鄭衛斌.拼音檢索方法在Web系統中的研究與實現[J].計算機系統應用,2013,22(1):196-199.
[5] 林永志.基于語義關系識別的二次檢索[D].上海:上海交通大學,2008.
[6] 董李鵬,高東懷,張迎,等.基于Lucene的校園網智能搜索引擎的設計與實現[J].現代電子技術,2013,36(6):83-86.
[7] 馮書曉,徐新.國內中文分詞技術研究新進展[J].情報雜志,2002(11):29-30.
[8] 劉開瑛.中文文本自動分詞和標注[M].北京:商務印書館,2000:109-122.
[9] 劉紅星.分布式系統中的文本信息檢索技術研究[D].北京:清華大學,2004.
[10] 章成志,徐小琴.信息檢索系統的相關詞提示技術與評測信息系統[J].情況理論與實踐,2007,30(1):100-104.
Technology of Search Engineer in CAAS Website
SUN Yang, YANG Xiao-rong
(Agricultural Information Institute of CAAS, Beijing 100081)
In order to solve the problem that the traditional search method couldn’t meet the searching demand in CAAS website, the original method and technology of website search engine was studied, and using improved method of website search engine in CAAS website was discussed. At last, these results were compared with those consequences from traditional search method. The experiments proved that: the search engineer based onimproved method of CAAS website had more efficient and the practical application should be satisfactory.
Intelligent search technology; Full text retrieval; Website search service in CAAS website
中國農業科學院農業信息研究所2015年度基本科研業務費專項(2015-J-07)。
孫洋(1986- ),女,北京人,助理研究員,碩士,從事農業網站信息技術研究。
2015-11-11
S 126
A
0517-6611(2015)35-343-04