景瑞林 勝利石油管理局信息中心
石油信息垂直搜索引擎由搜索器、索引器、檢索器和用戶接口四個部分組成,將這四個部分又分為三層:信息提取層、信息處理層以及用戶、管理決策層。
(1)信息提取層。通過應用網絡蜘蛛算法實現從互聯網上搜索到有關專業信息的網頁。
(2)信息處理層。實現了對網頁信息的處理,它對網頁進行結構分析,將網址、網頁信息放到URL數據庫中,并對網頁中的文本信息進行詞法分析,建立與之對應的索引表,同時將從網頁中提取的信息結構化并存入數據庫。
(3)用戶、管理決策層。實現了兩方面的內容,一方面實現了用戶對信息的搜索,系統將根據用戶輸入的關鍵字,對其進行語義分析,通過檢索模塊檢索出用戶需要的信息,并通過網頁返回給用戶。另一方面,為企業決策層提供有價值的潛在信息,對數據庫中的信息建立數據模型,然后在數據模型上進行OLAP分析,從而分析出有效信息。
(1)實現對http、https、ftp等網頁文件的Internet搜索,可以對網頁中的不同文件格式的內容進行處理,包括常見的html、pdf、doc、jsp、asp、php等文件格式。
(2)能夠將搜索到的網站或網頁的URL自動索引插入到關系數據庫中,從而為索引查詢提供連接地址。
(3)網站鏡像,最大深度索取,基于網站深度的文件統計并建立純文本數據庫。建立原始網頁文件存儲系統的數據結構和專業知識數據庫。
(4)對文件的信息抽取處理是基于語義識別技術,從而可以更好地對抽取的文件信息進行分類。
(5)文件的信息抽取能夠識別出網頁的編碼格式以及語言的區別,支持對多國語言的搜索技術。
(6)索引服務器對Web前臺提供服務,對于Web服務器,索引請求返回的是本地緩存網頁和數據庫中對應的公網URL。
(7)由多臺服務器組成的網頁索引存儲單元網格,集中處理網頁文件存儲單元的文件。對于網頁文件中的中文進行分詞及信息解析索引;對于網頁文件中的英文則進行索引,索引的結果通過Web服務器給客戶提供搜索服務并提供不同語言的不同接口。
(8)搜索結果支持按照相關度、點擊率和更新時間排序。
圖片搜索功能可對石油行業的圖片進行抓取、處理并建立索引,通過檢索功能供用戶對圖片進行檢索。
新聞搜索采用基于標簽的網頁分析方法,這種方法對網頁內容的提取非常準確,能給用戶提供更高的檢索精度,幫助用戶找到最需要的新聞。新聞搜索實時采集指定網站上的新聞,增量保存到本地供用戶進行查詢。用戶既可以根據標題搜索新聞又可以根據內容搜索新聞,對于得到的搜索結果,用戶可以根據自己的意愿進行排序。
通過對垂直搜索引擎相關技術的研究及算法的改進,使搜索引擎在信息準確率、內容相關性、更新及時率三個方面有了很大的提高。基于石油知識庫行業詞匯進行語義信息檢索,使檢索信息更準確,質量更高,解決了領域詞匯“一詞多義、一義多詞、歧義詞”等問題。石油搜索引擎面向石油行業定向搜索,比通用搜索可提前抓取到更多的石油信息,搜索的內容也比較全面。
油田網搜索有以下效果:①解決了油田網無搜索引擎及搜索不便的問題,可以按網頁、新聞、論壇、圖片4類進行搜索;②提供了歷史網頁保存,可隨時以快照形式提供信息;③按照信息發布單位和IP精確檢索;④對油田網檢索的信息進行安全管理和敏感詞的監控。
系統研發成功后在勝利油田得到全面應用,半年內油田網搜索引擎已獲得網頁URL地址約95萬個,抓取網頁92萬個,處理網頁58萬個,有效網頁38萬個,建立索引網頁38萬個;圖片搜索提取出圖片地址11.6萬個,處理獲得有效圖片7.6萬張,建立索引圖片7.6萬張;油田網新聞搜索抓取獲得有效新聞1.9萬條,信息分別來自75個不同站點。通過提供搜索接口,系統在勝利信息網“勝利導航”和生產經營中進行了移植。用戶訪問量穩步上升,從最初每天30~50次訪問,增加到1個月后每天1000~1500次訪問。現在的訪問量已經穩定在每天3200次左右,說明了實際的需求和系統的實用性。系統推廣使用價值體現在:①研究并開發的知識庫可以應用于石油應用領域的智能系統、數據挖掘、信息處理等;②垂直搜索技術在油田內各種資料查詢、信息檢索、敏感信息監控等都能發揮重要作用,特別是全文檢索技術,對于文本信息的不確定性模糊查詢能發揮較大的作用;③項目研究中的大量統計資料和數據,如詞頻、熱詞、專業詞匯相關性、網頁量等,對于開展油田的信息管理和分析具有一定的指導作用。