江蘇省常州專用通信局 徐偉群 江蘇省互聯網行業管理服務中心 馬 旸
“元搜索”技術在省內網絡環境治理中的實踐
江蘇省常州專用通信局 徐偉群 江蘇省互聯網行業管理服務中心 馬 旸
基于JSSH(Java script shell server)的元搜索引擎構建技術為“元搜索”在省內互聯網網絡環境治理的研究與部署給出了一種實踐方案。結合江蘇本省接入的域名庫,對Baidu、Soso兩個搜索引擎的搜索結果進行重新整合以提高結果的有效性,這種高效的元搜索引擎作為省內網絡環境治理工作中不良信息獲取方式的補充,為有互聯網環境治理需求的單位提供了一種有力的技術手段。
元搜索;網絡環境治理;實踐
近幾年來,利用互聯網傳播有害信息,進行網絡賭博、網絡色情等違法犯罪活動層出不窮,成為影響社會和諧的不利因素,《2012年中國互聯網輿情分析報告》指出:“2012年,網絡民意表達進入移動互聯時代,‘90后’青年登上互聯網和社會舞臺,中產階層的社會向心力需要修復,網絡論爭的非理性化,呼吁網絡謠言需要剛柔并濟的‘生態治理’,推進網絡公關成為‘陽光產業’。”[1],這些網絡輿論生態的演變,對網絡監管部門提出了巨大的挑戰。如果監管缺失,在網絡上很容易出現虛假、反動甚至暴力的言論,勢必嚴重影響綠色網絡的營造與和諧社會的建設。
省內網絡環境治理工作重在把握網絡信息動向,引導網絡言論,建設和諧網絡環境,具體來說,省內各互聯網專項內容主管部門從互聯網上發現有害信息加以治理,如版權部門打擊侵權盜版、掃黃打非部門打擊淫穢色情信息等。一般這些互聯網信息的獲得由信息采集、信息融合和結果呈現三大環節共同組成。而對于在整個互聯網進行熱點信息匯總,搜索引擎擁有得天獨厚的優勢,搜索引擎為人們在Internet中查詢信息提供了很好的解決方案,這也使得它成為了網民使用互聯網的第三大應用。不過搜索引擎本身存在著一些局限性,比如它們只能覆蓋Internet的一個子集,某些網頁內容是不可被索引的,以及某些搜索引擎采用競價排名,等等,使它不能直接用來進行網絡信息監管。高效的元搜索引擎能夠解決單個搜索引擎存在的問題,它提供基于主題的全面的信息查詢技術,能夠很好地幫助跟蹤當前熱點問題的輿論動向,使其成為省內互聯網網絡環境治理手段的有力補充。
元搜索引擎(meta search engine,MSE),是一種建立在獨立搜索引擎基礎上,調用其他獨立搜索引擎的引擎,亦稱“搜索引擎之母(mother of search engines)”。在這里,“元”(meta)為“總的”“超越”之意,元搜索引擎就是對多個獨立搜索引擎的整合、調用、控制和優化利用。相對于元搜索引擎,可被利用的獨立搜索引擎稱為源搜索引擎(source search engine),或成員搜索引擎(component search engine)。從功能上來講,元搜索引擎像是一個過濾通道:以多個獨立搜索引擎的輸出結果作為輸入,經過一番提取、剔除、萃取等操作,形成最終結果,然后將最終結果輸出給用戶。
一個真正的元搜索引擎由三部分組成:檢索請求提交機制,檢索接口代理機制,檢索結果顯示機制。“請求提交”負責實現用戶個性化的檢索設置要求,包括調用哪些搜索引擎、檢索時間限制、結果數量限制等。“接口代理”負責將用戶的檢索請求翻譯成滿足不同搜索引擎本地化要求的格式。“結果顯示”負責所有源搜索引擎檢索結果的去重、合并、輸出處理等元搜索引擎的出現,對于那些需要連續地使用不同的搜索引擎重復相同的檢索的人來說,是一個福音。使用元搜索引擎同時對幾個搜索引擎進行檢索,獲得分級編排的檢索結果。
我們可將元搜索引擎看成具有雙層客戶機/服務器結構的系統,用戶向元搜索引擎發出檢索請求。元搜索引擎再根據該請求向多個搜索引擎發出實際檢索請求;搜索引擎執行元搜索引擎檢索請求后將檢索結果以應答形式傳送給元搜索引擎,元搜索引擎將從多個搜索引擎獲得的檢索結果經過整理再以應答形式傳送給實際用戶。
2.1 元搜索引擎的原理和特點
元搜索引擎的典型工作過程可以歸納如下:
1)用戶通過統一的查詢界面輸入查詢請求,元搜索引擎對查詢進行一定的預處理;
2)元搜索引擎根據成員搜索引擎調度機制,選擇若干成員搜索引擎;
3)元搜索引擎根據選擇的成員搜索引擎的查詢格式,對原始查詢請就進行本地化處理,轉換為成員搜索引擎要求的查詢格式串;
4)向各個成員搜索引擎發送經過格式化的查詢請求,等待返回結果;
5)收集各個獨立搜索引擎的返回結果;
6)對返回結果進行綜合處理,例如,消除重復鏈接,死鏈接等,形成最終結果;
7)以一定的格式將最終結果返回給用戶。
元搜索引擎區別于獨立搜索引擎,主要有這樣一些特征:
1)不用設立龐大網頁數據庫,節省存儲設備;
2)提供了統一的外界模式,將一次查詢提交到多個獨立搜索引擎;
3)基于獨立搜索引擎結果的二次加工;
4)標明結果記錄的來源搜索引擎及其局部相關度,提供了全局相關度。
2.2 元搜索引擎發展趨勢
目前,針對元搜索引擎的研究、開發十分活躍。它用到了信息檢索、人工智能、數據庫、數據挖掘、自然語言理解等領域的理論和技術,具有綜合性和挑戰性。一個理想的元搜索引擎應該具備以下功能要求:
1)涵蓋較多的搜索資源,可隨意選擇和調用獨立搜索引擎,還可根據一定調度策略進行自動調度;
2)具備盡可能多的可選擇功能,如資源類型〔網站、網頁、新聞、軟件、FTP(文件傳輸協議)、MP3、Flash、圖像、影視等〕選擇、等待時間控制、返回結果數量控制、結果時段選擇、過濾功能選擇、結果顯示方式選擇等;
3)強大的檢索請求處理功能(如支持邏輯匹配檢索、短語檢索、自然語言檢索等)和不同搜索引擎間檢索語法規則、字符的轉換功能(如對不支持“near”算符(鄰近度算符)的搜索引擎,可自動實現由“near”向“and”算符的轉換等);
4)詳盡全面的檢索結果信息描述〔如網頁名稱、URL(統一資源定位)、文摘、源搜索引擎、結果與用戶檢索需求的相關度等〕;
5)支持多種語言檢索,比如提供中英文搜索等;
6)可對結果進行自動分類,如按照域名、國別、資源類型、區域等進行分類整理;
7)可以針對不同用戶提供個性化服務。
基于以上的研究,我們提出了一個元搜索引擎的設計構想。在這個構想中,我們提供了一個實戰系統的整體框架,并對它們的功能和關鍵技術進行了部署實踐,在已有的Baidu、Soso兩個獨立搜索引擎的基礎上建立一個元搜索引擎來擴展獨立搜索引擎的處理能力,提高檢索的查全率,并且有可能進一步提高查準率。同時結合江蘇互聯網網絡環境治理的需要,給出了自己的搜索語法,建立對搜索引擎檢索效果的評價機制、成員搜索引擎的自動調度機制,使系統具有良好的可擴展性,給出自己的結果融合算法。
3.1 系統結構框架
圖 1 為系統結構框架。
3.2 利用JSSH技術構建元搜索引擎[2]
FireWatir是一種典型的JSSH(Java script shell server)客戶端,它使用Ruby語言編寫,封裝了與JSSH服務器交互的諸多功能,例如網頁表單填寫、點擊網頁按鈕、網絡信息交互與網頁內容導出等諸多操作。調用FireWatir生成Firefox瀏覽器的實例,應用程序能夠方便地操縱Firefox加載的網頁內容。

以單個成員搜索引擎為例,使用FireWatir作為JSSH客戶端,以(how,what)語法形式把計劃關注的熱點話題描述詞匯以Javascript指令形式發送給內嵌JSSH服務器的Firefox瀏覽器。在JSSH客戶端指示Firefox瀏覽器完成向搜索引擎提交所關注的檢索詞匯后,客戶端就能夠進一步指示Firefox導出信息檢索結果頁面。針對元搜索引擎返回的信息檢索結果集,這里首先進行結果提取與存儲操作,為后續的元搜索引擎結果整合提供必要的數據基礎,如圖 2 所示。

通常選擇常見的搜索引擎共同構成元搜索平臺,圖 2 給出的是單個成員檢索信息發送與結果提取存儲過程。在多個搜索引擎共同工作時,可以為每個成員引擎單獨運行JSSH服務器,分別對各個成員進行操作,基于并行處理機制顯著提高元搜索平臺工作效率。
3.3 實現中的關鍵技術
基于網絡交互重構的方法,需要對每個成員引擎的查詢交互過程進行詳細的分析,發現相關模式之后,再進行交互過程重構。這里提出的基于瀏覽器模擬的元搜索引擎實現方案中,與URL、關鍵字編碼等相關的這些過程,全都是在JSSH客戶端的指示下,由內嵌JSSH服務器的網絡瀏覽器自行完成。查詢分發器不再需要針對不同成員引擎,重復實現網絡交互重構機制,有效降低了實現的復雜度,顯著提高了普適性。
另外,基于JSSH的方法中使用了Ruby語言,在結果集提取方面也相對網絡交互重構方法更加方便。因為Ruby中可以直接用簡單的正則表達式匹配出所需要的模式,并且可以簡單地將各個成員搜索引擎的結果進行消重,該方法提高了網絡監控的信息覆蓋面,充分發揮了元搜索的優勢,很好的靈活性滿足了各種有網絡熱點信息追蹤的組織的需求。
基于以上的研究、開發和部署,我們實現了“元搜索”技術在省內互聯網網絡環境治理專項任務中的簡單應用。我們提供了一個整體框架,結合江蘇本省接入的域名庫,對Baidu、Soso兩個搜索引擎的搜索結果進行歸并整理,對省內打擊淫穢色情、衛星電視等專項行動予以了有利支撐。該搜索引擎上線后1個月內即先后向省內版權局、文化廳、藥監局、掃黃打非辦等部門報送專報5期,涉及有價值的互聯網信息37條。元搜索引擎的部署可以有效支撐行業監管、提高服務能力、擴大地方影響。
基于JSSH的元搜索引擎構建技術為“元搜索”技術在省內互聯網網絡環境治理的研究與部署給出了一種實踐方案。JSSH客戶端以JavaScript指令向內嵌于Firefox瀏覽器中的JSSH服務器發送查詢請求。JSSH服務器運行來自JSSH客戶端的JavaScript指令,填寫查詢關鍵字并觸發提交事件,與各成員搜索引擎進行交互,從各個成員獲得相關結果集。這里還提出了一種基于用戶自定義權重的結果整合方法,將各成員返回的結果進行重新整合以提高結果的有效性。這種有效的元搜索引擎作為省內網絡環境治理工作中信息獲取方式的補充,為有互聯網環境治理需求的單位提供了一種有力的技術手段。后續結合省內相關互聯網內容主管部門的專項任務,如:省測繪局在互聯網專項地圖治理、省廣電總局互聯網音視頻專項治理等,我們將在結果整合方面做進一步研究,充分地挖掘各成員引擎返回結果列表之間的關系以及一些相關度分析,相信通過更多的努力,一定能進一步提高元搜索引擎的作用。
[1] 祝華新, 劉鵬飛, 單學剛. 2012年中國互聯網輿情分析報告[EB/OL]. (2012-12-21)[2013-8-6]. http://yuqing.people.com.cn/n/2012/1221/c210123-19974822-2.html.
[2] 吳宗靈,李翔,林祥. 基于JSSH的元搜索技術研究與應用[J]. 信息安全與通信保密,2010(11): 41-42.