葛煒琦+賀蜀川+林海舟+蔡蕤+王紅
摘要:針對民航空難事故信息來源廣泛,數據形式呈現多樣性,信息檢索不方便的問題,提出了基于J2EE的空難事故跨媒體信息管理的設計思路。采用webmagic實現了跨媒體數據的采集,運用Maven與Java開發工具,實現了空難事故信息從數據層到應用層的存儲與檢索,有效解決了以文本、圖像和視頻等單一媒體表現形式描述民航空難事故信息的不足,為航空安全事故的關聯分析提供了技術支持。
關鍵詞:民航空難事故;跨媒體信息采集;數據存儲;信息檢索
中圖分類號:TP315 文獻標識碼:A 文章編號:1009-3044(2016)12-0006-04
Abstract :According to the problems of the wide range of information sources, the diversity of data forms and the inconvenience of information retrieval, the design ideas of cross media information management based on J2EE is put forward.Using webmagic to achieve cross-media data acquisition,using Maven and Java development tools,storage and retrieval of information from data layer to application layer is realized, effectively solve the insufficient description of civil aviation accident accident information in single media forms like text, image and video and so on, provide technical support for the analysis of the relationship of aviation safety accidents.
Key words : civil aviation accident; Cross-media information collection;data storage;Information retrieval
1 概述
航空安全一直以來都是人們關注的焦點。隨著信息獲取、存儲和傳播技術的飛速發展,網絡多媒體資源迅猛增長、多媒體類型及結構日趨復雜化,民航空難信息呈現出多源異構、關聯性高、時效性等復雜特征,其內容跨越了文本、視頻、圖像等多種信息形態,并涉及不同信息源對事件的不同評論等多種屬性。“9.11”恐怖事件以來,特別是2014年馬航MH370等一系列航空不安全事件引起了全球公眾對航空安全更高的要求。基于跨媒體的民航空難事故數據采集、數據存儲與檢索方法的研究成為了民航空難信息管理與應用研究的熱點問題。
2 系統設計
2.1系統架構設計
系統設計分為數據層和應用層。數據層作為最低端為整個管理系統提供數據信息的服務,以JBoss網絡服務器為基礎,使用網絡爬蟲的技術把在各個主流民航類網頁上的空難事故信息采集下來,以編碼的方式對數據進行組織,并存儲在數據庫中,以便為應用層的信息檢索提供服務;應用層作為整個架構的核心層次,在Web服務器上利用webmagic技術采集信息,并對信息進行加工處理;為各種角色的用戶提供服務,用戶可更加快速準確地查找自己需要的信息。整體框架圖如圖1所示。
3 信息采集與存儲
3.1跨媒體數據的分析與組織
根據民航局對突發事件采取應急措施的相關規定,在對跨媒體空難事故信息的構成進行了詳細分析的基礎上,采用了信息編碼的方法描述跨媒體基本信息,編碼設計如圖2。
其中:
1) 第 0-7 位,表示事故發生日期 。
2) 第 8-10 位,表示事故發生地,編號方式按照中國居民身份證的編號方式設計,如北京為101,天津為102。
3) 第 11-12 位,表示事故類型,編碼方式根據《民用運輸機場突發事件應急救援管理規則》的相關規章制度設計,一共13類,如01表示航空器失事,13表示航空器空中出現故障。
4) 第 13 位,表示傷亡程度,從1到6的傷亡程度逐漸加重,如1表示輕傷事故,2表示重傷事故。
5) 第 14 位,表示跨媒體信息屬性,其中1表示文本信息,2表示圖片信息,3表示視頻信息,4表示鏈接信息。
依照此數據組織形式編寫事件id,作為空難事件的唯一標識,根據各事件的基本屬性,建立空難事故信息表。
對已保存在本地磁盤上的多類型數據,上傳至服務器指定的存儲路徑,統一進行分類管理。對非本地數據文件采取鏈接調取的存儲模式,即在數據庫內保留其網絡鏈接地址,通過互聯網進行更廣泛的搜索。
3.2 數據庫的設計
數據存儲使用MySQL數據庫,E-R圖如圖3所示。
3.3 數據的下載與存儲
1)基于webmagic的數據采集
在信息采集與存儲模塊,先進行網頁信息的采集,為提取和存儲多類型的數據提供基礎。
webmagic是一個無須配置、便于二次開發的垂直爬蟲框架。本系統使用webmagic結合Java的方式進行信息采集,使用Page對象的addTargetRequests()方法添加URL到抓取隊列,getHtml()方法獲取網頁信息,實現Page對象的操作實現爬蟲邏輯;Site對象可以定義爬蟲的域名、起始地址、抓取間隔、編碼等信息。在需要采集的頁面中,針對鏈接地址的不完整,或者是不符合主題,需要使用XPath提取關鍵信息和正則表達式進行匹配。利用正則表達式進行頁面篩選,URL過濾,減少對不必要網頁的保存,提高網頁內容分析和信息分類存儲的效率。
進行信息采集的數據源包括主流的新聞媒體網站如中國新聞網、環球網等,從這些網站體現跨媒體的跨源特性,以及與民航相關的國內外網站如中國民用航空安全信息網、民航網等,從這些網站來獲取空難事件的基本信息。
在信息采集模塊,先選取了三個網站(中國民用航空安全信息網、民航網、民航安全科學研究所網站)進行空難事件基本信息的采集(包括文本、圖片、視頻信息),之后再擴展主流媒體網站進行信息采集。這個模塊屬于基于固定主題的web信息采集,使用MySQL數據庫進行網頁信息的存儲。采集過程比較簡化,使用與主題符合程度非常高的種子URL集,從而削弱了計算優先級的策略的使用問題。首頁展示部分使用基于源搜索的信息采集方法,得到的信息豐富綜合并來源較廣。采用深度采集策略,通過URL重度檢測服務,從網址列表里選取未被訪問的網址作為爬蟲的起始地址,開始爬蟲后,保存當前網頁,獲取當前網頁上符合條件的鏈接,然后根據這些鏈接進一步爬取,直到最后一層。采集過程流程圖如圖4。
2)文本信息的存儲
在數據庫中根據提取的關鍵信息設定表格字段。對于爬取到的頁面,根據關鍵字進行正則匹配,提取關鍵信息并存入數據庫。
3)圖片信息的存儲
根據爬取頁面的URL,獲取圖片地址。在具體圖片頁面,下載其HTML頁面,根據圖片地址下載圖片到本地。
4 信息檢索
4.1 檢索方法與實現過程
通過對字符編碼中不同位置的數字的提取,掃描匹配相應數據庫中內容進行解析,來獲取空難事故的基本信息描述。系統接收用戶輸入的檢索關鍵字段放入session緩存機制中緩存,再掃描數據庫中空難事故信息表,通過關鍵字段進行匹配檢索找到空難事故的事故編碼ID。將獲取到的空難事故的事故編碼ID提出進行緩存,從空難事故編碼字符串中提取指定位置的字符子串,分別截取 14 位數字編碼中的對應位置的字符編碼進行解析,再到對應的表中獲取相關基本信息。
在同一個檢索結果顯示的界面上,不同的位置綁定不同的媒體信息數據源,將所有與檢索的某個空難事故相關的信息整合到一起,從而顯示不同媒體不同類型的關于同一個空難事故的所有信息。
4.2實現效果與分析
將空難事故發生的時間和原因等屬性做了分析統計,以柱狀圖顯示,直觀明了,為后續的空難事故間的關聯性分析提供直觀清晰的數據依據??针y事故信息的統計分析過程:
SelectCommand="SELECT convert(varchar(4) , accidentdate , 23) as year,count(id) AS count FROM AircraftInformationSearch_accident group by convert(varchar(4), accidentdate , 23);
空難信息的統計分析界面如圖7、圖8所示。
5 結論
本文論述了空難事故跨媒體信息采集與檢索方法的研究過程,提供了在信息采集和檢索中運用的相關技術和方法。采用J2EE技術平臺,運用Maven和Java開發工具,實現了將空難事故結合跨媒體進行管理,擺脫了單一媒體信息的局限性和片面性,為實現空難信息的關聯分析提供了有效的數據支持。
參考文獻:
[1] 楊毅,王勝開,陳國順,徐為群,黃鶴云.跨媒體信息技術與應用[Z].電子工業出版社,2014.
[2] 王錦超. 跨媒體檢索技術的研究[D].山東農業大學,2013.
[3] 中國民航科學技術研究院. 2011 中國民航不安全事件統計分析報告[Z].北京:中國民用航空局航空安全辦公室,2012.
[4] CCAR-139-II-R1,民用運輸機場突發事件應急救援管理規則[S].北京:中國民用航空局,2011.
[5] 張鴻. 基于相關性挖掘的跨媒體檢索研究[D].浙江大學,2007.
[6] 寧曉. 突發事件跨媒體信息檢索系統的研究與實現[D].北京:北京郵電大學,2012.
[7] 張鴻,吳飛,莊越挺,陳建勛.一種基于內容相關性的跨媒體檢索方法[J].計算機學報,2008,31(5).
[8] Buning M D C. Towards a Future-Proof Framework for the Protection of Minors in European Audiovisual Media[J]. Social Science Electronic Publishing, 2014, 10(5).