999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

空難事故跨媒體信息采集與檢索方法的研究

2016-06-14 19:10:43葛煒琦賀蜀川林海舟蔡蕤王紅
電腦知識與技術 2016年12期
關鍵詞:數據存儲信息檢索

葛煒琦+賀蜀川+林海舟+蔡蕤+王紅

摘要:針對民航空難事故信息來源廣泛,數據形式呈現多樣性,信息檢索不方便的問題,提出了基于J2EE的空難事故跨媒體信息管理的設計思路。采用webmagic實現了跨媒體數據的采集,運用Maven與Java開發工具,實現了空難事故信息從數據層到應用層的存儲與檢索,有效解決了以文本、圖像和視頻等單一媒體表現形式描述民航空難事故信息的不足,為航空安全事故的關聯分析提供了技術支持。

關鍵詞:民航空難事故;跨媒體信息采集;數據存儲;信息檢索

中圖分類號:TP315 文獻標識碼:A 文章編號:1009-3044(2016)12-0006-04

Abstract :According to the problems of the wide range of information sources, the diversity of data forms and the inconvenience of information retrieval, the design ideas of cross media information management based on J2EE is put forward.Using webmagic to achieve cross-media data acquisition,using Maven and Java development tools,storage and retrieval of information from data layer to application layer is realized, effectively solve the insufficient description of civil aviation accident accident information in single media forms like text, image and video and so on, provide technical support for the analysis of the relationship of aviation safety accidents.

Key words : civil aviation accident; Cross-media information collection;data storage;Information retrieval

1 概述

航空安全一直以來都是人們關注的焦點。隨著信息獲取、存儲和傳播技術的飛速發展,網絡多媒體資源迅猛增長、多媒體類型及結構日趨復雜化,民航空難信息呈現出多源異構、關聯性高、時效性等復雜特征,其內容跨越了文本、視頻、圖像等多種信息形態,并涉及不同信息源對事件的不同評論等多種屬性。“9.11”恐怖事件以來,特別是2014年馬航MH370等一系列航空不安全事件引起了全球公眾對航空安全更高的要求。基于跨媒體的民航空難事故數據采集、數據存儲與檢索方法的研究成為了民航空難信息管理與應用研究的熱點問題。

2 系統設計

2.1系統架構設計

系統設計分為數據層和應用層。數據層作為最低端為整個管理系統提供數據信息的服務,以JBoss網絡服務器為基礎,使用網絡爬蟲的技術把在各個主流民航類網頁上的空難事故信息采集下來,以編碼的方式對數據進行組織,并存儲在數據庫中,以便為應用層的信息檢索提供服務;應用層作為整個架構的核心層次,在Web服務器上利用webmagic技術采集信息,并對信息進行加工處理;為各種角色的用戶提供服務,用戶可更加快速準確地查找自己需要的信息。整體框架圖如圖1所示。

3 信息采集與存儲

3.1跨媒體數據的分析與組織

根據民航局對突發事件采取應急措施的相關規定,在對跨媒體空難事故信息的構成進行了詳細分析的基礎上,采用了信息編碼的方法描述跨媒體基本信息,編碼設計如圖2。

其中:

1) 第 0-7 位,表示事故發生日期 。

2) 第 8-10 位,表示事故發生地,編號方式按照中國居民身份證的編號方式設計,如北京為101,天津為102。

3) 第 11-12 位,表示事故類型,編碼方式根據《民用運輸機場突發事件應急救援管理規則》的相關規章制度設計,一共13類,如01表示航空器失事,13表示航空器空中出現故障。

4) 第 13 位,表示傷亡程度,從1到6的傷亡程度逐漸加重,如1表示輕傷事故,2表示重傷事故。

5) 第 14 位,表示跨媒體信息屬性,其中1表示文本信息,2表示圖片信息,3表示視頻信息,4表示鏈接信息。

依照此數據組織形式編寫事件id,作為空難事件的唯一標識,根據各事件的基本屬性,建立空難事故信息表。

對已保存在本地磁盤上的多類型數據,上傳至服務器指定的存儲路徑,統一進行分類管理。對非本地數據文件采取鏈接調取的存儲模式,即在數據庫內保留其網絡鏈接地址,通過互聯網進行更廣泛的搜索。

3.2 數據庫的設計

數據存儲使用MySQL數據庫,E-R圖如圖3所示。

3.3 數據的下載與存儲

1)基于webmagic的數據采集

在信息采集與存儲模塊,先進行網頁信息的采集,為提取和存儲多類型的數據提供基礎。

webmagic是一個無須配置、便于二次開發的垂直爬蟲框架。本系統使用webmagic結合Java的方式進行信息采集,使用Page對象的addTargetRequests()方法添加URL到抓取隊列,getHtml()方法獲取網頁信息,實現Page對象的操作實現爬蟲邏輯;Site對象可以定義爬蟲的域名、起始地址、抓取間隔、編碼等信息。在需要采集的頁面中,針對鏈接地址的不完整,或者是不符合主題,需要使用XPath提取關鍵信息和正則表達式進行匹配。利用正則表達式進行頁面篩選,URL過濾,減少對不必要網頁的保存,提高網頁內容分析和信息分類存儲的效率。

進行信息采集的數據源包括主流的新聞媒體網站如中國新聞網、環球網等,從這些網站體現跨媒體的跨源特性,以及與民航相關的國內外網站如中國民用航空安全信息網、民航網等,從這些網站來獲取空難事件的基本信息。

在信息采集模塊,先選取了三個網站(中國民用航空安全信息網、民航網、民航安全科學研究所網站)進行空難事件基本信息的采集(包括文本、圖片、視頻信息),之后再擴展主流媒體網站進行信息采集。這個模塊屬于基于固定主題的web信息采集,使用MySQL數據庫進行網頁信息的存儲。采集過程比較簡化,使用與主題符合程度非常高的種子URL集,從而削弱了計算優先級的策略的使用問題。首頁展示部分使用基于源搜索的信息采集方法,得到的信息豐富綜合并來源較廣。采用深度采集策略,通過URL重度檢測服務,從網址列表里選取未被訪問的網址作為爬蟲的起始地址,開始爬蟲后,保存當前網頁,獲取當前網頁上符合條件的鏈接,然后根據這些鏈接進一步爬取,直到最后一層。采集過程流程圖如圖4。

2)文本信息的存儲

在數據庫中根據提取的關鍵信息設定表格字段。對于爬取到的頁面,根據關鍵字進行正則匹配,提取關鍵信息并存入數據庫。

3)圖片信息的存儲

根據爬取頁面的URL,獲取圖片地址。在具體圖片頁面,下載其HTML頁面,根據圖片地址下載圖片到本地。

4 信息檢索

4.1 檢索方法與實現過程

通過對字符編碼中不同位置的數字的提取,掃描匹配相應數據庫中內容進行解析,來獲取空難事故的基本信息描述。系統接收用戶輸入的檢索關鍵字段放入session緩存機制中緩存,再掃描數據庫中空難事故信息表,通過關鍵字段進行匹配檢索找到空難事故的事故編碼ID。將獲取到的空難事故的事故編碼ID提出進行緩存,從空難事故編碼字符串中提取指定位置的字符子串,分別截取 14 位數字編碼中的對應位置的字符編碼進行解析,再到對應的表中獲取相關基本信息。

在同一個檢索結果顯示的界面上,不同的位置綁定不同的媒體信息數據源,將所有與檢索的某個空難事故相關的信息整合到一起,從而顯示不同媒體不同類型的關于同一個空難事故的所有信息。

4.2實現效果與分析

將空難事故發生的時間和原因等屬性做了分析統計,以柱狀圖顯示,直觀明了,為后續的空難事故間的關聯性分析提供直觀清晰的數據依據??针y事故信息的統計分析過程:

SelectCommand="SELECT convert(varchar(4) , accidentdate , 23) as year,count(id) AS count FROM AircraftInformationSearch_accident group by convert(varchar(4), accidentdate , 23);

空難信息的統計分析界面如圖7、圖8所示。

5 結論

本文論述了空難事故跨媒體信息采集與檢索方法的研究過程,提供了在信息采集和檢索中運用的相關技術和方法。采用J2EE技術平臺,運用Maven和Java開發工具,實現了將空難事故結合跨媒體進行管理,擺脫了單一媒體信息的局限性和片面性,為實現空難信息的關聯分析提供了有效的數據支持。

參考文獻:

[1] 楊毅,王勝開,陳國順,徐為群,黃鶴云.跨媒體信息技術與應用[Z].電子工業出版社,2014.

[2] 王錦超. 跨媒體檢索技術的研究[D].山東農業大學,2013.

[3] 中國民航科學技術研究院. 2011 中國民航不安全事件統計分析報告[Z].北京:中國民用航空局航空安全辦公室,2012.

[4] CCAR-139-II-R1,民用運輸機場突發事件應急救援管理規則[S].北京:中國民用航空局,2011.

[5] 張鴻. 基于相關性挖掘的跨媒體檢索研究[D].浙江大學,2007.

[6] 寧曉. 突發事件跨媒體信息檢索系統的研究與實現[D].北京:北京郵電大學,2012.

[7] 張鴻,吳飛,莊越挺,陳建勛.一種基于內容相關性的跨媒體檢索方法[J].計算機學報,2008,31(5).

[8] Buning M D C. Towards a Future-Proof Framework for the Protection of Minors in European Audiovisual Media[J]. Social Science Electronic Publishing, 2014, 10(5).

猜你喜歡
數據存儲信息檢索
基于同態加密支持模糊查詢的高效隱私信息檢索協議
大數據時代檔案信息建設的認識和實踐
淺談電力大數據平臺關鍵技術研究與應用
開源數據庫數據存儲的實現路徑分析
基于Android開發的APP數據存儲研究
哈希算法在物聯網數據存儲中的應用
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經網絡的個性化信息檢索模型研究
大型在線式UPS及監控系統在中控機房的應用
科技視界(2016年4期)2016-02-22 13:10:37
主站蜘蛛池模板: 99久久亚洲综合精品TS| 久久久精品无码一二三区| 国产日韩精品欧美一区喷| 亚洲无码91视频| 亚洲大尺度在线| 久久黄色免费电影| 久视频免费精品6| 久久久精品国产SM调教网站| 国产一区二区三区在线精品专区 | 91精品国产自产91精品资源| 亚洲a级在线观看| 天堂在线视频精品| 成人亚洲国产| 成人毛片免费在线观看| 国产在线一区视频| 午夜a级毛片| 毛片免费观看视频| 一级毛片不卡片免费观看| 99精品在线看| 国产手机在线小视频免费观看| 中文国产成人久久精品小说| 国产精品无码AⅤ在线观看播放| 99这里只有精品6| 91久久精品国产| 手机精品视频在线观看免费| 国产爽妇精品| 国产亚洲美日韩AV中文字幕无码成人 | 亚洲无码37.| 国产一区二区精品福利| 国产成人亚洲欧美激情| 久久网欧美| 亚洲人妖在线| 国产高清不卡视频| 99久久精品视香蕉蕉| 视频二区欧美| 国产欧美视频一区二区三区| 亚洲清纯自偷自拍另类专区| 亚洲看片网| 国产乱子伦一区二区=| 谁有在线观看日韩亚洲最新视频 | 狠狠做深爱婷婷综合一区| 亚洲国产欧美国产综合久久| 91精品国产丝袜| 日韩午夜福利在线观看| 国产裸舞福利在线视频合集| 黄色网站在线观看无码| 亚洲精品麻豆| 久久久久久高潮白浆| 久久黄色小视频| 永久免费无码日韩视频| 在线欧美日韩国产| 亚洲自拍另类| 国产乱子伦视频在线播放| 国产成人h在线观看网站站| 精品无码日韩国产不卡av| 在线观看亚洲精品福利片| 免费观看国产小粉嫩喷水| 亚洲日本中文综合在线| a级毛片毛片免费观看久潮| 毛片在线区| 四虎永久免费地址| 亚洲精品第1页| 伊人AV天堂| 在线国产毛片| 无码一区中文字幕| 亚洲国产成人精品无码区性色| 91小视频在线| 无码中文字幕乱码免费2| 国产欧美在线视频免费| 欧美激情第一区| 蝴蝶伊人久久中文娱乐网| 国产亚洲精品97在线观看| 91人妻日韩人妻无码专区精品| 久久美女精品| 手机精品视频在线观看免费| 日本不卡在线视频| 国产真实乱了在线播放| 中文字幕佐山爱一区二区免费| 国产嫖妓91东北老熟女久久一| 黄网站欧美内射| 日本一本正道综合久久dvd | 一级毛片在线播放免费|