999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

空難事故跨媒體信息采集與檢索方法的研究

2016-06-14 19:10:43葛煒琦賀蜀川林海舟蔡蕤王紅
電腦知識與技術 2016年12期
關鍵詞:數據存儲信息檢索

葛煒琦+賀蜀川+林海舟+蔡蕤+王紅

摘要:針對民航空難事故信息來源廣泛,數據形式呈現多樣性,信息檢索不方便的問題,提出了基于J2EE的空難事故跨媒體信息管理的設計思路。采用webmagic實現了跨媒體數據的采集,運用Maven與Java開發工具,實現了空難事故信息從數據層到應用層的存儲與檢索,有效解決了以文本、圖像和視頻等單一媒體表現形式描述民航空難事故信息的不足,為航空安全事故的關聯分析提供了技術支持。

關鍵詞:民航空難事故;跨媒體信息采集;數據存儲;信息檢索

中圖分類號:TP315 文獻標識碼:A 文章編號:1009-3044(2016)12-0006-04

Abstract :According to the problems of the wide range of information sources, the diversity of data forms and the inconvenience of information retrieval, the design ideas of cross media information management based on J2EE is put forward.Using webmagic to achieve cross-media data acquisition,using Maven and Java development tools,storage and retrieval of information from data layer to application layer is realized, effectively solve the insufficient description of civil aviation accident accident information in single media forms like text, image and video and so on, provide technical support for the analysis of the relationship of aviation safety accidents.

Key words : civil aviation accident; Cross-media information collection;data storage;Information retrieval

1 概述

航空安全一直以來都是人們關注的焦點。隨著信息獲取、存儲和傳播技術的飛速發展,網絡多媒體資源迅猛增長、多媒體類型及結構日趨復雜化,民航空難信息呈現出多源異構、關聯性高、時效性等復雜特征,其內容跨越了文本、視頻、圖像等多種信息形態,并涉及不同信息源對事件的不同評論等多種屬性。“9.11”恐怖事件以來,特別是2014年馬航MH370等一系列航空不安全事件引起了全球公眾對航空安全更高的要求。基于跨媒體的民航空難事故數據采集、數據存儲與檢索方法的研究成為了民航空難信息管理與應用研究的熱點問題。

2 系統設計

2.1系統架構設計

系統設計分為數據層和應用層。數據層作為最低端為整個管理系統提供數據信息的服務,以JBoss網絡服務器為基礎,使用網絡爬蟲的技術把在各個主流民航類網頁上的空難事故信息采集下來,以編碼的方式對數據進行組織,并存儲在數據庫中,以便為應用層的信息檢索提供服務;應用層作為整個架構的核心層次,在Web服務器上利用webmagic技術采集信息,并對信息進行加工處理;為各種角色的用戶提供服務,用戶可更加快速準確地查找自己需要的信息。整體框架圖如圖1所示。

3 信息采集與存儲

3.1跨媒體數據的分析與組織

根據民航局對突發事件采取應急措施的相關規定,在對跨媒體空難事故信息的構成進行了詳細分析的基礎上,采用了信息編碼的方法描述跨媒體基本信息,編碼設計如圖2。

其中:

1) 第 0-7 位,表示事故發生日期 。

2) 第 8-10 位,表示事故發生地,編號方式按照中國居民身份證的編號方式設計,如北京為101,天津為102。

3) 第 11-12 位,表示事故類型,編碼方式根據《民用運輸機場突發事件應急救援管理規則》的相關規章制度設計,一共13類,如01表示航空器失事,13表示航空器空中出現故障。

4) 第 13 位,表示傷亡程度,從1到6的傷亡程度逐漸加重,如1表示輕傷事故,2表示重傷事故。

5) 第 14 位,表示跨媒體信息屬性,其中1表示文本信息,2表示圖片信息,3表示視頻信息,4表示鏈接信息。

依照此數據組織形式編寫事件id,作為空難事件的唯一標識,根據各事件的基本屬性,建立空難事故信息表。

對已保存在本地磁盤上的多類型數據,上傳至服務器指定的存儲路徑,統一進行分類管理。對非本地數據文件采取鏈接調取的存儲模式,即在數據庫內保留其網絡鏈接地址,通過互聯網進行更廣泛的搜索。

3.2 數據庫的設計

數據存儲使用MySQL數據庫,E-R圖如圖3所示。

3.3 數據的下載與存儲

1)基于webmagic的數據采集

在信息采集與存儲模塊,先進行網頁信息的采集,為提取和存儲多類型的數據提供基礎。

webmagic是一個無須配置、便于二次開發的垂直爬蟲框架。本系統使用webmagic結合Java的方式進行信息采集,使用Page對象的addTargetRequests()方法添加URL到抓取隊列,getHtml()方法獲取網頁信息,實現Page對象的操作實現爬蟲邏輯;Site對象可以定義爬蟲的域名、起始地址、抓取間隔、編碼等信息。在需要采集的頁面中,針對鏈接地址的不完整,或者是不符合主題,需要使用XPath提取關鍵信息和正則表達式進行匹配。利用正則表達式進行頁面篩選,URL過濾,減少對不必要網頁的保存,提高網頁內容分析和信息分類存儲的效率。

進行信息采集的數據源包括主流的新聞媒體網站如中國新聞網、環球網等,從這些網站體現跨媒體的跨源特性,以及與民航相關的國內外網站如中國民用航空安全信息網、民航網等,從這些網站來獲取空難事件的基本信息。

在信息采集模塊,先選取了三個網站(中國民用航空安全信息網、民航網、民航安全科學研究所網站)進行空難事件基本信息的采集(包括文本、圖片、視頻信息),之后再擴展主流媒體網站進行信息采集。這個模塊屬于基于固定主題的web信息采集,使用MySQL數據庫進行網頁信息的存儲。采集過程比較簡化,使用與主題符合程度非常高的種子URL集,從而削弱了計算優先級的策略的使用問題。首頁展示部分使用基于源搜索的信息采集方法,得到的信息豐富綜合并來源較廣。采用深度采集策略,通過URL重度檢測服務,從網址列表里選取未被訪問的網址作為爬蟲的起始地址,開始爬蟲后,保存當前網頁,獲取當前網頁上符合條件的鏈接,然后根據這些鏈接進一步爬取,直到最后一層。采集過程流程圖如圖4。

2)文本信息的存儲

在數據庫中根據提取的關鍵信息設定表格字段。對于爬取到的頁面,根據關鍵字進行正則匹配,提取關鍵信息并存入數據庫。

3)圖片信息的存儲

根據爬取頁面的URL,獲取圖片地址。在具體圖片頁面,下載其HTML頁面,根據圖片地址下載圖片到本地。

4 信息檢索

4.1 檢索方法與實現過程

通過對字符編碼中不同位置的數字的提取,掃描匹配相應數據庫中內容進行解析,來獲取空難事故的基本信息描述。系統接收用戶輸入的檢索關鍵字段放入session緩存機制中緩存,再掃描數據庫中空難事故信息表,通過關鍵字段進行匹配檢索找到空難事故的事故編碼ID。將獲取到的空難事故的事故編碼ID提出進行緩存,從空難事故編碼字符串中提取指定位置的字符子串,分別截取 14 位數字編碼中的對應位置的字符編碼進行解析,再到對應的表中獲取相關基本信息。

在同一個檢索結果顯示的界面上,不同的位置綁定不同的媒體信息數據源,將所有與檢索的某個空難事故相關的信息整合到一起,從而顯示不同媒體不同類型的關于同一個空難事故的所有信息。

4.2實現效果與分析

將空難事故發生的時間和原因等屬性做了分析統計,以柱狀圖顯示,直觀明了,為后續的空難事故間的關聯性分析提供直觀清晰的數據依據??针y事故信息的統計分析過程:

SelectCommand="SELECT convert(varchar(4) , accidentdate , 23) as year,count(id) AS count FROM AircraftInformationSearch_accident group by convert(varchar(4), accidentdate , 23);

空難信息的統計分析界面如圖7、圖8所示。

5 結論

本文論述了空難事故跨媒體信息采集與檢索方法的研究過程,提供了在信息采集和檢索中運用的相關技術和方法。采用J2EE技術平臺,運用Maven和Java開發工具,實現了將空難事故結合跨媒體進行管理,擺脫了單一媒體信息的局限性和片面性,為實現空難信息的關聯分析提供了有效的數據支持。

參考文獻:

[1] 楊毅,王勝開,陳國順,徐為群,黃鶴云.跨媒體信息技術與應用[Z].電子工業出版社,2014.

[2] 王錦超. 跨媒體檢索技術的研究[D].山東農業大學,2013.

[3] 中國民航科學技術研究院. 2011 中國民航不安全事件統計分析報告[Z].北京:中國民用航空局航空安全辦公室,2012.

[4] CCAR-139-II-R1,民用運輸機場突發事件應急救援管理規則[S].北京:中國民用航空局,2011.

[5] 張鴻. 基于相關性挖掘的跨媒體檢索研究[D].浙江大學,2007.

[6] 寧曉. 突發事件跨媒體信息檢索系統的研究與實現[D].北京:北京郵電大學,2012.

[7] 張鴻,吳飛,莊越挺,陳建勛.一種基于內容相關性的跨媒體檢索方法[J].計算機學報,2008,31(5).

[8] Buning M D C. Towards a Future-Proof Framework for the Protection of Minors in European Audiovisual Media[J]. Social Science Electronic Publishing, 2014, 10(5).

猜你喜歡
數據存儲信息檢索
基于同態加密支持模糊查詢的高效隱私信息檢索協議
大數據時代檔案信息建設的認識和實踐
淺談電力大數據平臺關鍵技術研究與應用
開源數據庫數據存儲的實現路徑分析
基于Android開發的APP數據存儲研究
哈希算法在物聯網數據存儲中的應用
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經網絡的個性化信息檢索模型研究
大型在線式UPS及監控系統在中控機房的應用
科技視界(2016年4期)2016-02-22 13:10:37
主站蜘蛛池模板: 伊人AV天堂| 国产免费羞羞视频| 久久久久青草大香线综合精品| 欧美色99| 华人在线亚洲欧美精品| 国产毛片片精品天天看视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 午夜国产在线观看| 亚洲婷婷在线视频| 国产啪在线| 无遮挡一级毛片呦女视频| 国产va在线观看免费| 欧洲精品视频在线观看| 亚洲第一黄色网址| 岛国精品一区免费视频在线观看| 国产精品美人久久久久久AV| 国产高颜值露脸在线观看| 免费一级α片在线观看| 一本色道久久88| 日本成人精品视频| 午夜小视频在线| 91精品综合| 亚洲美女AV免费一区| 制服丝袜 91视频| 中文无码精品A∨在线观看不卡| 国产在线视频福利资源站| 国产亚洲精品无码专| 国产剧情一区二区| 亚洲国产系列| 一级毛片基地| 欧美另类图片视频无弹跳第一页 | 国产网站免费看| 亚洲国产精品日韩专区AV| 国产成人凹凸视频在线| av性天堂网| 国产欧美在线观看精品一区污| 亚洲国产日韩欧美在线| 婷婷五月在线| 国产白丝av| 中文成人无码国产亚洲| 欧美三级自拍| 国产特一级毛片| 亚洲最黄视频| 国产精品女同一区三区五区| 免费在线视频a| 欧美国产日产一区二区| 久996视频精品免费观看| 国产在线八区| 亚洲一区二区精品无码久久久| 色欲国产一区二区日韩欧美| 99久久精品国产麻豆婷婷| 日韩亚洲高清一区二区| 日韩国产黄色网站| 乱系列中文字幕在线视频 | 久草网视频在线| 精品少妇人妻av无码久久| 久久www视频| 亚洲人人视频| 午夜国产不卡在线观看视频| 香蕉国产精品视频| 日本三级精品| 国产免费好大好硬视频| 国产人妖视频一区在线观看| 亚洲欧美日韩中文字幕一区二区三区 | 国产成人AV综合久久| 色婷婷亚洲十月十月色天| 亚洲AⅤ无码国产精品| 午夜a级毛片| 欧美日韩免费| av一区二区三区在线观看| 欧美日韩国产在线观看一区二区三区| 在线欧美国产| 国产手机在线小视频免费观看| 综合久久久久久久综合网| 亚洲天堂免费在线视频| 亚洲码一区二区三区| 亚洲综合色区在线播放2019| 国产无码高清视频不卡| 国产在线八区| 国产一区二区三区在线观看视频| 日本道综合一本久久久88| 日本高清免费不卡视频|