999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

萬維網環境下涉災信息數據采集方法研究

2022-11-15 03:19:32鄧雨婷胡卓瑋胡一奇
自然災害學報 2022年5期
關鍵詞:信息

鄧雨婷,胡卓瑋,胡一奇

(1.首都師范大學資源環境與旅游學院,北京 100048;2.首都師范大學資源環境與地理信息系統北京市重點實驗室,北京 100048;3.首都師范大學城市環境過程與數字模擬國家重點實驗室培育基地,北京 100048)

引言

中國是災害頻發的國家,如何對突發災害進行預防、處置是一個重要的研究領域[1]。涉災數據在災害發生的各個階段都起著至關重要的作用[2],專家學者在進行分析研究和制作相關產品時需要用到大量的涉災信息數據,因此涉災數據的獲取與集成逐漸成為該領域的研究熱點問題。

傳統的涉災信息數據獲取方式單一,一般由國家部門統一發布。隨著步入互聯網時代,萬維網逐漸成為大量信息的載體。多方以萬維網為載體發布涉災信息數據,使得數據獲取呈現多源化的特點。在災害防治業務工作中,如何從這些海量數據中高效快速的獲取防災減災需要的相關信息,為防災減災工作服務十分重要[3]。

隨著涉災信息數據的網絡化和多源化,問題也隨之而來:(1)各數據平臺災種單一,如我國相關行業部門建立的地震、地質災害等平臺,此類數據平臺通常數據較為詳實,但不涉及其他災種[4]。導致單一平臺難以為應急管理相關決策制定或災害綜合分析提供豐富、充足的信息數據支持。(2)數據難以直接獲取,各個網站相互獨立且數據格式、網頁編寫規則各不相同。有的網站提供了專門API外部接口供人獲取數據,但大多數沒有提供專門的外部接口,而僅以網頁形式供人閱覽。這導致跨平臺、多領域、多災種涉災信息數據難以直接獲取。此外,一些網頁中還包含許多目標信息外的混合信息。因此,如何有效地提取并收集這些網頁中的信息成為研究的關鍵。

基于上述背景,文中提出了一種面向萬維網的多源涉災信息數據采集方法,可以充分利用互聯網時代提供的數據優勢,自動準確地抓取互聯網上的涉災數據和涉災信息并將其存儲在數據庫中,為數據分析提供跨領域、多災種、方便獲取、長期真實、實時更新的數據源。

1 技術框架設計

文中將采集對象分為涉災數據和涉災信息,信息和數據同樣重要。采集的萬維網涉災數據主要應用于科學研究,為保證數據的真實性、準確性,選用國家部門、行業單位和較權威的社會機構的官網作為起始url,設計網絡爬蟲對萬維網中的數據進行抓取。技術框架如圖1。

圖1 多源涉災信息數據采集方法技術框架Fig.1 Technical framework of multi-source disaster information data aquisition method

災害信息涉及國土、地質、水利和氣象等部門的不同來源的多源、多時態數據[5]。分析災害相關網站的網頁,發現其以動態頁面為主且有些網站需進行登錄,因此采用動態頁面獲取技術獲取加載后的網頁源碼,結合模擬登陸技術進行網站登錄,使得數據能夠被完整、準確的抓取,且抓取效率最大化。考慮到數據具有時效性強的特點,將數據源分為歷史數據與更新數據。歷史數據量較大且需全量獲取,更新數據則使用增量爬蟲,以保證數據的及時獲取與更新。其中涉災數據為災害監測數據,涉災信息以新聞為主。新聞是信息傳播的重要媒介,但大型綜合類新聞網站并沒有專門的災害板塊,因此在綜合性很強的網站中獲取信息時需要對信息有所篩選和過濾。將采集的信息通過主題判別過濾無關信息。涉災數據和涉災信息均存儲入MySQL數據庫中。

2 分時態采集涉災信息數據

數據采集是文中研究的重點,為簡化開發配置,爬蟲依托Scrapy框架構建。由于涉災信息數據具有多來源、多結構的特點,導致其采集有幾方面的問題:(1)網頁結構多樣,獲取數據具有一定難度;(2)由于有些災害信息注重時效性,涉災信息數據會不定時更新,需處理好全量數據和增量數據的獲取關系。

針對上述問題,提出了全量采集和增量采集策略。

2.1 全量采集

2.1.1 動態頁面獲取

網頁可分為靜態頁面和動態頁面兩種類型。在抓取數據時,動態頁面無法獲取完整的網頁源碼,因此需要進一步分析請求或使用專業工具。Selenium是一個基于網絡爬蟲的瀏覽器自動化測試框架,可模擬人工操作自動化,提供對多種瀏覽器的支持[6]。

在進行涉災信息數據相關頁面請求時添加Selenium技術,Selenium中的WebDriver組件對瀏覽器原生的API進行封裝,形成一套面向對象的API。用戶通過該API可以編寫代碼對網頁元素進行點擊、滾動等操作,并直接獲取Ajax技術、動態HTML技術和JavaScript渲染后的代碼,方便進行后續的元素定位及抓取。

2.1.2 模擬登錄

有些網站需要進行用戶登錄,包括賬號、密碼、驗證碼等,一些驗證碼邏輯復雜導致代碼冗余量大。模擬登陸通過增加cookie池將模擬登錄單獨做成一個服務,達到服務分離、組件分離、服務分別部署的目的,使得代碼耦合性降低,程序更加便利和靈活。

整體流程為cookie池產出cookie存儲入數據庫(類型自選),進行數據采集時隨機從數據庫中獲取cookie進行登錄。由于cookie不是長期有效的,因此需要設置cookie檢測服務,及時清除失效cookie。需根據具體采集數據量需要,定義cookie池的容量。由于cookie池中存儲多個網站,所以需對網站進行管理。cookie管理器起到多網站管理及調度的作用,把需要的網站經管理器進行注冊,以有針對性的對網站運行和定時檢測,同時設立線程池便于多個網站同時運行(圖2)。

不同的網站登錄邏輯不同,因此要開發一個通用并統一配置的cookie池接口,便于新加入的網站快速的接入系統。通過設置抽象基類以保證每個網站接入時按照指定的規范來實現特定的方法。

2.2 增量采集

由于有些涉災信息數據更新頻繁會產生增量數據,因此需設置增量爬蟲便于及時抓取更新數據。增量爬蟲在設計時需考慮2種情況:一種是正在全量抓取歷史數據時有更新數據;另一種是歷史數據已抓取完畢后有更新數據。由于scarpy-redis有去重的功能,所以可以分辨出增量數據,增量爬蟲中所涉及到的兩種情況都可以通過修改scarpy-redis源碼完成。

針對第1種情況,可以使用優先級隊列,將隊列類型設置為PriorityQueue,由于增量數據一般會出現在首頁或者末頁,因此根據數據更新的大致頻率,通過自定義腳本嵌入至enqueue_request中,實現每間隔一段時間就將增量數據所在頁面的url插入隊列中,并將優先級設置的較高,以便于及時發現并優先抓取新數據,而后再繼續抓取歷史數據。針對第2種情況,scarpy-redis可以在隊列為空的時候進行等待,使得爬蟲不會關閉,及時發現增量數據并進行抓取。

圖2 動態數據獲取中的模擬登錄Fig.2 Simulated login in dynamic data acquisition

3 主題相關性判斷

新聞為信息的重要載體,新聞內容包括救援信息、災情報道、科普文章、政府報告、人文關懷和防災演習等豐富的涉災信息。在面向海量的網絡信息時需通過主題相關性判斷篩選出涉災信息,確保獲取信息的純粹性。主題詞庫是判斷信息是否與災害相關的重要工具,由于目前沒有針對災害領域的關鍵詞庫,因此文中采取計算機和人工相結合的方式進行關鍵詞提取,形成災害主題詞庫。

通過網絡爬蟲和人工搜集的手段對中國地震局、天氣網、中國農業信息網等災害相關官網的新聞報道進行收集形成語料庫。由于新聞標題含有主要信息,因此采用信息熵的方式對語料庫中標題進行關鍵詞提取,詞A信息熵的計算公式為:

其中,w為詞A出現的頻率。當一個詞語左右搭配越豐富,說明該詞匯為關鍵詞的可能性越大,因此一個詞左右搭配詞的信息熵越大,則認為該詞為關鍵詞的可能性就越高。

所選取的關鍵詞既要有主題代表性,又要減少誤判的概率,通過計算機提取的關鍵詞并不完備,因此結合人工的方式對關鍵詞進行補充和調整。一些關鍵詞具有歧義,如“臺風”既可以表示自然災害,又可以理解為人的舞臺表演風格,這種詞會降低主題判斷的準確性。為了使采集的信息更準確,對詞庫進行進一步改進,將主題詞分為一級關鍵詞和二級關鍵詞。一級關鍵詞為強相關無歧義關鍵詞,單詞即可實現災害主題判斷。二級關鍵詞為次相關或有歧義關鍵詞,須通過組合的形式對主題進行判斷,當標題中出現2個及以上的二級關鍵詞,才判斷其與主題相關進行采集。災害主題關鍵詞庫如表1。

表1 災害主題關鍵詞庫Table 1 Keyword thesaurus of disaster theme

采集新聞標題后,將災害主題關鍵詞庫中的詞語加上詞性形成用戶自定義字典,用以輔助標題的中文分詞。將標題分詞后形成的詞序列先與一級關鍵詞進行比較,若含有關鍵詞則直接抓取,若不包含一級關鍵詞則進行二級關鍵詞判斷;標題中若包含超過設定閾值的二級關鍵詞則與主題相關,進行抓取保存,否則舍棄。通過兩級主題判斷后主題相關性進一步提高。

4 方法應用實驗

由于文中的采集對象為涉災數據和涉災信息,因此針對不同對象分別展開采集實驗。由于我國地震災害頻發,有專門的網站發布和管理地震數據,使得地震歷史數據較多且數據更新及時,在涉災數據中具有代表性,因此文中實驗以中國地震局的地震監測數據為例。涉災信息以新浪新聞為例。

4.1 涉災數據采集

中國地震局為我國國家官方網站,其歷史數據時間跨度從2001年5月至今,共11 150條監測數據,并且隨著新的地震事件的發生而不斷增加。由于監測數據多以表格的形式展示在災害相關的網站上,因此不需要進行主題判斷,直接進行全量采集和增量采集即可。由于其歷史數據量較大,在全量采集時花費了較多的時間。考慮到地震的時效性較強,因此設置每分鐘訪問網站,并判斷數據是否有更新。經實驗,可以較好的實現地震數據的采集。采集效果圖如圖3。

圖3 國家部門地震監測數據采集實現效果Fig.3 Implementation effect of earthquake monitoring data aquisition in national departments

4.2 涉災信息采集

新浪新聞為我國較大的新聞媒體平臺,涵蓋領域較廣,提供信息豐富且信息較為可靠。經過信息重要程度的考慮最終選取發布時間、新聞標題、新聞鏈接、發布媒體和新聞內容5個字段進行采集。設定全量采集新浪新聞前100頁新聞,并進行主題判斷。由于新聞中涉災信息相對其他信息較少,因此增量采集設定時間不用非常頻繁。通過實驗可以發現采集的信息主題相關度非常高,極少有與主題不符的情況。采集效果如圖4。

圖4 新聞媒體涉災信息采集實現效果Fig.4 Implementation effect of disaster related information aquisition in news media

5 結論

文中以萬維網為載體的國家部門、較權威的新聞媒體的涉災信息數據服務為采集對象,在充分研究網頁結構和涉災信息數據特點的基礎上,闡述了全量采集與增量采集的技術要點,并針對災害領域建立了災害主題關鍵詞庫用以進行災害主題相關性判斷,保證采集信息的主題純粹性。實驗驗證了涉災信息數據采集方法的效果,較好地采集了監測數據和涉災信息。有效解決了信息混雜、不易獲取的問題,使得涉災信息數據采集策略更加清晰和更易實現,為災情評估、災害相關產品制作、應急管理計劃制定等研究提供了數據采集技術支持,為搭建涉災信息數據采集及共享平臺提供了新思路。

文中的主題相關性判斷方式目前適用于標題這種短文本中,對于沒有標題,只有內容的長文本信息適用性較低。長文本主題判斷還需進一步研究。同時文中只針對網絡涉災信息數據進行采集,涉災信息數據采集的對象還有待擴展和提高,現實中國家各部門有一些數據并不予網絡呈現,這些部門數據在應急管理、防災減災中也具有十分大的應用價值,因此部門也可以作為一種數據來源。如何打破各部門間的壁壘,使得數據能被獲取、共享并保證數據傳輸過程中的安全性和保密性,還需在國家的支持和專家的研究下共同解決。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久香蕉欧美精品| 五月婷婷精品| 亚洲 欧美 中文 AⅤ在线视频| 国产一级精品毛片基地| 国产理论精品| 992Tv视频国产精品| 九月婷婷亚洲综合在线| 久久久久青草大香线综合精品| 中文字幕伦视频| 成人在线不卡视频| 亚洲成人免费看| 国产中文一区a级毛片视频| 国产午夜人做人免费视频| 亚洲综合经典在线一区二区| 国产成人无码Av在线播放无广告 | 国产毛片久久国产| 久久综合九色综合97网| 天天激情综合| h网址在线观看| 精品视频免费在线| 国产成人在线无码免费视频| 无码有码中文字幕| 国产精品成人第一区| 中文字幕永久视频| 国产精品真实对白精彩久久| 欧美成人A视频| 国产精品九九视频| 国产高清又黄又嫩的免费视频网站| 久久成人国产精品免费软件 | 亚洲欧美另类专区| 日韩最新中文字幕| 国产在线视频导航| 国产精品手机在线观看你懂的| 朝桐光一区二区| 国产日韩精品欧美一区喷| 一区二区三区四区在线| 免费视频在线2021入口| 精品超清无码视频在线观看| 亚洲乱码视频| 亚洲无码视频图片| 国产美女91视频| 国产精品刺激对白在线| 台湾AV国片精品女同性| 四虎免费视频网站| 刘亦菲一区二区在线观看| 性视频久久| 四虎永久在线精品国产免费| 欧美成一级| 婷五月综合| 性网站在线观看| 2021精品国产自在现线看| 国产一级裸网站| 青青草原偷拍视频| 亚洲天堂视频网站| 国产人人乐人人爱| h网站在线播放| 国产精品所毛片视频| 亚洲无线一二三四区男男| 一本色道久久88| 国产福利微拍精品一区二区| 色欲色欲久久综合网| AV无码无在线观看免费| 久久精品无码中文字幕| 欧美一级专区免费大片| 在线精品亚洲国产| 制服丝袜一区二区三区在线| 91麻豆精品视频| 91网红精品在线观看| 99国产精品一区二区| 国产成人欧美| 国产欧美日韩va另类在线播放| 久久国产热| 久久亚洲中文字幕精品一区| 国产91熟女高潮一区二区| 操操操综合网| 99久久精品国产精品亚洲| 精品国产自在现线看久久| 黄色免费在线网址| 欧美一区二区三区欧美日韩亚洲| 国产二级毛片| 亚洲日韩高清在线亚洲专区| 精品中文字幕一区在线|