999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據定向采集技術研究

2017-09-07 21:40:14高國連祖成浩
中國管理信息化 2017年15期
關鍵詞:大數據

高國連++祖成浩

[摘 要] 文章研究的網絡素材定向采集技術課題包括定制管理、控制服務器、采集器、分析器和上載器五大部分,實現對網站的實時監控和自動采集,根據網站更新頻率的變化和系統自身的負載,自動調整采集間隔,對監控站點進行增量采集,過濾垃圾信息,及時高效地采集新出現的網頁信息,為業務應用系統提供基礎數據。

[關鍵詞] 大數據;出版;定向采集

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 15. 074

[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2017)15- 0162- 03

1 背 景

隨著信息時代的到來,互聯網技術和移動通信技術的提高和應用普及,人們閱讀習慣和環境的明顯變化,數字出版開始蓬勃發展。數字出版目前已經成為出版業極其重要的形態,并將繼續保持高速發展。數字出版技術的發展,不斷推動著數字出版產業的高速前進。電子書、AR/VR、網絡期刊、網絡音樂、數字教育、移動出版等數字出版產業形態逐步形成。

數字出版的快速發展,為出版數據定向采集提供了內容基礎。在這一背景下,為促進傳統出版與新媒體的深度融合發展,出版行業大數據的定向采集將越來越重要。

2 大數據定向采集的技術關鍵點

由于網絡的信息的異構性,在進行互聯網信息的采集時,如何采全、采準,并進行規范的整理,具有相當的難度。現有的Web搜索引擎主要采用傳統的互聯網信息采集技術。傳統的互聯網信息采集系統追求大的覆蓋面,往往包含用戶不關心的大量冗余信息,而且存在著效率不高、獲得信息分散、數據非結構化等問題。因此,在搜索領域出現了可定制的定向互聯網信息采集技術。除了傳統的網絡爬蟲的基本功能外,定向采集技術根據既定的抓取目標,有選擇的訪問互聯網上的網頁與相關的鏈接,并能夠對鏈接以及頁面內容進行識別,對網頁數據進行分析與抽取。

互聯網按網頁存在方式可分為“表層網”(Surface Web)和“深層網”(Deep Web)。表層網指傳統互聯網采集系統可以訪問到的頁面,以超鏈接可以到達的靜態網頁為主構成的Web頁面。面向表層網的傳統采集技術已經日臻成熟。深層網是指那些不能通過超鏈接訪問而通過動態網頁技術訪問的資源集合。隨著網絡技術的發展,深層網中的網絡信息已經占據整個網絡信息容量的80%,越來越多的論壇回帖、新聞跟貼等互動式的互聯網輿情信息采用動態網頁發布技術,面向深層網的網絡信息采集系統已經成為搜索技術發展的主要趨勢之一。目前,已經有了基于領域知識、基于腳本、基于網頁結構分析等動態網頁抓取技術,但深層網的采集還面臨著許多困難和挑戰。

3 大數據定向采集技術研究內容

大數據定向采集技術既能夠自動從互聯網上采集多種類型的網頁數據,也能夠根據具體某個主題的特定需要,采集指定范圍內的或單條的互聯網信息,然后對采集到的內容進行自動消重、提取關鍵詞和摘要信息、自動分析等一系列的處理。

在采集過程中,定向采集技術支持豐富的采集規則并可靈活的設定采集范圍。在采集任務調度方面即可設置為定時定點采集、周期性自動下載、多時刻下載,也可以根據網站自身的內容發布規律進行自適應的采集。在內容抽取方面,既可以針對具體的網站內容根據預先定制的數據分析模板進行精確的內容抽取,也可以根據特有算法和策略自動抽取網頁內容。

大數據定向采集技術最終抽取分析后輸出的數據可支持多編碼多格式的輸出,不僅僅為已有的其他業務系統提供基礎數據,也可以在將來為更多的新業務系統提供數據。

4 大數據定向采集技術架構

網絡素材定向采集技術課題包括定制管理、控制服務器、采集器、分析器和上載器五大部分。

4.1 網站流程定義及分析模板定制與管理

定制管理部分主要負責對網站的抓取流程進行定制,以及根據待抓取的網站結構特征定制相應的數據分析模板。

網站定制:負責進行網站抓取流程定制,需要定制的內容主要包括采集范圍定定義、抓取深度、刷新方式、數據保存方式等。

模板定制:負責進行數據分析模板的定制,需要定制的內容主要包括鏈接提取規則、采集區域定義、標題提取規則、正文提取規則、時間提取規則、作者提取規則、來源提取規則等。整個數據分析模板以XML格式的文件保存。

批量驗證:負責針對已定制的采集任務和模板進行有效性驗證,批量驗證的方式可大大提高驗證的效率,采用多線程的方式進行數據抓取和分析的驗證。

自動分發:負責自動獲取各個采集服務器上運行的任務和模板信息,自動將更新后或修改后的任務和模板詳細內容更新到各個采集服務終端,節省維護成本。

4.2 采集控制服務器

控制服務器主要負責與定制管理工具的通訊以及與其他課題之間的請求接收與發送,另外還負責所有采集任務和分析模板的維護,以及根據實際采集任務的需要動態加載相應的鏈接庫信息。

通訊管理:負責監聽各個課題發送的請求信息,并將處理后的結果返回給各個課題。負責監聽定制管理工具發送的請求信息,進行任務和模板的添加、修改、刪除等處理,并將下載狀態信息返回給定制管理工具。

任務管理:負責維護所有的采集任務。

模板管理:負責維護所有的數據分析模板。

插件管理:根據采集實際所需,動態加載相應類型的動態鏈接庫文件,實現靈活的可擴展支持。

配置管理:負責加載所有相關的配置文件信息,并將該信息提供給采集器和分析器使用。

4.3 多形態信息采集器

多形態信息采集器主要負責原始網頁數據的采集、圖片、附件等的采集工作。整個采集器針對網頁采集的整個流程需要,具體劃分為以下模塊。endprint

自動刷新:根據網站內容的發布規律,自動調整采集任務的刷新間隔時間,達到更快的下載速度。

定點采集:根據各課題的業務應用需要,定時刷新采集任務。

多層抓取:按照任務指定的采集深度,抓取一定層數的網頁數據。

自動消重:自動根據鏈接信息對采集的網頁信息進行消重,避免下載重復數據。

域名管理:負責進行域名解析,并維護已解析的域名信息,提高網絡請求的效率。

列表頁解析:負責對采集到的列表頁網頁數據進行解析,提取內容頁網頁的標題和鏈接信息等。

4.4 內容分析器

內容分析器主要負責對采集器采集到的網頁數據進行內容抽取。具體包括以下模塊。

基于模板的抽取:使用定制的數據分析模板對網頁內容進行關鍵項抽取。具體的抽取按照網站類型進一步劃分為各個子模塊,每個子模塊以動態鏈接庫的方式存在,可靈活擴展。

自動抽取:采用自動抽取算法對網頁內容進行抽取。

翻頁鏈接處理:根據采集任務的需要,將提出出來的翻頁鏈接信息通過控制服務器發送給采集器,讓采集器繼續采集這些網頁信息。

多頁合并:將一篇新聞的多個網頁信息經過內容抽取后,合并為一份完整的正文,輸出到指定目錄。

數據輸出:將所有抽取完畢后的數據以約定的數據格式存儲到本地磁盤或指定目錄。

4.5 上載器

上載器主要負責對分析器分析輸出的結果文件進行入庫的處理。通過調用文本挖掘技術提供的接口,進行關鍵詞和摘要的提取,并進行自動分類和垃圾信息過濾,最終將這些內容存儲到資源庫管理系統中,同時將圖片、附件等上傳至指定的文件服務器。

5 總 結

大數據定向采集技術實現了對網站的實時監控和自動采集,根據網站更新頻率的變化和系統自身的負載,自動調整采集間隔,對監控站點進行增量采集,過濾垃圾信息,及時高效的采集新出現的網頁信息。大數據定向采集技術面向出版、外宣、政府等行業進行數據采集,為業務應用系統提供基礎數據。

主要參考文獻

[1]付華崢,陳翀,向勇,等.分布式大數據采集關鍵技術研究與實現[J].廣東通信技術,2015,35(10):7-10.

[2]王亮.互聯網大數據采集與處理技術要點[J].大科技,2016(33).

[3]司雨昌.網絡大數據的采集與處理方式研究[J].移動信息,2016 (12):121-122.endprint

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 亚洲第一视频网| 国产乱人免费视频| 波多野结衣的av一区二区三区| 久久先锋资源| 热伊人99re久久精品最新地| 日韩在线影院| 青青久视频| 国产成人精品2021欧美日韩| 国产精品永久久久久| 亚洲中文精品久久久久久不卡| 亚洲精品天堂自在久久77| 久久这里只有精品23| www.精品国产| 亚洲三级影院| 亚洲成人精品在线| 国产高清在线观看91精品| 国产在线拍偷自揄拍精品| 亚洲天堂色色人体| 国产乱码精品一区二区三区中文| 啪啪啪亚洲无码| 日本人真淫视频一区二区三区| 欧美亚洲综合免费精品高清在线观看 | 免费播放毛片| 亚洲国产成人久久77| 婷婷六月激情综合一区| 国产精品999在线| 午夜福利在线观看入口| 99精品免费在线| 久久semm亚洲国产| 国产中文一区二区苍井空| 国外欧美一区另类中文字幕| 91福利国产成人精品导航| 免费毛片在线| 亚洲国产清纯| 无码中文字幕加勒比高清| 免费毛片a| 国产三区二区| 91丨九色丨首页在线播放 | 极品国产一区二区三区| 国产成人永久免费视频| 亚洲黄色片免费看| 亚洲第一av网站| 亚洲中文字幕日产无码2021| 久久中文字幕2021精品| 久久精品午夜视频| 国产av色站网站| 青青操视频在线| 久久综合伊人 六十路| 久久精品嫩草研究院| 日韩国产综合精选| 凹凸精品免费精品视频| 免费a在线观看播放| 亚洲欧美自拍中文| 国产视频大全| 亚洲精品无码AⅤ片青青在线观看| 中文字幕在线观看日本| 欧美伦理一区| 2021国产在线视频| 国产精品成人AⅤ在线一二三四 | 久久精品国产一区二区小说| 亚洲国产天堂久久综合226114| 综合人妻久久一区二区精品| 老司机精品一区在线视频| 91国内视频在线观看| 欧美第二区| 精品伊人久久久香线蕉| 亚洲Va中文字幕久久一区| 国产区成人精品视频| 激情六月丁香婷婷| 狠狠做深爱婷婷综合一区| 无码专区国产精品第一页| 3p叠罗汉国产精品久久| v天堂中文在线| 久久精品视频一| 亚洲码一区二区三区| 成人一区在线| 国产精品美乳| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产91视频免费| 国产精品久久久久久久久kt| 毛片三级在线观看| 不卡无码网|