高國連++祖成浩
[摘 要] 文章研究的網絡素材定向采集技術課題包括定制管理、控制服務器、采集器、分析器和上載器五大部分,實現對網站的實時監控和自動采集,根據網站更新頻率的變化和系統自身的負載,自動調整采集間隔,對監控站點進行增量采集,過濾垃圾信息,及時高效地采集新出現的網頁信息,為業務應用系統提供基礎數據。
[關鍵詞] 大數據;出版;定向采集
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 15. 074
[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2017)15- 0162- 03
1 背 景
隨著信息時代的到來,互聯網技術和移動通信技術的提高和應用普及,人們閱讀習慣和環境的明顯變化,數字出版開始蓬勃發展。數字出版目前已經成為出版業極其重要的形態,并將繼續保持高速發展。數字出版技術的發展,不斷推動著數字出版產業的高速前進。電子書、AR/VR、網絡期刊、網絡音樂、數字教育、移動出版等數字出版產業形態逐步形成。
數字出版的快速發展,為出版數據定向采集提供了內容基礎。在這一背景下,為促進傳統出版與新媒體的深度融合發展,出版行業大數據的定向采集將越來越重要。
2 大數據定向采集的技術關鍵點
由于網絡的信息的異構性,在進行互聯網信息的采集時,如何采全、采準,并進行規范的整理,具有相當的難度。現有的Web搜索引擎主要采用傳統的互聯網信息采集技術。傳統的互聯網信息采集系統追求大的覆蓋面,往往包含用戶不關心的大量冗余信息,而且存在著效率不高、獲得信息分散、數據非結構化等問題。因此,在搜索領域出現了可定制的定向互聯網信息采集技術。除了傳統的網絡爬蟲的基本功能外,定向采集技術根據既定的抓取目標,有選擇的訪問互聯網上的網頁與相關的鏈接,并能夠對鏈接以及頁面內容進行識別,對網頁數據進行分析與抽取。
互聯網按網頁存在方式可分為“表層網”(Surface Web)和“深層網”(Deep Web)。表層網指傳統互聯網采集系統可以訪問到的頁面,以超鏈接可以到達的靜態網頁為主構成的Web頁面。面向表層網的傳統采集技術已經日臻成熟。深層網是指那些不能通過超鏈接訪問而通過動態網頁技術訪問的資源集合。隨著網絡技術的發展,深層網中的網絡信息已經占據整個網絡信息容量的80%,越來越多的論壇回帖、新聞跟貼等互動式的互聯網輿情信息采用動態網頁發布技術,面向深層網的網絡信息采集系統已經成為搜索技術發展的主要趨勢之一。目前,已經有了基于領域知識、基于腳本、基于網頁結構分析等動態網頁抓取技術,但深層網的采集還面臨著許多困難和挑戰。
3 大數據定向采集技術研究內容
大數據定向采集技術既能夠自動從互聯網上采集多種類型的網頁數據,也能夠根據具體某個主題的特定需要,采集指定范圍內的或單條的互聯網信息,然后對采集到的內容進行自動消重、提取關鍵詞和摘要信息、自動分析等一系列的處理。
在采集過程中,定向采集技術支持豐富的采集規則并可靈活的設定采集范圍。在采集任務調度方面即可設置為定時定點采集、周期性自動下載、多時刻下載,也可以根據網站自身的內容發布規律進行自適應的采集。在內容抽取方面,既可以針對具體的網站內容根據預先定制的數據分析模板進行精確的內容抽取,也可以根據特有算法和策略自動抽取網頁內容。
大數據定向采集技術最終抽取分析后輸出的數據可支持多編碼多格式的輸出,不僅僅為已有的其他業務系統提供基礎數據,也可以在將來為更多的新業務系統提供數據。
4 大數據定向采集技術架構
網絡素材定向采集技術課題包括定制管理、控制服務器、采集器、分析器和上載器五大部分。
4.1 網站流程定義及分析模板定制與管理
定制管理部分主要負責對網站的抓取流程進行定制,以及根據待抓取的網站結構特征定制相應的數據分析模板。
網站定制:負責進行網站抓取流程定制,需要定制的內容主要包括采集范圍定定義、抓取深度、刷新方式、數據保存方式等。
模板定制:負責進行數據分析模板的定制,需要定制的內容主要包括鏈接提取規則、采集區域定義、標題提取規則、正文提取規則、時間提取規則、作者提取規則、來源提取規則等。整個數據分析模板以XML格式的文件保存。
批量驗證:負責針對已定制的采集任務和模板進行有效性驗證,批量驗證的方式可大大提高驗證的效率,采用多線程的方式進行數據抓取和分析的驗證。
自動分發:負責自動獲取各個采集服務器上運行的任務和模板信息,自動將更新后或修改后的任務和模板詳細內容更新到各個采集服務終端,節省維護成本。
4.2 采集控制服務器
控制服務器主要負責與定制管理工具的通訊以及與其他課題之間的請求接收與發送,另外還負責所有采集任務和分析模板的維護,以及根據實際采集任務的需要動態加載相應的鏈接庫信息。
通訊管理:負責監聽各個課題發送的請求信息,并將處理后的結果返回給各個課題。負責監聽定制管理工具發送的請求信息,進行任務和模板的添加、修改、刪除等處理,并將下載狀態信息返回給定制管理工具。
任務管理:負責維護所有的采集任務。
模板管理:負責維護所有的數據分析模板。
插件管理:根據采集實際所需,動態加載相應類型的動態鏈接庫文件,實現靈活的可擴展支持。
配置管理:負責加載所有相關的配置文件信息,并將該信息提供給采集器和分析器使用。
4.3 多形態信息采集器
多形態信息采集器主要負責原始網頁數據的采集、圖片、附件等的采集工作。整個采集器針對網頁采集的整個流程需要,具體劃分為以下模塊。endprint
自動刷新:根據網站內容的發布規律,自動調整采集任務的刷新間隔時間,達到更快的下載速度。
定點采集:根據各課題的業務應用需要,定時刷新采集任務。
多層抓取:按照任務指定的采集深度,抓取一定層數的網頁數據。
自動消重:自動根據鏈接信息對采集的網頁信息進行消重,避免下載重復數據。
域名管理:負責進行域名解析,并維護已解析的域名信息,提高網絡請求的效率。
列表頁解析:負責對采集到的列表頁網頁數據進行解析,提取內容頁網頁的標題和鏈接信息等。
4.4 內容分析器
內容分析器主要負責對采集器采集到的網頁數據進行內容抽取。具體包括以下模塊。
基于模板的抽取:使用定制的數據分析模板對網頁內容進行關鍵項抽取。具體的抽取按照網站類型進一步劃分為各個子模塊,每個子模塊以動態鏈接庫的方式存在,可靈活擴展。
自動抽取:采用自動抽取算法對網頁內容進行抽取。
翻頁鏈接處理:根據采集任務的需要,將提出出來的翻頁鏈接信息通過控制服務器發送給采集器,讓采集器繼續采集這些網頁信息。
多頁合并:將一篇新聞的多個網頁信息經過內容抽取后,合并為一份完整的正文,輸出到指定目錄。
數據輸出:將所有抽取完畢后的數據以約定的數據格式存儲到本地磁盤或指定目錄。
4.5 上載器
上載器主要負責對分析器分析輸出的結果文件進行入庫的處理。通過調用文本挖掘技術提供的接口,進行關鍵詞和摘要的提取,并進行自動分類和垃圾信息過濾,最終將這些內容存儲到資源庫管理系統中,同時將圖片、附件等上傳至指定的文件服務器。
5 總 結
大數據定向采集技術實現了對網站的實時監控和自動采集,根據網站更新頻率的變化和系統自身的負載,自動調整采集間隔,對監控站點進行增量采集,過濾垃圾信息,及時高效的采集新出現的網頁信息。大數據定向采集技術面向出版、外宣、政府等行業進行數據采集,為業務應用系統提供基礎數據。
主要參考文獻
[1]付華崢,陳翀,向勇,等.分布式大數據采集關鍵技術研究與實現[J].廣東通信技術,2015,35(10):7-10.
[2]王亮.互聯網大數據采集與處理技術要點[J].大科技,2016(33).
[3]司雨昌.網絡大數據的采集與處理方式研究[J].移動信息,2016 (12):121-122.endprint