檔案信息資源共享平臺數據處理流程研究

2018-12-01 06:58:02卞咸杰

檔案管理 2018年6期

摘要：大數據時代檔案信息資源的不斷增加以及用戶的不斷拓展，對檔案信息資源共享平臺的數據處理流程提出了新的要求。文章論述了檔案信息資源共享平臺數據處理流程總體架構按照確保平臺設計的可擴展性、充分重視數據的采集與存儲等原則進行設計。在分析平臺所要實現的功能需求基礎上，采用Hadoop技術，從平臺數據處理流程中的數據采集、數據清洗與預處理、數據存儲及管理、數據展現等方面對平臺數據處理流程的實現進行了論證。

關鍵詞：大數據；檔案信息資源；共享平臺；Hadoop；數據處理

Abstract： With the increasing of archives information resources and the expanding of users， new requirements are put forward for the data processing flow of archives information resources sharing platform in the era of big data. This paper discusses the data processing framework of archives information resource sharing platform， which is designed according to the principles of ensuring the extensibility of the platform design and paying full attention to data acquisition and storage. Based on the analysis of the functional requirements of the platform， the paper demonstrates the implementation of the platform data processing flow from the aspects of data acquisition， data cleaning and pretreatment， data storage and management， data display and so on.

Keyword： Big Data；Archive information resource；Sharing Platform； Hadoop；Data Processing

在數據信息高速擴張的時代，隨著云計算、物聯網、人工智能技術的大規模運用，當前的檔案信息資源的數據量正在呈指數形式增長，大數據時代的到來為精準而又快速地利用檔案信息資源提供了數據保障。檔案信息資源在被利用的同時，如何挖掘檔案信息資源數據的價值正成為當前檔案信息資源共享平臺研究的熱點。目前，由于缺乏統一的規劃和建設標準，前端使用的技術分辨率支持比較弱，導致各平臺瀏覽器兼容性、設備兼容性和系統兼容性都比較差[1]，因此，為用戶精準而又快速地提供檔案信息是檔案信息共享平臺數據處理流程中最為關鍵的地方。在現有技術條件下，擬采用基于Hadoop技術的數據處理，最大限度地挖掘出檔案信息資源共享平臺中所蘊藏的巨大檔案信息使用價值。

1 平臺數據處理流程總體架構設計

1.1 數據處理流程總體架構設計原則。大數據時代檔案信息資源共享平臺數據處理流程構建設計中最重要的就是檔案信息資源數據的收集、分析與應用，平臺設計的目標是能夠匯集異構的檔案信息資源共享平臺的檔案數據，形成可以開放的檔案信息資源共享中心庫。在平臺的數據處理流程設計方面，需要遵循兩條原則：

一是檔案信息資源數據作為核心資產，充分重視數據的采集與存儲。檔案信息資源共享平臺在大數據時代的應用主要是精準提供有價值的檔案信息資源服務，其核心在于海量的檔案信息資源的收集、存儲與分析。平臺需要持續從不同的環境中采集數據，有價值的檔案信息資源數據不斷進入平臺是為用戶提供高質量的檔案服務的關鍵。

二是平臺需求在不斷變化之中，確保平臺設計的可擴展性。平臺所使用的技術在不斷更新，同時用戶的需求也在不斷變化。如我國目前檔案信息資源共享平臺用戶使用的網絡環境包括電信、移動、聯通等網絡，如果檔案信息資源共享平臺僅部署在某個網絡環境下，其他網絡環境的用戶使用平臺由于跨運營商的原因訪問平臺就會比較慢，采用CDN技術來解決相關傳輸問題[2]，能夠更加快速有效地傳送Web內容。其基本思路是盡可能避開互聯網上有可能影響數據傳輸速度和穩定性的瓶頸和環節，使內容傳輸得更快、更穩定[3]。

1.2 數據處理流程總體架構設計。根據平臺數據處理流程總體架構設計原則，結合平臺的功能要點，形成圖1所示的檔案信息資源共享平臺的大數據服務總體架構。

檔案信息資源共享平臺的大數據服務總體架構包含兩大平臺和三大角色。兩大平臺，即普通Web管理平臺、移動客戶端平臺；三大角色，即管理員、普通用戶、授權用戶。平臺包含檔案信息資源輸入模塊、用戶及權限角色管理模塊、檔案信息資源檢索模塊、資源管理模塊、日志管理模塊、報表模塊，數據通過不同的途徑進入系統之后，經過平臺大數據分析引擎，將會輸出有價值的報表匯總與數據分析圖表。

2 平臺數據處理流程需求

在大數據時代，檔案信息資源共享平臺要達到提高服務效率、整合數據資源、延展信息內容和滿足個性化需求的構建目標[4]，平臺數據處理流程的優化目標實現顯得非常重要。檔案信息資源共享平臺大數據的特點包括：檔案信息資源數據量大、平臺訪問速度要求高、檔案信息資源的表現形式多樣、檔案信息資源的真實與保密性。針對檔案信息資源共享平臺的數據處理流程主要包括以下幾個方面：

首先是檔案信息資源數據采集。搭建數據倉庫，數據采集的方式有用戶通過自身平臺的導入與錄入，平臺提供的對外接口進行數據的處理并添加到目標平臺數據庫，通過爬蟲程序對通過授權的目標檔案數據庫進行檔案信息資源數據抓取，這一步數據處理流程會出現很多無用的檔案信息資源數據進入平臺。

其次是數據清洗/預處理。這一步是要把進入到平臺的數據進行簡單處理，過濾掉沒有價值的檔案信息數據。

最后是對檔案信息數據進行加工處理并對檔案信息數據進行展現。這一步主要是將數據處理成利于平臺理解的數據形式，并通過合適的UI對外進行展示，以便于對檔案信息資源更直觀地理解。

平臺數據處理的總體流程圖如圖2所示：

3 平臺數據處理的實現

檔案信息資源共享平臺在數據處理流程的實現上主要包括以下幾個模塊：平臺檔案信息檢索模塊、平臺日志與分析模塊、平臺數據存儲與分析模塊、可視化模塊以及對外開放式服務。

3.1 平臺數據采集。檔案信息資源數據采集是平臺實現的第一個環節。它將通過傳統的互聯網、移動互聯網數據等方式獲得各種類型的結構化、半結構化及非結構化的海量數據。由于檔案信息數據來源多樣，加上平臺同時支持移動客戶端，平臺會產生并發數據訪問與操作，因此必須采用專門針對該平臺的數據采集方法，主要包括數據庫采集、網絡數據采集以及日志信息采集。對于數據庫采集，目前主流的技術是采用關系型數據庫來存儲檔案信息資源數據；對于網絡上的檔案信息資源數據采集一般以網絡爬蟲或網站公開的授權API等方式，從目標檔案信息網站上獲取檔案信息數據，這種方案得到的檔案信息數據一般是非結構化的或者半結構化的HTML信息，需要通過正則表達式將其中的有效檔案信息數據提取出來并以結構化的方式存儲到平臺所在的服務器；對于檔案日志信息數據的采集，可以采用Flume技術，該技術可以用于高效地收集、聚合和移動大量的日志數據，它具有基于流式數據流的簡單靈活的架構。

檔案信息資源共享平臺在實際的利用過程中，會產生若干用戶行為相關的數據，這些數據對于后期平臺的優化至關重要，這就需要一個強大的日志分析功能。設計的架構需要能夠滿足學習日志的收集與分析功能，針對Web環境中的學習環境服務器提供普適的學習分析數據匯聚接口，采用Hadoop Pig進行大規模日志收集與分析。該模塊主要包括數據匯聚、分析和報表三大模塊，在數據匯聚模塊中應用服務器接收來自不同模塊的檔案信息資源數據，將接收數據過程中以及檔案信息資源利用過程中產生的日志信息發送給代理節點，然后通過代理點將日志發送給Hadoop集群進行分析，并將結果存儲到HBase數據庫，從而為用戶提供日志查詢與利用服務。平臺日志與分析模塊的實現如圖3所示：

3.2 平臺數據預處理。通過檔案信息資源共享平臺采集流程中采集到的數據是不規則的，甚至有部分檔案信息數據是無效的。為了獲取高質量的檔案信息數據，就必須在數據準備階段提高檔案信息數據的質量。在平臺的預處理階段需要將無規則的檔案信息數據轉化為系統識別的結構化數據類型，有效的檔案信息資源數據是后期數據分析的基礎。檔案信息資源數據預處理主要包括：數據清理、數據集成及數據轉換三個方面[5]。數據清理主要包含干擾數據處理與不一致數據處理，對于數據清理可以采用ETL相關的工具，如Informatica、Datastage、OWB、微軟DTS等等；數據集成是將來自于不同平臺的數據合并存放到一個一致的數據存儲庫中，這里需要解決檔案信息資源數據冗余與沖突的問題，對于數據集成，可以通過建立源檔案信息資源數據的集中庫，通過百度自然學習語言模塊來分析其中的問題點，不斷積累知識庫的內容以達到根據學習的知識庫自動剔除冗余數據與沖突數據；數據轉換主要是將檔案信息資源數據名稱及格式進行統一，同時需要將收集到的信息組合、分割或計算，以便于保證抽取到的數據的一致性。

3.3 平臺數據存儲及管理。檔案信息資源共享平臺需要建立適合平臺大數據的管理的數據庫，以便于數據的管理與調用，目前常見的數據存儲技術有Hadoop與MPP兩種[6]，Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，并且設計用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序，Hadoop適用于海量數據、離線數據和負責數據[7]；MPP（Massively Parallel Processor）即大規模并行處理，在數據庫非共享集群中，每個節點都有獨立的磁盤存儲系統和內存系統，業務數據根據數據庫模型和應用特點劃分到各個節點上，每臺數據節點通過專用網絡或者商業通用網絡互相連接，彼此協同計算，作為整體提供數據庫服務[8]。非共享數據庫集群有完全的可伸縮性、高可用、高性能、優秀的性價比、資源共享等優勢。

檔案信息資源共享平臺數據檢索模塊由三部分組成，首先是檔案信息資源數據的存儲與統計分析，這是平臺實現檢索功能的數據基礎，這部分采用Hive技術實現，其次是實際檢索信息的統計分析與計算，這部分通過MapReduce來實現，最后是HDFS服務實際的數據存儲。具體的檢索模塊實現如圖4所示：

3.4 平臺數據分析及挖掘。檔案信息資源數據的分析與挖掘主要目的是把收集到的無規律的檔案信息數據進行提煉，以找出潛在有用的信息和所研究對象的內在規律的過程。主要從可視化分析、預測性分析、數據質量管理幾個方面進行著重分析。對于檔案信息資源可視化分析，主要是借助于圖形化手段，讓需要表現的信息更加清晰，這里可以借助于第三方圖標分析插件，進行數據展示，這樣可以讓平臺的數據信息簡單明了、清晰直觀。對于檔案信息的預測性分析，應該是該平臺最有價值的功能，包括檔案信息資源統計分析、檔案信息資源分析、優化、智能學習，通過平臺的預測分析可以為平臺提供有價值的建議信息；檔案信息資源數據質量管理是指對數據從計劃、獲取、存儲、共享、維護、應用到消亡生命周期的每個階段里可能引發的各類數據質量問題，進行識別、度量、監控、預警等一系列管理活動，并通過改善和提高組織的管理水平使得數據質量獲得進一步提高[9]。

*本文系2016年度教育部人文社會科學研究規劃基金項目《大數據時代檔案信息資源共享平臺構建的研究》（項目編號：16YJA870001）資助。

參考文獻：

[1]卞咸杰.大數據時代檔案信息資源共享平臺前端框架的構建[J].檔案與建設，2017（10）：11-15.

[2]卞咸杰.大數據時代檔案信息資源共享平臺性能優化的研究[J].檔案管理，2016（6）：17-20.

[3]HA Alzoubi，S Lee，M Rabinovich，O Spatscheck，VDMJacobus.A Practical Architecture for an Anycast CDN[J].AcmTransactions on the Web.2011， 5（4）：2209-2220

[4]王琦.大數據環境下開放信息資源共享平臺構建研究[J].信息與電腦（理論版），2018（10）：12-13.

[5]衣連明.云計算在證券行業應用的關鍵驅動因素研究——基于A證券公司的案例分析[D].北京郵電大學，2012.

[6]楊璇.海量旅游統計數據可視化的研究與應用[D].武漢郵電科學研究院，2018.

[7]王永康.Azure云平臺對Twitter推文關鍵字實時大數據分析[J].電腦編程技巧與維護，2015（12）：68-72.

[8]沈瀅，張倩.大數據關鍵技術專利態勢研究[J].電信網技術，2017（3）：43-49.

[9]張凱，潘建宏，徐峰，樊家樹.數據資產管理與監測技術的處理及分析[J].科技經濟導刊，2018，26（7）：39-40.

（作者單位：鹽城師范學院來稿日期：2018-08-20）