999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案信息資源共享平臺數據處理流程研究

2018-12-01 06:58:02卞咸杰
檔案管理 2018年6期
關鍵詞:數據處理大數據

摘 要:大數據時代檔案信息資源的不斷增加以及用戶的不斷拓展,對檔案信息資源共享平臺的數據處理流程提出了新的要求。文章論述了檔案信息資源共享平臺數據處理流程總體架構按照確保平臺設計的可擴展性、充分重視數據的采集與存儲等原則進行設計。在分析平臺所要實現的功能需求基礎上,采用Hadoop技術,從平臺數據處理流程中的數據采集、數據清洗與預處理、數據存儲及管理、數據展現等方面對平臺數據處理流程的實現進行了論證。

關鍵詞:大數據;檔案信息資源;共享平臺;Hadoop;數據處理

Abstract: With the increasing of archives information resources and the expanding of users, new requirements are put forward for the data processing flow of archives information resources sharing platform in the era of big data. This paper discusses the data processing framework of archives information resource sharing platform, which is designed according to the principles of ensuring the extensibility of the platform design and paying full attention to data acquisition and storage. Based on the analysis of the functional requirements of the platform, the paper demonstrates the implementation of the platform data processing flow from the aspects of data acquisition, data cleaning and pretreatment, data storage and management, data display and so on.

Keyword: Big Data;Archive information resource;Sharing Platform; Hadoop;Data Processing

在數據信息高速擴張的時代,隨著云計算、物聯網、人工智能技術的大規模運用,當前的檔案信息資源的數據量正在呈指數形式增長,大數據時代的到來為精準而又快速地利用檔案信息資源提供了數據保障。檔案信息資源在被利用的同時,如何挖掘檔案信息資源數據的價值正成為當前檔案信息資源共享平臺研究的熱點。目前,由于缺乏統一的規劃和建設標準,前端使用的技術分辨率支持比較弱,導致各平臺瀏覽器兼容性、設備兼容性和系統兼容性都比較差[1],因此,為用戶精準而又快速地提供檔案信息是檔案信息共享平臺數據處理流程中最為關鍵的地方。在現有技術條件下,擬采用基于Hadoop技術的數據處理,最大限度地挖掘出檔案信息資源共享平臺中所蘊藏的巨大檔案信息使用價值。

1 平臺數據處理流程總體架構設計

1.1 數據處理流程總體架構設計原則。大數據時代檔案信息資源共享平臺數據處理流程構建設計中最重要的就是檔案信息資源數據的收集、分析與應用,平臺設計的目標是能夠匯集異構的檔案信息資源共享平臺的檔案數據,形成可以開放的檔案信息資源共享中心庫。在平臺的數據處理流程設計方面,需要遵循兩條原則:

一是檔案信息資源數據作為核心資產,充分重視數據的采集與存儲。檔案信息資源共享平臺在大數據時代的應用主要是精準提供有價值的檔案信息資源服務,其核心在于海量的檔案信息資源的收集、存儲與分析。平臺需要持續從不同的環境中采集數據,有價值的檔案信息資源數據不斷進入平臺是為用戶提供高質量的檔案服務的關鍵。

二是平臺需求在不斷變化之中,確保平臺設計的可擴展性。平臺所使用的技術在不斷更新,同時用戶的需求也在不斷變化。如我國目前檔案信息資源共享平臺用戶使用的網絡環境包括電信、移動、聯通等網絡,如果檔案信息資源共享平臺僅部署在某個網絡環境下,其他網絡環境的用戶使用平臺由于跨運營商的原因訪問平臺就會比較慢,采用CDN技術來解決相關傳輸問題[2],能夠更加快速有效地傳送Web內容。其基本思路是盡可能避開互聯網上有可能影響數據傳輸速度和穩定性的瓶頸和環節,使內容傳輸得更快、更穩定[3]。

1.2 數據處理流程總體架構設計。根據平臺數據處理流程總體架構設計原則,結合平臺的功能要點,形成圖1所示的檔案信息資源共享平臺的大數據服務總體架構。

檔案信息資源共享平臺的大數據服務總體架構包含兩大平臺和三大角色。兩大平臺,即普通Web管理平臺、移動客戶端平臺;三大角色,即管理員、普通用戶、授權用戶。平臺包含檔案信息資源輸入模塊、用戶及權限角色管理模塊、檔案信息資源檢索模塊、資源管理模塊、日志管理模塊、報表模塊,數據通過不同的途徑進入系統之后,經過平臺大數據分析引擎,將會輸出有價值的報表匯總與數據分析圖表。

2 平臺數據處理流程需求

在大數據時代,檔案信息資源共享平臺要達到提高服務效率、整合數據資源、延展信息內容和滿足個性化需求的構建目標[4],平臺數據處理流程的優化目標實現顯得非常重要。檔案信息資源共享平臺大數據的特點包括:檔案信息資源數據量大、平臺訪問速度要求高、檔案信息資源的表現形式多樣、檔案信息資源的真實與保密性。針對檔案信息資源共享平臺的數據處理流程主要包括以下幾個方面:

首先是檔案信息資源數據采集。搭建數據倉庫,數據采集的方式有用戶通過自身平臺的導入與錄入,平臺提供的對外接口進行數據的處理并添加到目標平臺數據庫,通過爬蟲程序對通過授權的目標檔案數據庫進行檔案信息資源數據抓取,這一步數據處理流程會出現很多無用的檔案信息資源數據進入平臺。

其次是數據清洗/預處理。這一步是要把進入到平臺的數據進行簡單處理,過濾掉沒有價值的檔案信息數據。

最后是對檔案信息數據進行加工處理并對檔案信息數據進行展現。這一步主要是將數據處理成利于平臺理解的數據形式,并通過合適的UI對外進行展示,以便于對檔案信息資源更直觀地理解。

平臺數據處理的總體流程圖如圖2所示:

3 平臺數據處理的實現

檔案信息資源共享平臺在數據處理流程的實現上主要包括以下幾個模塊:平臺檔案信息檢索模塊、平臺日志與分析模塊、平臺數據存儲與分析模塊、可視化模塊以及對外開放式服務。

3.1 平臺數據采集。檔案信息資源數據采集是平臺實現的第一個環節。它將通過傳統的互聯網、移動互聯網數據等方式獲得各種類型的結構化、半結構化及非結構化的海量數據。由于檔案信息數據來源多樣,加上平臺同時支持移動客戶端,平臺會產生并發數據訪問與操作,因此必須采用專門針對該平臺的數據采集方法,主要包括數據庫采集、網絡數據采集以及日志信息采集。對于數據庫采集,目前主流的技術是采用關系型數據庫來存儲檔案信息資源數據;對于網絡上的檔案信息資源數據采集一般以網絡爬蟲或網站公開的授權API等方式,從目標檔案信息網站上獲取檔案信息數據,這種方案得到的檔案信息數據一般是非結構化的或者半結構化的HTML信息,需要通過正則表達式將其中的有效檔案信息數據提取出來并以結構化的方式存儲到平臺所在的服務器;對于檔案日志信息數據的采集,可以采用Flume技術,該技術可以用于高效地收集、聚合和移動大量的日志數據,它具有基于流式數據流的簡單靈活的架構。

檔案信息資源共享平臺在實際的利用過程中,會產生若干用戶行為相關的數據,這些數據對于后期平臺的優化至關重要,這就需要一個強大的日志分析功能。設計的架構需要能夠滿足學習日志的收集與分析功能,針對Web環境中的學習環境服務器提供普適的學習分析數據匯聚接口,采用Hadoop Pig進行大規模日志收集與分析。該模塊主要包括數據匯聚、分析和報表三大模塊,在數據匯聚模塊中應用服務器接收來自不同模塊的檔案信息資源數據,將接收數據過程中以及檔案信息資源利用過程中產生的日志信息發送給代理節點,然后通過代理點將日志發送給Hadoop集群進行分析,并將結果存儲到HBase數據庫,從而為用戶提供日志查詢與利用服務。平臺日志與分析模塊的實現如圖3所示:

3.2 平臺數據預處理。通過檔案信息資源共享平臺采集流程中采集到的數據是不規則的,甚至有部分檔案信息數據是無效的。為了獲取高質量的檔案信息數據,就必須在數據準備階段提高檔案信息數據的質量。在平臺的預處理階段需要將無規則的檔案信息數據轉化為系統識別的結構化數據類型,有效的檔案信息資源數據是后期數據分析的基礎。檔案信息資源數據預處理主要包括:數據清理、數據集成及數據轉換三個方面[5]。數據清理主要包含干擾數據處理與不一致數據處理,對于數據清理可以采用ETL相關的工具,如Informatica、Datastage、OWB、微軟DTS等等;數據集成是將來自于不同平臺的數據合并存放到一個一致的數據存儲庫中,這里需要解決檔案信息資源數據冗余與沖突的問題,對于數據集成,可以通過建立源檔案信息資源數據的集中庫,通過百度自然學習語言模塊來分析其中的問題點,不斷積累知識庫的內容以達到根據學習的知識庫自動剔除冗余數據與沖突數據;數據轉換主要是將檔案信息資源數據名稱及格式進行統一,同時需要將收集到的信息組合、分割或計算,以便于保證抽取到的數據的一致性。

3.3 平臺數據存儲及管理。檔案信息資源共享平臺需要建立適合平臺大數據的管理的數據庫,以便于數據的管理與調用,目前常見的數據存儲技術有Hadoop與MPP兩種[6],Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序,Hadoop適用于海量數據、離線數據和負責數據[7];MPP(Massively Parallel Processor)即大規模并行處理,在數據庫非共享集群中,每個節點都有獨立的磁盤存儲系統和內存系統,業務數據根據數據庫模型和應用特點劃分到各個節點上,每臺數據節點通過專用網絡或者商業通用網絡互相連接,彼此協同計算,作為整體提供數據庫服務[8]。非共享數據庫集群有完全的可伸縮性、高可用、高性能、優秀的性價比、資源共享等優勢。

檔案信息資源共享平臺數據檢索模塊由三部分組成,首先是檔案信息資源數據的存儲與統計分析,這是平臺實現檢索功能的數據基礎,這部分采用Hive技術實現,其次是實際檢索信息的統計分析與計算,這部分通過MapReduce來實現,最后是HDFS服務實際的數據存儲。具體的檢索模塊實現如圖4所示:

3.4 平臺數據分析及挖掘。檔案信息資源數據的分析與挖掘主要目的是把收集到的無規律的檔案信息數據進行提煉,以找出潛在有用的信息和所研究對象的內在規律的過程。主要從可視化分析、預測性分析、數據質量管理幾個方面進行著重分析。對于檔案信息資源可視化分析,主要是借助于圖形化手段,讓需要表現的信息更加清晰,這里可以借助于第三方圖標分析插件,進行數據展示,這樣可以讓平臺的數據信息簡單明了、清晰直觀。對于檔案信息的預測性分析,應該是該平臺最有價值的功能,包括檔案信息資源統計分析、檔案信息資源分析、優化、智能學習,通過平臺的預測分析可以為平臺提供有價值的建議信息;檔案信息資源數據質量管理是指對數據從計劃、獲取、存儲、共享、維護、應用到消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高[9]。

*本文系2016年度教育部人文社會科學研究規劃基金項目《大數據時代檔案信息資源共享平臺構建的研究》(項目編號:16YJA870001)資助。

參考文獻:

[1]卞咸杰.大數據時代檔案信息資源共享平臺前端框架的構建[J].檔案與建設,2017(10):11-15.

[2]卞咸杰.大數據時代檔案信息資源共享平臺性能優化的研究[J].檔案管理,2016(6):17-20.

[3]HA Alzoubi,S Lee,M Rabinovich,O Spatscheck,VDMJacobus.A Practical Architecture for an Anycast CDN[J].AcmTransactions on the Web.2011, 5(4):2209-2220

[4]王琦.大數據環境下開放信息資源共享平臺構建研究[J].信息與電腦(理論版),2018(10):12-13.

[5]衣連明.云計算在證券行業應用的關鍵驅動因素研究——基于A證券公司的案例分析[D].北京郵電大學,2012.

[6]楊璇.海量旅游統計數據可視化的研究與應用[D].武漢郵電科學研究院,2018.

[7]王永康.Azure云平臺對Twitter推文關鍵字實時大數據分析[J].電腦編程技巧與維護,2015(12):68-72.

[8]沈瀅,張倩.大數據關鍵技術專利態勢研究[J].電信網技術,2017(3):43-49.

[9]張凱,潘建宏,徐峰,樊家樹.數據資產管理與監測技術的處理及分析[J].科技經濟導刊,2018,26(7):39-40.

(作者單位:鹽城師范學院 來稿日期:2018-08-20)

猜你喜歡
數據處理大數據
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
MATLAB在化學工程與工藝實驗數據處理中的應用
Matlab在密立根油滴實驗數據處理中的應用
基于POS AV610與PPP的車輛導航數據處理
依托陸態網的GNSS遠程數據處理軟件開發
主站蜘蛛池模板: 亚洲床戏一区| 亚洲成aⅴ人片在线影院八| 手机精品视频在线观看免费| 蜜桃臀无码内射一区二区三区| 91精品国产丝袜| 57pao国产成视频免费播放| 色综合婷婷| 免费av一区二区三区在线| 成人在线天堂| 又爽又黄又无遮挡网站| 永久免费无码日韩视频| 啪啪免费视频一区二区| 伊人成人在线| 亚洲91在线精品| 国产白浆视频| 国内丰满少妇猛烈精品播| 永久毛片在线播| 国产成人1024精品下载| 日韩精品成人在线| 成人字幕网视频在线观看| 日韩小视频在线观看| 国产福利一区视频| 综合亚洲色图| 午夜日本永久乱码免费播放片| 青青青国产视频手机| 中文精品久久久久国产网址| 日韩精品无码不卡无码| 欧美区国产区| 国产成人精品午夜视频'| 全部免费毛片免费播放| 国产理论精品| 欧美精品在线观看视频| 中日韩欧亚无码视频| 国产粉嫩粉嫩的18在线播放91| 免费a级毛片视频| 国产日本一区二区三区| 国产jizzjizz视频| 亚洲最新在线| 蝴蝶伊人久久中文娱乐网| 全部免费特黄特色大片视频| 亚洲第一视频免费在线| 亚洲视频四区| 91精品国产无线乱码在线| 国产精品入口麻豆| 黄网站欧美内射| 天天躁狠狠躁| 国产精选小视频在线观看| 日韩亚洲高清一区二区| 尤物成AV人片在线观看| 91无码视频在线观看| 亚洲欧美精品在线| 欧美a在线视频| 伊在人亞洲香蕉精品區| 99热免费在线| 亚洲AV永久无码精品古装片| 91在线一9|永久视频在线| 色婷婷丁香| 免费无码AV片在线观看国产| 欧美精品成人一区二区视频一| 亚洲人成色在线观看| 四虎精品黑人视频| 国产女人在线观看| 最新亚洲人成无码网站欣赏网 | 国产剧情国内精品原创| 国产永久无码观看在线| 国产日韩欧美精品区性色| 九色最新网址| 久久精品一品道久久精品| 97影院午夜在线观看视频| 亚洲成aⅴ人片在线影院八| 日本欧美视频在线观看| 午夜精品区| 欧美中文字幕一区二区三区| 国产真实乱了在线播放| 亚洲欧洲自拍拍偷午夜色无码| 亚洲成人www| 午夜毛片免费观看视频 | 日韩福利在线视频| 71pao成人国产永久免费视频| 国产极品美女在线播放| 一级毛片免费的| 中文字幕在线看视频一区二区三区|