999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據技術的檔案數據治理對策*

2022-07-20 10:40:04譚紅英
科學與信息化 2022年12期

譚紅英

重慶工貿職業技術學院 重慶 408000

引言

當前大數據與檔案行業融合滲透背景下,將傳統檔案進行數據化轉型過程中檔案數據呈現出質量不合格、多源異構的海量數據等問題,因此檔案數據治理是關鍵。為了提高檔案數據的治理能力水平,檔案機構推進檔案管理走向現代化檔案治理[1],強化檔案數據治理技術應用。隨著信息科學技術的快速迭代,大數據技術、人工智能技術、云計算技術等崛起為應對多元異構的海量數據增長的治理提供了可能,保障了大數據治理的基礎支撐技術,例如利用大數據Spark處理技術構建實時與高效的大數據處理方式;依托混合現實技術、靈境技術(又稱虛擬現實技術)、增強現實技術等大數據沉浸式技術與可視化技術將數據體量巨大、多源異構的大數據以生動的圖形化方式展現;利用大數據挖掘分析技術衍生出來的圖計算、機器學習、流式計算、語義分析等技術來實現信息服務的智慧化與精準化服務[2];大數據時代檔案數據體量巨大,檔案數據是大數據生態圈與檔案行業滲透融合應用的實時新數據整合[3],其檔案數據采集途徑多樣、數據類型繁多、數據的來源廣泛并且多元化。目前檔案管理系統沒有統一,導致操作系統異構、數據格式不標準、數據存儲異構,同時出現重復數據獲取而使系統數據冗余度高等產生了檔案數據呈現重復性、質量不合格、數據碎片化等檔案數據垃圾問題以及嚴重的檔案數據安全隱患,使得檔案信息資源開發及智能化檔案創新服務開展工作面臨巨大的瓶頸,其原因檔案數據治理的技術滯后與缺失,這就迫切促使檔案部門必須及時開展檔案管理中數據的形成、存儲及分析等環節的檔案數據治理[4],運用大數據清洗處理技術、ETL技術及基于大數據生命周期的數據安全對策,實現在檔案數據化轉型中檔案數據治理。

1 目前檔案數據治理存在的問題

1.1 大數據環境下檔案數據質量不合規

大數據環境下檔案數據化轉型中,檔案數據治理過程中出現的核心問題是檔案數據質量不合規。檔案數據在自動化采集、處理、存儲等過程中存在關聯難、溯源難、糾錯難等情況而使得檔案數據質量出現缺失性、重復性、錯誤性等突出問題,其主要原因:一是檔案元數據管理效率較低。由于檔案記錄采用檔案部門管理人員人工錄入檔案管理系統方式進行著錄,同時對檔案記錄數據賦予檔案管理編碼的方式,從而讓檔案元數據著錄核驗及檔案管理數據質量沒有得到有效完整保障;二是數據源不規范。檔案數據來自開放廣泛的不同行業和不同的檔案部門的多源異構數據,社會各機構組織和行業的檔案管理系統沒有統一的“自下而上”的頂層設計和統籌規劃,這些異構的檔案數據主要包括檔案管理系統異構、存儲檔案數據格式異構以及數據存儲的邏輯模型異構等,這些多源導構的檔案數據導致檔案數據收集不齊全、格式不規范、檔案數據屬性缺失甚至出現檔案數據錯誤等數據質量問題。三是檔案數據處理過程中的技術異常。管理人員設置系統操作流程不當以及元數據描述錯誤的信息因素等導致的數據質量問題。因此,對于大數據環境下檔案數據系統異構、數據結構復雜多樣、數據集成不當等因素造成的檔案數據收集不齊全、格式不統一、數據錯誤、數據不規范以及數據不完整等數據質量問題現狀,檔案界必須加強對這些不合規檔案數據的治理。

1.2 多源異構檔案數據的集中管控能力弱

大數據技術與檔案行業滲透,檔案數據特征呈現出多源異構的特點,主要體現為:一是數據來源擴大化:檔案數據來自傳統檔案數字化轉型而來的數字檔案、電子檔案、多媒體檔案等各種形式檔案信息資源,也有進行檔案管理、統計、檢索、服務及利用過程中產生的數據資源如智能檔案庫房管理的溫濕度傳感器感知數據、瀏覽檔案網站平臺的記錄數據、瀏覽日志數據、查閱服務數據等,還有大數據背景下與其他行業融合滲透中產生的新型檔案數據資源,如來自檔案用戶注冊登錄數據、用戶訪問檔案網站的WEB日志數據、檔案在線傳統數據以及用戶參與檔案媒體的微信公眾號互動、檔案在線利用等社交媒體交互數據。二是在大數據環境下的檔案數據結構也變得復雜多樣:檔案除了來自檔案管理系統數據庫原生的結構化數據還有很多半結構化數據及非結構化數據,如點擊流數據、圖片數據、視頻數據以及日志文檔數據等。三是檔案數據來自不同機構、不同系統與不同行業的海量數據,同時還有來自各類社交網站訪問產生的用戶行為記錄、訪問內容記錄、用戶登錄注冊個人信息的海量檔案數據,因此這些海量異構的檔案數據缺乏有效的平臺集中數據整合、高效存儲、數據實時性處理與準確性處理。

1.3 檔案數據安全治理技術嚴重滯后

新的IT架構、云技術和大數據等新技術被廣泛應用于檔案行業中,數據量呈指數級增長,但是檔案數據安全治理技術嚴重滯后,檔案數據安全除了基于傳統檔案收集、流轉、歸檔、存儲、管理、利用等業務環節中面臨著數據安全問題,還包括人工智能環境下的檔案信息資源的自動化采集、分析、存儲、利用等安全風險。如黑客、勒索病毒、突發的數據泄露事件持續上升,如黑客通過檔案管理系統漏洞、病毒傳播等途徑致使泄露檔案數據、篡改檔案內容、竊取檔案秘密等檔案數據安全問題時常發生,如印度國家身份認證系統曾被網絡黑客竊取后在市場交易出售公民的身份證號碼、虹膜、照片等隱私檔案數據[5]。在大數據環境下檔案數據在智慧采集、存儲、分析、利用等業務數據流動過程中也存在著安全很大的風險問題,在檔案信息資源建設進行數字化轉型過程中傳統的網絡邊界變得模糊,已有的安全措施無法有效管控安全風險,因此檔案數據安全是信息技術時代檔案數據治理重要內容,迫切需要在檔案管理各個環節中加強檔案數據生命周期安全防護。

2 基于大數據技術的檔案數據治理對策

2.1 大數據實時清洗技術,提升檔案數據質量

檔案數據質量治理是檔案數據治理的核心,其包括檔案數據準確性、規范性、完整性、一致性、可控性以及關聯性等這些方面。大數據技術中的數據清洗技術、分布式存儲技術、Apache Hadoop 集群與封裝等技術為保障檔案數據質量提供了強大的技術支撐。為了得到更優質的數據信息,在數據治理實踐過程中,引入大數據技術能夠處理海量數據的優點,強調大數據實時清洗技術來為取得高質量的檔案數據“推波助瀾”。因此,本文利用大數據技術的開源Apache Hadoop分布式集群把檔案數據放在集群中各個數據節點上,結合“發現數據—刪除重復數據—填充缺失數據—規格化處理—重構數據”的數據清洗處理流程,利用基于內存計算低延遲的Spark達到對檔案數據進行實時數據清洗目的,提高數據治理效率,確保檔案數據質量。

大數據實時清洗技術主要實現檔案數據重復、數據錯誤、數據缺失、數據異常、數據格式不標準等進行及時整理清洗,使這些異常數據變為后續數據治理系統可處理的數據,使檔案數據有序統一。數據質量提升通過對數據結構復雜、海量的數據進行檔案化處理,其數據清洗具體步驟為:①利用特征工程與關鍵值搜索等發現冗余屬性與檢測出重復數據并進行刪除重復數據操作;②及時檢測出不完整或缺失的數據實體、數據屬性等,并進行補全操作以保持檔案數據統一整體的狀態;③對數據格式、數據類型不符合相關標準規劃的不規范數據的進行標準化處理;④對已識別與其記錄的事實或實體不一致的錯誤數據、問題數據進行修復,重構數據操作。同時針對檔案元數據著錄時人工錯誤,利用元數據自動捕獲技術,通過對檔案元數據的文件格式、大小及存儲等檔案元數據相關的信息智能高效獲取技術,從而高效、實時地提升檔案數據的準確性,推動檔案數據質量上一個新臺階。

2.2 大數據治理的ETL技術,讓多源異構檔案數據融匯貫通

在檔案數據治理過程中,采取同一路徑的方式來實現數據結構統一、多源性、異構性海量檔案數據的Extract, Transform,and Load(提取、轉換和加載)即ETL技術,是檔案大數據治理實施環節中的必要技術,成為檔案數據治理技術體系中極其重要的一部分。ETL技術是檔案數據融合的一個主要技術手段,它將多源異構檔案數據源中抽取出所需整合的數據,經過數據清洗技術后到中間層后進行轉換,按照預先定義好的數據倉庫模型,最后將數據加載到數據倉庫或數據集市中去。在進行數據整合的ETL實施過程中,其ETL規則設計和對多源異構數據轉換占整個數據治理項目工作的60%以上,尤其是在數據類型復雜、檔案數據源異構明顯、檔案數據調度時間差異嚴重的情況下,采用在大數據Hadoop平臺上,充分利用分布式大數據集群、云存儲平臺以及并行處理環境,利用實時ETL作為數據源的數據抽取、轉換及集成 。目前比較流行的開源ETL工具之一是Pentaho Kettle,它支撐廣泛的數據庫類型與文本格式輸出,數據抽取高效穩定,且對數據進行分組、過濾、排序處理速度較快。ETL操作是通過對數據進行抽取即創建一個作業,每個作業實現多個轉換操作,主要是通過JDBC驅動,建立連接,加載數據,傳輸數據,在這個過程中會調用XML腳本或批處理,實現對檔案歷史數據同步、異構系統數據交互等,從而實現大數據環境下多源異構檔案數據的集成融合并進行數據處理。

2.3 利用大數據生命周期,實現檔案數據治理的安全防護

檔案數據安全治理是數據治理中最重要的一部分,檔案具有秘密與憑證價值屬性,需要注重從收集的各類型檔案信息進行整理、編目、鑒定、利用等檔案化處理過程中數據自身存在的安全風險,以及在數字檔案資源的整理、存儲、分析、服務的過程中檔案數據丟失、泄露、篡改等安全風險?;诖髷祿芷诘臋n案數據安全防護,從檔案數據的產生收集、組織存儲、傳遞、利用及銷毀各階段防護數據安全,其具體策略為:①檔案數據產生收集階段:將數據從分散的源頭匯總,通過自動化的方式對數據類別、保密級別做初步判斷,對敏感檔案數據進行脫敏;②檔案數據組織存儲階段:利用多元主體協同的檔案大數據組織技術,將區塊鏈技術引入到數據存儲中,利用區塊鏈過程可追溯和去中心化的特點,確保檔案數據不被篡改,同時將主題相關的視頻、圖像、文本、音頻等數據進行集中存儲,并對集中存儲并進行存儲加密;③檔案數據傳遞階段:采用加密、檢驗等方式來保障數據在轉換過程中的數據安全,在傳輸過程中經過的區域邊界實現安全檢測與防護;④檔案數據利用階段:通過防泄密、訪問控制、敏感數據脫敏以及安全的數據交換等方式實現數據安全;⑤檔案數據銷毀階段:通過數據格式化、物理破壞等方式達到檔案數據治理中數據安全,確保檔案數據的保密屬性。

主站蜘蛛池模板: 无码精品福利一区二区三区| 白浆免费视频国产精品视频 | 亚洲综合一区国产精品| 黄色国产在线| 久久久久亚洲AV成人网站软件| 99尹人香蕉国产免费天天拍| 免费观看男人免费桶女人视频| 欧美精品亚洲日韩a| 成人91在线| 2021国产v亚洲v天堂无码| 亚洲精品视频在线观看视频| 色综合天天视频在线观看| 九月婷婷亚洲综合在线| 久青草免费视频| 国产欧美在线视频免费| 色播五月婷婷| 国产一在线观看| 亚洲精品中文字幕午夜| 永久免费av网站可以直接看的| 综合成人国产| 美女无遮挡免费视频网站| 国产国语一级毛片| 国产成人亚洲精品蜜芽影院| 国产成人超碰无码| 亚洲码一区二区三区| 波多野结衣国产精品| 99视频精品全国免费品| 国产精品99久久久久久董美香| 精品中文字幕一区在线| 国产成人综合久久精品尤物| 日日摸夜夜爽无码| www.99精品视频在线播放| 91麻豆国产精品91久久久| 欧美精品在线视频观看| 国产精品白浆在线播放| 亚洲色图欧美激情| 国产视频 第一页| 国产欧美日韩综合在线第一| 国产精品无码影视久久久久久久| 欧美区在线播放| 久久久久亚洲AV成人网站软件| 久热re国产手机在线观看| 亚洲精品自在线拍| 91精品国产自产在线老师啪l| a级毛片毛片免费观看久潮| 99视频国产精品| 午夜影院a级片| 丁香六月激情婷婷| 久久国产精品嫖妓| 91人妻在线视频| 国产91久久久久久| h视频在线观看网站| 亚洲最猛黑人xxxx黑人猛交| 国产成人综合欧美精品久久| 无码国产伊人| 国产欧美日韩精品综合在线| 亚洲男人天堂久久| 综合网天天| 日本国产精品一区久久久| 夜夜操国产| 亚洲成人精品久久| 欧美精品v日韩精品v国产精品| 国产精品欧美亚洲韩国日本不卡| 四虎永久在线| 亚洲侵犯无码网址在线观看| 久久久久久久久18禁秘| 久久狠狠色噜噜狠狠狠狠97视色 | 成人一区在线| 亚洲欧美一区二区三区蜜芽| 国产网友愉拍精品| 国产精品va| 国产超碰一区二区三区| 国产大片喷水在线在线视频| 久久婷婷色综合老司机| 精品久久久久久成人AV| 亚洲精品视频免费| 欧美国产日韩一区二区三区精品影视| 亚洲一区免费看| 91福利在线观看视频| 亚洲综合精品第一页| 欧美精品1区2区| 亚洲国产在一区二区三区|