999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向信息精準服務的檔案大數據采集技術研究

2022-06-30 08:52:12重慶工貿職業技術學院譚紅英
辦公室業務 2022年11期
關鍵詞:服務信息

文/重慶工貿職業技術學院 譚紅英

精準服務是當前檔案機構服務升級的重要途徑,而檔案大數據采集是檔案信息服務精準化實現首要解決的問題,并最終影響著檔案精準服務的質量。數字化檔案信息技術、云計算技術、大數據技術、深度學習技術等為主的檔案信息精準服務目前頗受學者青睞。學者王順指出,在大數據環境下的檔案信息資源建設不足,檔案信息服務理念相對落后,服務提供相對粗放,信息服務缺少對用戶需求研究的精細性與針對性等問題。大數據時代下檔案數字化轉型而來的數字檔案、電子檔案、多媒體檔案等呈現出了大數據的Variety(類型多樣)、Value(價值密度低)、Volume(容量大)、Velocity(速度快)等特征。然而從檔案信息精準服務角度出發,針對多源異構檔案大數據進行安全高效采集目前尚無相關研究。因此,本文從當前檔案數據采集中存在的問題出發,進一步提出了改進檔案大數據采集的技術策略,以提升檔案信息精準服務的質量。

一、檔案大數據采集技術的現狀

(一)現有信息采集技術存在局限性。數據采集技術是檔案信息精準服務的基礎,通過多種方式從數據原始生產環境來抓取數據并進行數據抽取、轉換和清洗等一系列技術。目前主流常用的大數據采集技術有日志文件采集技術、網絡爬蟲技術、社交網絡媒體交互技術等,由于檔案數據是大數據生態圈與檔案行業滲透融合應用的實時新數據,因此呈現出碎片化、非結構化及無序化狀態等,現有數據采集技術難以采集到精準服務的個性化數據。隨著數據采集工具的快速發展,致使檔案數據采集出現存儲格式不統一、多樣采集工具同步采集而來的數據記錄重復而形成冗余信息,甚至由于重要數據采集設備缺失而使檔案數據采集遺漏現象等大量問題出現。與此同時,數據采集設備日新月異,傳統的數據采集技術不能夠支撐數據采集設備的高傳輸速度、高讀取速度及并行吞吐等的要求,因此目前數據采集技術在面向精準服務的基礎數據采集時面臨一些局限性。

利用大數據環境信息共享便利進行信息采集也面臨著訪問權限、數據保護及數據安全問題。一方面,檔案數據采集時訪問權限的正當性、合規性及合法性等;另一方面,檔案大數據采集是通過互聯網、檔案信息系統及各種傳感設備等,然而隨著網絡安全與數據安全的警惕性提高,一些網絡站點針對網站信息智能爬取的信息采集技術構筑了反爬蟲機制與技術防御措施,給檔案數據采集造成了一定的困難。同時,檔案由于具有秘密屬性,當檔案大數據采集歸檔后,其檔案數據隱私屬性就已經構成,檔案信息就面臨數據脫敏處理問題,并且數據采集后在存儲、分析、利用等過程中也存在著檔案數據丟失、泄露、篡改等數據安全風險問題。

(二)采集數據的多源異構性影響檔案歸檔。檔案大數據采集后,檔案數據面臨著數據重復、多源性和異構性等問題。當前檔案行業的數據采集缺乏統一標準,各個檔案機構采集數據內容不標準、電子存儲格式不一致、采集數據重復嚴重、數據碎片化程度高以及檔案數據采集遺漏現象等,導致現有數據采集技術的信息來源由于沒有統一的檔案管理系統,從而產生采集數據來源的廣泛性、數據結構的多樣性及存儲格式不統一等多源異構問題,同時也存在對傳統檔案進行數字化轉型的采集處理過程中,各個檔案機構將有價值的紙質檔案轉化為可進行快捷查詢利用的電子檔案時,出現永久電子保存格式不統一的情況,使得難以實現對上述檔案大數據集成到同一個數據處理平臺進行精準數據篩選,采集數據后的多源異構性給檔案集成歸檔帶來了較大的困擾。

二、面向信息精準服務的檔案大數據采集技術創新

(一)基于大數據平臺集群的檔案數據采集技術。大數據平臺集群架構為檔案信息精準服務提供了技術基礎,大數據采集技術賦予了檔案數據資源的獲取精確度、集成歸檔完整性與檔案利用的高效性。由于檔案數據呈現多源異構、數據重復性、數據格式不統一、數據傳輸不暢及數據“信息孤島”等問題,目前的數據采集技術難以應對教育檔案信息精準服務的數據的實時采集,本文探索基于大數據Hadoop平臺集群架構上搭建Cloudera公司的Flume與Apache軟件基金會的開源軟件Kafka組成的數據采集系統,即HDFS+Flume+Kafka的數據采集技術,其實現數據采集、傳輸及聚合。Flume+Kafka進行數據采集后,存儲于HDFS(分布式文件存儲系統),此采集技術線上線下按照預設采集規則爬取廣泛的檔案信息平臺系統的檔案數據,并對采集的異構檔案數據分門別類地進行存儲與數據類型解析,自動進行采集主題相關信息篩選,以此提取采集主題高度相關的元數據及檔案信息數據,達到信息個性化需求的檔案大數據精準化采集目標。

(二)檔案大數據采集流程。檔案大數據精準采集不僅需要進行大量數據采集,還要能夠對采集到的數據進行精準篩選,其流程由數據獲取、數據傳輸、數據篩選和數據加載四個環節組成,如圖1所示。在采集過程中,首先要在大數據平臺集群下通過配置數據采集網關,實現對檔案大數據的實時智能化采集,然后開放接口使采集數據傳輸交互和共享,與此同時,以精準服務信息需求為導向對實時采集到的數據進行篩選,最后將篩選后的檔案數據加載到大數據集市中,達到檔案大數據采集驅動檔案信息精準服務的目的。

圖1 教育檔案大數據采集流程

(三)改進檔案大數據采集技術策略。檔案大數據采集目標是為獲得教育個性化需求的信息,提供精準的檔案信息服務。我們在采集技術策略上不斷改進,如通過自然語言處理技術來調整檔案大數據采集系統的關鍵信息、調整檔案大數據實時性的伴隨式采集方式等。一是調整檔案大數據采集系統的關鍵信息,精準描述用戶采集需求。我們對采集需求的關鍵信息通過自然語言處理技術從語義層面上進行提取,找出用戶采集需求的關鍵內容與采集系統之間的相互關聯,使系統能準確地把握用戶采集意圖。通常從檔案用戶需求的語義分析入手,挖掘關鍵語義后,借助人工智能技術的機器學習等,提取關鍵信息的限制與關聯關系,在采集系統中以正則表達式的方式輸入上述限定與關鍵信息,從而對用戶采集需求實現精準表達。同時對信息采集規則以明確、簡單的方式進行設置,采集條件不宜過多,描述詞短小以獲取滿意的采集結果。二是調整檔案大數據采集方式,由集中式變為具有實時性的伴隨式采集和控制訪問次數的分散式采集。集中式采集能夠統一獲取數據,然而集中式造成在一定時間里大量頻繁地并發訪問采集目標系統,采集目標網站服務器會出現網絡擁堵,服務器數據并發處理壓力過大致使被采集信息系統頻繁出現宕機。因此,需要注重保護采集系統在同一時刻被大量頻繁訪問,通過控制訪問次數的采集方式來保護采集目標。

(四)采用多種采集技術手段降低反爬技術的影響。以多種采集技術手段應對目前網站反爬蟲技術對現有采集技術的影響。首先,擴大信息采集的廣泛性和來源范圍。這里值得注意的是,我們在進行檔案大數據采集時,前提是我們必須明確檔案數據采集的訪問權限及允許范圍,在訪問權限內合規地采集檔案數據。目前常用的信息采集手段之一是網絡信息爬蟲技術,然而安全警惕性高的網絡站點針對信息采集技術對網站信息的智能爬取,采取了反爬蟲技術與措施,因此需要從多種技術手段上進行網站反爬蟲措施的應對,降低反爬技術對現有采集信息技術的影響。如可以通過采集時間間隔的實時調整、采取機器深度學習的識別驗證碼解析平臺、基于代理IP形式、利用爬蟲代替用戶去運行瀏覽器,并執行相關的操作來獲取異步數據等技術來處理與應對反爬網站數據技術。

三、利用大數據ETL技術實現多源異構采集數據集成歸檔

檔案大數據的集成歸檔是采集數據進入檔案化的階段,“歸檔”后的檔案信息處理、分析后應滿足檔案用戶需求的信息精準服務。采集檔案數據由于冗雜性和離散性,其集成歸檔是對檔案數據提取、轉換、加載的過程。ETL技術是檔案數據集成歸檔的一個主要手段,它將多源異構檔案數據源中抽取出所需整合的數據,經過數據清洗技術中間層后進行轉換,按照預先定義好的數據倉庫模型,最后將數據加載到數據集市中去。對于采集后檔案數據中的不規則文本數據、檔案系統著錄結構化數據等,需要借助自然語言處理技術進行智能化簡單提煉,對于半結構化數據、非結構化檔案數據等,需要進行轉換為后續數據分析處理的結構化數據,從而集成這些離散性、多源性、異構性的檔案采集數據,再從預處理的數據中抽取數據利用文本挖掘、精準化服務數據抓取操作。綜上,利用ETL技術(即數據抽取、數據轉換、數據清洗、數據裝載技術進行重復數據、錯誤數據、無用數據等進行清除與校正)后,提取高質量數據,最后集成于數據倉庫中,從而實現檔案大數據集成歸檔。

四、結語

海量異構的檔案大數據采集是開展信息精準服務的基礎與前提,檔案機構在采集數據獲取、整合、分析后可以準確掌握用戶個性化的利用需求,創新檔案大數據采集技術是開展信息精準服務的關鍵,涉及大數據平臺集群的搭建、大數據采集技術的流程設計、應對網站數據采集反爬蟲技術的采集策略優化等,基于大數據平臺集群的檔案數據采集技術是重點,多源異構性采集數據的轉換和清洗是數據集成歸檔的保障。這些海量的檔案大數據集成歸檔后,檔案數據保密屬性就已經構成,值得注意的是,需要進行數據脫敏和保護檔案數據安全,使檔案信息服務向精準化方向升級。

猜你喜歡
服務信息
服務在身邊 健康每一天
今日農業(2019年14期)2019-09-18 01:21:54
服務在身邊 健康每一天
今日農業(2019年12期)2019-08-15 00:56:32
服務在身邊 健康每一天
今日農業(2019年10期)2019-01-04 04:28:15
服務在身邊 健康每一天
今日農業(2019年15期)2019-01-03 12:11:33
服務在身邊 健康每一天
今日農業(2019年16期)2019-01-03 11:39:20
招行30年:從“滿意服務”到“感動服務”
商周刊(2017年9期)2017-08-22 02:57:56
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲三级电影在线播放| 午夜电影在线观看国产1区| 热久久这里是精品6免费观看| 国产在线一区二区视频| 亚洲高清无码精品| av无码一区二区三区在线| 免费不卡在线观看av| 亚洲第一黄色网址| 无码人妻热线精品视频| 综合天天色| 91精品啪在线观看国产| 欧美在线视频a| 欧美日韩免费观看| 91久久国产成人免费观看| 91小视频在线观看免费版高清| 国产精品永久久久久| 黄色网站不卡无码| 国产99精品久久| 伊人久久婷婷| 精品人妻一区无码视频| 亚洲无码日韩一区| 丁香婷婷在线视频| 国产精品欧美日本韩免费一区二区三区不卡 | 精品国产自在现线看久久| 亚洲天堂视频网站| 久久精品国产免费观看频道 | 日本人又色又爽的视频| 国产综合精品一区二区| 国产成人亚洲毛片| 秋霞午夜国产精品成人片| 国产亚洲精品自在久久不卡| 综合天天色| 四虎精品黑人视频| 91精品国产91欠久久久久| 啪啪国产视频| 91色在线视频| 亚洲欧洲综合| 激情综合网址| 日韩精品欧美国产在线| 欧美一级黄色影院| 国产精品自拍露脸视频| 97久久精品人人做人人爽| 蜜臀AV在线播放| 国产久草视频| 91探花在线观看国产最新| 亚洲天堂成人| 91探花在线观看国产最新| 免费一级成人毛片| 日韩精品免费一线在线观看| 亚洲免费福利视频| av免费在线观看美女叉开腿| 毛片大全免费观看| 3344在线观看无码| 色欲国产一区二区日韩欧美| 国产一区三区二区中文在线| 国产成人一区二区| 亚洲日韩精品无码专区| 69av在线| 亚洲AV免费一区二区三区| 日韩高清成人| 国产精品无码影视久久久久久久| 麻豆a级片| 久热这里只有精品6| 国产91精品久久| 第九色区aⅴ天堂久久香| 国产精品无码久久久久久| 五月综合色婷婷| 日本精品视频| 国模私拍一区二区三区| 91精品国产自产91精品资源| 精品国产乱码久久久久久一区二区| 亚洲国产天堂久久综合226114| 国产女人水多毛片18| 国产黄网永久免费| 日本AⅤ精品一区二区三区日| 亚洲无码日韩一区| 国产麻豆精品在线观看| 色综合狠狠操| 99久久国产精品无码| 91久久偷偷做嫩草影院免费看| 伊人色天堂| 伊人久久大线影院首页|