

摘要:隨著大數據、人工智能、移動互聯網技術的不斷成熟,檔案信息資源共享平臺的數據分析與研究已經成為檔案信息管理工作關注的重點,而數據采集又是檔案數據分析與研究的基礎,因此,高質量的數據采集對檔案大數據分析與研究具有重要意義。文章在探索檔案信息資源共享平臺數據采集所涉及的技術基礎上,結合數據采集需求,提出了采用自然語言處理技術采集檔案數據的結論,通過該技術對檔案數據收集的優化,可更準確地確保檔案信息資源的數據采集質量。
關鍵詞:大數據;檔案信息資源;共享平臺;數據采集;自然語言處理技術
分類號:G273
Design and Application of Data Acquisition System of Archival Information Resource Sharing Platform in the Era of Big Data
Bian Xianjie
(School of Public Administration of Yancheng Teacher University, Yancheng,Jiangsu, 224007)
Abstract:With the maturity of big data, artificial intelligence and mobile Internet technology, the data analysis and research of archival information resources sharing platform has become the focus of archival information management. Data acquisition is the basis of data analysis and research of archives. Therefore, high-quality data acquisition is of great significance to large data analysis and research of archives. Based on the technology involved in data collection of archive information sharing platform, combined with the data collection requirements, this paper proposes the use of natural language processing technology to collect archive data. Through this technology, the data collection quality of archives information resources can be realized more efficiently and accurately after optimizing the collection of archives data.
Keywords:Big Data; Archive Information Resource; Sharing Platform; Data Acquisition; Natural LanguageProcessingTechnology
隨著網絡和信息技術的不斷普及,人類產生的數據量正呈指數級增長,以大數據、物聯網、人工智能、5G為核心特征的信息化變革正風靡全球。檔案信息資源的記錄方式由傳統的文本類型向文本與圖像、聲音、視頻等多媒體并存轉變,檔案信息數據的來源更加廣泛、數量更加龐大。數據采集作為檔案數據分析與研究的基礎,其質量對檔案信息資源共享平臺數據分析與研究具有重要意義。
2015年9月,國務院印發《促進大數據發展行動綱要》,系統部署了大數據發展工作。2016年3月,《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》發布并提出:把大數據作為基礎性戰略資源,全面實施促進大數據發展行動,加快推動數據資源共享開放和開發應用,助力產業轉型升級和社會治理創新。加快政府數據開放共享、促進大數據產業健康發展,成為大數據戰略的重要部分。為推進大數據戰略,全國各地紛紛成立大數據產業相關的數據管理部門[1]。在此背景下,檔案信息資源共享平臺建設步伐加快,“十二五”期間,我國初步建成以局域網、政務網、因特網為平臺,以檔案信息管理系統為支撐,以檔案目錄中心、基礎數據庫、檔案利用平臺、檔案網站信息發布為基礎的檔案信息化體系[2]。大數據時代到來,數據的來源和生產機制發生了巨大變化,數據的意義急劇放大[3],其中,檔案信息數據的采集是平臺實現檔案信息大數據應用的基礎。
在大數據平臺下,由于檔案信息數據源具有更復雜的多樣性,數據采集的形式也更加多樣。在數據采集階段,增量檔案信息數據同步,尤其針對那種可變(可刪除、可修改)的檔案信息數據源處理更加困難。現階段,檔案信息數據采集要解決上述問題,可采用的方式主要包括以下三種:一是放棄同步,采用直連形式;二是放棄增量同步,選用全量同步;三是編寫定期Job,掃描檔案信息數據源以獲得待處理數據,并進行增量同步。
現有的增量檔案信息數據采集存在缺陷,為提升檔案信息資源共享平臺的數據處理性能,需定期將超過時間期限的歷史數據清除,若希望保留檔案信息歷史數據以備數據挖掘與分析,就會影響數據采集的效率。對于多媒體檔案信息數據源,根據某種識別算法,識別并提取多媒體文件的特征信息,并將其轉換為業務場景需要的數據模型,這種情況會導致檔案信息數據提取耗時相對較長,也需要較多內存支持。由于檔案信息本身的涉密特性,加上硬件基礎設施和大數據應用方面的投入限制,當前在檔案信息資源共享應用方面還存在一定缺陷,因此應對檔案信息數據采集加大研發投入力度[4]。
1.1平臺數據采集系統設計目標
檔案信息資源共享平臺從數據源抽取出所需的數據,經過數據清洗,最終按照預先設定好的數據模型,將數據加載到檔案信息資源共享平臺數據倉庫中[5],對數據倉庫中的檔案信息資源數據進行分析處理。數據采集作為檔案信息資源共享平臺大數據運用中最重要的階段,它通過傳統互聯網、移動互聯網等方式,獲得各種類型的結構化、半結構化及非結構化的檔案信息資源數據[6]。由于采集的檔案信息資源種類錯綜復雜,需對其進行數據分析,并從數據原始格式中提取出有用的檔案信息資源數據。由于數據源頭的采集有不準確現象,需對這些數據進行過濾、剔除,并要對數據結構進行語義分析,與目標數據結構比較,找出數據源與數據結構的映射關系,從而使數據進入檔案信息資源共享平臺設定的數據庫。
1.2平臺數據采集系統框架構建
相較于傳統的紙質檔案信息采集,現代互聯網方式采集檔案信息數據資源響應速度更快,節省了大量的人工時間[7]。數據采集系統在整個數據共享系統中扮演著重要的角色,數據采集系統技術架構可從物理層、邏輯處理層和網絡層三個層次著手[8]。功能模塊的構建應從檔案信息的采集、審核、管理、共享和安全控制等多個方面去考慮,其中檔案信息采集模塊為最前端的,其任務是負責主動采集系統外部信息。采集方法有兩種,一種是自動采集,一種是手工采集。這兩種方法都是將在局域網、內網和互聯網上索得的檔案信息資源,納入共享平臺的數據庫中[9]。由于檔案信息資源數據源具有多樣性,數據采集的形式也變得更加復雜多樣。在檔案信息資源共享平臺大數據的采集過程中,其主要特點是并發量高,即多個用戶同時訪問和操作服務器[10],如在高考時學生高考成績集中入庫,其并發的訪問量在峰值時達上百萬。這就要檢查平臺訪問人數是否超過平臺設計的極限值。若超過設定的極限值,那唯一方案就是升級平臺的空間,以適應更多人的來訪;若沒有超過平臺設定的極限值,就需要檢查平臺是否有占用CPU較高的可執行文本網頁(一般指ASP、JAVASCRIPT、PHP、CGI等網頁),優化程序結構和執行語句。因此,檔案信息資源共享平臺在設計數據采集架構時既要考慮數據采集的準確性,又要考慮數據采集的實時性與性能。對于檔案形式為圖片或者視頻的數據,需在數據提取階段加載數據后根據某種識別算法,識別并提取多媒體中的特征信息,并將其轉換為業務場景需要的數據模型。采集流程整體框架如圖1所示。
1.3平臺數據采集系統的技術選型

檔案信息數據采集系統是大數據檔案研究的必要部分。由各種診斷系統、輔助系統和其他設備生成的信號通過各種數據數字化儀收集,最后以某種格式存儲在磁盤上,以進行永久存儲[11]。檔案信息資源數據采集是平臺進行大數據應用的基石,數據采集主要分為兩部分,一部分是通過爬蟲等系統采集數據,一部分是現有的數字化數據[12]。對于其中的數字化的數據,傳統的檔案信息資源數據采集一般采用人工方式輸入或者通過Excel等導入工具導入。從現有條件來看,檔案信息資源數據采集來源并不復雜,存儲、管理和分析的數據量也相對較小,采用關系型數據庫基本可滿足檔案信息資源平臺的數據處理需求。而進入大數據時代,檔案信息資源數據來源比較廣泛,從移動互聯網平臺到其它需要介入共享平臺的不同類型檔案信息資源服務平臺,數據類型也擴展到多媒體相關的數據類型,數據采集方式亟待轉變。基于此,下面對系統接口、開放數據庫、第三方平臺三種采集方式進行分析。
(1)系統接口數據采集
檔案信息資源共享平臺系統接口數據采集方式是指采用開發API的方式進行檔案信息資源數據調用,有兩種模式。一種是共享平臺提供API并提供授權,這需接入共享平臺的檔案信息資源服務平臺并通過調用授權的API進行數據寫入;另一種是現有檔案信息資源服務平臺提供API,共享平臺通過主動調用API拉取檔案信息資源數據。接口對接方式的數據可靠性與實時性較高,數據采集的質量也較高,然而缺點在于前期的分析與后期的開發維護成本較高,若平臺的功能發生變化,就需要做相應修改和變動,這會間接導致交付周期變長。
(2)開放數據庫數據采集
如果檔案信息資源平臺采用的是相同類型的數據庫,如SQL Server,開放數據庫就是檔案信息資源共享平臺數據采集最便捷的工具;如果需要共享的平臺在相同的服務器上,且只要用戶名設置得沒問題,就可相互訪問;如果兩個系統的數據庫不在一個服務器上,就建議采用鏈接服務器的形式處理,這就需要對數據庫的訪問進行外圍服務器的配置。開放數據庫方式可直接從目標數據庫中獲取所需數據,準確性高,實時性也能得到保證,這是最直接、便捷的方式。
(3)第三方平臺數據采集
隨著檔案信息資源共享平臺的數據量愈發龐大,可借助第三方平臺進行檔案信息資源數據采集,常見的第三方平臺有Apache Flume、Scribe等。Apache Flume是一個分布式、可靠、可用的服務工具,用于高效收集、聚合和移動大量的日志數據,它具有基于流式數據流簡單靈活的架構[13],其可靠性機制和許多故障轉移和恢復機制使Flume具有強大的容錯能力。另外,Scribe也是Facebook開源的日志采集系統。
(4)數據提取自然語言處理(NLP)模型
在檔案信息資源大數據采集技術中,有一個非常重要的環節就是數據轉換。它將處理后的檔案信息資源數據轉換成不同的數據形式,并由不同的數據分析系統進行處理和分析。由于數據來源的多樣性,不同類型的數據在不同的平臺中所表達的含義不一定是完全一致的。為順利使源頭數據進入指定目標庫,就需要借助自然語言學習系統進行語義分析。自然語言處理能支持文本實體抽取、文本分類、關鍵短語抽取、情感分析、關系抽取等算法能力,用戶無需擁有豐富的算法背景,僅需標注或上傳適量文檔數據,即可通過平臺快速創建算法模型并使用。
數據采集指將所歸檔的各類檔案信息數據傳輸到檔案信息資源共享平臺大數據系統,這是第一步且最為關鍵,它是檔案信息資源共享平臺構建的重要基礎,直接決定了在一個給定時間段內大數據系統處理數據流量的水平和能力。平臺數據采集流程實現主要包括如下步驟:檔案信息資源數據解析、檔案信息資源數據清洗與數據去重、檔案信息資源數據關系映射與數據轉換。
2.1數據解析
檔案信息資源數據的多樣性,使平臺在采集數據時的轉換過程變得極為復雜,從而增加了后續平臺數據處理的成本。平臺運營管理者若能提供所需檔案信息資源數據格式示例,將會極大提升平臺數據采集效率[14]。檔案信息資源數據解析是數據采集流程的第一步,在拿到待采集的檔案信息資源數據后就需要對其進行解析,因為檔案信息資源數據的來源一旦不同,其自身的格式就極有可能不一樣,如數據格式有HTML、XMLJSON和其他格式的文件。對于不同類型的文件需要相應的解析器對其進行處理,以提取真正的檔案信息數據。
2.2數據清洗與去重
由于平臺部署要求的特殊性,數據采集系統設計時需要靈活考慮端到端系統中傳感器數據存儲和信號處理的發生位置,應允許任何位置的檔案信息原始數據處理發生,包括移動設備、獨立的數據采集基礎設施[15]。檔案信息資源數據在被解析后,得到的數據是不能直接使用的,需對其進行過濾,即去掉無關信息,盡量保持所有數據源抽取程序版本的一致,確保一次性處理數據的大批量性,而非零碎數據。在數據清洗之后,來自不同平臺的數據可能會有重復信息,因而后續就需要對得到的批量檔案信息進行去重處理。
數據清洗與去重部分可以采用五個步驟完成,主要包括預處理、缺失值清洗、格式內容清洗、去重清洗、非需求數據清洗。其中預處理階段主要將數據導入處理工具,并采用人工抽查;缺失值清洗階段需要確定缺失值范圍,將不需要的字段去除,并將缺失內容補充完整;格式內容清洗階段會遇到數據的格式和內容方面多樣化的問題,格式內容問題是比較細節性的問題,這就需要將其處理成與元數據描述一致的狀態;去重清洗階段需將重復數據剔除,以免檔案信息資源數據重復進入共享平臺;非需求數據清洗階段即刪除不需要的字段,但在實際運用中需特別小心,防止誤刪須進入共享平臺的字段。
2.3數據關系映射與轉換
為提高檔案信息的檢索性能,在數據存儲的設計結構中,須將采集到的檔案信息數據集存儲為緊湊型數據集合,以便將檔案信息數據與元數據標題一起存儲[16]。待數據進入目標檔案信息資源共享平臺之后,就需要對進入共享平臺的數據進行關系映射。每條檔案信息數據在進入目標表與目標字段互為映射前是不確定的,可通過百度的自然語言分析平臺以源檔案信息資源數據的標簽信息與目標檔案信息資源共享平臺的數據結構進行比較分析。自然語言分析系統可根據異構平臺的信息分析出語義間的相似度,這樣就可以自動將采集到的檔案信息資源數據匯集并使其準確進入目標平臺的數據庫。且在大數據采集過程中,將日常使用的映射關系寫入知識庫中,以便之后的數據采集可利用現有知識庫。在檔案信息資源數據備好后,為能準確進入共享平臺數據庫,須對采集數據進行轉換,這里的數據轉換主要是針對數據格式的轉換。數據關系映射與轉換流程如圖2所示。
與傳統數據數據采集模型不同,基于自然語言處理模型的檔案信息資源共享平臺可更準確且更智能地提取檔案信息數據。作為檔案信息資源共享平臺基礎模塊,智能化的數據采集處理可對采集到的目標數據信息進行深入挖掘,找出數據信息的潛在價值,將具有潛在價值的數據與其他數據分隔開,便于平臺管理人員對其進行操作。

3.1檔案信息數據采集容錯處理能力提高
檔案信息數據源與目標檔案信息數據在采集時不可避免地會產生誤差。在數據采集過程中,由于利用了自然語言處理技術的學習能力,相較傳統的人工采集與非智能化采集流程,新數據模型采集到的信息容錯率更低,能有效提高數據信息采集過程中的采集精度。同時,系統中還應用了容錯技術,可甄別出采集到的錯誤信息,利用歷史學習經驗數據,對采集到的檔案信息數據進行后繼正確處理,從而提升數據信息的處理效果[17]。
3.2采集檔案信息數據的效率更高
檔案信息數據的采集效率高低主要看兩方面,即采集的檔案信息數據是否更加全面以及數據維度是否能滿足不同的分析目標。通過對自然語言處理技術的應用,可自動生成更加全面的檔案信息應用數據,包括用戶行為相關參數,這些具有分析價值的數據可以支撐平臺的大數據應用。優化后的數據采集系統采集數據的流程更加流暢。原始檔案信息資源數據通過采集系統加以處理,將形成對用戶更具價值的檔案信息資源報告及可視化程度更高的圖表信息。具體數據采集優化控制如圖3所示。
檔案信息資源共享平臺的建設,在服務器、Web客戶端、移動客戶端等不同平臺之間進行數據處理。通過對數據網絡傳輸層面、數據庫層面和平臺服務架構層面等進行優化處理,最大限度地減少了檔案信息數據傳輸過程中的數據量,解決了多用戶及并發用戶使用平臺時調用服務的問題[18]。在此基礎上,采用適合檔案信息資源共享平臺的數據采集架構,在具體的數據采集過程中引入百度的自然語言分析系統,有效地提升了檔案信息數據采集的準確性。通過對檔案專業數據的不斷優化,形成檔案信息資源數據知識庫,為檔案信息資源共享平臺的數據采集積累寶貴的知識財富,從而促進檔案信息資源共享平臺的良性運行與發展。
*本文系2017年國家社科基金年度項目《大數據時代智慧檔案信息服務平臺構建與創新研究》(項目編號:17BTQ074)、2016年度教育部人文社會科學研究規劃基金項目“大數據時代檔案信息資源共享平臺構建的研究”(項目編號:16YJA870001)階段性研究成果。
[1]徐擁軍,張臻,任瓊輝.國家大數據戰略背景下檔案部門與數據管理部門的職能關系[J].圖書情報工作,2019(18):5-13.
[2]卞咸杰.大數據時代檔案信息資源共享平臺數據交互服務的研究[J].浙江檔案,2018(11):15-17.
[3]于英香.從數據與信息關系演化看檔案數據概念的發展[J].情報雜志,2018(11):150-155.
[4]IfigeniaVardakosta,KapidakisSarantos.Geospatialdatacollectionpolicies,technologyandopensourceinwebsitesofacademiclibr ariesworldwide[J].TheJournalofAcademicLibrarianship,2016(4): 319-328.
[5]韓名豪.基于Hadoop的新聞事件數據查詢與分析[D].北京:北京郵電大學,2018.
[6]南淑萍,張博,李力.基于決策樹的數據挖掘技術在醫療設備成本績效分析中的應用研究[J].長沙大學學報,2014(5):64-66.
[7]AdeyinkaTella.Electronicandpaperbaseddatacollectionmet hodsinlibraryandinformationscienceresearch[J].NewLibraryWorld, 2015:588-609.
[8]程秀峰,肖兵,夏立新.知識融合視角下用戶行為數據采集與共享機制研究[J].情報科學, 2020(1):30-35.
[9]王爍.大數據時代檔案信息資源共享平臺建設研究[J].圖書情報導刊,2016(12):117-121.
[10]鄭志新.大數據時代電子商務產業數據管理與共享機制[J].信息技術與信息化,2016(6):98-103.
[11]WeiZheng,YuxingWang,MingZhang,FeiyangWu,ZhouYang.Afullstackdataacquisition,archiveandaccesssolutionforJ-TEXT basedonwebtechnologies[J].FusionEngineeringandDesign,2020,1 55:111450.
[12][17]楊迪,陳雪萍,馮宇等.基于企業海量電子文件的數據采集模型[J].電子技術與軟件工程,2018(12):175.
[13]卞咸杰.檔案信息資源共享平臺數據處理流程研究[J].檔案管理,2018(6):33-35.
[14]JoannaClifton-Sprigg,JonathanJames,Sun?icaVuji?.Freed omofInformation(FOI)asadatacollectiontoolforsocialscientists[J]. PloSone,2020(2):e0228392.
[15]AndreasKipf,WaylonBrunette,JordanKellerstrass,Matthe wPodolsky,JavierRosa,MitchellSundt,DanielWilson,GaetanoBorrie llo,EricBrewer,EvanThomas.Aproposedintegrateddatacollection,an alysisandsharingplatformforimpactevaluation[J].DevelopmentEng ineering,2016:36-44.
[16]BrendaFarrell,JasonBengtson.Scientistanddataarchitectco llaboratetocurateandarchiveaninnerearelectrophysiologydatacollect ion[J].PloSone,2019(10):e0223984.
[18]卞咸杰.大數據時代檔案信息資源共享平臺性能優化的研究[J].檔案管理,2016(6):17-20.