許娟
南京海事局辦公室,江蘇南京 210000
國內(nèi)檔案信息研究始于20 世紀(jì)90 年代后期,檔案信息化研究起源于信息社會時代的到來。隨著時代的進步和研究的深入,檔案從業(yè)者,隨著論文數(shù)量的不斷增加而越來越多信息逐漸成為檔案行業(yè)的焦點。在研究開始時,學(xué)者們更加關(guān)注檔案信息研究的相關(guān)理論,研究范圍主要集中在檔案信息源與檔案信息相關(guān)概念之間的關(guān)系和相關(guān)問題。在過程中存檔信息問題和對策,該文件與社會信息化密切相關(guān),討論檔案信息化的形成,分析未來的發(fā)展趨勢。通過分析檔案之間的關(guān)系。信息化與企業(yè)信息化,闡述信息化對企業(yè)檔案開發(fā)的重要性。張瑞同志論述了檔案信息化理論體系建設(shè)的有利時機、建設(shè)現(xiàn)狀和存在的問題,以及完善檔案信息化理論體系建設(shè)的對策和措施。丁立新同志在分析我國檔案信息化發(fā)展機遇與困惑的基礎(chǔ)上,對檔案信息化發(fā)展模式、應(yīng)用系統(tǒng)建設(shè)及其運行維護進行了趨勢預(yù)測。在分析我國檔案信息化建設(shè)基本現(xiàn)狀的基礎(chǔ)上,王美琴同志指出了檔案信息化過程中存在的主要問題,并提出了加快實施檔案信息化的措施。
目前大數(shù)據(jù)技術(shù)的演示應(yīng)用主要包括社交媒體數(shù)據(jù)分析,在線廣告,地理坐標(biāo)和商業(yè)智能,主要用于數(shù)據(jù)挖掘和決策。但是,從長遠來看,這些領(lǐng)域?qū)⒀由斓介L期數(shù)據(jù)保護和信息系統(tǒng)管理。任何新技術(shù)的應(yīng)用都與社會環(huán)境密切相關(guān),表現(xiàn)出技術(shù)的本質(zhì)和受限制的社會性質(zhì)以及各種社會條件。在檔案信息建設(shè)過程中,大數(shù)據(jù)存儲技術(shù)面臨著一些問題,使用元數(shù)據(jù)的可追溯性,及時性和知識服務(wù)的可用性。
只有一個系統(tǒng)能夠可靠地和永久地保存收集的數(shù)字文件資源可以被稱為數(shù)字文件系統(tǒng)。文檔檔案的本質(zhì)是繼續(xù)不斷發(fā)展的歷史過程。因此,數(shù)字檔案資源的存儲容量增長是一個長期的過程,需要不斷擴張的存儲運營商支持這種增長。此外,任何材料的載體受到自然環(huán)境的影響和技術(shù)進步,并逐漸失去了載體的功能,從而影響記錄信息。永久保存的實現(xiàn)是指檔案資源的定期數(shù)據(jù)遷移需要永久保存一段時間,所以可以更新數(shù)據(jù),技術(shù)更新和更新,信息資源可以持續(xù)保存。基本要求為長期保存。
數(shù)據(jù)的數(shù)字存檔由兩部分組成:內(nèi)容實體描述文件數(shù)據(jù)和描述數(shù)據(jù)(元數(shù)據(jù))。文件數(shù)據(jù)通常具有只讀屬性。因此,諸如數(shù)字檔案的描述,索引,索引和目錄之類的元數(shù)據(jù)相對容易標(biāo)準(zhǔn)化。然而,實體和數(shù)據(jù)的類型,格式和結(jié)構(gòu)數(shù)據(jù)的技術(shù)創(chuàng)新不斷變化,信息的完整性和可靠性受到挑戰(zhàn)。隨著數(shù)據(jù)量的增加,相應(yīng)硬件和軟件設(shè)備的處理規(guī)模增加,但數(shù)據(jù)量特別大的情況下即使系統(tǒng)在數(shù)據(jù)系統(tǒng)中崩潰,數(shù)據(jù)的大小也可能導(dǎo)致控制數(shù)據(jù)在一定程度上下降。數(shù)據(jù)遷移是在大數(shù)據(jù)環(huán)境中最難測試的。雖然傳統(tǒng)的關(guān)系數(shù)據(jù)庫三重模式保持了遷移過程軟件的獨立性,但數(shù)據(jù)遷移量將越來越大;數(shù)據(jù)遷移數(shù)據(jù)結(jié)構(gòu)中包含的信息對其含義的影響變得越來越復(fù)雜。分類;遷移周期和節(jié)奏加速技術(shù)創(chuàng)新,周期越來越短,傳統(tǒng)的數(shù)據(jù)庫模型沒有有效地處理遷移的復(fù)雜性,特別是現(xiàn)有系統(tǒng)的重組技術(shù)或管理創(chuàng)新,數(shù)據(jù)類型,結(jié)構(gòu),約束等轉(zhuǎn)換問題。保持記錄的真實性和可靠性是一項巨大的挑戰(zhàn)。
從縱向的角度通過檔案了解其反映了基本的語義,背景,源文件的目的和原系統(tǒng)功能,而且還可以找到的相關(guān)性不同的文件,該文件具有可追溯性。文件,雖然通常是根據(jù)書中的案例本身,和所有相關(guān)單位的條件下保存,但有更多的水準(zhǔn)或普遍存在的現(xiàn)實的社會環(huán)境。檔案可追溯性并不局限在體積或在所有情況下,經(jīng)常使用數(shù)字檔案查詢和分析的特點使用復(fù)雜的相關(guān)性。不同行業(yè)之間的相互滲透,專業(yè)領(lǐng)域,相互之間的關(guān)系將會越來越多,越來越復(fù)雜。此外,數(shù)字檔案全宗和文件通常是發(fā)現(xiàn)在文本,圖片,視頻和其他異構(gòu)和均勻,異構(gòu)數(shù)據(jù),然而,需求跟蹤將會越來越多元化。
數(shù)字檔案是借助計算機網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)開發(fā)和生成的一種新型檔案信息表,將各種傳統(tǒng)的文件載體轉(zhuǎn)換為數(shù)字檔案庫的信息資源,以數(shù)字形式存儲,網(wǎng)絡(luò)傳輸和使用計算機系統(tǒng)進行管理,實現(xiàn)檔案信息的快速利用和共享。在數(shù)字檔案保存中需要按時間順序或原因?qū)?shù)據(jù)進行分類,相關(guān)目標(biāo)是通過矢量控制來控制存儲管理。傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu),操作和約束模式,具有一定的模型,使用基于分布式數(shù)據(jù)庫系統(tǒng)的轉(zhuǎn)儲或模型。通過中心管理服務(wù)器將分布在數(shù)據(jù)庫中的不同節(jié)點數(shù)據(jù)中實現(xiàn)統(tǒng)一管理,邏輯存儲方法一般將結(jié)構(gòu)化關(guān)系模型作為元數(shù)據(jù),雖然關(guān)系數(shù)據(jù)庫可以實現(xiàn)更復(fù)雜的關(guān)聯(lián),但是數(shù)據(jù)量非常敏感,并且具有更大的空間和時間復(fù)雜度。在檔案信息構(gòu)建過程中,使用大數(shù)據(jù)存儲時,存儲數(shù)據(jù)結(jié)構(gòu),文件到關(guān)聯(lián)實體。技術(shù)加強數(shù)字檔案信息資源存儲,如通過GFS(谷歌文件系統(tǒng)),HDFS(Hadoop 文件系統(tǒng))等分布式文件存儲系統(tǒng),能夠處理非結(jié)構(gòu)化數(shù)據(jù)并實現(xiàn)相關(guān)自動建立基本索引元數(shù)據(jù),適用于半結(jié)構(gòu)數(shù)字檔案信息資源的結(jié)構(gòu)化存儲和處理。
原始記錄檔案的本質(zhì)屬性、客觀需要依靠軟件和硬件環(huán)境,依附的載體及其語義保持記錄的原始性、真實性和可靠性的信息,靜態(tài)特征的需求同時,隨著信息技術(shù)的發(fā)展,實現(xiàn)數(shù)據(jù)遷移的一致性,以確保檔案信息的可追溯性。大數(shù)據(jù)分布式文件存儲系統(tǒng)中的對象文件或文件夾直接轉(zhuǎn)化為二進制數(shù)據(jù)序列,忽視檔案資源的特定的格式或結(jié)構(gòu)在各種形式的底層實現(xiàn)智能存儲和處理,在更高的層次上,然后使用分析;此外,大數(shù)據(jù)技術(shù)更加適應(yīng)大文件的處理,比如HDFS 文件系統(tǒng),但要儲存非結(jié)構(gòu)化數(shù)據(jù)按照統(tǒng)一的二進制大小(64m)碎片,多點備份,并行處理,形成一系列的鍵/值對(鍵,值),然后進行按照合并的檔案價值相同的關(guān)鍵因素匯總和合并。這也符合檔案的組織特征(“a”或“體積”組織成復(fù)合文件)。因此能夠維護一個文件的完整性、可靠性和資源存儲和利用的過程中實現(xiàn)的智能檔案數(shù)據(jù)轉(zhuǎn)換、集成和利用率,可以基于存檔文件的組織特點,復(fù)合文件或一組類的模型在各種形式的組織,然后按照反饋的節(jié)點,建立簡化的數(shù)字檔案存儲管理方案。
盡管大數(shù)據(jù)面臨著檔案信息化問題,但相關(guān)研究的重點主要集中在大數(shù)據(jù)特征檔案和相關(guān)宏觀戰(zhàn)略的管理與利用,而大數(shù)據(jù)技術(shù)、云計算、分布式智能化特征以及海量、異構(gòu)的數(shù)據(jù)處理等方面。數(shù)字檔案管理的優(yōu)勢和現(xiàn)實要求有一定的契合性,同時,大數(shù)據(jù)及其相關(guān)技術(shù)在數(shù)字檔案管理中應(yīng)用的深層次問題還需要進一步的理解和把握,如大數(shù)據(jù)技術(shù)如何存儲、遷移和支持ACR 等。OSS 部門和知識發(fā)現(xiàn)平臺,以及應(yīng)用于數(shù)字檔案管理的信息系統(tǒng)需要面對的重構(gòu)、信息和數(shù)據(jù)轉(zhuǎn)換層面的分類問題。大數(shù)據(jù)技術(shù)及其生態(tài)環(huán)境是信息技術(shù)發(fā)展的必然趨勢。