
[ 作者簡介 ]
王海波,男,陜西咸陽人,湖北航天技術研究院總體設計所,助理館員,本科,研究方向:檔案信息技術管理與應用。
[ 摘要 ]
隨著大數據時代的來臨,企業信息資源的價值、價值與時間的關系、存儲方式及利用方式等都發生了重大改變,隨之而來的是對企業信息資源的收集建設方式帶來了重大挑戰。在大數據時代檔案數據的收集范圍將大大擴展,其存儲、整理及利用服務方式也將產生巨大變化。
[ 關鍵詞 ]
檔案;大數據;數據倉庫
中圖分類號:G27
文獻標識碼:A
DOI:10.3969/j.issn.1672-0407.2022.03.009
1 大數據概述
1.1 大數據概念
2011 年,麥肯錫在研究報告《大數據:下一個創新、競爭和生產率前沿》中首次提出“大數據”的概念,之后《紐約時報》《華爾街日報》等都對大數據進行了專欄介紹。目前對大數據的理解從其基本特性出發,即“5V”,以volume(大量)、velocity(高速)、variety(多樣)、value(價值)和veracity(真實性)來定義大數據。大數據可以進一步解釋為非結構化數據的超大規模增長、實時分析而非批量式的分析、不同的形式和格式、無模式或模式不明顯、不連貫的語法或句義等。
1.2 大數據的特點
1.2.1 數據量龐大、增長速度快
龐大的數據量是大數據首要的、最突出的特點。大數據時代的數據量不再是以MB、GB為儲存單位,而是以PB、ZB為儲存單位。據OECD 計算,2006 年全球數字信息量為16.1萬PB,這個信息量為歷史上圖書信息總量的3000倍。2010 年全球數據量已達1.2 ZB,年增長50 %。2012 年10 分鐘的信息總量為1.8 ZB。
1.2.2 數據種類多,異構化明顯
一方面從數據結構上來講,大數據包含了結構化數據,如企業資源計劃系統等中的數據;半結構化數據,如電子郵件等;非結構化數據,如傳感器產生的數據。另一方面從信息形式來講,大數據包含了文字信息,如WORD、XML等不同格式的信息;圖像信息,如各種格式的數字照片、計算機生成的矢量圖片等;聲音信息,如通過錄音設備保存下的各種講話等;視頻信息,如各種格式的流媒體文件信息等。
1.2.3 價值密度低
大數據技術通過利用現有技術所能搜集到的相關數據對問題進行描述、判斷,進而對其發展趨勢進行預測。其利用的數據量在傳統的眼光看來是不可想象的,甚至有些是錯誤數據,單位數據價值低,甚至有可能是負的。
雖然大數據具有以上特點,但是當檔案信息及相關數據的規模達到一定狀態后,便可以形成數據倉庫,對企業的經營管理具備了反觀和借鑒的價值。而如何利用與開發這種信息資源,則成為衡量企業軟實力的重要標準。
目前,大多企業使用的都是以事實為基礎的決策方法,這種決策方法在精確性與合理性等方面均達不到數據驅動的決策方法所能夠達到的程度。只有大量使用數據分析來優化企業運營的各個環節和流程,通過基于數據分析的業務優化和重組,才能把業務流程和決策過程中具有的潛在價值擠出來,才能做到節約成本,戰勝對手,成為在市場中幸存的目標。要想實現這種轉變,僅僅是對信息及數據的收集是遠遠不夠的,還要建立自己的“數據倉庫”。運用“大數據”技術,通過一系列科學的方法,對收集到的信息及數據進行整理和深度挖掘分析,像滾雪球般建立自己的“數據倉庫”,并加以利用。
2 企業檔案數據倉庫信息資源建設
2.1 對傳統的非結構化檔案信息資源進行數字化和數據化。
2.1.1 數字化
將過去紙質的文件,包括文字、圖片、圖紙等原始檔案通過掃描等技術手段轉化為數據庫中的電子資源,建立信息資源庫,通過建立索引快速查詢所需檔案信息,改變紙質檔案分散、雜亂的狀況,實現企業檔案的優化整合,提高工作效率,使檔案的憑證作用繼續得到有效的發揮。
2.1.2 數據化
第一,原始檔案著錄信息數據化,對檔案進行基于分類管理時代標注信息的數據化,提取其文字信息特征,使檔案“件”與“件”之間的相關度信息能夠繼續保留。第二,對檔案內容信息的數據化,綜合利用OCR等文字識別技術,自動語音識別技術,圖像分割、特征提取、匹配和識別技術,流媒體識別技術,對所有類型檔案信息資源進行識別。第三,綜合運用計算機深度語義理解技術與深度學習技術,加深計算機對檔案內容的理解,建立檔案信息內容之間的隱性聯系,建立相關性識別模型,實現檔案自動聚類,內容自動聚類。
2.2 傳統的結構化數據的整理
2.2.1 標準整合
在企業內部對傳統的結構化數據信息資源的整合首先要利用先進的技術手段,構建統一的網絡平臺,聯結各個異構的應用統一,從而使單位和部門所使用的信息整理軟件和硬件產生的所有數據能夠集中統一并被識別。
2.2.2 信息的整合
將不同的技術環境形成不同類型的,處于一種無序、凌亂、分散的狀態的各種類型數據連接成一個相互關聯的數據庫群,并與已經被識別的檔案信息數據群相聯系,實現所有數據的自由交換和流動以及系統化、有序化,實現數據的集成和整合。
2.2.3 數據分類標定
現代化的企業數據倉庫集合了價值密度、可靠程度不一的大量數據,為了更好地使價值密集程度高、可信度強的數據資源發揮更大的作用,需要對數據按照價值密度、可信度等維度進行標定,以便充分發揮傳統檔案資源的骨干信息作用,盡可能地消除不確定性,提升大數據的工作效率。
2.2.3.1 價值密度分級。數據的價值密度分級主要是根據數據本身包含的信息量對數據進行分級標定。傳統檔案信息資源其價值密度最高可定為一級,企業實時運營數據可定為二級,原始數據可定為三級,通過互聯網等非官方渠道獲得的數據可定位四級。
2.2.3.2 可信度分級。數據的可信度分級主要是依據數據的來源對數據進行不同層級的分級標定。傳統檔案及一切原始記錄可信度為一級,通過數據挖掘或其他渠道收集的官方信息為二級,非官方信息為三級信息。
2.2.3.3 可用性分級。在大數據時代,信息的當前可確定的價值只是其總價值的很小一部分,其潛在價值是無限的,不會隨著時間的變遷而消失,但會隨著時間而減少,我們可以稱其為可用性。我們可以用時間、引用次數的變化趨勢等參數對信息的這種變化進行判斷、分級,這些都需要在數據倉庫后續運行中根據企業的實際情況不斷調整分級標注的策略。
我們通過三個大的方面對數據倉庫建設中信息資源建設進行了初步探討。筆者通過實踐發現,任何信息都是有多面性的,其存在本身就具有多個屬性。尤其需要注意的是,大數據并不是削弱了傳統檔案信息資源的重要性,反而使檔案信息資源的重要性更加凸顯。以筆者的實際經驗看,檔案信息資源具有信息密度大,準確度高,指向性強等特點,在信息標定中會有比較高的標定值,起到類似“骨干信息”的作用。檔案資源中存在的重要的骨干信息,在建設信息倉庫的過程中更要通過盡可能多的維度對一個信息進行描述。在對信息進行分級的過程中,分級的劃分、排列的類型與信息不同屬性之間的關聯等都需要和企業自身的特點結合起來,這些具體經驗只能在實踐中不斷摸索、總結,進而產生具有本企業特色的數據倉庫。
最終,通過對數據倉庫中的所有數據進行不同維度的分級標定,可以使數據挖掘更有效率,也可以使整個倉庫的運行精確性大大提高。通過建立這樣的數據倉庫,我們可以打通不同載體形式之間、所有數據之間的壁壘,利用數據挖掘等手段加深計算機對數據的深層次語義理解,從而通過數據的整合共享和交叉復用形成智力資源和知識服務能力。
3 數據倉庫的利用方式和服務
3.1 數據挖掘
在上述場景中,都牽涉海量信息加工提煉的問題。面對檔案信息查找和信息加工的困難,通過數據挖掘技術對海量文本、多媒體等形式的非結構化數據進行開發和利用是一種好的手段。通過數據挖掘,特別是文本挖掘的兩個領域——信息訪問和知識發現,既可以快速訪問我們明確要搜尋的信息,也可以通過數據分析、數據預測對某特定主題的所有相關數據進行加工,從而形成新的結論和認識。這樣就可以將用戶從繁雜的原始信息中拯救出來,提高信息服務質量;更深層次的利用則將極大地擴展人們對事物的認知邊界,加深認知深度,從而更有效地推動企業和社會的發展。
3.2 實時服務與主動數據驅動服務
在大數據時代,為解決實時服務的問題,檔案信息平臺必然要與各類管理、設計、監控等功能系統高度集成,數據實時歸檔、處理,以實現實時檔案服務。在產品質量管理、分析與工藝優化場景下還體現一個十分重要的理念,主動數據驅動服務,主動將數據或處理結果推送給用戶。在未來,通過用戶信息、行為分析,能很容易地預測用戶需求,進而可以變被動為主動,將其所需的權限內的信息以實時推送的方式提供給用戶,供挑選利用。實時的主動的數據驅動服務是提高信息服務工作地位、提升服務質量的重要手段。
3.3 編研等信息處理工作
由于大數據時代信息的冗雜,質量良莠不齊,檔案編研等信息工作將變得更加重要。由人工按照用戶需求分析結果,有目的地對核心、可靠數據進行加工甚至是半加工,產生的可信的數據處理結果可以大幅度地為用戶提高信息收集效率。我們可以對某個主題進行深入編研,對數據挖掘結果進行人工核實,再進行加工,產生可信的編研成果。甚至可以對某主題相關信息直接進行可信檔案信息目錄匯編,將匯編結果保存在信息平臺中,由系統自動推送給所需用戶進行參考??梢詫χ匾恼Z音識別、圖像識別結果進行人工校驗,將其變為更為準確的檔案信息。
4 結論
在現代社會,隨著生產活動分工日益細化,企業作為經濟活動的基本單元在各種業務活動中產生了大量的數據或信息。在傳統的信息管理模式下,人們通過手工著錄、卡片檢索、計算機輔助管理都可快捷便利地查找到所需要的信息。但是當信息量呈指數形式增長之后,依靠傳統的檢索工具或者索取信息的方式往往都會迷失在數據海洋之中,檢索效率會急劇下降。還有就是,隨著信息存儲成本的不斷下降,無序信息內部也要求呈現其內在關系。如何在大量的信息中快速而準確地找到所需信息,如何快捷的揭示海量信息之間的潛在聯系或者因果關系是大數據時代檔案業務首要解決的問題。
在大數據時代,企業使用大數據云集計算等服務,可以有效解決企業面臨的信息困境,迅速取得對手遠不可及的優勢,實現彎道超車。特別是作為傳統的大企業,要想保持當前的優勢,必然要緊跟時代發展,順應大勢,大力發展、應用大數據技術。作為檔案管理人員,我們應順應潮流,主動迎接大數據技術帶來的變化和挑戰,在現有條件下逐步按照大數據的思想對檔案資源進行收集、整理,為企業在大數據時代轉型提供助力。
參考文獻
[1]劉文遠,李少雄,王曉敏,等. 大數據知識發現[J]. 燕山大學學報,2014(5): 377-380.
[2]鄭清華. 檔案信息資源開發與共享[J]. 科技資訊,2015(5): 213.
[3]王毅,趙淑梅. 國有企業技術創新與檔案管理安全研究[J]. 檔案學通訊,2014(2): 63-67.
[4]謝君. 建設大檔案,應用大技術,實現大服務——大數據時代下的大檔案觀[J]. 辦公自動化(學術版),2015(1): 51-54.
[5]魯德武. 試述檔案大數據的定義、特征及核心內容[J]. 檔案,2014(4): 13-15.
[6]施永利. 大數據時代背景下的檔案利用服務探討[J]. 商,2012(11): 145,129.
[7]趙淑芳,單桂娟. 淺談大數據應用現狀及發展趨勢[J]. 商,2015(36): 223.
[8]余紅光. 關于大數據時代背景下的檔案利用服務分析[J]. 黑龍江史志,2015(3): 98.
[9]朱麗梅. 大數據時代檔案館公共服務的探討[J]. 蘭臺世界,2014(2): 16-17.
[10]莫麗彬. 淺議大數據時代檔案信息服務的發展[J]. 蘭臺世界,2015(29): 117-118.
[11]孫潔. 大數據背景下檔案知識服務[J]. 蘭臺世界,2016(3): 8-10.
[12]陳蘆燕. 大數據時代的檔案信息服務研究[J]. 蘭臺世界,2014(8): 29-30.
[13]祝彩鳳,楊曉慧. 大數據背景下檔案信息資源利用服務工作的特點研究[J]. 辦公室業務,2015(23): 97-98.
[14]金丹. 大數據時代的檔案利用服務工作研究[J]. 蘭臺世界,2015(20): 111-112.