文|蘇一君
隨著社會生產生活和科技的發(fā)展進步,數(shù)據(jù)量開啟井噴增長模式,如何在海量數(shù)據(jù)中查詢到所需要的檔案信息,抽取和挖掘有用的信息和知識,為企業(yè)領導層提供決策依據(jù)、為業(yè)務部門提供信息支撐、為用戶提供針對性服務,才是企業(yè)所關注的,才是有大意義的,而應用大數(shù)據(jù)技術開展編研工作正是實現(xiàn)檔案價值實體化的有效途徑。
運用大數(shù)據(jù)時代為我們提供的先進工具和各種技術手段,對原始檔案信息價值進一步挖掘,使得檔案工作者可以在面對海量的檔案數(shù)據(jù)時,根據(jù)其類別、類型的不同,具體事物進行具體分析,發(fā)現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的關系,發(fā)掘檔案存在的潛在利用價值,再將其按照相關專題進行分類、加工、整理和有序化重組,使一些結構復雜、關聯(lián)性差的檔案更加系統(tǒng)化、條理化,建設各類專題檔案編研信息庫,開發(fā)多種多樣的服務方式,盡可能地去滿足用戶的各類利用需求,從而擴大檔案在各個層面上的影響力。
在利用數(shù)據(jù)時,或多或少曾遇到過“發(fā)現(xiàn)有的數(shù)據(jù)不夠用,有些數(shù)據(jù)做得不好不好用”的尷尬時刻。這樣的情況,當我們開始去運營這些數(shù)據(jù)后會發(fā)現(xiàn),實際上是因為數(shù)據(jù)有無數(shù)的孤島,從而導致了數(shù)據(jù)多元化、冗余、重點不清晰、難統(tǒng)一等一系列影響利用的源頭。檔案信息資源作為一種原生態(tài)的數(shù)據(jù)資源,具有真實性、權威性等特點,使其比其他數(shù)據(jù)資源具有更高的利用價值。不過我們要想懂得利用數(shù)據(jù),首先要開始懂得“養(yǎng)數(shù)據(jù)”。養(yǎng)數(shù)據(jù)是一項最底端、最基礎、最辛苦的工作,特別是在前期開展數(shù)據(jù)清洗、整理的階段,但是以投資的眼光長期做下去,必將收獲滿滿。養(yǎng)數(shù)據(jù)具體可分為三個操作:
1.完善檔案數(shù)據(jù)結構
根據(jù)企業(yè)數(shù)據(jù)資產目錄,將檔案數(shù)據(jù)字段信息補齊,確保數(shù)據(jù)的準確性、完整性和一致性,特別是已認定對企業(yè)有用的檔案數(shù)據(jù),盡可能的不要留白。
2.設立標準提高質量
有數(shù)據(jù)沒質量是企業(yè)數(shù)據(jù)的通病,原因不外乎主/元數(shù)據(jù)定義工作以及業(yè)務數(shù)據(jù)清洗轉換和分析工作未開展,現(xiàn)場業(yè)務數(shù)據(jù)記錄不及時、不準確,這樣的危害是巨大的。想要提高檔案數(shù)據(jù)質量這種事情說起來也不難,就一點:重視!從端口入手嚴防死守。
3.加強數(shù)據(jù)入庫意識
企業(yè)很多數(shù)據(jù)其實是在紙張上或者各管理系統(tǒng)中的,別讓這些基礎數(shù)據(jù)躺在外邊,一定要將其歸檔,納入企業(yè)數(shù)據(jù)庫中。做好這件事,必須基于5年一個周期的數(shù)據(jù)需求來規(guī)劃布局,并結合企業(yè)業(yè)務方向來進行思考;同時注重日常的積累,比如每天花半個小時處理關鍵字段,做日報表,定期出一份數(shù)據(jù)周報,看趨勢,給業(yè)務同事反應現(xiàn)象,每月思考一下本階段的數(shù)據(jù),和相關檔案基礎數(shù)據(jù)進行對比和思考,往往能看到一些平時注意不到的問題。并且當確認好編研專題的數(shù)據(jù)范圍后,一定要親自采集所需要的檔案信息,親自進行數(shù)據(jù)加工處理,這樣收集到的數(shù)據(jù)信息才真正能夠轉化為供編研者所使用的數(shù)據(jù)。
開展檔案編研工作是為了揭開數(shù)據(jù)面紗,為用戶提供價值參考,為用戶工作的開展提供技術基礎保障。所以在檔案數(shù)據(jù)的收集環(huán)節(jié),就要做好前期調研,有一個明確目的或者目標,這樣最后到了數(shù)據(jù)分析階段,才能對收集的檔案信息“去噪”、“清洗”,顯露出本質,呈現(xiàn)我們最終所需要的,然后進行判斷,得出高質量和可靠的結果供用戶使用、決策。一個企業(yè)在養(yǎng)數(shù)據(jù)的層面上謀劃越深越前瞻性,才可能在數(shù)據(jù)驅動營運,驅動決策的路上越走越順。
大數(shù)據(jù)時代,數(shù)據(jù)開放、決策咨詢、推送服務、個性化服務將成為檔案館服務的主要內容,這對檔案工作者的個人能力提出了較高的要求。要具備高度的洞察力、創(chuàng)新力,有一定的計算機知識儲備、學術寫作能力和文獻編研能力,應對海量檔案信息能夠加以分析、判斷、匯總、歸納,建立相應的數(shù)據(jù)分析模型,將最終成果以建議、方案、報告、成果等形式呈現(xiàn)出來,將“死檔案”變成“活數(shù)據(jù)”,體現(xiàn)檔案信息的價值。
大數(shù)據(jù)技術的應用對檔案工作模式帶來的沖擊是巨大的,傳統(tǒng)“你來我查,你需我找”的工作模式,已經無法滿足數(shù)據(jù)信息爆炸下用戶的需求。在大數(shù)據(jù)時代,檔案信息資源利用服務工作已經趨向社會化,企業(yè)檔案工作者必須順應時代更新服務觀念,從傳統(tǒng)的“被動等待用戶上門,為其提供所要求的檔案利用服務”變?yōu)椤袄砬迤髽I(yè)數(shù)據(jù)資產,捕捉用戶習慣,定制檔案利用服務為其主動提供”的工作模式。
想要做好檔案編研選題,不僅要對用戶利用檔案的數(shù)據(jù)情況進行挖掘,而且還需要對檔案用戶的關注點和業(yè)務開展相關情況進行深度挖掘,得出分析結果,建立特定用戶類型的數(shù)據(jù)模型,根據(jù)模型整合檔案資源,為其定制個性化檔案利用服務??梢园凑照げ块T關注黨建類實物檔案的特點,質量部門較為關注試驗檢驗數(shù)據(jù)檔案的特點,針對性的確定編研選題,為其提供個性化服務;也可以結合企業(yè)發(fā)布的戰(zhàn)略規(guī)劃、年度工作計劃、市場開拓某一階段所關注的重點,選定檔案編研題目,從而制作出用戶當前所想所需的編研成果,再利用大數(shù)據(jù)技術,主動及時推送給用戶。
大數(shù)據(jù)時代想要做好檔案編研選題工作,首先要摸清楚用戶需要檔案來干什么,檔案如何能幫助提升用戶自身的業(yè)務工作。檔案館應把握企業(yè)最新發(fā)展趨勢,有針對性地對檔案數(shù)據(jù)進行深度挖掘和編研,創(chuàng)造符合本企業(yè)特色和重點業(yè)務方向的研究內容,增強編研成果的內容價值,擴大企業(yè)檔案數(shù)據(jù)收集面,增強檔案數(shù)據(jù)庫資源的多樣化,通過運用大數(shù)據(jù)技術將檔案數(shù)據(jù)進行提煉、優(yōu)化,選擇在用戶恰好需要的節(jié)點推出,從而增強用戶對企業(yè)檔案工作的粘度,從初期的主動推送給用戶查詢利用,到后期受到用戶認可,主動要求定期定向提供,充分實現(xiàn)檔案價值實體化。
數(shù)據(jù)信息的深度挖掘是大數(shù)據(jù)時代的主要特點,數(shù)據(jù)分析是大數(shù)據(jù)整個處理流程中最核心的部分。對檔案用戶來說,最關心的不是數(shù)據(jù)挖掘的深淺,不是數(shù)據(jù)分析處理過程的難易,而是對大數(shù)據(jù)分析結果的說明和呈現(xiàn)。對檔案工作者來說,若選定建立的數(shù)據(jù)分析模型不具有代表性和利用價值,若數(shù)據(jù)分析的結果不能得到精準的展示,那么最終成果將會對檔案用戶產生困擾,甚至會誤導用戶。
在對用戶需求進行測評后,首先根據(jù)需求對企業(yè)數(shù)據(jù)庫進行深度資料挖掘,選定緊扣企業(yè)主營業(yè)務的檔案信息建立分析模型,建立個性化數(shù)據(jù)庫,把用戶想要的東西、挖掘分析結果放入;然后本著“確保檔案數(shù)字資源格式統(tǒng)一、規(guī)范、長期可讀、便于共享”的原則制定收集標準,統(tǒng)一的錄入規(guī)范,設定關鍵字段,避免了入庫信息的雜亂無章,同時對利用率高的檔案全文數(shù)字化;最后利用大數(shù)據(jù)手段實現(xiàn)數(shù)據(jù)分類、相關性分析、數(shù)據(jù)融合,明確不同檔案數(shù)據(jù)之間的關系,得出不同檔案利用形式的變化趨勢,使用戶可以在海量數(shù)據(jù)中快速定位到所需信息,幫助其對自身工作把控、了解,分析和預測未來趨向,進而有針對性地做出規(guī)劃,從而提高檔案服務質量,提升檔案的使用效率與利用價值。
結合企業(yè)實際,配合用戶中心工作收集各類型檔案,建立檔案數(shù)據(jù)分析模型,加強信息歸集共享,用信息化手段推送給用戶查詢利用,輔助科學決策。
大數(shù)據(jù)是把雙刃劍,讓我們正確應用大數(shù)據(jù)技術手段,編研出更多高質量的檔案成果,為管理層提供決策信息、為技術層提供科研支撐,進而擴大檔案工作影響力,為檔案事業(yè)的進一步發(fā)展做出貢獻。