魏霞
引言
2013年黨的十八屆三中全會將“推進國家治理體系和治理能力現代化”作為全面深化改革的總目標。2017年黨的十九大明確指示要加強和創新社會治理,打造共建共治的社會治理格局。2019年黨的十九屆四中全會指明了未來國家治理的具體方向并做了全面部署。國家重大政策的調整必然引起檔案工作管理方式的變革,檔案工作在推進國家治理體系和治理能力現代化中承擔著重要責任。《全國檔案事業發展“十三五”規劃綱要》中明確“有效服務國家治理”的發展目標[1]。2020年國家檔案局將“推動機關檔案資源治理能力和治理水平”納入《檔案館(室)業務指導司2020年工作要點》[2]。2021年中共中央辦公廳、國務院印發的《“十四五”全國檔案事業發展規劃》確定了到2035年檔案工作走向依法治理、走向開放、走向現代化取得實質性進展,形成與新時期中國特色社會主義相適應的檔案事業,為建設檔案強國奠定基礎的發展目標[3]。檔案治理即是檔案工作順應國家治理趨勢的現實表現,又是全面深化改革戰略意圖在檔案領域的具體體現[4]。推進檔案工作由檔案管理走向檔案治理,實現檔案工作適應國家現代化進程,實現檔案工作服務第二個百年奮斗目標。
隨著大數據的“引爆”各國紛紛作出應對措施,我國針對大數據積極作出應對,習近平總書記在2017年中共中央政治局第二次集體學習時強調:“要構建以數據為關鍵要素的數字經濟”“要運用大數據提升國家治理現代化水平”[5]。黨的十九屆四中全會首次提出將數據作為生產要素參與分配。在政務方面,越來越多政務信息公開平臺建立,為打破“數據壁壘”“信息孤島”的大數據管理機構越來越多的被建立。在經濟活動中,電子商務的蓬勃發展,企業數據大量產生,建立全電子化管理越來越迫切。面對大數據趨勢,伴隨業務活動的檔案工作不可避免的受到沖擊,加之“單套制”的施行,檔案數據管理成為檔案管理工作轉型的重要方向。
一、檔案數據治理
目前對檔案數據還未形成統一的界定,學者多從不同視角對檔案數據進行概念界定,如于英香從“數據”與“信息”的關系視角認為檔案數據是大數據時代檔案工作對傳統檔案數據和大數據時代產生的實時數據資源之整合[6]。趙躍從“開發”視角認為檔案數據是檔案部門根據檔案數據利用者和業務需求,將數字檔案資源轉化為可供處理、分析及閱讀的檔案數據資源,數字化檔案是檔案數據的基礎[7]。有學者將檔案管理和利用過程中產生的數據也納入檔案數據范圍[8]。由此可見檔案數據的范圍比傳統檔案管理對象更廣泛、復雜。基于已有研究,檔案數據的主體包含“存量檔案數字化”和“增量檔案電子化”兩部分。“存量檔案數字化”是對原有館藏資源的數字化成果。“增量檔案電子化”是通過業務系統生成并直接移交檔案管理系統的數據形式的電子檔案以及記錄管理過程的數據。
“治理”一詞較多出現在公共管理領域。從管理學視角,治理是多元主體參與管理事物,彌補單一或壟斷力量的不足。檔案數據治理是檔案部門、社會組織和公民等多元治理主體通過各種形式的合作,基于一定行動規則,共同對檔案數據的全生命流程進行科學、規范的管理,實現檔案數據善治的過程。在檔案數據管理中引入治理理論,提高檔案數據管理效率,彌補檔案部門在檔案數據化工作中的不足,創新檔案工作在大數據趨勢的應對措施,實現對檔案的善治。目前針對檔案數據治理的研究,主要從基本定義、治理主體、治理原因等理論方面進行闡釋,具體的檔案數據治理策略較少。當今大數據背景下檔案數據治理難題:
1.治理對象
檔案數據治理的對象主要是各種形式的具備檔案屬性的數據資源。其一,來源復雜。大數據已廣泛滲透到各領域,數據源眾多。根據數據性質分為,個人數據、政府數據、企業數據。社交媒體的廣泛使用,記錄個體社會活動的網絡行為數據不斷產生。隨著政務信息公開擴大,政務電子化進程加快政務數據不斷增加。電子商務進入“白熱化”企業在線交易過程中新的數據源源不斷產生。其二,結構復雜。大數據背景下,原生數據、衍生數據大量存在。其三,體量巨大。隨著信息化建設,檔案部門數字化和數據化進程不斷加快。截止2018年底,全國國家綜合檔案館電子檔案館藏達127.7萬GB。同時,隨著“大檔案”觀的提倡,除政務檔案數據外社交媒體、網頁產生的具備檔案性質的數據也逐漸納入檔案數據治理范圍中。
2.治理主體
大數據時代檔案部門難以應對信息成倍增長,公眾利用需求量和質量提高,不僅在于檔案部門的“勢單力薄”,也在其技術水平的限制。同時,檔案數據形成類型復雜、形成領域廣泛,僅靠檔案部門難以實現檔案數據的善治。治理理念強調“放權”、多中心化等,檔案部門在治理過程中積極納入多主體對檔案數據全生命周期治理,一方面增加了治理力量,另一方面治理主體眾多造成主體之間利益關系衡量、利益沖突在所難免。因此,協調各參與主體相關利益的平衡成為一項難題。
二、基于大數據生命周期的檔案數據治理策略
大數據生命周期是大數據從產生到銷毀或永久保存的整個過程,包括大數據產生、收集、組織與存儲、開發及大數據展示(利用)全過程。在大多數場景中大數據生命周期與信息周期相似。檔案數據的復雜性、來源的廣泛性等特征,在檔案數據生命周期的前端和后端實施科學的治理策略,保證檔案數據的“檔案”屬性,以便后期檔案數據價值的釋放。因此,基于大數據生命周期理論研究策略更符合檔案數據特點。
(一)檔案數據產生階段
1.轉變思維,確保檔案數據形成質量
理念先行。作為檔案的傳統保管場所檔案部門在對檔案數據治理中要轉變思維,改變“管理本位”觀念,梳理“治理”觀念。“管理本位”思維過多強調檔案部門對檔案的控制權,“治理”思維更強調“協同”。檔案部門作為傳統檔案管理部門,在協同治理中主要發揮主導作用,扮演“元治理”角色[11]。協同治理涉及主體眾多,當各方利益發生沖突時,統籌協調主體間的利益,促成主體之間跨系統、跨機構、跨領域的各種形式合作。承擔檔案數據治理政策、法規、標準的制定,規范檔案數據質量。檔案館作為檔案數據治理“后端”的重要力量,也需要在思維上作出轉變,積極向檔案數據“形成端”提供“檔案化”指導,保證“形成端”檔案屬性的完整。
2.擴寬收集范圍,擴大館藏數據資源構成
治理的目的在于服務社會滿足社會需求。擴大檔案數據收集范圍,增加對來自非行政性社會檔案數據收集,建設檔案數據資源體系為提高檔案公共服務能力提供資源支持。其一,強化地方特色檔案數據資源的收集。地方特色檔案數據資源是反映地方風土人情、民俗習慣等方面形成的具有保存價值的原始記錄,承載區域公眾社會記憶的重要載體[12]。特色檔案資源多以傳統形式存在,比如云南省傳統村落檔案多以實物檔案資源存在,對傳統形式特色檔案資源的數據化,可通過數字掃描和OCR文本識別工具實現傳統文本的數據轉化。安徽省建立專門的傳統村落信息管理平臺,該信息平臺基本實現所有有保護價值的全檔案建立和信息查詢[13]。在特色檔案數據資源收集過程中,檔案部門通過與地方建立的特色數據資源信息管理平臺進行系統對接,打破“信息壁壘”實現“一站式”檔案數據收集。其二,增加突發性公共事件檔案數據的收集。檔案來源于社會,服務于社會。突發性公共事件涉及社會每個成員,增加突發性公共事件檔案數據收集,為構建更完善、科學的社會治理體系提供支持。比如新冠疫情作為全球范圍的突發性公共衛生事件,檔案部門增加疫情檔案數據的收集,為未來突發性公共衛生事件提供借鑒。以色列國家圖書館開設了猶太新冠病毒檔案館,專門收集有關新冠病毒的照片、視頻、電子郵件等數字類材料[14]。目前中山大學和南京大學相繼建立新冠疫情專題網站,匯集疫情新聞以及宣傳疫情相關政策,但網站尚未開通個人用戶上傳功能,尚不能全面收集散落在個人手中具有保存價值的疫情檔案數據。
3.協同多主體收集,強化檔案數據收集力量。
治理強調多元主體的協同,在檔案數據收集階段各相關主體通過多種形式的合作實現檔案數據收集的廣而全,實現應收盡收。檔案數據治理除了檔案部門還涉及以圖博為主的文化事業機構,大數據局為代表的政府信息管理機構,高校、檔案學會等檔案研究機構,各類媒體,檔案服務企業,社會公眾[15]。各主體在檔案數據治理過程中發揮不同作用,檔案部門作為“元治理”主體,應積極發揮主導作用,督促各主體主動收集各類檔案數據。其一,密切官方權威機構關系。如圖書館、博物館權威機構保存了大量珍貴非物質文化遺產,近幾年檔案部門非遺檔案資源保護開發觀念提高,在收集非遺檔案數據時與圖博機構保持聯系,建立統一的資源共享平臺,實現資源共享。再如與大數據局合作聯通數據平臺,打破“信息孤島”,實現數據的一站式查詢。其二,協同檔案學研究組織規范收集政策標準。來源于不同領域的數據形成和記錄標準不統一,制定統一的檔案數據形成、記錄標準利于后期檔案數據的開發共享。檔案部門可協同檔案學研究機構探討檔案數據標準化,檔案數據收集政策。其三,借助媒體平臺宣傳收集政策。檔案部門可通過微博、微信公眾號宣傳收集政策,傳播檔案數據收集范圍、類型,提高公眾意識。借助抖音、快手、微視頻等社媒應用鼓勵用戶上傳自己擁有的檔案數據,比如非遺檔案數據的照片、視頻等。
(二)檔案數據的組織與存儲階段
1.引入數據組織技術,提高檔案數據存儲能力
從大數據生命周期看,本階段主要是對大數據進行數據的預處理,“清洗、填補、平滑、合并、規格化、一致性檢驗”等一系列操作,旨在提高數據質量,為后期分析工作奠定基礎。結合檔案數據性質,本階段是將從各種來源收集到的檔案數據進行檔案化處理,使檔案數據統一、有序,便于后期開發利用。大數據技術日益成熟,通過引入大數據技術,一方面能夠提高檔案數據處理效率,降低人工成本。另一方面應用大數據技術對檔案數據治理更確保檔案數據處理質量,比如在檔案數據的清洗工作中使用ETL工具能夠保證無效檔案數據不被存儲進數據庫。浙江省檔案館與科大訊飛合作,成功將人工智能核心技術運用到館藏聲像檔案的整理中,實現了視頻檔案的自動編目、自動著錄等,真正實現了檔案數據的智能化。目前對電子檔案的長期存儲技術應用主要包括區塊鏈、數據倉儲、云存儲等。區塊鏈技術的去中心化、過程可追溯、多機構協作機制等特點與檔案數據治理主體的多元化相一致,在多個節點共同的監督下某一節點無法對檔案數據進行篡改,從而實現檔案數據的完整性和真實性[16]。數字倉儲是一種通用性數據保存環境,可以將主題相關的各種文本、圖像、音頻、視頻等數據進行集中存儲[17]。云存儲技術主要用于檔案數據的備份保存。大數據技術能夠處理大數據海量、異構等復雜特點,檔案數據作為有價值、高質量的大數據更需要大數據技術的“推波助瀾”。
2.協同多主體組織,提高檔案數據組織質量
檔案數據資源來源廣泛,其數據源對檔案數據最為了解,在檔案數據整合階段協同形成主體整合能夠進一步保障檔案數據組織質量,便于后期的開發利用。打造多元主體的檔案數據組織體系,不僅提高檔案數據整合質量,還能促進后期檔案數據利用滿意度。其一,各類權威文化機構。形成主體對檔案數據最為了解,在檔案數據組織工作中協同形成主體有利于保證檔案數據元數據描述的完整性,保證檔案數據真實性。如少數民族檔案數據來源于少數民族,大部分分散在個人手中,檔案部門在對少數民族檔案資源進行組織過程中加強與少數民族文化保護機構聯系,搭建與少數民族文化保管機構共享的少數民族檔案數據庫,針對檔案數據的組織的相關標準、具體方法進行探討達成共識,打破檔案數據組織的“壁壘”。其二,社會組織。不同性質的社會組織在檔案數據治理過程中具有重要作用,比如以檔案理論研究為主的高校檔案專業,檔案部門與高校老師開展檔案數據元數據的著錄標準、內容等的研討,促進檔案數據組織的科學化。其三,社會公眾。社交媒體檔案數據資源普遍來自社會公眾,吸引社會公眾參與社交媒體檔案數據的組織更為合理。檔案部門借鑒成功經驗,探索公眾參與檔案數據組織的實現路徑,比如維基百科即支持用戶編輯詞條、貼標簽等操作。
(三)檔案數據開發與利用階段
1.借助數據分析技術,深入挖掘檔案數據價值
從大數據生命周期看,本階段主要是將系統組織后的檔案數據資源進行深度開發。其一,以深入文本內容為根本。檔案數據結構復雜多樣,借助大數據分析技術開發復雜的檔案數據資源,比如機器學習在對羅馬歷史檔案自動轉錄中的應用[18]。主題挖掘是文本挖掘的一種,對文本集合中文本特征項之間的關聯關系進行挖掘分析文本主題[19]。在對檔案數據進行文本主題分析中借助主題挖掘技術實現對專題檔案數據的全面分析,以便系統的檔案數據資源進行二次加工。其二,引入前沿科技提升體驗感,打造沉浸式體驗。AR、VR、全息影像、人工智能等技術打造情景式展示,使用戶感到檔案數據“活”起來了,沉浸在內容場景中。
2.多元呈現檔案數據,提供個性檔案數據服務
“共建共治共享”社會治理理念強調多主體對檔案數據的共同治理,促進社會公眾參與,回應社會不斷增加的檔案需求,提供精準化的檔案服務[20]。信息技術的發展滿足了社會公眾對信息生動性的要求,信息能夠以更加生動的形式呈現。其一,可以借助用戶分析技術面向各類利用者采集其利用偏好,為其提供個性化定制服務。如在非遺檔案資源的開發中以社交媒體對檔案用戶進行信息采集,了解其利用動機、利用偏好,基于分析數據構建用戶畫像為用戶推送個性化非遺檔案數據相關內容[21]。如對特色檔案數據資源可通過微信公眾號進行知識科普、前沿信息推送;對視頻動畫類檔案數據可借助視頻傳播平臺與目標用戶對接。其二,借助社交媒體平臺傳播民生檔案數據。民生檔案主題內容與公眾生活密切相關,其呈現和傳播通過大眾化形式和平臺能提高公眾曝光率擴大影響范圍,提高民生檔案利用率。當前各地已開通“一網通辦”平臺,但用戶對平臺適用范圍、功能不甚了解,檔案部門可以通過社交媒體平臺宣傳“一網通辦”平臺功能、使用方法,擴大影響力,提高平臺用戶瀏覽量。
參考文獻:
[1]國家檔案局.國家檔案局印發《全國檔案事業發展“十三五”規劃綱要》[EB/OL].(2016-04-06)[2021-05-21].https://www.saac.gov.cn/daj/yaow/201604/13520453b74a4146a5195adfbd0fa5b9.shtml.
[2]國家檔案局.檔案館(室)業務指導司2020年工作要點[EB/OL].(2020-03-04)[2021-05-21].https://www.saac.gov.cn/daj/ywgzdt/202003/276e5cf0f42042978dfae3065e6a28ab.shtml.
[3]國家檔案局.中辦國辦印發《“十四五”全國檔案事業發展規劃》[EB/OL].(2021-06-09)[2021-06-12].https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[4]常大偉.國家治理現代化視閾下我國檔案治理能力建設研究[J].檔案學通訊,2020(01):109-112.
[5]韓昊辰.中共中央總書記習近平在北京主持中共中央政治局第二次集體學習[EB/OL].(2017-12-09)[2021-05-21].http://www.gov.cn/xinwen/2017-12/09/content_5245520.htm.
[6]于英香.從數據與信息關系演化看檔案數據概念的發展[J].情報雜志,2018,37(11):150-155.
[7]趙躍.大數據時代檔案數據化的前景展望:意義與困境[J].檔案學研究,2019(05):52-60.
[8][9][10]金波,楊鵬.大數據時代檔案數據治理研究[J].檔案學研究,2020(04):29-37.
[11]楊鵬.善治視域下我國檔案治理路徑探析[J].浙江檔案,2019(10):28-30.
[12]鄒燕琴.社會記憶視域下地方特色數字檔案資源開發模式與路徑研究[J].檔案與建設,2018(07):13-16+20.
[13]安徽為千余個傳統村落建檔用數字技術“留住鄉愁”[J].城建檔案,2020(05):8.
[14]趙雪芹,鄧文慧.數字記憶視角下新冠肺炎疫情檔案收集研究[J].北京檔案,2020(10):7-11.
[15]周耀林,邵金凌,姚楚輝,張兆陽.利益相關者視角下的檔案治理研究[J].浙江檔案,2021(04):22-25.
[16]劉越男,吳云鵬.基于區塊鏈的數字檔案長期保存:既有探索及未來發展[J].檔案學通訊,2018(06):44-53.
[17]趙生輝,朱學芳.數字人文倉儲的構建與實現[J].情報資料工作,2015(04):42-47.
[18]楊建梁,劉越男.機器學習在檔案管理中的應用:進展與挑戰[J].檔案學通訊,2019(06):48-56.
[19]陳忻,房小可,孫鳴蕾.社會記憶再生產:北京香山紅色檔案編研成果的細粒度挖掘研究[J].山西檔案,2021(01):80-87+79.
[20]常大偉.國家治理現代化視閾下我國檔案治理能力建設研究[J].檔案學通訊,2020(01):109-112.
[21]孫大東,向曉旭.新《檔案法》規制下非遺檔案數據化管理策略研究[J/OL].山西檔案:1-8[2021-05-27].
作者單位:河北大學管理學院