舒怡嫻 王思琪 熊小芳 代林序
(1.華中師范大學信息管理學院,湖北武漢, 430079;2.復旦大學文獻信息中心,上海, 200433;
3.四川大學公共管理學院,四川成都, 610064;4.中國人民大學信息資源管理學院,北京, 100872)
我國于2015 年發布的《促進大數據發展行動綱要》指出,要大力推動政府部門數據共享,穩步推進公共數據資源開放。此后,國家及地方陸續發布政務數據、公共數據共享開放的專門政策,推動并引導實踐發展。檔案界也積極響應并參與到政府數據開放行動中,于2016 年和2021 年分別發布的“全國檔案事業發展五年規劃”文本中也強調了檔案部門要制定檔案數據開放計劃,完善配套工作制度。北京、福建、海南等各省市明確將檔案數據資源建設和開放寫入自身的“檔案事業發展五年規劃”中。政府開放數據行動開展至今,我國檔案部門參與數據開放的進展情況、發展方向等問題日益引起關注,有待通過全面調查獲得解答從而推進行動優化。
研究層面,已有學者圍繞檔案部門參與政府數據開放行動的現狀展開調查[1-3],但總體而言相關研究成果較少,仍存在較大探索空間,例如調查維度可以更全面、系統,調查對象的范圍可更加廣泛。目前我國檔案部門參與政府數據開放行動主要依托政府數據開放平臺,因此針對政府數據開放平臺的調查研究與檔案數據開放研究是相關的兩個研究領域。政府數據開放平臺的調查研究主要從平臺構建、平臺數據、平臺用戶三方面展開[4-6],涉及到平臺相關的政策法規、在線服務功能,平臺內的數據接口、數據質量、數據應用,以及用戶的價值感知、滿意度測量、互動等諸多方面。檔案數據開放研究主要從兩方面展開,在管理層面探討檔案數據開放的宏觀架構、制約因素以及如何落地等問題[7];在人文層面聚焦數據倫理、個人隱私等規則[8]。綜上所述,目前針對我國政府數據開放平臺的調查較為全面翔實,但缺少對于檔案這類特定領域的垂直調查,易因整體情況而掩蓋局部問題;而針對檔案數據開放的研究雖涉及法律法規分析或開放平臺調查,但相對而言較為粗略。由此可見,作為檔案部門參與政府數據開放行動的空間基礎和內容基礎,政府數據開放平臺和檔案數據開放在現有研究中的融合度依然不夠,在指標構建的系統性方面仍存在較大提升空間。
綜上,為更加全面系統地了解現階段我國檔案部門參與政府數據開放行動的情況,本文對23個省級和副省級政府數據開放平臺展開調查,以期反映當下問題并提出優化策略。
開放政府數據強調兩個層面的含義:一是公眾利用數據的基礎,重心在于“開放”,即政府數據本身應具有及時性、全面性、可訪問性、可用性、可比性和互操作性等基本要求;二是公眾利用數據的成效,重心在于“利用”,側重于數據開發利用的效率及其產生的經濟與社會價值。同時,配套的政策法規對行動的實施具有一定的指導作用,能夠更加規范地促進檔案部門在政府數據開放行動中的效能提升。因此,本文將調查框架的一級指標設置為三個板塊:政策環境、數據基礎、數據利用。
政策環境部分,因預調查發現各地明確針對檔案部門參與政府開放數據行動的政策較少,故從檔案開放、檔案數據化兩方面進行補充調查。結合上述兩類政策的制定情況,綜合判斷各地是否有鼓勵、計劃、執行檔案部門以數據形式開放檔案的實踐趨勢或規劃,從而分析政策支持程度。數據基礎和數據利用部分的指標設定主要參考開放數據學院與萬維網基金的“全球開放數據晴雨表”[9]、鄭磊及其團隊的“中國開放數林指數”[10]等已有的政府開放數據評估體系以及部分文獻,具體調查框架見表1。

表1 檔案部門參與政府數據開放行動指標框架
在此基礎上,本文從我國省級行政區域和副省級城市中篩選出可獲得有效數據的23 個政府數據開放平臺作為調查對象,在訪問各平臺統計相關指標的觀測值的基礎上,通過北大法寶法律數據庫、國家檔案局政策法規庫、中國政府網、各省(直轄市)政府官網、各副省級以上檔案部門官網及網絡搜索引擎收集相關政策文本進行分析研究。
目前我國檔案部門參與政府數據開放行動的相關綜合性政策較為完善,在行動指南和行動基礎層面均有覆蓋且具備一定創新性。本文共收集到39 份檔案開放相關的政策文本和17 份檔案數據化相關的政策文本,其中22 個地區均發布了包含檔案開放的相關政策,同時已有12 個地區陸續推進檔案數據化相關政策,見表2。從行動指南層面看,各地在檔案事業整體發展規劃中明確檔案開放任務,在檔案管理規范中初步提出檔案開放原則及要求,并系統制定檔案開放實施細則,三大工作方向的地區覆蓋率(涉及地區/地區總數)分別為65%、39%、65%,部分地區更是緊跟大數據浪潮,強調新興技術的應用,如《浙江省檔案事業發展“十四五”規劃》等強調應鼓勵大數據、人工智能等技術在檔案開放工作中的創新應用,提高檔案開放服務智能化、高效化、精準化水平。從行動基礎層面看,現有的檔案數據化政策在推進檔案數據資源建設、規范檔案數據資源管理、促進檔案數據資源開放共享等方面提供了一定指導,例如《江蘇省“十四五”檔案事業發展規劃》面向地域特色文化的傳承與宣傳,明確提出整合重要人物、名鎮名村、方言語音等檔案數據資源,構建檔案記憶庫;《北京市“十四五”時期檔案事業發展規劃》提出依托政務數據匯聚共享平臺或者協同建設檔案數據共享中心,實現各級各類檔案館數據資源的互聯互通,促進檔案數據在政務服務、城市治理等領域的應用等。然而,當前仍缺少檔案部門參與政府數據開放行動的配套政策,在政策的數量、質量和針對性方面均存在較大完善空間。

表2 各地政策內容覆蓋情況
一方面,國內檔案數據開放相關政策數量較少,法律法規的支撐較弱。雖有上位類法律法規供為參考,但由于檔案數據本身具有一定特殊性,開放的標準也應與其他類型的數據有所不同。在開放的過程中缺乏專門的政策作為支撐,易造成檔案數據開放工作推進困難的局面。另一方面,檔案數據資源開放的針對性政策仍不充分。數據時代的來臨,促使檔案數據資源開放逐漸嵌入檔案工作的具體內容,但目前有關檔案數據資源開放的政策規范大多基于跨部門的共享利用業務需求展開,鮮有政策立足于檔案開放利用的場景。而檔案開放利用的針對性實施辦法,除國家層面于2022年7 月發布的《國家檔案館檔案開放辦法》外,還尚未在地區層面推出,且其中的內容并非面向檔案數據。針對性政策的欠缺不利于形成持續的檔案數據資源開放運行機制,因此為推進檔案數據開放工作日趨規范化和標準化,檔案數據資源開放的頂層設計亟待完善。
目前我國檔案部門參與政府數據開放行動中數據基礎建設的總體數量較為可觀,基本的數據屬性得到了有力保障。從全面性上看,各地共開放API數量達127個,開放數據集達308個,類型主要集中在歷史領域,如民國、清代、新中國成立后等不同時期的歷史檔案專題數據,古籍檔案、家譜檔案、地方志檔案等特色專題檔案數據集,以及少部分檔案部門在業務活動中產生的管理類數據集,各數據集均提供了標題、關鍵詞、更新日期這三類基本的元數據條目。從可獲取性上看,70%的平臺在用戶注冊登錄后均可直接下載數據集,批量獲取的覆蓋率已達34%,所有開放的數據集均無需付費。從可用性上看,絕大部分地區包含了對全民無條件開放的檔案數據資源,各地平臺在數據格式上也已基本實現XLSX、CSV的全覆蓋,同時部分地區還提供JSON、XML、RDF等格式下載。然而,各地的檔案數據資源建設水平仍呈現出較大差異,在檔案數據的開放質量、檔案數據的價值實現等方面仍存在問題。
一是檔案數據的開放質量參差不齊。一方面,各平臺能夠檢索到檔案部門開放的數據集和API在數量上差距較大,在發展上具有不平衡性。另一方面,開放平臺現有檔案數據資源的類型仍較為單一,部分地區平臺上的檔案數據全部為歷史類,而部分地區平臺上的檔案數據全部為業務類,因此檔案數據可在主題與要素上作進一步拓展。
二是檔案數據的價值實現受到制約。目前檔案數據的關聯性仍有待加強,從互操作性的調查結果上看,僅有26%的平臺為數據的關鍵元素提供了唯一資源標識符(URI),要求所有參數均需進行URL編碼,同時編碼時遵守RFC1738。URI的缺失不利于檔案數據的規模化使用。這與開放環境下要求的規范化和標準化仍有一定差距。同時,各平臺檔案部門開放的數據集更新頻率仍較為緩慢,從及時性上看,更新頻率一年一次的占比高達74%,每日更新的僅有重慶市、海南省、哈爾濱市、廣州市。對于需要定期更新的業務類數據,仍有部分平臺未按其承諾的更新頻率對數據集進行更新。這不利于用戶對有關數據的后續利用與跟進,在一定程度上制約了檔案數據價值的充分發揮。
目前我國檔案部門參與政府數據開放行動中,數據利用的技術體系較為完備。平臺上的數據集能夠獲得的平臺支持比較充足,21 個平臺為用戶提供了對政府開放數據的分析與可視化功能,其中浙江省更是推出了“數據圖譜”;數據糾錯和意見反饋渠道也已基本實現各地全覆蓋,這也為檔案部門所開放數據集的利用提供了良好技術支撐。然而,數據利用的“軟實力”并未得到提升,不論是對平臺功能的使用,還是對于數據集的應用推廣,均呈現出疲軟態勢。
一是平臺針對檔案數據缺少互動反饋。數據糾錯板塊的設置雖具有一定的互動交流功能,但各平臺上鮮有用戶對檔案數據的糾錯或檔案部門給予的回復,使得這一功能頗似一個“空殼子”。同時現有平臺互動方式多為單一用戶與平臺之間的交互,針對檔案數據缺少各方的互動反饋,群體智慧發揮不足,對檔案開放數據的利用易造成限制。
二是檔案部門在平臺上所開放數據集的應用與推廣強度較弱,且各地差異較大。浙江省拔得頭籌,其數據集的瀏覽量和下載量最高,分別為323545 和10701,但其他絕大部分地區的瀏覽量和下載量均未過萬。同時,檔案數據資源公開的優質應用與推廣成果仍較為匱乏。除了浙江省使用浙江歷史名人庫開發了“游在浙江”平臺,山東省第二屆數據應用創新創業大賽中使用了山東高校生源綜合素質評價檔案數據外,再無檔案數據集的其他應用案例。這可能與檔案開放數據類型覆蓋面單一、檔案部門的推廣意識與能力欠佳等問題存在一定關聯,制約了檔案數據的有效盤活與應用。
在政策的制定上可參考政府數據開放的相關政策標準進行頂層設計,協同構建檔案數據開放政策的總體目標,明確檔案數據開放的責任主體與職責權限,統一檔案數據開放的標準與尺度。
一是檔案部門應與政府部門協同推進政策措施,形成多元主體間的合作模式。在權責劃分上應找準角色定位,明確自身作為政府數據開放行動執行者的身份,積極發揮自身專業特色,在保證檔案開放數據的真實性、可靠性、完整性、可用性等方面提供更多專業策略與方法,積極參與檔案數據開放的安全與質量監管、檔案數據開放的權利與保護機制等相關政策的建構與完善。
二是檔案部門應統一檔案數據開放規范并推進其標準化地工作,在檔案數據開放主體、分級分類、開放重點、開放需求等方面制定更多實施細則,通過科學的制度設計為檔案開放數據資源的規模化與標準化建設奠基,從而保障檔案數據在政府數據開放平臺上的安全有效。
各地檔案部門應積極打造“人工智能+檔案”新標桿,夯實數據基礎。一是加強檔案開放數據的規模化建設,可以引入人工智能技術中的模式識別技術和信息抽取技術,通過基于深度學習算法的OCR技術對檔案進行文字的識別和抽取,提高紙質檔案轉化為檔案數據的效率與準確率,批量擴充檔案開放數據的數量、豐富檔案開放數據的類型,從數據基礎層面為政府數據開放行動提供規模化保障。
二是加強檔案開放數據的標準化建設。檔案部門應不斷提升對檔案開放數據質量的把控效果,同時借助多種技術手段增強檔案開放數據的可關聯性、可溯源性。[11]例如可以通過智能算法框定檔案數據結構,檢測檔案數據質量。尤其對于具有較高價值的檔案數據集,檔案部門可采用數據挖掘技術、知識圖譜等對其進行更多探索,使檔案開放數據具有更強的可用性與互操作性,從而更好發揮檔案開放數據輔助檔案部門科學決策或開展相關工作的價值。
三是要增強檔案開放數據的可理解性。例如在檔案開放數據的互動反饋中,有用戶提及部分字段不全的問題,但經管理員考證,未開放字段是源于檔案數據自身具有的保密性等特質。據此,一方面可以積極采用可逆脫敏、混合脫敏等數據脫敏技術對敏感部分進行隱蔽遮擋,盡可能多地展現字段的內容,以增強用戶對數據的完整性感知;另一方面,可以對檔案開放數據補充更加全面完善的解釋說明,充分考慮到社會公眾對檔案數據的認知程度,通過完善數據的背景信息增進用戶對檔案開放數據的理解與認識。
四是要提高檔案人員自身的技術意識與資源意識,深刻認識前沿技術對檔案數據資源建設的賦能效果,融入政府開放數據浪潮,充分學習人工智能、大數據、區塊鏈等技術,拓展計算機與數據科學領域的知識,不斷提升深度挖掘檔案開放數據的能力,主動參與到檔案開放數據資源的建設中來。
為促進檔案開放數據的社會化利用,一是要增強對公眾需求與用戶體驗的關注,提高檔案開放數據服務質量。檔案部門要積極開展用戶需求調查,接受社會各方的反饋意見,了解公眾需要的檔案數據形式和內容,從而依托評估結果,優先開放高價值和大需求量的檔案數據,并開發出更符合利用者需求的檔案數據應用成果,激活檔案開放數據的社會價值。同時,可以通過提供交互式檔案數據服務,實現公民需求與檔案部門之間的耦合互動。
二是要拓寬檔案開放數據的應用渠道,增強對檔案數據利用的引導性。檔案部門可以在開放平臺上設計一些檔案數據的應用案例進行推廣,或提供一些指導性的工具、手冊,闡明檔案開放數據的利用方式和可行性實踐場景。此外,可以在開放數據應用創新競賽中運用更多檔案數據作為案例或定向數據集,對檔案開放數據資源進行推廣與宣傳,凸顯檔案數據的多元價值,創新檔案開放數據的利用形式。
三是要潛移默化地培養社會公眾的檔案數據意識,提升公眾的檔案數據素養。可以通過定期舉辦數據素養教育活動倡導社會公眾主動學習檔案數據開放相關知識,積極宣傳檔案開放數據的價值與意義,培養公眾了解、搜集、評估和利用檔案開放數據的能力。