——基于政府數據開放平臺的調查"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?唐長樂 王明明/上海大學文化遺產與信息管理學院
2 0 1 6 年,國家檔案局發布《全國檔案事業發展“十三五”規劃綱要》,提出“要制定檔案數據開放計劃,落實數據開放與維護的責任”[1]。2021年出臺的《“十四五”全國檔案事業發展規劃》,要求“加強檔案開放與政府信息公開的銜接,完善配套工作制度,推動檔案館定期通過網站或其他方式公布開放檔案目錄”[2]。目前檔案數據開放的理論研究主要集中在推進路徑、法律制定以及價值實現等方面,如馬海群[3]、陳展[4]提出了我國檔案數據開放的推進路徑;王協舟等[5]對英美法系國家檔案數據開放的學術文獻、法律與政策文本以及經典案例進行分析,得出對我國檔案數據開放的法律、政策、實踐等方面啟示;董聰穎等[6]則闡釋了政府數據開放背景下檔案數據價值實現的可行性。我國檔案數據開放的實踐剛剛起步,專門的檔案數據開放平臺更是寥寥無幾,依托政府數據開放平臺進行檔案數據開放是目前的主流方式。本文運用網絡調研法,以省級政府數據開放平臺為主要研究對象,分析政府數據開放平臺上檔案數據開放實踐過程中存在的問題,提出相應對策,以期為我國檔案機構推進檔案數據開放以及后續開發利用提供參考。
截至2021年4月底,我國已有22個省級地區(含省、自治區、直轄市)上線了數據開放平臺[7],本文以22個省、自治區與4個直轄市為初步調查對象,通過篩除檔案機構未參與數據開放的平臺(包括無法訪問的湖北省公共數據平臺),最終確定了北京市、天津市、重慶市、浙江省、河南省、貴州省、山東省、海南省、江西省、廣西壯族自治區的政府數據開放平臺為調查對象。
從數據數量、數據領域、數據規范、數據利用4個方面展開調查。(1)數據數量是檔案數據開放規模的體現,對數據數量的調查主要圍繞數據集總量、數據容量和API接口數展開;(2)數據領域是檔案數據開放主題內容的體現,對數據領域的調查主要圍繞政府數據開放平臺中檔案數據集的領域分類進行;(3)數據規范是檔案數據開放標準化的體現,對數據規范的調查主要圍繞數據集開放格式、數據集和數據接口開放權限進行,主要分析這些檔案數據的可讀性和可獲得性;(4)檔案數據利用是檔案數據開放的最終目的,通過挖掘和分析檔案數據,實現檔案數據的再利用,可以提升檔案數據價值,發揮檔案機構在政府開放數據開發利用中的獨特作用。對利用情況的調查主要從檔案數據集下載量以及應用成果兩方面進行。
本文采用網絡調查法,通過逐一訪問10個省級政府數據開放平臺,圍繞數據數量、數據領域、數據規范和數據利用四個設定的內容進行信息收集,并在此基礎上進行整理統計,方便進一步分析檔案數據開放現狀,并歸納提煉相應的問題。
截至2021年10月,各平臺中檔案機構提供的檔案數據數量如表1所示。其中,數據集總量是可以訪問的數據條目總數,調查發現,各省政府數據開放平臺上檔案館提供的數據集總量有較大差異,最多的達25個,最少的只有1個。浙江省檔案館開放的數據集最多,而江西省檔案館沒有開放數據集,僅發布了一個API接口。數據容量是一個數據集內的記錄總數,調查發現,浙江省提供的檔案數據容量最大,有171.65萬條,北京市提供了82.1萬條,山東省提供了12.67萬條。API接口是應用程序編程接口,是一組定義、程序及協議的集合,通過API接口可以實現計算機軟件之間的相互通信,包括條件查詢接口、數據交換接口等。調查發現浙江省提供的API接口最多,有25個;而廣西、天津、重慶雖開放了數據集,但均未提供API接口。此外,本文還對數據集和API接口數進行了館藏資源類和行政業務類的分類數量統計。調查發現,浙江省、貴州省提供的全是館藏資源類數據,山東省和北京市提供的也多為館藏資源類數據,而河南省、天津市提供的全部是行政業務類數據。

表1:省級地區數據開放平臺中檔案機構提供的檔案數據數量
《全國檔案事業發展“十三五”規劃綱要》明確提出“優先推動與民生保障服務相關的檔案數據開放,積極探索助力數字經濟和社會治理創新的檔案信息服務”[8]。調查發現,在數據涉及的主題領域,各省檔案機構開放的檔案數據主要集中在歷史文化領域,如民國、清代、新中國成立后的各類歷史專題數據等,較少涉及檔案事業“十三五”規劃提倡優先開放的民生保障服務領域。如浙江省政府數據開放平臺在“開放數據”欄目下還專門設置了“歷史數據集”類目,其中檔案館開放的歷史數據集相較于其他政府機構在數量上遙遙領先,其內容主要包括浙江清代官員履歷、黃埔軍校同學錄、浙江省糧價單等;另外,開放的檔案數據不僅僅是數據化加工后的館藏資源類數據,還包括檔案機構在業務活動中產生的管理類數據。相較于館藏資源類檔案數據,數據開放平臺上開放的行政業務類檔案數據涉及的主題較為多樣,包括信用服務、科技創新、生活服務、機構團體、文化休閑等,如各省檔案局科技項目計劃、檔案執法檢查監督、檔案服務企業備案公告數據等。
數據開放格式的規范化要求盡量采用透明度高、機器可讀的數據格式,以便發現和驗證數據,并確定數據分類和建立數據目錄。調查發現,目前各省數據開放平臺沒有限制數據開放格式,提供了XLS、CSV、XML、JSON等可機讀格式。其中,天津市、海南省和廣西壯族自治區的檔案機構只提供了XLS格式,而浙江省、河南省、山東省的檔案機構提供的檔案數據格式比較全面,除了XLS、CSV、XML、JSON格式外,還提供了RDF格式,便于應用程序跨數據目錄自動查找和選擇數據集。個別省份還存在PDF格式的文件,如廣西檔案館提供的數據集中有4個都是查閱信息類的PDF文件。嚴格來講,這類文件不屬于原始數據,不利于通過各類數據分析和處理軟件進行開發利用。在開放權限上,大多數平臺無條件開放的檔案數據都需要登錄才可以下載,只有山東省可以直接下載無條件開放的檔案數據。另外,接口的開放權限大多需要登錄或申請才可使用,只有貴州省完全開放數據接口,訪問接口地址就可查看到詳細內容。
調查發現,目前各省平臺都缺乏以檔案機構為數源單位開發的應用成果,也無法了解這些檔案數據具體的利用方向,平臺上僅僅顯示瀏覽量與下載量。為此,本文以數據下載量為主要評估標準,結合瀏覽量、更新頻次與最近更新時間,分別篩選出了一些優質館藏資源類檔案數據集和行政業務類檔案數據集,具體如表2所示。可以看出,浙江省檔案館提供的館藏資源類數據集數量多,下載量高;山東省和河南省提供的行政業務類檔案數據更新頻次更高,下載量也都超過100。這些檔案數據是較為優質的資源,從側面反映了檔案數據的利用價值,值得其他省份學習借鑒。

表2:省級地區數據開放平臺檔案機構提供的優質檔案數據集示例
對數據數量和數據規范進行調查可以發現,各省檔案機構在政府數據開放平臺開放的檔案數據數量相差較大、數據規范不統一,其反映的深層次問題正是我國檔案數據開放相關的頂層設計與標準規范的缺失。
實際上,優質的頂層設計和統一的標準規范能夠為法規政策的執行提供保障,并減少試點和重復實踐的成本。在近年全球數據開放浪潮的影響下,我國開始重視政府數據開放的頂層設計,推出政府數據開放相關的政策標準。2015年國務院發布的《促進大數據發展行動綱要》要求“建立政府數據統一開放平臺”“構建電子健康檔案,加強數字圖書館、檔案館等公益設施建設,構建文化傳播大數據綜合服務平臺”[9],突出了頂層設計的重要性,并表明了檔案館在大數據服務中的重要性,特別是文化類數據服務平臺的建設離不開檔案機構的參與。在此背景下,我國檔案部門也在2016年發布的《全國檔案事業發展“十三五”規劃綱要》中強調要制定檔案數據的開放計劃,落實數據開放與維護的責任。
遺憾的是,自此之后我國在國家層面沒有進一步深化檔案數據開放的頂層設計,相關的規劃和標準規范也一直沒有出臺。在地方層面上,有些省份意識到了檔案數據開放頂層設計和標準規范的重要性。如浙江省將檔案數據開放融入數字政府的框架,將檔案數據服務融入數字化改革,在2016年出臺的《浙江省促進大數據發展實施計劃》提出“推進檔案大數據聚合,完善檔案數據共享開放標準,促進檔案數據通過浙江政務服務網向社會開放共享”[10]。而其他省既沒有將檔案數據開放融入政府數據開放的相關政策規范中,也沒有提出檔案數據開放的具體標準與規劃。
對數據規范、數據發布單位進行調查可以發現,其反映的深層次問題是檔案機構的檔案數據開放認知與意識不足。一方面,檔案機構對檔案信息公開和檔案數據開放的認知不足,對兩者的區分界線不清。從對數據規范的調查來看,部分檔案館在數據開放平臺上提供了僅可查閱相關信息的PDF文件,而沒有深入數據層面,提供更多可供分析挖掘的原始數據文件。可見,目前不少檔案機構還是通過延續信息公開的方式進行檔案數據開放的。另一方面,檔案局和檔案館參與檔案數據開放的資源意識不足,各自的數據資源定位不清晰。從對數據發布單位的調查來看,檔案局、館都有發布館藏資源類數據和行政業務類數據。如,山東省檔案局在山東公共數據開放網上不僅發布了山東省檔案局科技項目計劃明細表這類行政業務類數據,還發布了山東省珍貴檔案文獻遺產名錄這類館藏資源類數據。而如今檔案局、館已經分設,檔案館作為收集保管重要檔案資源的機構應優先提供反映檔案資源特色的館藏資源類數據,而檔案局作為檔案行政管理部門應優先提供能夠反映檔案工作和檔案事業發展的行政業務類數據。
從對開放的檔案數據的數據量、字段、格式的調查可見,各省在政府數據開放平臺開放的檔案數據質量參差不齊,存在著數據容量低、數據字段少、數據格式不規范等問題。(1)數據容量低主要體現為存在過多記錄條數僅為兩行或兩行以內的低容量數據集。如天津市檔案局開放的“天津市被評為全國中小學檔案教育社會實踐基地的檔案館名單”這一數據集僅有兩行數據,數據量較少,價值密度較低。(2)數據字段少也是目前開放的檔案數據存在的普遍問題。如“天津市被評為全國中小學檔案教育社會實踐基地的檔案館名單”這一數據集,僅有“單位名稱”“單位地址”“聯系電話”三列數據字段。“浙江清代官員履歷信息”也僅有“籍貫”“年代”“數據編號”三列數據字段,不少網友還在該數據集下留言,反映這些數據字段不全,數據價值沒有充分發揮。(3)數據格式不規范也是目前檔案數據開放的常見問題。首先數據開放平臺應盡量發布標準的結構化文件,如CSV、XML、JSON、XLS、XLSX等,以提高開放數據資源的機器可讀性和軟件兼容性,一般不提倡以PDF文件、網頁或圖片等格式發布數據文件。然而,從調查來看,廣西檔案館提供的“政府公開信息查閱服務信息”“檔案查閱利用服務信息”“歷史檔案編輯研究信息”“檔案開放鑒定信息”等都為PDF格式,無法以“數據態”的形式進行數據挖掘,或供分析軟件讀取。此外開放格式并沒有做到全覆蓋,海南省、廣西壯族自治區和天津市提供的數據格式單一,僅提供了XLS這一種數據格式,不便于利用者基于不同的軟件工具對數據進行多樣化的開發利用。
在全球政府數據開放浪潮中,檔案的開放程度正由公開信息延伸到更加細粒度的開放數據。歐美不少國家都進行了檔案數據開放相關的頂層設計與相關標準制度建設。如美國國家檔案與文件署(NARA)在《開放政府計劃4.0 2016—2018》(Open Government Plan Version 4.0)中明確提出將NARA的歷史檔案與現行業務文件以開放數據的方式提供,并為其目錄開發相應的API,在Data.gov政府數據開放平臺發布[11];2016年俄羅斯聯邦檔案署發布《2018年前俄羅斯聯邦檔案署貫徹和實施開放機制計劃》,提出實施信息透明原則,在俄羅斯聯邦檔案署網頁和俄羅斯政府開放數據門戶上開放27類檔案數據集[12],并在《2017—2022年俄羅斯聯邦檔案署工作計劃》中進一步提出保持數據集更新的要求[13]。我國檔案數據開放的實踐晚于很多歐美國家,還處在信息公開階段。為了促進檔案數據開放,我國應借鑒國外和我國一些地方的法規政策和典型案例,如設置檔案數據開放的專門研究機構和推進部門,完善檔案數據開放的頂層設計,制定明確具體的檔案數據開放計劃和數據開放指標;另外,要健全檔案數據開放的標準制定,對數據集和數據接口的開放種類、開放格式、開放權限作出統一的規定。
政府數字化轉型背景下,檔案數據開放不僅是檔案工作數字化發展的必然趨勢,也是檔案機構創新檔案服務的重要舉措。檔案機構應該積極融入,找準自身在政府數據開放進程中的定位。檔案機構應將自身作為重要的信息管理部門和公共服務部門,明確責任和義務,整合有特色、高質量的檔案數據集,發布到政府數據開放平臺上,并參與指導檔案數據的價值挖掘和開發利用;此外,檔案機構要樹立“開放”理念、培養“數據”思維,在實踐中對檔案信息公開和檔案數據開放進行明確區分,不能延續信息公開的方式進行檔案數據開放。另外,政府數據開放平臺中檔案數據的發布者也應明確區分,檔案館和檔案局應結合自身檔案數據資源特點選擇優先開放的數據類型。如,檔案館可更多地提供特色館藏類檔案數據,以便利用者能夠利用數據分析技術深入挖掘特色檔案內容;檔案局可提供反映檔案機構行政業務相關的管理類檔案數據,以便利用者能夠通過數據分析和挖掘,從不同維度了解檔案工作和檔案事業的發展狀況。
目前許多平臺檔案機構開放的檔案數據質量不高,存在許多問題數據與低容量數據。檔案數據的價值難以被有效挖掘,利用效果不佳。雖然國內貴陽、浙江等政務服務平臺已開設了數據糾錯與回復功能,但更多依靠利用者的主動參與反饋,無法及時有效幫助檔案機構發現數據質量問題。為此,檔案機構應與平臺方合作,數據開放平臺可以參照歐盟在平臺嵌入開放數據監測器以監測和評估數據集。另外,檔案機構應加強檔案數據開放之前的數據質量監管。首先,要剔除價值密度低的數據,優先開放需求量較高、開放條件好的檔案數據集;其次,要應用統一的元數據標準規范對檔案數據集進行描述,并提供兼容性強的開放格式,確保不同的數據分析軟件能夠有效讀取檔案數據;再次,在提交檔案數據前可引入數據清洗技術,解決重復創建、數據冗余等問題;最后,還應配備專職人員檢查這些待開放數據,保障數據質量過關后再上傳至政府數據開放平臺。