周文泓 陳淑涵 黃思詩/四川大學公共管理學院
計算檔案學被視作檔案學科融入數字轉型的重要發展方向,具有廣闊而繁雜的建構空間,在國內外已形成一定規模的探索力量。其中,檔案學術機構的高度參與是應對計算檔案學建構難度的重要策略。如馬里蘭大學、倫敦國王學院、英屬哥倫比亞大學等高校的信息學院均是計算檔案學的重要研究力量,不僅由理論端逐步豐富計算檔案學的認知與方法內容,而且成為計算檔案學實踐中不可或缺的協作主體。這些行動顯示了計算檔案學由誰建構、如何建構、建構出什么等多方面內容,其中邏輯、策略與經驗有待梳理、解析與提煉。在檔案學科應用屬性顯著的背景下,長期以來檔案學術機構被倡議應更加參與實踐以建構出更具可行性與見解的理論[1],這在計算檔案學的情境中也得到體現,如我國同計算檔案學相關的電子文件單軌制[2]、檔案數據治理[3]等議題也十分關注檔案學術機構作為專業方的輸出和指導。然而現有研究未能充分說明檔案學術機構在構建計算檔案學中有著怎樣的參與定位和策略。
因而,本文以馬里蘭大學信息學院為例,明確其是如何參與、引領計算檔案學構建,以此提煉檔案學術機構的參與要點和關鍵事項,從而有效理解檔案學術機構參與計算檔案學構建的方法,以推進計算檔案學的系統建構。
馬里蘭大學信息學院是美國信息科學領域一流的研究學院,以探索大數據背景下計算方法與檔案實踐的結合為宗旨,以計算檔案學為其專攻方向之一[4],通過建立協作組織、開展合作研究、實施教學性實踐項目等深入參與計算檔案學這門新興學科的孕育、成型、發展等過程。
一是向內聚集,組建小型共同體。在計算檔案學的研究中,馬里蘭大學信息學院自身作為小型學術研究共同體,以學院下設研究中心和實驗室為平臺依托、由師生研究團隊為共創主力組成。馬里蘭大學信息學院下有各個專業性質的研究中心和實驗室,師生以項目為單位開展計算檔案學理論與實踐的探索。其中,檔案未來中心(Center for Archival Futures,CAFe)致力于用以人為本的方法構建技術層面的系統、流程、機構,明確對未來數字化檔案與數據的使用和維護,推動研究人員、學生和行業專家一道開展研究項目、體驗式學習、示范項目及其他活動[5]。數字策展創新中心(Digital Curation Innovation Center,以下簡稱DCIC)則聚焦跨學科項目,探索數字資產的篩選、保存、維護、收集和存檔等相關問題,為檔案學的數字化研究提供新動力[6]。DCIC同樣融合師生參與項目,協助政府機構、學術機構、企業等應對檔案和信息管理方面的挑戰。
二是向外延伸,構建大型共同體。馬里蘭大學信息學院以開放包容的心態、共同發展的愿景謀求廣泛合作,先后作為主要力量參與構建面向全球的眾多大型研究共同體。如2019年,DCIC為促進21世紀計算檔案學的發展,與倫敦國王學院數字人文系、馬里蘭州檔案館和英國國家檔案館共同開啟了為期一年的計算檔案學國際研究合作網絡[7],重點探討計算方法和工具如何應用于檔案問題及如何將“計算思維”與“檔案思維”相結合。又如馬里蘭大學信息學院教授Richard Marciano等研究人員為進一步擴展計算檔案學合作,聯合構建了高級信息協會[8](Advanced Information Collaboratory,以下簡稱AIC)。AIC是一個由遍布五大洲的檔案管理人員組成的國際性合作網絡,致力于實現計算與檔案的多學科合作、跨領域共享。為謀求計算檔案學的跨學科發展與實踐進步,AIC于2020年聯合發起一項融合人工智能、機器學習和計算檔案學的倡議:未來檔案與文件管理(Future of Archives and Records Management,FARM)[9],通過研究計算手段應對檔案和文件管理面臨的機遇與挑戰,進而提升研究人員的計算思維與能力。值得一提的是,DCIC已于2020年5月并入AIC[10],一定程度上體現出共同體由內向外的延伸趨勢。
一方面,馬里蘭大學信息學院的合作關系觸及各領域各層面,建立了緊密的合作網絡。目前,馬里蘭大學信息學院已與NARA、美國國家公園管理局(National Park Service,以下簡稱NPS)、美國國家農業圖書館(National Agricultural Library,NAL)等多家國家機構開展合作項目,幫助其處理館藏檔案材料,促進對文獻資源的研究和利用。如,NPS聘請一支由馬里蘭大學信息學院師生組成的團隊處理NPS的官方資源管理記錄以及各地的NPS站點所捐獻的檔案和手稿藏品,促進其對資源的管理和研究[11]。此外,馬里蘭大學信息學院的實踐網絡還觸及社會各方面。如其與馬里蘭大學大衛·德里斯凱爾藝術中心協作,眾包轉錄藝術家大衛·德里斯凱爾的文獻為其創建數據集[12];與杰拉爾德·馬蒂醫生合作建立慢性淋巴細胞白血病病例檔案社區,并收集與該疾病研究相關的歷史資料[13]。
另一方面,合作網絡的建立需要基于各方優勢形成的跨領域有效協同。在數據資源建設方面,馬里蘭大學信息學院的數據來源合作方眾多。NARA、馬里蘭州檔案館等圖檔博機構提供館藏檔案和歷史記錄,馬里蘭大學信息學院利用材料開展基于計算思維的、運用計算方法的數字處理,如馬里蘭大學信息學院與馬里蘭州檔案館奴隸制遺產項目組達成合作關系,參與數字化馬里蘭州黑人奴隸制檔案,并探尋更精密且人性化的計算方法挖掘黑人奴隸制檔案中未被發現的歷史與故事[14]。技術開發與應用上,馬里蘭大學信息學院與伊利諾伊大學美國國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)是穩定的合作伙伴,多項項目均在NCSA技術支持輔助下開展,如美國陸軍穿孔卡閱讀項目就借助了在NCSA之下開發的數據轉換工具Brown Dog提供的網絡級API來提取穿孔卡文件中的數據[15]。此外,合作過程中還得到了來自不同領域的視角與專業支持。如,檔案館的數字策展和機器學習實驗項目便與羅斯福總統圖書館和博物館(FDR Library and Museum)的研究人員、工作人員協作開展[16];奴隸制遺產項目的主導團隊除圖書館與信息科學碩士生外,還吸納了IT、歷史、藝術史等不同專業背景的研究生,提供多學科視角[17]。
基于其科研與教學定位,馬里蘭大學信息學院將計算檔案學建設充分融合于科研教學活動中,開展一系列計算檔案學項目。
1.3.1 二戰中日裔美國人監禁營地文件的計算處理項目[18][19]。學院教學科研人員帶領學生團隊對監禁營地文件進行一系列計算處理,包括運用計算語言分析方法檢測文件中的個人可識別信息(Personal Identifiable Information,PII)、開發形成姓名登記表、設計受控詞匯表實現文件索引卡內“事故”類別的標準化并在此基礎上整合重要文件、繪制事件和人物地圖、利用圖形數據庫Neo4j建立事件與人物的關聯。
1.3.2 城市重建數據的數字策展項目[20]。在學院師生團隊主導下建立大數據平臺,保管并數字化北卡羅來納州阿什維爾市1970年代的“城市重建項目”中的文件,建立用戶畫像、進行數據建模、結合法律文件的性質重建數據庫并設計用戶界面,以數字形式重建在“城市重建項目”中因改造而失落的非裔美國人居住社區。
1.3.3 奴隸制遺產系列項目[21][22]。項目由學院師生團隊主導開展,對馬里蘭州檔案館內反映非裔美國人經歷的館藏進行自動化數字轉錄、提取、轉換,實現數據可視化并進行數據分析,以講述馬里蘭州奴隸制和非裔美國人的故事。在后續研究中,團隊發現當前算法對歷史記錄的信息提取會產生遺漏,于是進一步探索尋找優化算法的開源計算工具,發現歷史記錄中“被抹去”的信息。
1.3.4 美國陸軍穿孔卡閱讀項目[23]。本項目在DCIC平臺下開展,基于計算機視覺(Computer Vision)技術,規范傳統打卡機數據格式的圖像,然后讀取編碼數據,從而實現用電腦讀取來自美國陸軍的穿孔卡。
1.3.5 引入計算方法的規模化數字存儲庫(DRAS-TIC)Fedora研究項目[24]。借助DCIC平臺,使用數據分區(Data Partitions)和無狀態服務器(Stateless Servers)來擴大Fedora存儲庫的規模,實現對數字檔案的訪問。
1.3.6 從總統電子文件中自動提取都柏林核心元數據項目[25]。主要識別白宮新聞辦公室分發的文件類型,從中提取都柏林核心元數據,為目標開發提供可用工具。
1.3.7 檔案館的數字策展和機器學習實驗項目[26]。從藏于羅斯福總統圖書館與博物館的摩根索大屠殺收藏項目中提取主題索引元數據,優化檢索輔助工具,對檔案藏品進行數字策展,創建具有文化意識的機器學習訓練模型,由此解鎖藏品中難以觸及的信息,并改善公眾和研究人員的訪問體驗。
馬里蘭大學信息學院將計算檔案學這一較具探索性的內容全方位融合于教學之中,將其作為實驗性的教學創新模塊予以推進。因此,在融合了計算檔案學的教學之下,馬里蘭大學信息學院將計算檔案學的探索場景延伸至課堂,學生團隊為計算檔案科學的研究隊伍持續注入活力,計算檔案學具體內容等獲得連續性輸入,產出有效的理論與方法成果。
一是計算檔案學全面嵌入檔案教學框架,在培養方案中凸顯計算思維,推進計算檔案學的知識傳播、應用與探討。馬里蘭大學教育學院David Weintrop教授等人開發出一套應用于數學和科學教育的計算思維分類法[27],包括22項涉及數據、建模、計算問題解決以及計算思維運用的計算思維實踐活動,經過實踐項目的驗證發現與檔案學及檔案實踐存在較強的映射關系。馬里蘭大學信息學院結合計算思維分類法,將計算思維全面引入檔案科學教育,分析現有的檔案科學教育大綱,將計算思維框架嵌入與之相應的知識單元中。學院還開設一門課程專門教授如何將計算思維應用于知識領域的研究主題。以計算思維分類法為依托,學院將制定一系列計算思維教學計劃[28],并據此完善檔案學研究生課程體系,將計算思維融入檔案學課程大綱。該教學計劃將在學科專業研討會上推廣,介紹給未經計算思維或計算機科學培訓的研究生導師,以普及計算檔案思維教育。
另一方面,計算檔案學的探索過程深度融合課程教學,開展計算檔案學的試點性項目,由此產出新的理論與方法成果。在研究生課程核心研究主題的練習和項目環節中,借助DCIC提供的廣闊平臺及資源,師生得以開展多項實踐項目。由信息學院教授指導圖書館與信息研究專業為主的多學科研究生組成iSchool團隊,專注于多項涉及計算思維和計算方法的檔案實踐項目。典型案例包括二戰中日裔美國人監禁營地文件的計算處理項目[29],其中iSchool團隊運用計算思維解構問題、進行數據收集與處理分析、構建計算模型等。除此之外,DCIC還以共享和傳播計算檔案學案例研究和教學計劃為目標,探索建立計算檔案科學教育系統在線存儲庫[30],記錄針對數字檔案的實踐結果,便于教育工作者和實踐者共享和傳播計算案例研究和課程計劃,建立協作網絡相互學習。
馬里蘭大學信息學院作為學術機構,強調的是將計算檔案學作為前沿性創新學科,發揮其在檔案學乃至信息學中的引領建設作用。因而,計算檔案學的建設對于馬里蘭大學而言并非只是一項科學研究,而是從學科角度進行規劃與行動。
一是積極應用學術基礎和優勢,確立計算檔案學建設的領先地位,確定計算檔案學的建設需求和標準。基于馬里蘭大學信息學院在計算機科學、信息學、檔案學多學科方向發展的傳統及其資源優勢,計算檔案學得以獲得前瞻性布局和倡導。2015年,馬里蘭大學信息學院教授Richard Marciano組建跨學科研究小組,促成計算檔案學的誕生[31]。此后,學院在良好的計算檔案學學術生態下,廣泛利用其學科研究共同體及實踐合作網絡的豐富研究資源,并受助于各種資金贊助,在計算檔案學的研究上逐漸發力。以檔案館的數字策展和機器學習實驗項目為例[32],其在“博物館和圖書館服務研究所(IMLS)勞拉·布什21世紀圖書館員計劃(2020—2022)——試行在線合作網絡,將計算思維融入圖書館和檔案教育與實踐”的資金支持下,與羅斯福總統圖書館和博物館達成協作,并利用數字策展和機器學習等計算手段實現摩根索大屠殺檔案的有效訪問。
二是強化相關實踐,面向現實需求設置多元的計算檔案學研究項目,面向文件檔案管理的各個方面、環節等構建豐富的計算檔案學內容。具體而言,其項目主題一方面涵蓋歷史、文化等宏大議題下的微觀項目,如為數字化重建在“城市重建項目”[33]中因改造而消失的非裔美國人居住社區,項目團隊相繼建立大數據平臺來歸檔、數字化社區重建文件,并進行用戶畫像建立、數據建模、數據庫及用戶界面設計等流程,再造1970年代的北卡羅來納州阿什維爾市。另一方面又觸及政府及其他機構的具體業務流程,如規模化數字存儲庫Fedora研究項目[34]的研究團隊為解決目前實踐中存在的數據擴張導致的容量不足問題,以分布式技術、開源軟件、實踐指南等促進與Fedora兼容的關聯數據存儲庫有效管理,滿足日益增長的存儲需求的同時延伸至更廣泛的計算檔案實踐項目。如后續將與NPS合作,為黑人婦女歷史國家檔案館(National Archives for Black Women's History,NABWH)開發一個原型資料庫。
三是強調整體視角,以計算檔案學的建設及其成果互通為基礎強化共同體乃至學科建設。在學科建設中加強以馬里蘭大學為主要引領與示范主體的計算檔案學研究共同體之間的交流協作,在共建共享中提升這一研究共同體的凝聚力與競爭力,并進一步鞏固馬里蘭大學信息學院在計算檔案學領域的領軍地位,主要體現為馬里蘭大學信息學院主導建設的AIC在全球信息領域尤其是計算檔案學學科的合作呼吁與實踐影響力上。通過共同體的有效建設,計算檔案學得以面向文件檔案管理的復雜體系,如從主體、對象、內容、方法、手段、流程等方面逐步提升計算檔案學理論的豐富程度,促進計算檔案學作為一門科學的系統性發展與完善,無論是DCIC對數字資產的篩選、保存、維護、收集和存檔及相關問題的探索,還是CAFe致力于用以人為本的方法構建技術層面的系統、流程、機構,或是iSchool團隊所建立的廣泛科研與實踐合作網絡,均顯示出對計算檔案學廣闊繁雜建構空間的有力填充。
計算思維在我國各學科的建設中已逐步凸顯,從宏觀的計算社會科學到計算傳播學、計算法學等均顯示了廣闊的構建空間,計算檔案學同樣被視為學科發展的新方向,得到理論與實踐領域專家與學者的倡導[35]。學術機構作為學科建設的中堅力量,同樣需要明確計算檔案學的構建策略。因而,結合以馬里蘭大學為代表的國際經驗與我國檔案學數字轉型探索情境,總結并設計出如下策略。
新文科建設已是檔案學發展的重要牽引,新文科所倡導的知識新建、跨學科協同、融入數字技術情境等,更是同計算檔案學從背景、目標、任務等方面全面契合。因而,在檔案學以新文科為戰略導向的背景下,計算檔案學在我國的建設,依托以高校為主體的學術機構,在新文科的引領下可從如下方面設定整體的計算檔案學構建框架:一是對接新文科的服務屬性以確認發展方向,將計算檔案學所涉及的科研與教學場景具化至國家與社會的重要發展任務中,如數字中國建設、講中國故事的數字記憶構建等。二是以知識創造為目標深入我國情境設計本土化的內容體系,積極將我國檔案事業數字轉型探索成果轉化為計算檔案學理論與方法的內容資源,并推動其國際化傳播以融入計算檔案學的全球協同構建。三是由品牌項目深化跨學科探索以確立行動系統,可建立計算檔案學建設聯盟,打造集聚產學研一體的品牌項目,可以學科交叉融合為方向吸納并聯動跨領域的各方力量,從而在多方協同下產出面向計算檔案學構建的具體行動。
參照馬里蘭大學的整體行動,我國檔案學術機構應立足實際情況,明確計算檔案學為發展前沿方向,建立教育、研究、實踐三位一體的行動布局:一是實現教學和科研雙線并行,創辦創新性的教學實驗室,師生協同將課堂納入計算檔案學的科研場景,并為學科的持續發展輸出具備創新融合思維和豐富實踐經驗的人才。如檔案數據化既可作為科研的熱點議題,亦可作為課堂的創新項目,由此產出相應的可用于實踐驗證的理論、方法及方案。二是理論與實踐應充分關聯對接,將計算檔案學的探索落于實踐項目之中。依據《“十四五”全國檔案事業發展規劃》[36],學術機構應積極建設檔案智庫,積極發現問題與要求以服務國家各方所需。因而,計算檔案學的構建同樣要落于實踐中:在戰略層匹配國家治理體系與治理能力現代化、數字中國建設等,這既是計算檔案學的發展情境,更賦予了計算檔案學在我國的社會、文化、技術、管理特質;在行動內容層積極服務于檔案事業自身的重點發展任務,如檔案信息化建設中的檔案數據化、智能檔案管理等亦是計算檔案學建設的有效場景。
明確計算檔案學的構建需行動主體的共同努力,學術機構應建立廣泛的合作網絡并逐漸擴展延伸。基于此,我國學術機構可從以下幾個方面把握:一是以學術機構自身為基點,點狀設立多形態的計算檔案學實驗室、研究中心,并廣泛聯系、吸納國內國際相關學科的研究主體力量加入,集成計算檔案學研究資源與力量。二是進一步以校際合作為支撐,建立計算檔案學研究中心、計算檔案學學術委員會等。在廣泛的合作網絡與行動倡議的基礎上,加強校際交換交流、引導師生共同探索計算檔案學的基本概念、課程體系、學科發展等問題。法學領域由清華大學、四川大學等6所高校法學院共同成立的計算法學聯盟,建構融合信息技術與法律交叉研究、人才培養模式、國際合作交流的學術平臺[37]可提供良好借鑒。三是強調多方協作,聯動實踐形成共同推進計算檔案學的社會共同體。我國檔案學術機構從建立到發展已有良好的同實踐方協作的傳統,計算檔案學的建設更是需要學術機構深入同檔案機構、檔案企業、第三方機構的有效合作,可涉及實踐方案設計、產品研發等。
我國檔案學術機構同樣應深入解析檔案工作“為黨管檔、為國守史、為民服務”的職責,并協同《“十四五”全國檔案事業發展規劃》戰略布局、積極響應“三個體系”建設,由此確定構建計算檔案學的具體內容。如,充分識別數字轉型趨勢及其要求,將如下方面確定為計算檔案學的探索主題:以電子文件單軌制為依托的電子文件管理、高質量的檔案數據庫以及國家檔案數據平臺建設、以檔案信息資源為基礎的數字人文與數字產品開發、應用大數據以及人工智能等新技術的檔案管理創新、數字檔案館乃至智慧檔案館建設。