


關鍵詞:檔案館;檔案管理;人工智能;數字化轉型;照片檔案;檔案開放;開放審核;技術融合
人工智能(Artificial Intelligence, AI)誕生于20世紀50年代,重點研究怎樣使計算機來模仿人腦所從事的推理、證明、識別、理解、設計、學習、思考以及問題求解等思維活動,以解決需要人類專家才能處理的復雜問題。它的研究范圍包括:智能搜索、邏輯推理、信息感應辯證處理、語言學習與處理、知識表現和獲取、規劃決策、軟計算等,涉及認知科學、數學、計算機科學、控制論等多種學科。[1]AI是當前檔案數字化轉型升級過程中重點關注的領域之一,中辦、國辦印發的《“十四五”全國檔案事業發展規劃》明確指出要“加強大數據、人工智能等新一代信息技術在數字檔案館(室)建設中的應用,推動數字檔案館(室)建設優化升級”。檔案數字化轉型升級進程中,對AI技術在檔案專業的研究狀況進行調查分析,具有現實意義。
1 文獻定量分析
1.1 數據來源。以中國知網為文獻來源,截至2023年,檢索策略為:TI =“人工智能”AND(LY =“中國檔案”ORLY = “檔案學研究” OR LY =“檔案學通訊”OR LY=“檔案與建設”OR LY =“北京檔案”OR LY =“檔案管理”OR LY =“浙江檔案”),對列入北大《中文核心期刊要目總覽》的檔案學期刊中發表的有關人工智能的文章進行了檢索,共檢索出文獻39篇。
1.2 文獻年度發表數量趨勢分析。年度發文趨勢一定程度上反映了檔案界在AI領域的發展水平。檔案專業期刊歷年發表文章數量如圖1所示。
2016年發表論文1篇,2017年0篇,2018年2篇,2019年至2022年在4到5篇之間徘徊,2023年突然增至18篇。從歷年文獻數量可知,檔案界對AI的研究可分為三個階段,2015年之前研究極少,在取樣期刊中發表文章數量為0。2016—2022年為低位徘徊期,年均文獻數量為3篇。2023年為爆發期,一年內發表文章18篇,是之前年均發文量的3倍,該領域突然成為研究熱點。有學者認為2023年是AI爆發的元年,[2]對檔案專業來說,2023年無疑是檔案專業開展AI研究的轉折性一年。
1.3 發文期刊數量分析。各期刊發文數量統計發現,《檔案與建設》刊載文章最多,共11篇,占總數的28%;《中國檔案》和《檔案管理》各刊載8篇文章,占總數的21%;《北京檔案》刊載文章5篇,占總數的13%;《浙江檔案》刊載文章4篇,占總數的10%;《檔案學研究》刊載2篇,占總數的5%;《檔案學通訊》刊載文章數量最少,僅1篇,占總數的3%。平均刊載量約為6篇,《檔案學通訊》等4本雜志低于平均刊載量,可見在該領域的研究有待進一步提升。
1.4 作者分析
1.4.1 獨著與聯合作者對比。39篇文獻中,16篇文獻為獨著,10篇文章為兩人合著,5篇文章為3人合著,7篇為4人合著,1篇以項目團隊名稱作為作者。合作研究成果是單獨研究的1.43倍,可知在AI研究領域,研究者更傾向于合作開展研究。且以2人與2人以上聯合開展研究的數量基本持平。可知目前在該領域以聯合研究為主,其中又以2人聯合研究居多。
1.4.2 作者發文數量及所在行業分析。如表1所示,共74名作者在該領域發表文章,其中有6名作者發表2篇文章,其他作者均只發表1篇文章。可以看出目前這一領域的研究者還比較分散,尚未出現核心研究人員。
同時,發表兩篇文章的6名作者均是聯合研究,其中3人來自高校,1人來自政府機關,2人來自企業,具有跨行業研究的特點。為探究樣本總體能否體現跨行業研究合作研究的特點,故對74名作者所在單位進行分析,經統計、分類,將其分為高校類事業單位、機關、企業、非高校類事業單位。其中,發文最多的為高校類事業單位,共發表文章37篇,具體發文數量如表2所示。
考慮到高校檔案館、由高校牽頭設立的研究機構與高校關系密切,且有些作者既是高校教師又是某研究機構成員,故將其作為一類進行統計。其中,發文最多的機構為人民大學信息資源管理學院,共發表8篇文章。將人民大學電子文件管理研究中心、人民大學檔案事業發展研究中心、人民大學數字人文研究中心、數據工程與知識工程教育部重點實驗室等與人民大學信息資源管理學院關系密切的機構均算作人民大學的發文數量,總數達到13篇,超過高校類事業單位發文總數的三分之一,在AI領域研究成果最為豐富。
發文量排在第二位的為政府機關,發現共有14家單位在該領域發表文章,且各單位均只發表1篇,尚未出現核心研究單位,但也可看出,較之高校更為側重具體業務研究的檔案部門已開始在AI應用研究方面發力。這14家單位分別是北京市檔案館、北京市市場監督管理局、北京市市場監督管理局檔案管理中心、福建省檔案館、福建省檔案局、廣東省佛山市檔案中心、河南省白龜山水庫管理局、吉林省檔案館、吉林省延吉市檔案館、太倉市檔案局、應急管理部檔案館、浙江省檔案館、鎮江市城鄉建設檔案館、鹽城市城市建設檔案館。
發文量排在第三位的是企業,發文情況如表3所示。
表中可見,有6家企業在該領域發表文章8篇,北京東方基業科技發展股份有限公司等2家企業各發表文章2篇,其他企業發表文章1篇。據此,可知在AI領域,雖然參與該領域研究的企業數量不多,但個別企業研究深度較大,經驗更為豐富。
發文量排在最后的是非高校類事業單位,具體情況如表4所示。
考慮到該領域聯合研究的特點,對各聯合研究的單位所屬的行業進行研究,也可看出此類研究的特點。其中聯合研究的文章共15篇(為探究其跨行業研究情況,故同一單位的多位作者聯合發文不統計在內),考慮到文章第一作者一般是貢獻較大者,筆者將其所在單位作為牽頭單位,以此進行統計,結果如表5所示。
表中可見,牽頭開展研究的單位以機關和高校為主,其中以機關作為牽頭單位開展聯合研究的共有7家,分別同5家企業、2家機關、2家高校聯合開展研究。以高校為牽頭單位開展聯合研究的共8家,并分別同6家高校、2家企業聯合開展研究。由此可看出,機關、高校在該領域有強烈的聯合研究需求,且牽頭開展研究的比例基本持平,其中,機關更傾向于同企業合作開展研究,而高校更傾向于在高校之間開展研究。以上是筆者對該領域發表文獻的定量分析,下面從定性角度進行文獻主題分析。
2 研究主題分析
在研究主題方面,通過人工逐篇標注,文獻主題數量共39篇,分為3個主題,分別涉及應用研究、方法設計、理論研究等。其中,應用研究9篇,占比23%;方法設計20篇,占比51%;理論研究10篇,占比26%。可以看出,方法設計研究成果最多,一定程度上也代表了目前檔案專業在AI領域的主要研究方向。
2.1 方法設計。方法設計方面的研究共20篇文章,占比51%,應用AI技術的研究對象主要涉及音視頻檔案、照片檔案、檔案館等。
2.1.1 音視頻檔案的研究。一是策略和方法研究,如將AI技術用于音視頻檔案全周期管理的實現策略,利用AI技術對音像檔案內容進行文本化處理的方法。[3,4]二是內容挖掘研究,如利用經AI技術修復的影像,進行音頻內容和價值挖掘,并利用自媒體于公共社交平臺進行傳播等。[5]
2.1.2 照片檔案的研究。一是檢索機制研究,如應用圖片深度學習技術的先決條件以及當前該技術在照片檔案管理中的難點,給出要建立前嚴后松的檢索機制,完善照片檔案管理標準及評價指標,開發具有自我特色的照片檔案管理模式等方法。[6]二是照片修復研究,如圍繞圖像超分辨率(Super Resolution,SR)智能修復算法的原理和四種發展路線(即基于CNN卷積神經網絡、基于Res Net殘差網絡、基于Attention注意力機制網絡和基于復合AI技術的SR技術),并從基于復合AI技術中選取一種名為SWinIR的SR技術進行照片檔案修復測試,取得較好的修復效果。[7]
2.1.3 檔案館的研究。一是應用場景研究,如分析AI技術在文件全生命周期中的應用圖景以及可能存在制度、技術、倫理、監管風險[8];就AI在檔案檢索、開放鑒定、分類整理、檔案保護中可能的應用場景和推進策略。[9]二是問題對策研究,如與國外比較分析基礎上,總結我國檔案館的現狀,提出AI的應用規范化、集成化、融合化措施建議。[10]三是業務流程研究,如利用OCR和知識圖譜技術發掘檔案價值實證研究[11];文檔流轉信息鏈中的AI技術應用研究等[12]。四是管理標準研究,如總結館藏紙質檔案、音像檔案、照片檔案數據化的現狀及問題,提出建立基于AI技術的標準,加強“人工智能+檔案”的人才培養機制等措施等。[13,14]
2.2 理論研究。理論研究文章共10篇,占比26%,研究內容主要涉及問題分析、趨勢分析、因素分析、比較分析等方面。這些分析包括AI技術應用邏輯和對檔案管理帶來的優勢以及存在的瓶頸和挑戰[15-18]、AI在檔案管理應用研究火熱的原因和發展邏輯[19,20]、國內外利用AI賦能檔案工作比較和借鑒等。[21]總體上,理論研究體現出研究者力圖在AI廣泛應用的語境下回答檔案專業應用AI技術的“應然”和“何然”等問題。
2.3 應用研究。應用研究文章共9篇,占比23%,研究內容主要涉及國內外檔案界人工智能技術應用的項目、業務、模型、平臺、教育、合作等方面。
2.3.1 國外檔案界人工智能技術應用研究。國外的研究主要聚焦項目和案例方面。如瑞士納沙泰爾州檔案館ArchiSelect項目,以AI輔助數字檔案智能鑒定[22]和AI應用于檔案檢索利用、檔案內容識別轉錄、檔案敏感信息識別等方面的案例;[23]還有羅馬第三大學和梵蒂岡秘密檔案館開展的Codice Ratio跨學科項目,澳大利亞的Proof ofConcept(PoC)項目以及美國斯坦福大學開展的ePADD項目等[24]。
2.3.2 國內檔案界人工智能技術應用研究。相關學者對電子檔案開放審核的界面、流程、核查比例等進行了設計,搭建適合本館的檔案開放審核模型和模型訓練優化方法。[25,26]有學者就長時語音文本轉譯技術及設備,輔助音視頻條目著錄,圖像內容結構化處理等進行研究,研發音視頻檔案轉譯文本引擎、音視頻檔案智慧管理平臺。[27]還有學者利用AI技術進行檔案智能挑選和智能鑒定劃控的研究和檔案管理AI應用案例研究。[28,29]另有學者在借鑒“牛津項目”研究成果(注:該項目設計了一種計算AI技術對美國各職業替代概率的方法)的基礎上,設計了一個文檔管理專業面對AI技術的競爭力計算模型,對美國16所有文件檔案管理方向的學院所開設的課程進行分析,并得出結論:樣本院校開設的課程難以保證學生面對AI有充分的競爭力。同時個別學院正通過設置雙學位以及交叉性學科提升學生對AI的競爭力。[30]
分析上述研究成果可以看出,目前國內外在AI技術應用方式上趨于一致,業務部門、企業、學者合作推進的模式已成主流,均致力于利用AI技術推動檔案管理工作更進一步,提高其智慧化水平,且對該技術的應用多通過專門項目形式進行部署和推進。
3 總結
通過上述文獻可以看出,ChatGPT技術的出現是引發檔案界關注AI技術應用于檔案工作的濫觴。諸多文章以ChatGPT或生成式AI技術為研究切入點進行闡述。[31-34]故筆者推測2023年檔案專業有關AI研究的文章暴增與此相關。
總體來看,檔案專業主要從兩個角度出發研究AI技術與檔案工作的關系。
一是對AI技術應用于檔案管理各環節情況進行研究。在這一方面,北京、福建等地檔案部門已作出具有一定推廣價值的研究成果。北京市市場監督管理局面對現實工作中遇到的用戶查詢精度高,傳統檢索方式效率低的矛盾,通過引入AI技術中的圖像識別和信息抽取技術,實現了對存量數字化圖像批量自動識別、定位,大幅提升了檔案檢索的精確度。面對存量檔案數量龐大,不同時期檔案開放審核標準不統一,批量開放可能存在安全隱患的困境,利用圖像識別和內容識別技術結合專家系統,研發了檔案頁面公開級別智能鑒定工具,有效消除了檔案共享利用中信息泄露的隱患。面對音視頻檔案內容不連貫、片段多、檢索不便的特點,嘗試通過利用語音識別技術、計算機視覺技術等對行政執法過程中產生的音視頻進行自動分類、智能檢索。類似的,國家檔案局檔案科學技術研究所與科大訊飛成立了AI領域的聯合實驗室,以期構建新型AI智慧檔案行業標準。中國石油天然氣集團有限公司利用AI等技術,提升了用戶體驗。福建省檔案館同樣為打破傳統檔案開放審核效率低、主觀性強、學習成本高、學習周期長的弊端,積極探索利用基于CRNN+CTC的文字識別算法,以ERNIE模型作為分類器的預訓練模型,重構館內檔案開放審核流程,通過智能分庫,語義分析、AI等技術輔助進行檔案開放審核,研發了利用多級敏感詞分類輔助開放審核的“人工智能輔助檔案開放審核系統”,實現待開放審核檔案自動分類,高亮顯示敏感詞及頻度表,有效提高了檔案開放審核效率。上述研究成果說明AI技術在檔案領域大有可為,且已進入實踐層面。
二是某類檔案管理中應用AI技術研究。著重體現在利用AI技術進行照片、音視頻檔案管理上,諸如照片修復,語音轉文字并深加工為結構化數據等,且所提技術方法具體、明確,可操作性強。如利用AI技術成功修復珍貴影像、利用AI技術修復部分照片獲得信息增益等的技術和經驗具有推廣借鑒價值。浙江省檔案館構建的音視頻檔案管理平臺,規范了音視頻檔案數據化業務流程,為實現AI技術輔助音視頻檔案整理利用提供了有效手段。同時,部分高校學者通過探究AI技術的發展過程、技術特點以及與檔案工作的關系,為AI技術與檔案工作的結合提供了理論支撐。
此外,研究者對利用AI技術推進檔案工作發展的措施上體現出幾方面明顯共識。
一是強調加強檔案管理理論與AI技術的融合。AI技術賦能檔案管理的方法及效果顯而易見——所想所得、高效流暢、多樣呈現的利用方式以及自然融合、動態實施的信息自組織[35]——使得研究者對不斷深化檔案理論與AI技術的融合毫無異議。
二是要建立健全檔案專業應用AI技術的法規及倫理標準。由于檔案內容具有較強的隱私性,而AI技術又存在較大的數據泄露和隱私安全風險,需要建立有效的安全管理制度和倫理道德規范,方可實現AI技術效益最大化。
三是需積極培養綜合型檔案人才。[36]對檔案行業來說,這一共識早已形成,隨著檔案信息化工作的推進,檔案行業已深刻意識到培養既懂信息技術又掌握檔案管理技術的復合型人才的重要性,單一的學科背景將難以推動這項工作順利開展。
四是注重規避AI技術給檔案工作帶來的風險。[37]這一共識同上述第二點共識較為類似,AI技術雖然在提升檔案管理體驗上存在無限的可能性,但無法求證的數據處理過程,機器處理依然存在的數據錯誤,使用大量檔案數據進行學習所帶來的隱私泄露風險以及機器對數據處理和信息識別、理解技術上的不成熟,依然使得AI技術應用于檔案工作時存在諸多風險。因此,檔案管理人員在應對AI技術可能給檔案工作帶來的改變時,應對其技術特點和自身專業素養有清晰的認識,既積極發揮人工智能技術給檔案工作帶來的便利,又要主動作為,在檔案工作中充分發揮主觀能動性。