陳亮(太倉市檔案局,江蘇太倉,215400)
人工智能技術在智慧檔案館建設中的應用初探
——以太倉市檔案館為例
陳亮
(太倉市檔案局,江蘇太倉,215400)

太倉市檔案館
近年來,隨著IBM公司“智慧地球”概念的提出,引發了全世界智慧城市建設的熱潮。智慧交通、智慧城管、智慧圖書館等一大批新事物不斷涌現,相關的技術和管理措施成為新的研究方向。在新技術發展浪潮中,我們檔案部門提出了“智慧檔案館”的發展理念、工作目標和實現路徑,開發建設智慧檔案館,為檔案館事業發展謀劃新的藍圖。
1.人工智能的發展前景
人工智能(Artificial Intelligence)誕生于20世紀50年代,英文縮寫為AI。人工智能是研究怎樣使計算機來模仿人腦所從事的推理、證明、識別、理解、設計、學習、思考以及問題求解等思維活動,來解決需要人類專家才能處理的復雜問題。它的研究范圍包括:智能搜索、邏輯推理、信息感應辯證處理、語言學習與處理、知識表現和獲取、規劃決策、軟計算等,涉及認知科學、數學、計算機科學、控制論等多種學科。
近幾年,人工智能技術突飛猛進,應用范圍日益寬廣。2013年,基于自然語言搜索和云計算技術開發的Warren金融數據分析系統投入商用。數年間,Warren在金融分析上的卓越表現已經勝過了專業的分析師,讓高盛、摩根大通等無數金融機構趨之若鶩。2016年3月,采用MCTS搜索和DCNN網絡等人工智能技術的圍棋程序AlphaGo戰勝了世界冠軍李世石,它的勝利標志著人工智能發展到了一個新高度。
2.智慧檔案館:數字檔案館的升級版
當前,檔案信息化建設的核心內容是數字檔案館。它以數字技術處理和存儲傳統載體檔案信息、電子檔案及目錄信息,應用網絡技術實現檔案信息檢索和利用。數字檔案館的產生解決了傳統檔案固有的壽命有限和利用范圍有限的問題,使檔案信息得以脫離傳統載體束縛,給檔案工作帶來革命性變革。但是,數字檔案館只是方便了檔案利用,并不具備幫助檔案管理人員開展業務工作及輔助檔案用戶思維的工作。隨著技術的發展,在數字檔案館的基礎上,采用云計算、物聯網、人工智能技術,將使檔案信息化建設推向一個新階段。
現在,檔案資源愈加多元,包括傳統檔案、原生電子檔案、檔案目錄數據庫、檔案全文數據庫等。經過多年的檔案信息化,電子檔案數據規模呈幾何級數增長。筆者所在的縣級市檔案館,館藏數字化檔案存儲已經超過30TB,每年新產生的檔案數據也在TB量級。如此大量的數據,一般的存儲和處理技術是無法勝任的,“智慧檔案館”應運而生。
智慧檔案館面對的是海量數據的運算和存儲,而要解決海量數據帶來的一系列問題,云計算是不可或缺的途徑。云計算技術包括分布式處理、分布式數據庫、云存儲、人工智能和虛擬化技術。構建“云”,離不開軟硬件基礎設施。在軟件層面上,過去的集中式串行計算程序,已不適應分布式環境的要求,并行計算、網格計算、人工智能是“云”上管理大數據的關鍵技術。智慧檔案館的“智”就體現在人工智能技術上,它是智慧檔案館開發建設的技術引擎。
下面從幾個方面探討在智慧檔案館建設上可以采用的人工智能技術。
1.檔案資源收集
文本挖掘也稱為文檔挖掘或文本(數據庫)的知識發現,是目前人們很關心的一個研究熱點。舉個例子來說,我們在檔案編研過程中,需要檢索大量的資料,而在人類汗牛充棟的歷史文獻中找尋是相當費時費力的。智能Agent是數據挖掘方面的人工智能產品,我們所熟知的Google爬蟲、百度蜘蛛,都是智能Agent。Google或者百度都是通過智能Agent在浩如煙海的網絡世界中,收集整理近乎所有的人類知識的數字化成果。有了它們,海量信息變得唾手可得。智能搜索可以為檔案的檢索利用提供方便,提高效率。
2.檔案智能分類
傳統檔案分類是依據一定的標準,按照檔案來源、時間、內容和形式特征的異同點,對檔案進行有層次的區分,并形成相應的體系。隨著原生電子檔案等一些新類型檔案的出現,檔案分類方法需要進一步的發展。對電子檔案進行智能分類是檔案管理中的一種新方法。
自然語言理解是研究如何讓計算機理解人類自然語言的一個研究領域,也是人工智能的一項重要研究領域,它主要包括詞法分析、句法分析、語義分析等。分析過程一般采用喬姆斯基語法,結合各自國家母語語料庫,用有限狀態自動機掃描待識別文本,經過深度學習后,生成統一的中間語言,在中間語言的基礎上實現各種應用。
因此,自然語言理解可以在數字檔案的智能分類上發揮作用,我們在擁有全文數據庫的基礎上,運用人工智能機器,按照專業的檔案分類法,自動生成專題數據庫。有了層次合理、結構規范的檔案專題庫之后,針對不同的查檔人、查檔目的,智能搜索引擎可以快速精準地推送不同的檢索結果。從手工翻閱、機械式檢索到智能檢索,人工智能技術將給檔案業務工作帶來革命性的變化。
3.檔案安全管理
現今,檔案安全主要包括實體檔案安全和數字檔案安全。
實體檔案的安全主要是庫房的安全。帶智能識別功能的門禁系統可廣泛應用于各種重點庫房的安保。人工智能有一項研究內容是機器視、聽、觸覺及思維方式的模擬,包括:聲紋識別、指紋識別、人臉識別、視網膜識別、虹膜識別等。現在,智能識別技術已經成熟,國內知名的有Face++(應用于支付寶的人臉識別)、格靈深瞳、捷通華聲等。我們采用有識別技術的安防系統可以在接觸檔案的人員和實體檔案之間建立起一道安全屏障。
數字檔案的安全主要包括存儲安全和通訊安全。現階段,我們的數字檔案館系統一般采用集中式存儲。隨著數據量的爆炸式增長,存儲空間成為一道瓶頸。新一代的檔案云將采用分布式存儲,這種存儲方式要求更為安全更為高效的數據管理手段,而人工智能是首選。國內外許多大型科技公司在資源配置、業務調度、安全防護等方面已經廣泛采用人工智能技術。人工智能技術可在檔案云的智能存儲調度、智能安防方面發揮舉足輕重的作用。數字檔案的通訊安全是檔案網絡建設的一個重點。
4.檔案網絡建設
相對于普通網絡而言,檔案網絡必須專網專用、其保密性要求更高。現代網絡技術飛速發展,一方面網絡速度突飛猛進,另一方面網絡上的系統漏洞層出不窮,給檔案網絡建設帶來了機遇與挑戰。
人工智能在網絡上的應用有智能防火墻、智能路由、智能云等。

智能防火墻是一種更聰明、更智能的防火墻,它克服了傳統防火墻“一管就死,一放就亂”的狀況,把“出口”的概念改變為“關口”的概念,所有經過“關口”的數據包都必須接受防火墻的檢查。與傳統防火墻采用的數據匹配檢查的技術不同,新的智能防火墻采用人工智能識別技術來決定訪問控制,比傳統的防火墻更安全,效率更高。它成功地解決了普遍存在的拒絕服務攻擊(DDOS)的問題、病毒傳播問題和高級應用入侵問題,代表著防火墻的主流發展方向。
智能路由是在動態路由的基礎上發展出來的新一代路由技術,它具有簡潔、低耗、低時延、負載均衡、健壯穩定、快速聚合、高度靈活等特點。在鏈路狀態算法或距離矢量算法的基礎上加入人工智能計算單元,動態建立路由表,優化數據傳輸。在發生網絡故障時,它能快速屏蔽故障節點,即時重建路由,優選最短路徑,最大限度保障網絡暢通,減少用戶因為網絡故障帶來的損失。
智能云是分布式計算、并行計算、效用計算、網絡存儲、虛擬化、負載均衡、熱備份冗余等傳統計算機和網絡技術發展融合的產物。云計算需要對分布的、海量的數據進行處理、分析,必須能夠高效地管理大量的數據,只有依靠人工智能技術,才能實現大規模系統的可靠運行。如IBM的Watson、微軟的Azure、谷歌的Compute Engine、亞馬遜的AWS等均集成了強大的人工智能運算單元。
因此,在檔案網絡建設中采用帶有人工智能技術的網絡設備可以顯著提高檔案網絡的安全性、穩定性,實現效用最大化。
太倉市檔案館很早就開展了數字檔案館室系統的建設,經過多年的應用研究和多次的技術改進,相關系統已日臻成熟,這其中就應用了一些人工智能技術。
對前文所述的檔案數字資源收集和智能分類,我們館藏系統有一項“全文檢索”功能,就是運用了智能Agent技術。以前在我們查找需要的檔案時,一般是按照關鍵字來檢索目錄數據庫,但是這種查找不像我們認為的那樣簡單,因為現在的館藏數字檔案文件數量都在百萬以上,特別是在我們不知道檔案在館藏中的全宗、門類或位置時,檢索就非常耗時。因此,我們在系統中加入了智能Agent。在前期的檔案數字化和OCR的成果基礎上,這個小“爬蟲”定期地掃描館藏數字檔案的存儲區域,把可用的文字信息自動地分類后存入指定的全文數據庫(CFS文件)中。在我們檢索全文的時候,系統在保存的全文數據庫中搜索,使查詢時間控制在0.1秒以下。它的使用顯著提高了檢索速度。但是與谷歌和百度的智能Agent相比,這個小“爬蟲”在功能和效率上要相對落后許多,在智慧檔案館的未來建設中,它需要做更多的升級優化來滿足大數據的挑戰。
在檔案安全和檔案網絡建設上,我們在新館建設中采用了集中控制的門禁系統、全方位的立體監控系統、可升級固件和策略的防火墻等網絡設備。近幾年,在人工智能技術的帶動下,出現了帶人臉識別或者虹膜識別的門禁系統、能識別和定位人與物的監控跟蹤系統、可識別代碼行為特征的智能防火墻。作為升級換代,這些新設施設備的逐步采用,將給檔案的管理帶來全方位的效率提升。
目前,太倉市數字檔案系統采用B/S架構、集中式存儲。在近10年的使用中,系統高效穩定。但形勢不斷變化、新技術也不斷涌現,我們必須改造現有的系統以適應新的發展環境。網絡技術發展有一條定律叫梅特卡夫定律,其內容是:網絡的價值與聯網的用戶數的平方成正比。因此,隨著檔案事業的發展,擁有海量用戶的檔案云是我們新時期檔案網絡建設的目標。檔案云連接所有歸檔單位,形成檔案集群,使其中的電子檔案實現分布式存儲、異地調取,利用智能Agent來提高檔案業務工作的效率,通過智能身份識別來杜絕非法訪問,從而保證檔案的安全。這些智能系統的研發技術已漸趨成熟,它們不是虛幻的,它們會在不久的將來被廣泛應用。
人工智能技術正在全世界迅速地發展中,中國也不能落后。今年兩會上,政協委員李彥宏建議設立“中國大腦”計劃,推動人工智能跨越發展,搶占新一輪科技革命制高點。人工智能是21世紀最為前沿的技術之一,其發展將極大地提升和擴展人類的能力邊界,對促進技術創新、提升國家競爭優勢乃至推動人類社會發展產生深遠影響。當前,人工智能正迎來新一輪創新發展期,歐美等發達國家紛紛從國家戰略層面加緊布局,以引領新一輪科技創新大潮。我們在“智慧檔案館”的建設中,可以廣泛采用已經取得成果的各項人工智能技術,推動新一輪的檔案信息技術革新。把握住這一時代的脈搏,可以實現檔案事業的跨越式發展。
[1]楊來青,徐明君,鄒杰.檔案館未來發展的新前景∶智慧檔案館[J].《中國檔案》,2013(2)∶68-70.
[2]張仰森.人工智能原理與應用[M].高等教育出版社.2004.