朱令俊



摘要:數據驅動下的檔案知識發現以大數據為驅動力,探索檔案數據結構轉變,利用數據可視化、建模、算法洞察理解檔案信息資源,從檔案領域中創新知識生產方式。文章立足數據背景明晰檔案知識發現的概念涵義,以數據驅動為主軸解析檔案知識發現的基本程式,從數據層、邏輯層、應用層、表示層構建檔案知識發現的內容框架,具體闡述檔案數據轉型的遞進過程,以數據思維、網絡思維、用戶思維探討檔案知識發現的實現路徑,助益檔案機構推動知識共享與服務。
關鍵詞:檔案知識發現;數據驅動;知識服務
分類號:G270.7
Research on the Path of Archives Knowledge Discovery Based on Data Driven
Zhu Lingjun
(School of Information Management of Nanjing University, Nanjing, Jiangsu, 210023)
Abstract:Data- driven archival knowledge discovery exploits big data as the driving force, explores the transformation of archival data structure, and uses data visualization, modeling, and algorithm insight to understand archival information resources, and innovative knowledge production methods from the archives field. Based on the data background, the article clarifies the concept meaning of archive knowledge discovery, and uses data-driven as the main program to analyze the archive knowledge discovery. The content framework of archive knowledge discovery is constructed from data layer, logic layer, application layer and presentation layer, and the transformation of archive data is elaborated. The progressive process explores the realization path of archive knowledge discovery with the data thinking, network thinking and user thinking and helps the archives institutions to promote knowledge sharing and service.
Keywords:Archive Knowledge Discovery; Data Driven; Knowledge Service
伴隨數據環境的形成、數據時代來臨,實現以數據、信息、知識、智慧為生長點的動能轉換顯得尤為重要。數據密集型科學的興起,使得海量、片段、異構數據得以采集、清洗與分析,驅動著新知識的發現。檔案作為重要的知識載體,如何深度挖掘檔案信息資源,發現檔案知識價值,創新政府治理決策與社會服務方式,成為當前檔案學界的重要議題。
截至2020年2月16日,在中國知網、萬方數據知識服務平臺、維普資訊中文期刊服務平臺等數據庫中,以“檔案+知識發現”為主題檢索,去重篩選后僅得7篇相關文獻,進一步以“檔案+知識發現+數據”為主題檢索,則無相關文獻。可見,學界尚未對檔案知識發現主題開展一定程度的探索,但也并非毫無基礎,在“檔案知識發現”概念提出之前,圖書情報與檔案管理一級學科已有相關研究。一方面,圖情學界圍繞數字圖書館、智庫建設等知識發現與知識服務展開了探討,如李祎以圖書情報機構智庫的知識發現系統為研究重點,提出該系統實現的技術方法[1],李潔等人以數字圖書館知識發現為研究對象,重新界定其服務內涵,提出創新優化知識發現服務的規劃意見[2],圖情領域對知識發現的研究融合關聯數據、深度學習、粗糙集等理念與技術,充盈了知識發現的研究主體與研究力量;另一方面,檔案學界對檔案知識管理的理論探索也取得一定成果,主要包括檔案知識組織、知識共享、知識創新,知識服務等方向[3],突出隱性與顯性知識管理之間的轉化關系,以流程優化、體系構建、建設策略為著眼點,對檔案知識管理的環境高度和人才需求提出了更高要求[4]。
基于上述研究成果分析,檔案知識發現將有助于揭示和利用檔案知識組織之間關系與規律,數據浪潮驅動將推動檔案機構以數據為核心,重塑自身形態,成為社會數據生態鏈關鍵一環。但目前檔案學界缺乏對檔案知識發現專門深入的探索,多停滯于檔案知識價值與知識獲取的理論闡述,缺少系統的研究。鑒于此,本文嘗試構建數據驅動下檔案知識發現的概念涵義,立足數據驅動探討檔案知識發現的實現路徑與具體方案,推動檔案機構知識共享與知識服務。
1檔案知識發現的概念內涵
鑒于學界尚未對“檔案知識發現”一詞有明確統一的定義,而在更為寬泛的知識發現領域已奠定了夯實的研究基礎,本文以“知識發現”為突破口,結合檔案工作特征和發展趨勢,明晰數據驅動下檔案知識發現的概念內涵。
1.1知識發現
知識經濟時代,指數級增長的數據、泛在化的信息環境為知識發現提供了巨大的發展潛力。知識發現通常被認為是基于數據庫的知識發現(Knowledge Discovery in Database,KDD),依據美國數據科學家Usama Fayyad的觀點,知識發現是從數據集中識別提取出有效的、新穎的、潛在有用的信息并理解的模式過程[5]。簡單來說,知識發現描述了大量數據被自動檢索以獲取知識的有關模式的過程[6]。知識發現通常運用統計方法、機器學習方法與神經計算方法,其中較為常見的是粗糙集、聚類分析、遺傳算法等[7]。


1.2檔案知識發現
結合知識發現與檔案知識管理的相關理論,檔案知識發現是指運用知識發現的理念與方法,借助信息技術手段識別析取出海量檔案資源中隱含的有價值的知識元[8]。在知識發現的理論方法與技術體系下,檔案的知識價值將利用關聯分析、預測分析、聚類分析等方法有效挖掘,實現檔案顯隱性知識的轉化,幫助用戶明晰檔案—數據—知識之間相互關系,服務檔案知識管理。
1.3數據驅動下的檔案知識發現
數據驅動的本質在于實現從數據到知識再到理論轉化,并為實踐提供決策的一系列迭代過程,其最大特點是對規模大、流轉快、類型多、價值密度低的數據進行統計性分析歸納。數據驅動下的檔案知識發現以大數據為驅動力,探索檔案數據結構轉變,利用數據可視化、建模、算法,洞察理解檔案信息資源,發現規律和價值,從檔案領域中創新知識生產方式,具體機理見圖1。數據驅動下檔案知識發現的突出價值,不僅在于發現傳統方法難以發現的相關性,還在于能夠深入探索其因果關系,并對之進行集成、共享、挖掘,最終提升決策服務水平。
2數據驅動下檔案知識發現的框架構建
2.1數據驅動下檔案知識發現的基本程式
在階梯處理過程模型中,知識發現處理過程分為九個階段,分別是數據準備、數據選擇、數據預處理、數據縮減、確定知識發現目標、確定挖掘算法、數據挖掘、模式解釋和知識評價;螺旋處理過程模型強調領域專家參與的重要性,以問題的定義為中心循環評測挖掘的結果,經過多次循環處理使結果更準確;Brachman和Anand提出以用戶為中心的知識發現處理模型,支持用戶與數據庫交互;實現聯機交互式的知識發現模型需要可視化技術支撐,由數據挖掘過程可視化、數據可視化、模型可視化和算法可視化四方面組成。
借鑒上述多種知識發現模型,綜合考慮檔案內容與載體特征,在檔案資源組織的收集、整理、提煉、總結規律的過程中,以數據化—結構化—語義化—網絡化—智慧化為主軸,本文將數據驅動下檔案知識發現的基本程式概括為“數據源—數據集成—數據存儲—數據處理—數據可視化—知識應用—評價反饋”七個環節,經由知識關聯、知識聚合、知識共享等處理,形成由知識元、知識鏈、知識域、知識網所構成的多層檔案知識體系[9]。
如圖2所示,檔案是檔案知識發現的資源基礎,作為數據驅動的原動力;數據是檔案內容的再加工,是數據驅動的中轉站;知識是檔案內容的提煉升華,是數據驅動的歸宿;用戶是數據驅動的核心,是檔案知識服務的對象。數據驅動下檔案知識發現是以檔案資源組織為基礎,以用戶需求和社會服務為導向,以數據為二次加工的載體,通過數據集成與質量控制、數據分析與模式構建、數據呈現與關聯預測、數據應用與知識服務四項技術融合,實現檔案知識形態的演變,最終析取檔案知識,完成檔案知識的提取、整合、分析、利用、服務的全過程,將檔案、數據與知識三者創新互聯,支持信息決策和社會服務需求,推動社會數據生態鏈的流程再造與結構轉型。
2.2數據驅動下檔案知識發現的內容框架
以數據為驅動,面向檔案的知識發現需要兼顧檔案資源的多種存儲格式和數據格式,建立由檔案知識元、知識鏈、知識域、知識網組成的多層次知識網絡組織體系。數據驅動下檔案知識發現的框架主要由數據層、邏輯層、應用層、表示層四部分組成,對應數據驅動下檔案數據化—結構化—語義化—網絡化—智慧化的發展演變,目的是將檔案組織轉換為體系化、結構化的知識網絡,實現檔案的知識發現、知識描述與知識服務。
(1)數據層。知識發現是建立在全量數據基礎上對檔案資源組織進行知識采集、處理、組織與融合的過程,即對檔案資源組織的數據化處理。數據驅動下檔案資源類型更加復雜多樣,數量規模更加龐大,具體分為非結構化(如文本、圖片、HTML等)、半結構化(如XML和JSON)和結構化數據(如MySQL、Oracle和SQL Server)三種,不同類型的數據存儲整合也需要借助多種工具方法將其結構化和有序化,規范檔案資源的組織方式;為過濾冗余數據、錯誤數據、重復數據和矛盾數據,篩選出具有價值的檔案數據,利用自然語言處理對全部檔案數據的進行詞法分析、句法分析、語義分析等處理,清除檔案數據中的缺失值、格式、副本和垃圾數據,并根據檔案個體數據特征對其重新排序、賦予含義并簡化形式;經過清洗、簡化、標注、分析,實現結構化和語義化的檔案數據具備整合利用的價值;通過時序融合和多源數據融合,將具有時空信息和多來源特征的檔案數據由海量碎片化聚合成為網絡,鏈接到知識庫中,去冗分類、去粗取精,推斷預測潛在動態時序的檔案數據,為數據驅動下檔案知識發現提供服務[10]。
(2)邏輯層。從傳統的檔案知識表達轉向數據驅動的檔案知識,需要對其進行可解釋、更穩健的有效知識計算,準確獲取并主動配合知識的演化方向,調整知識組織管理方式及架構,實現檔案知識的多維深度語義關聯,進而完成精準度高的知識發現[11]。在知識集成與融合的基礎上,利用本體、語義網等概念與技術,結合聚類相似度、分類、關聯規則、回歸、預測和偏差分析等方法,通過大規模的計算和預測模型增強檔案知識中模式、趨勢、事實、關系、模型、關聯規則、序列等一系列的表現效果。知識計算的開放性、一致性、完備性、上下文等重要性質使得能夠發現和提取在邏輯推理、存在、否定等多種復雜語義網絡中的檔案知識[12]。總體而言,知識計算是數據驅動下檔案知識發現的頂層應用[13,14],滿足檔案知識表達、獲取和計算需求。
(3)應用層。檔案知識應用是檔案網絡化向智慧化發展的重要環節,是檔案知識發現的高級階段。通過數據層與邏輯層對檔案資源組織的加工、挖掘與分析,檔案在知識組織層面逐步形成了從知識元、知識鏈到知識域的較為完整的檔案知識體系,而應用層運用語義檢索、地圖導航、智能問答、推薦反饋系統、構建知識圖譜等技術與方法,將檔案知識置于更宏大的網絡框架中,深入應用機器學習算法,不斷更新完善檔案知識庫,豐富檔案知識網絡,為上層平臺或智能應用提供基礎設施支撐。與邏輯層顯著不同的是,應用層集中在檢索、推薦、問答、解釋和輔助決策方面,具有明顯的交互性和內在關聯性,使檔案組織向更加成熟的檔案知識網絡發展,提升檔案知識提取與發現的質量與規模。
(4)表示層。檔案知識服務是檔案知識發現的根本,也是檔案知識發現聯結用戶、實現智慧化轉型的最終環節。數據驅動下面向檔案的知識發現服務圍繞知識門戶和個性化服務兩方面展開。知識門戶根據用戶需求分析,基于主題深度集成知識資源,采集用戶個性數據庫,向用戶動態提供知識與信息,是知識共享與知識交流的平臺。從其交流模式而言,知識門戶以知識創新與二次加工為資源基礎,為用戶解決獲取知識過程中的疑難問題,是一種知識密集型和智慧型的咨詢服務方式。而個性化知識服務則是根據用戶興趣建模,采取個性化定制、個性化推送、個性化檢索和個性化推薦等服務模式,數據驅動下的個性化知識服務涉及多種技術,諸如社會網絡、云計算、云存儲、Web數據庫、Agent、本體、物聯網等[15],提升檔案知識呈現和知識利用的能力和效果。知識門戶與個性化服務的結合,使檔案知識發現融合問題導向與目標導向,從被動知識發現服務轉向主動知識發現服務,數據驅動兼具技術革新與理念轉變,以把握檔案知識發現更深入的智慧化。
3實現路徑
3.1數據思維理性審視檔案資源
數據思維極大影響著全社會對檔案資源的認知與設想,數據驅動下審視檔案資源范疇與價值也獲得更廣泛和深遠的開拓。在范疇上,檔案資源不再限于傳統紙質文件記錄,而向社交媒體信息[16]、政務信息[17]等縱深發展,諸如國家圖書館互聯網信息戰略保存項目,利用不同年齡、不同地域、不同教育和文化背景用戶所發布的微博內容,分析提取有價值的數據,日后為政策決策和學術研究提供多元參考,基于此,社交媒體信息實現了從信息向檔案、數據和知識的轉變;在價值上,檔案資源的利用和保存價值應在數據思維下有更深遠的發揮,傳統意義的利用和保存價值是針對檔案實體和內容而言的,數據驅動對檔案資源的價值審視理應升級,探索尋找檔案知識的價值最大化,以“城市記憶工程”為例,借助檔案資源挖掘構建社會記憶,高度濃縮、記錄城市的歷史變遷,將豐富的歷史信息保存、轉化為社會大眾的記憶,實現檔案本體的利用保存價值向群體記憶價值的提升。
3.2網絡思維定義搭建檔案生態
網絡思維將檔案置于更宏大的網絡框架下,納入豐富復雜的社會信息生態圈,可以為檔案知識的發現和應用提供源源不斷的動力。一方面,檔案本體可以突破原有刻板印象,借助語義檢索、知識圖譜等技術和方法,析取有價值的檔案知識,形成兼具創新與特色、可寓教于樂的檔案文化產品和展覽,如美國、英國、澳大利亞等國家的國家檔案館利用其豐富館藏如電子文件、地圖、海報等各種類型的記錄,匯聚形成多主題的編纂成果和文創產品,深受大眾喜愛;另一方面,檔案領域也可以積極與文博圖、互聯網各界尋求合作,運用現代技術挖掘檔案的數據關聯,探索更豐富的用途和潛能,搭建宏大的檔案生態。
3.3用戶思維主動發現檔案知識
數據驅動予以檔案數據化的轉型紅利,但這并不意味著檔案領域的被動態度。相反,檔案領域需要以檔案數據為契機,捕捉用戶興趣和社會熱點,結合現有檔案資源主動發現集聚優質檔案知識,并主動向社會公眾呈現和輸送,運用小程序、手機APP等形式或以線下快閃等活動為大眾提供更具浸入式的檔案知識盛宴。此外,可針對特定人群,關注與他們息息相關及有吸引力的話題內容,發現整合相關檔案知識推送給特定用戶,提高檔案知識的應用價值,使檔案知識的發現成為一種趨勢和需求,倒逼檔案領域的主動服務。例如,“檔案那些事兒”微信公眾號針對用戶實際工作、文化歷史研究等需求,開設“檔案實務”“法眼論檔”“文化傳承”等欄目,提供整編的檔案知識。
4結語
當今世界處于“數據爆炸,知識貧乏”的時代,數據創新驅動利用數據集成、分析、可視化和應用等手段激活數據價值,重塑數據治理流程與方式。因此,在數據時代,檔案數據是傳統檔案數據與實時數據的整合,其憑證參考價值也將向知識價值轉換[18]。檔案蘊含著巨大的知識價值,其知識服務研究已成為檔案學界研究熱點。然而,知識發現作為拓寬檔案知識應用范疇,提升檔案知識服務質量的基礎與前提,如何運用知識發現的理念挖掘檔案知識價值是目前研究必須直面的問題。鑒于此,本文在綜合了解國內外相關研究現狀的基礎上,引入數據驅動的理論方法與技術體系,界定數據驅動下檔案知識發現的概念涵義,以數據化—結構化—語義化—網絡化—智慧化為數據驅動的主軸,將數據驅動下檔案知識發現過程分解為“數據源—數據集成—數據存儲—數據處理—數據可視化—知識應用—評價反饋”七個環節,并從數據層、邏輯層、應用層、表示層具體論述檔案數據轉型的遞進過程與檔案知識發現的內容框架,以數據思維、網絡思維和用戶思維探討檔案知識發現的實現路徑,從而推動檔案機構知識共享與知識服務研究。
注釋與參考文獻
[1]李祎.基于圖書情報機構智庫建設的知識發現系統構建研究[J].圖書館工作與研究,2017(2):61-65.
[2]李潔,畢強,張晗,牟冬梅.數據驅動下數字圖書館知識發現的服務研究[J].情報資料工作,2018(4):6-14.
[3]賈玲,吳建華,杜巖.試論檔案知識管理流程[J].檔案與建設,2015(12):14-17.
[4]冷雪.近十年我國檔案學與圖書館學領域知識管理研究的計量分析[J].檔案學研究,2013(6):9-14.
[5]Usama Fayyad,et al.From Data Mining to Knowledge Discovery in Databases[J].AI Magazine,1996(3):37-54.
[6]William J Frawley,et al.Knowledge Discovery in Databases:An Overview[J].AI Magazine,1992(3):57-70.
[7]化柏林.數據挖掘與知識發現關系探析[J].情報理論與實踐,2008(4):507-510
[8]姚恒.從信息管理到知識管理的蛻變——智慧校園環境下檔案知識管理研究[J].圖書情報導刊,2016(1):102-104.
[9]牛力,袁亞月,韓小汀.對檔案信息知識化利用的幾點思考[J].檔案學研究,2017(3):26-33.
[10]Yantao Jia,Yuanzhuo Wang,Xueqi Cheng,Xiaolong Jin, Jiafeng Guo. OpenKN: An open knowledge computational engine for network big data[P].Advances in Social Networks Analysis and Mining(ASONAM), 2014 IEEE/ACM International Conference on,2014.
[11]李旭暉,秦書倩,吳燕秋,馬費成.從計算角度看大規模數據中的知識組織[J].圖書情報知識,2018(6):94-102.
[12]孫曉平.大數據知識計算的挑戰[J].情報工程,2015(6): 43-50.
[13]Hilbert M. Big data for development: From informationto knowledge societies[J].Social Science Electronic Publishing, 2013.
[14]Zhuge, Hai. Mapping Big Data into Knowledge Space with Cognitive Cyber-Infrastructure[J]. Computer Science, 2015.
[15]孫雨生,于凡,孫肖妹,郝麗靜.國內基于大數據的個性化服務研究進展——架構體系與關鍵技術[J].現代情報,2018(2):171-177.
[16]周文泓.我國網絡空間中檔案領域的缺位審視和參與展望——基于社交媒體信息保管行動的解析[J].檔案與建設, 2019(9):13-17.
[17]薛四新,黃麗華,楊來青,宋華.大數據環境下政務信息資源歸檔研究的框架體系[J].檔案學研究,2018(4):92-96.
[18]于英香.從數據與信息關系演化看檔案數據概念的發展[J].情報雜志,2018(11):150-155.