李楠 陳少華 李春雪
(1北京電子工程總體研究所,北京 100854;2中國航天科工集團有限公司第二研究院,北京 100854)
知識管理(KM,Knowledge Management)是網絡新經濟時代的新興管理思潮與方法。隨著數字航天建設進程的加快和不斷完善,知識管理已成為航天企業廣泛實施的重要基礎性工作,并為企業整體的信息化、數字化能力提升、兩化融合轉型提供了基礎環境。尤其是作為航天系統最重要知識資源的 “標準規范”,在解決標準實施、標準查詢、技術文件編制協同、自動化標檢等工作方面,不同程度地使用了知識管理的技術和方法,取得了較為顯著的應用效果。但由于航天系統知識內容具有跨領域、高集成、深度專業化、信息安全敏感等特點,同時難以引入較為流行的語義識別、群組、知識模型等互聯網技術,因此以信息分類為核心的編目(Cataloguing)技術依然是當前航天企業知識管理以及知識管理系統構建的主要技術路徑。
基于對傳統編目技術的創新和實踐,我們在航天企業知識管理實施、知識管理系統構建等應用方面取得了一定的成果。
隨著信息技術的發展,計算機編目逐漸代替了手工編目,其中國際機讀目錄格式(UNIMARC)經過幾十年的發展和完善,目前已成為文獻編目的主要標準,廣泛應用于全世界的圖書情報機構。
1983年我國頒布了GB/T 3792.1《文獻著錄總則》,標志著中國計算機信息編目工作進入了國家標準的時代。1985年出版《西文文獻著錄條例》,1996年編制《中國文獻編目規則》[1]。機讀格式方面,我國參考 《國際機讀目錄格式》(UNIMARC) 編寫了 《中國機讀目錄格式》(CNMARC),于1996年作為文化部行業標準(WH/T 0503—1996)開始實施。編目人員使用計算機按照特定編目規則對各類文獻進行目錄控制。至此,我國在文獻圖書領域初步建立起了國家層面的信息編目體系。
隨著計算機存儲技術突破,以及網絡技術、互聯網應用的高速發展,數字載體模式的文獻資源呈現井噴式快速增長。為適應這一變化的需要,編目方式也向2個不同的方向發生了變化。第一種方式按照傳統文獻編目標準,擴展標準內容后對新的資源類型進行編目,即在維持現有編目規則的前提下,增加了對電子資源的編目支持。GB/T 3792系列標準、 《西文文獻著錄條例》 《中國文獻編目規則》等均在修訂后增加了“電子資源”章節。第二種方式采用更簡單、通用化的網絡信息資源描述標準對電子資源進行編目,如DC(Dublin Core,都柏林核心)元數據格式(對應的我國標準為GB/T 25100—2010《信息與文獻 都柏林核心元數據元素集》)。兩種方法一定程度上解決了傳統編目方式對電子資源標引不足的問題,但仍然無法避免傳統編目標準對電子資源的描述扁平化、缺乏關聯性、編目信息孤立化等問題。
進入21世紀,人工智能、大數據、非結構化存儲等技術得到了顯著發展,編目工作逐漸由傳統的 “出版信息編目”向 “資源內容標引”、“知識本體”和 “語義網”方向發展。情報學界和圖書館學界也在討論傳統的描述性編目的必要性,并對新的數據模型開展研究,如實體概念框架FRBR(書目記錄功能需求)、資源描述與檢索框架RDA、書目功能BIBFRAME、關聯數據模型OCLC等,力求將網絡資源、數字文獻等電子資源變為真正的“知識”——即經過加工、具有關聯性的信息集合。
以IT技術為主要推進動力的現代管理科學也在文獻編目領域開展了大量研究,并成功將“知識管理”從一個學術研究內容轉變為企業的重要基礎工作內容。當前在知識管理領域已成功推出了GB/T 23703知識管理系列標準,實現了國家層面的方向統一。
分類是編目技術的核心骨架,對電子信息資源這種新型的知識存在形式,其分類方法需要參考傳統的知識分類法。常用的知識分類法如體系分類法,能夠以學科、專業為基礎,直接體現知識分類的層級和組織關系,提供學科分類檢索文獻信息的途徑[2]。典型的體系分類法可能會產生以下幾種情況:①對于某種新類型的資源,在現行標準中沒有合適的分類,但出于管理需要又必須選一個分類時,可能會出現“削足適履”的情況,不利于資源的準確標記,甚至會出現“錯誤的”知識;②交叉學科的知識適用于多個分類,需要解決如何在多個分類內對同一資源進行標識的問題;③同一屬性在不同專業領域內的名詞定義存在差異,如何保證某個具有該屬性的資源能夠適應相關的分類標準,也是一件十分困難的事。
編目工作原本是為了描述、揭示、組織信息資源,將信息資源按照一定的規則和方法進行有序化處理,使信息資源在需要的時候能夠被特定的使用人檢索到并加以利用。但實際上,編目信息的使用效率經常存在一些問題。國內外相關文獻都指出,相對于已經進行了編目的資源總量,實際的查詢率占比卻非常低。這是因為編目信息的定義者和使用者不一定處于同一專業領域和教育背景,對同一信息資源認識方法、熟悉程度、專業水平的不同,引起信息資源定義的差異,容易產生“負責編目的人用不到編目信息,需要用到編目信息的人不知道用什么關鍵詞能查到自己需要的信息”這種情況。
文獻編目及基于文獻的電子信息資源編目,編目字段偏向出版信息登記,但一些新類型資源的編目字段(常體現為元數據標準和分類代碼標準)不符合傳統文獻編目標準,并且無法與其他領域的數據標準進行轉換,因此難以采用統一標準描述不同的新類型資源。
在當前廣泛的社會化信息化條件下,同一類型的資源本身也可能出現編目標準不一致的情況。以數字視頻資源舉例,廣播電視行業制定了GY/T 202.1—2004《廣播電視音像資料編目規范第1部分:電視資料》和《中央電視臺音像資料編目細則》,國家圖書館制定了GC-HD090190《國家圖書館視頻資源元數據規范》,文化部全國公共文化發展中心制定了《數字資源元數據規范》[3],三者雖然都是基于DC元數據擴展而成,但是這幾種元數據標準仍然存在差異。這種情況在其他類型的電子信息資源中也是普遍存在的,這不利于資源的跨行業協調統一,繼而影響到數字資源的搜索定位與共享。
針對航天企業知識管理工作具有跨領域、高集成、深度專業化、信息安全敏感等特點,為有效回避傳統編目技術中存在的缺陷,全面提升航天企業知識管理的工作水平,航天企業內部開展了廣泛的專業技術研究,提出了多種解決方案,其中多標簽分類技術是一種經驗證可行的重要方法。
大眾分類法是指一種由社群參與人運用自由定義關鍵字的方式進行協作分類的方法。分類的原理是向社群參與者提供一種協同構建與共享各自網絡資源標簽的開放式平臺,通過用戶自己制定分類標準和提交資源標簽來實現。
標簽分類技術,又稱Tag技術,是大眾分類法 (Folksonomy)的實現基礎,具有以下特點:①用戶可以對任意資料采用一個或多個自定義關鍵詞進行標引,不用限定在主題詞表內;②標簽在添加后,可以隨時進行修改;③允許多個用戶對同一資料同時進行標引,且這些標簽可以共享;④標簽之間不存在樹形的父子關系,標簽與標簽之間是平級的。同一信息資源在由多個用戶進行標引后,當描述某類信息的某一個或多個標簽數量最多時,該標簽就可以被確定為該類信息的大眾分類[4],將用戶群體對該類信息的普遍認知存儲下來。
標簽分類技術的應用流程簡單描述如下:標簽分類系統具有多個用戶,這些用戶允許對同一資源自由添加標簽進行標記,如圖1所示,形成的標簽集合被稱為標簽池;其數據經過系統后臺統計分析后,根據標簽使用率對相應資源進行分類,形成大眾分類數據;采用該分類對原始資源進行系統層面的再標記,并作為資源的推薦分類顯示給查詢該資源的用戶,標簽分類技術應用流程如圖2所示。

圖1 多用戶對同一資源進行標記

圖2 標簽分類技術應用流程
以該技術為基礎,某所工程技術人員構建了一套全自主知識產權的基于多維自定義標簽的知識資料編目管理系統,該系統能夠實現對多種類型、多種格式的數據進行靈活的自定義分類,根據不同的分類和數據應用,采取不同的索引方式進行顯示,對日常研發和項目管理過程中產生的非結構化數據及文件進行統一管理,既能滿足個人用戶日常文件管理、快速自定義多標簽分類、標簽分組展示,又能兼顧其作為組織級數據資產需要具備的數據來源的單一性、版本一致性和編目定義可擴展性,以便與可能存在的大數據平臺進行對接。
基于大眾分類法的標簽技術雖有語義模糊、不夠規范、信息分散等問題,但經過使用頻次、權重匯總后,統計結果具有一定的可靠性,能夠充分體現出用戶的群體智慧[5],將其腦內存在隱性知識顯現化,作為對知識分類和管理的補充,具有顯著的提升作用。
以某所開發投入使用的某型專用信息系統為例,該系統功能及架構設計如圖3所示。其主要功能包括5個部分:資料管理、標簽定義、標簽分組、標簽關聯、數據導出。

圖3 功能及架構設計
以單用戶日常使用場景為例,上述功能在系統中的典型操作流程如圖4所示。

圖4 典型操作流程
系統實施過程中,并沒有單純采用原始的標簽分類技術,而是在其基礎之上進行了擴展,使其能夠支持多維度多層級標簽動態標識。相比原始的標簽分類法,該方法能夠規避標簽之間缺乏關聯關系和層級組織關系的缺點,可以根據企業實際需求體現知識分類之間的層級關系,實現了對文本、文檔、圖片、音/視頻、模型文件、地圖數據、工具軟件等內容的管理,能夠支持任意格式、任意大小的文件,沒有容量和格式限制。
采用多標簽技術、單一文件驗證技術以及基于云存儲的統一后臺數據存儲方案,相比傳統個人計算機文件系統資料管理的無序、易丟失,以及傳統知識庫系統分層/分類方式比較固定、搜索方式單一等缺點,該系統保證了數據唯一性,同一文件沒有數據冗余,用戶可以根據自身需求隨時修改資料分類信息和查看方式,后臺管理員能夠查看分類標簽關聯信息和使用情況,大大提高了資料的使用靈活性和資料管理系統的可擴展性。
目前,該系統已應用于某航天項目研究類知識資料管理系統。藉由此套系統,該項目初步實現了知識資料數據管理、多維度動態分組、知識聚焦、知識關聯查詢等功能,為后續增加標簽提交、審核、共享、發現等功能提供了基礎平臺。應用該系統能夠基于標簽關聯統計開展數據分析,根據分析結果進行標簽質量把控,進一步提升知識資源標記準確性,最終達到知識資源被目標用戶精確獲取的目的。
企業知識管理工作是一個循序漸進、不斷迭代的過程,需要跟隨企業的發展方向、知識本體的演變、技術的進步而不斷完善。知識體系建設的第一要義是先把知識存好、標記好、用起來。知識分類的合理性和可靠性可以在使用標簽進行標記后,由業務(領域)專家進行梳理、標準化專家進行把關,形成企業自己的標準公共標簽池,供用戶參考和初步選擇,對用戶起到必要的引導作用。
標準化專家和標準化歸口部門的早期介入和全程參與對項目、技術方案是至關重要的。依托標準化專業人員的豐富經驗和標準化貫徹實施特有的業務模式,某所資料系統從建立之初就依規建設,融合標準的貫徹實施,強調與型號技術文件編制工作的緊密結合。建成后,在廣大工程技術人員中取得極佳的反饋,工程技術人員可以便捷地建立自己的專業主題,將標準文獻與其他支撐資料進行整合,在保證技術文件合規性的同時,更加豐富了設計支撐資源,提高了設計水平和技術文件的質量水平。某所的技術文件標檢一次合格率也從20%多提高到接近70%,在減輕標準化專業人員工作量的同時,提高了文件質量,加快了研制節奏。通過與應用信息系統建設的結合,標準的宣貫手段、實施手段以及實施效果都有了一個更加直觀、便捷、有效的方式。