曾文+劉敏
摘 要:隨著信息技術的發展,我國信息服務業正由知識生產型向知識服務型轉變。知識組織系統是實現數據信息化增效和知識服務增值,以及大數據知識資源和知識服務能力的共享基礎。因此,如何建設知識組織系統,以提供有效的信息服務是目前知識組織系統應用的關鍵問題之一。文章介紹了國內外信息服務中的知識組織系統及應用情況,分析了國內知識組織系統應用中存在的問題和原因,并闡述知識組織系統的構建需要重點解決的問題,提出知識組織系統的基本框架和構建方法。
關鍵詞:信息服務;知識組織系統;知識資源;知識服務能力
中圖分類號:G254.29 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2017050
Abstract With the development of information technology, the information service in our country is changing from knowledge production to knowledge service. Knowledge organization system is to realize data information efficiency and knowledge value-added services, and knowledge resources and knowledge service of big data sharing. Therefore, how to construct the knowledge organization system to provide effective information services is one of the key problems in the application of knowledge organization system at present. This paper describes the knowledge organization system and its application conditions, analyzes the problems and reasons of domestic application of knowledge organization system, and expounds the framework and key solutions of constructing knowledge organization system.
Key words information service; knowledge organization system; knowledge resources; knowledge service ability
1 引言
隨著大數據時代的到來,不同類型和來源的信息數據資源規模與日俱增,如何從這些龐大復雜的數據信息中獲取知識,實現有效的知識組織和知識揭示是我國知識組織系統建設和應用的重要方向之一。知識組織系統是定義、描述客觀物質世界信息及其相互關系的術語和符號系統,其對各種信息資源按照知識的內容和結構進行合理的描述和組織,實現知識的導航、檢索以及關聯。本文通過調研國內外知識組織系統的信息服務應用實例,探討國內知識組織系統應用存在的問題和原因以及知識組織系統的框架和構建方法,從而為實現更有效的信息服務奠定基礎。
2 知識組織系統研究現狀述評
知識組織系統主要用于闡述某種概念、概念屬性以及概念之間的關系,是聯系用戶的信息需求和信息資源之間的橋梁,是信息資源建設的核心問題。知識組織系統的應用[1-2]涉及:(1)通過概念、概念屬性及概念之間關系的表達,控制同義詞和近義詞,將信息按照一定的結構構建知識庫,通過對信息數據的描述、組織和已有的概念知識之間的關系,支持對信息資源檢索的語義理解、規范和導航;(2)通過建立的概念或知識,概念地圖、主題圖和本體,提高檢索和服務效率,促進領域專家知識的共享和交流;(3)依據知識組織系統的概念及關系,可對信息進行概念分析、分類、標引等處理,實現基于語義的檢索,便于全面深入揭示信息、信息之間的關系及其在整個知識組織系統中的位置[3-4]。知識組織系統的目的是在現有資源和用戶需求分析的基礎上,實現對數據資源和內容的最大化描述,以提供符合用戶需求的數據資源。為此,本文調研和分析了國內外知識組織系統及其應用情況(見表1)。
通過研究發現,國內現有的以文獻為基礎的知識組織系統,除中國知網(CNKI)和百度百科外,多數是將已有的詞表或詞匯集進行改造而得到領域單一、傳統意義上的知識組織系統,這種模式下的知識組織系統在應用中是存在局限性的。相比國外,國內的知識組織系統成功應用案例較少,即使較為成功的中國知網(CNKI)和百度百科的知識組織系統,也均未達到國外的知識組織系統應用水平。其它如國家科技圖書文獻中心(NSTL)對信息數據資源提供的檢索服務和知識導航服務極為有限,部分文獻僅能以卡片方式檢索;提供聯機檢索部分的資源,只限于字符串簡單匹配;沒有提供對資源的導航瀏覽;更沒有從多個角度去展示信息資源;沒有對眾多的電子信息資源提供集成的統一檢索,導致不同的數據庫需要到各自的數據庫網站進行檢索。此外,在信息資源獲取方式上基本是以下訂單、Email獲取方式為主,這與當前的主流技術,直接實時下載資源等方式相比,既存在人力消耗問題,也增加了用戶的等待時間。如何從多個角度來深度揭示信息資源的知識、提供多種信息資源導航與集成檢索服務,并盡量讓用戶能實時獲取知識?造成這種現狀的主要原因有以下三點:
(1)信息資源狀況是影響知識組織系統設計和應用的一個重要因索。信息資源數量越多、類型越多對于知識組織系統的要求也越高。對于不同的信息資源情況和不同的應用需求,應根據實際情況來設計和實現知識組織系統。綜合性信息資源的組織要求綜合性的知識組織系統,專業性信息資源的組織,最好設計具有針對某個具體的領域或學科的專業知識組織系統。普通綜合性信息資源的知識組織系統以全、泛為主,而專業性知識組織系統的設計則以精細為目的,并能針對學科的特色來構建。對于資源數量巨大、載體類型豐富、學科專業豐富的知識組織系統的設計,必然要求精細化和多樣化,從而實現從多緯度揭示、有效的集成組織和檢索信息資源的目的。endprint
(2)知識組織的專業性與信息質量的不對稱性。作為知識組織系統的重要組成部分詞表(敘詞表、主題詞表等),是信息組織和服務的重要工具,其與文獻的結合實際上是一種“高端”產業,詞表作為圖書情報領域的專業性工具,其權威性和專業性是不容置疑的,是支持信息組織和服務的主要工具之一,國外著名的檢索機構同樣需要詞表來做知識服務的支撐,但信息服務效果的另一個重要因素是信息資源數據的基礎標引工作,以科技文獻為例,國外的科技文獻基本是按敘詞表受控詞的規范經過嚴格標引的,因此信息檢索和知識服務的精確性較好,而國內尚無機構和人員做類似的基礎工作。因此,國內不同領域和規模的詞表盡管數目很多,但是利用詞表實現文獻檢索和多領域知識導航服務的功能并未有很好的實現。目前國內的知識組織系統應用的現實情況基本是:檢全率有余,但準確率差,且運行代價相對大且慢。
(3)缺乏可用的知識組織語義互操作實施標準和規范。語義互操作是網絡環境下信息服務面臨的主要問題之一,是指系統間共享的數據能夠在充分定義的領域概念水平上得到理解的能力。語義上的互操作需要統一的規范,如概念的表示模式、同義概念歸并與語義規范化、歧義概念的處理等需要依據一定的規范和標準來處理。由于國內互操作相關標準的制定和發展很不成熟,導致國內詞表集成、詞表與分類表的集成等基本處于“各自為政”的狀態,共享性較差。只有在統一的規范和標準下,通過機器輔助的人工干預方式進行同義概念歸并,歧義概念處理,生成規范化概念名稱和概念、唯一標識符,繼承與規范化來源表重要編碼,構建多層次的術語類型和結構化語義網,才能較好地支持具有不同詞表的計算機系統之間進行高效和無歧義的數據交互。并通過概念組織數據,界定各來源表的同義概念,為其提供語義規范化形式的名稱和概念唯一標識符,使得一定抽象水平上的同義概念都能連接到同一個標準化名稱和代碼,這是實現信息系統語義互操作的基本機制。
3 知識組織系統構建需解決的關鍵問題
3.1 知識組織的統一表示
知識組織系統需要統一的表示形式、規范和技術接口,從而集成其它行業性分類法、主題詞表、兼容現有多種格式的主題詞表。傳統主題詞表是信息資源管理中重要的知識組織工具。隨著基于內容的信息處理需求增長,主題詞表作為一個知識體系已經成為概念之間可視化分析和演變分析的重要支撐工具。主題詞表的專業化發展為領域信息資源的管理帶來了方便,同時也帶來了一些問題。如交叉學科通常是研究活躍的領域,在一篇前沿論文的關鍵詞中,常常會涉及到跨多個領域的術語。一部單個領域的詞表往往很難全面覆蓋這些詞匯。另外,各個行業所編制的主題詞表的存儲方式也并不統一,這為構建知識組織系統帶來諸多不便。主題詞表編制者(領域專家)從各自的領域出發編制主題詞表,而主題詞表用戶(信息技術專家)則希望能夠通過統一的軟件接口訪問不同領域的各種主題詞表。因此,跨領域、多來源的兼容化、集成化是以主題詞表為代表的知識組織系統需要解決的重要問題之一,必須建立知識組織系統統一的詞表表示形式、規范和技術接口,從而集成其它行業性分類法、主題詞表、兼容現有多種格式的主題詞表。
3.2 知識組織的語義集成
知識組織系統集成不僅是簡單詞表之間的合并,更是實現對不同知識組織系統中的詞、概念和關系的集成。消除詞表之間的語義沖突,形成一致的集成詞表。在語義集成的過程中,除了需要實現結構層和詞語概念層的一致性處理,還需要通過對信息資源的挖掘技術發現詞語之間深層次的語義關聯[5],包括:(1)同義詞和多義詞集成。在跨領域和多來源詞表中,不可避免會遇到同義詞和多義詞問題,這兩類問題可以通過字形層面的融合實現集成;(2)概念映射。兩個主題詞表的概念之間,可能存在多種關系,如完全相等 、不完全相等(大部分相等、小部分相等),可通過概念映射建立映射文件來解決;(3)概念集成。由于屬分關系在不同的主題詞表中,有各種不同的含義,所以概念集成的重點是概念間屬分關系的發現問題;(4)關系集成。詞表的集成,不僅是同型概念的映射集成,還需通過對數據的挖掘,發現跨領域的詞表術語之間的新的關聯關系。
3.3 用戶的行為數據分析
分析和利用用戶行為信息的目的是支持知識組織系統的服務,用戶行為信息產生于用戶與知識組織系統交互的過程中,對其進行分析發現用戶行為規則和模式,達到快速反饋知識服務的目的。目前已有的用戶行為分析研究主要集中在知識組織系統構建已完成后的方法研究,而且研究范圍局限于對用戶行為影響因素分析,對知識服務的主動性欠缺。本文認為:用戶的行為數據分析一方面是一個對積累的用戶行為數據進行分析的過程,另一方面是如何相對實時跟蹤和獲取用戶行為數據參與知識挖掘的過程。所以,構建包含用戶行為的知識組織系統框架,借助數據分析技術和方法,將用戶行為分析作為“知識”,實現知識組織系統針對性的知識組織,才能更好地為用戶提供有效的主動式信息服務。
4 信息服務中的知識組織系統框架與構建方法
4.1 知識組織系統的基本框架
國外知識組織系統的研究和應用日趨多元化[6-7],應用實例不再局限于傳統知識組織系統提供的方法和技術,結合計算機存儲技術、檢索技術、大數據技術等支持更豐富和完善的知識服務[8]。如利用知識組織系統之間的互操作方法和技術,支持不同知識組織系統的數據資源進行有效整合和檢索;基于Web構建和整合數字環境,通過檢索技術和基于內容的鏈接能力,將高質量的信息資源、信息分析工具和信息管理軟件無縫整合;通過語義匹配和推理,查找具有相關語義內容的文檔,將滿足不同需求的相關信息進行組織,建立基于語義技術的文獻和知識的瀏覽及導航;不以傳統的分類表和詞表作為知識組織系統的分類和組織工具,而是基于數據資源內容特點,構建新的數據分類和組織體系。此外,根據用戶需求和信息資源特點,靈活構建適用的知識組織系統則更具實用性[9]。因此,本文提出知識組織系統構建框架??蚣苤饕ㄋ牟糠郑夯A平臺層、數據資源層、業務層和服務層。其中基礎平臺層是知識組織系統的平臺系統,即操作系統和數據庫管理系統;數據資源層指知識的數據源,是知識準備的基礎,重點涉及用于知識抽取的各種類型語料庫,已有的知識組織系統資源數據及用戶行為資源數據;業務層是知識組織系統的功能層,其主要實現知識的加工,傳統知識組織系統的集成、更新和擴展,以及用戶行為知識的分析;服務層主要實現面向用戶的服務,主要涉及信息檢索服務,信息知識的組織和導航、知識組織系統的可視化以及接口服務等(見圖1)。其與傳統知識組織系統構建框架的主要不同之處是在數據、功能和服務上耦合度和集成度更大,具備集成傳統知識組織系統和知識重新構建的雙重功能,且數據資源層增加了用戶行為資源數據,業務層增加用戶行為知識分析功能,從而使知識組織系統的信息服務更符合用戶的實際需求。endprint
4.2 知識組織系統構建的基本方法
(1)知識準備。主要包括兩個方面:一是基于領域的知識準備,這類知識指詞條基本信息、詞條定義及注釋知識、詞條之間的關系知識、詞條的屬性知識及分類知識。這些信息可通過領域數據或已有領域詞表信息中獲?。欢腔谟脩舻闹R組織準備。用戶的知識準備是伴隨知識組織系統的使用過程中,通過組織用戶行為中而發現的知識,如用戶與知識的“會話”信息(如瀏覽的檢索詞),用戶的目標知識信息(如某個文獻)、知識的排序信息等。用戶的行為知識可以通過分析和挖掘這些信息及信息之間的關聯關系而得到。
(2)知識獲取、組織與集成。數據的知識發現、組織和集成技術的目的之一是實現知識的跟蹤和推理。結合用戶行為數據的分析結果,從數據中挖掘出知識特點,通過建立科學的推理模型,并通過模型帶入新的數據,從而推理未來的數據知識。對于結構化數據中知識的獲取,已有很多研究,在目前大數據環境下,非結構化數據的多元化給知識識別、組織和集成等技術的實現帶來相比結構化數據更大的分析難度,因此需要重點解決如何從非結構化數據中獲取知識。研究方法上應更關注非結構化數據的知識特點,從而得到知識識別的技術要素,設計有效的知識識別技術,并在此基礎上,對行業數據進行知識的分類和組織,以及一定程度的知識集成。
(3)知識的語義分析。語義分析的核心意義之一是建立數據的語義關聯,從而層次化和有序化的揭示數據中的核心內容,提取有效的數據信息。在知識組織系統的生產和服務中,語義分析技術可以輔助用戶生產和加工有效數據,建立歷史與現實數據知識的智能化關聯。知識的語義分析應建立在符合行業數據特點的知識語義表示,描述標準和規范基礎上,能夠解決符合數據特點的細粒度知識加工和符合數據特點的知識獲取和關聯技術。
(4)符合用戶行為的知識組織和服務。知識組織系統的目的是服務用戶,其不僅僅是通過文獻或其它類型的數據資源庫來提供信息和知識服務,更需要結合用戶行為實現有效的知識組織,再利用可視化方法和技術為用戶提供顯性知識和隱性知識的可視化展示。顯性知識組織的可視化可支持用戶的查詢和知識導航,通過知識的組織和分類快速定位用戶需要的信息。隱性知識組織的可視化則針對用戶行為和知識需求,進行用戶所需知識的分析和組織,提供知識檢索優化、推薦等深層次的知識服務。
5 結語
無論是傳統的文獻資源,還是現代的網絡信息資源,知識組織系統仍是信息組織和服務的基礎,知識組織系統通過在用戶需求和信息資源之間以及多類型信息資源之間建立關聯,達到對信息資源的集成管理、深度挖掘和高效利用,對于更好的建立信息資源索引、瀏覽和展示信息資源等方面將具有巨大的作用[10]。本文通過對國內外知識組織系統及應用的分析,提出新的知識組織系統框架和構建方法,下一步將對知識組織框架的實現和應用做深入研究。
參考文獻:
[1] 趙蔚,劉秀琴,邱百爽.語義網自適應學習系統中領域本體的構建[J].吉林大學學報(信息科學版),2008(5):514-518.
[2] 王蘭成,敖毅,曾瓊.國外知識組織技術研究的現狀、實踐與熱點[J].中國圖書館學報,2008,34(2):93-97.
[3] 曲建峰,李芳,張軼華,等.知識組織系統自動映射規則研究與實現——以《杜威十進分類法》和《中國圖書館分類法》為例[J].現代圖書情報技術,2012(10):83-88.
[4] 王景俠.知識組織的工具及其語義互操作方法體系[J].數字圖書館論壇,2013,(5):41-46.
[5] 董慧,徐雷,王菲,等.語義分析系統研究(I)——史籍語義分析流程[J].情報學報,2014,33(2):183-194.
[6] 王昊,谷俊,蘇新寧,等.本體驅動的知識管理系統模型及其應用研究[J].中國圖書館學報,2013,39(2):98-110.
[7] 蘇新寧,等.面向知識服務的知識組織理論與方法[M].北京:科學出版社,2014:18-19.
[8] 張文秀,陳偉,朱慶華,等.基于本體的語義分析過程與方法的研究應用[J].計算機應用研究,2011,28(3):961-964.
[9] 肖會敏,侯宇.互聯網+環境下科技信息資源共享面臨的問題及其對策.[J].情報工程,2015,1(6):39-42.
[10] 孫曉平.大數據知識計算的挑戰[J].情報工程,2015,1(6):43-50.
作者簡介:曾文(1973-),女,中國科學技術信息研究所副研究員,博士,碩士生導師,研究方向:知識組織和知識工程、情報分析技術研究;劉敏(1980-),女,中國科學技術信息研究所助理研究員,研究方向:情報分析研究。endprint