趙易新
(天津港信息技術(shù)發(fā)展有限公司,天津,300450)
隨著新技術(shù)、新理念的發(fā)展,當前社會已經(jīng)進入到信息化、知識化的時期,其中主要的表現(xiàn)在于知識信息呈幾何式的擴展,因此怎樣對知識進行組織和整合,是當前時代極為重要的問題。知識組織是專門用來研究知識的理論與方法,在知識的獲取、描述、整合、共享等方面意義重大,下面我們便針對知識組織的系統(tǒng)建構(gòu)進行考察分析。
所謂“知識組織系統(tǒng)”,是為了闡釋某種概念、性質(zhì)及相關(guān)概念之間具體聯(lián)系而建立的組織系統(tǒng)。這一系統(tǒng)在概念、概念性質(zhì)及概念間聯(lián)系表達的基礎(chǔ)上,在特定知識庫結(jié)構(gòu)建設(shè)的支持下,將知識信息加以編排,利用組織系統(tǒng),實現(xiàn)知識信息的語義檢索、語義理解和語義導(dǎo)航等操作,從而給各種學(xué)科領(lǐng)域內(nèi)的專家知識的交流共享提供平臺。
中國知網(wǎng)是當前我國建設(shè)程度最完善的知識組織系統(tǒng)之一。知網(wǎng)本身擁有大量的知識信息,在知識庫組織建設(shè)上已經(jīng)十分成熟。知網(wǎng)的基本結(jié)構(gòu)表現(xiàn)為“三層知識網(wǎng)絡(luò)”,集合了“基本知識庫”、“資源倉庫”、“知識元庫”,能夠?qū)τ脩籼峁?shù)據(jù)資源智能化的挖掘與供給,并以知識組織系統(tǒng)的方式提供知識組織、搭建知識之間聯(lián)系的作用。在給用戶提供知識檢索的基本服務(wù)外,能夠快速提供相似的文獻連接、文獻引用服務(wù)、文獻來源查詢等功能。
萬方數(shù)據(jù)知識服務(wù)平臺是國內(nèi)另一大主要的知識組織系統(tǒng)。較中國知網(wǎng),萬方提供的知識服務(wù)大致有三大類:(1)知識脈絡(luò)的分析。該服務(wù)以用戶輸入的主題詞為中心,通過統(tǒng)計分析數(shù)據(jù)庫內(nèi)論文知識節(jié)點間共現(xiàn)關(guān)系,以直觀可視化的方式,為用戶展示知識節(jié)點的變化過程。(2)行業(yè)知識在線服務(wù)。該服務(wù)依托萬方巨大的知識庫,參照用戶的行為特點,在科學(xué)組織、合理分類的基礎(chǔ)上,給用戶提供專業(yè)的行業(yè)知識。(3)專利分析。該服務(wù)建立在專利信息及情報分析與知識挖掘的基礎(chǔ)上,對專利信息展開多維度的統(tǒng)計分析,繼而實現(xiàn)定量化的智能分析,再將分析結(jié)果以表格等方式呈獻給用戶。
所謂“知識組織”,即進行知識的加工整理及表示控制,并將之組織化。而“知識組織系統(tǒng)”則是服務(wù)于知識組織的,其實質(zhì)為一套特殊的術(shù)語和符號體系。知識服務(wù)系統(tǒng)所涵蓋的內(nèi)容很多,其中分類法和主題法是其中兩種主要的方法,在兩種方法之外,延伸出如敘詞表、詞匯系統(tǒng)等多種方法,是當前知識系統(tǒng)的主流展示形式。通過知識組織系統(tǒng),實現(xiàn)知識數(shù)據(jù)的整理分析,從而提供優(yōu)質(zhì)的知識服務(wù)。知識組織系統(tǒng)還可以細分為總中心系統(tǒng)與分中心系統(tǒng),總中心系統(tǒng)包含了分中心系統(tǒng),通過不同的系統(tǒng)可以快速獲取希望得到的各種專業(yè)知識。
就上文所述的基本概念來看,知識組織系統(tǒng)實現(xiàn)知識整理與檢索的前提在于各種語義詞匯的結(jié)構(gòu)整合,所以詞匯之間的各種關(guān)聯(lián)其實是知識組織系統(tǒng)的關(guān)鍵所在,在進行知識結(jié)構(gòu)的設(shè)計與加工時,要從語義結(jié)構(gòu)及其關(guān)系角度出發(fā),具體來說有以下四點工作內(nèi)容
(1)語義結(jié)構(gòu)框架設(shè)計
語義詞匯:類型,包括核心詞及基礎(chǔ)詞等。
定義及概念:要確保每一個核心詞至少包含一條定義。
關(guān)系:語義關(guān)系是對稱的,而屬分關(guān)系則是不對稱的。在同一類屬下,其是傳遞的。
分類映射:按照關(guān)聯(lián)的分類方法置,映射可以設(shè)定為多維度分類的方式。
性質(zhì):按照相關(guān)的知識領(lǐng)域及服務(wù)要求加以設(shè)定。
(2)語義關(guān)系的類型設(shè)計
語義關(guān)系:分為同義語義、近義語義及反義語義三種。
等級關(guān)系:分為類屬、整體、實例三種。
相關(guān)關(guān)系
(3)術(shù)語自動抽取技術(shù)
術(shù)語的自動抽取(自動識別)即在特定領(lǐng)域的文獻中抽取代表該領(lǐng)域核心理念的術(shù)語詞匯,術(shù)語自動抽取展開的過程如下:
第一、完成擬抽取領(lǐng)域的文獻整合;第二、領(lǐng)域文獻的語料預(yù)處理,包括分詞及詞性的標注、語料轉(zhuǎn)換等步驟;第三、從語料中篩選出候選的術(shù)語;第四、通過一定的語法規(guī)則、統(tǒng)計規(guī)則及通用詞表等,對候選術(shù)語再識別,得到領(lǐng)域相關(guān)的術(shù)語列表。
就術(shù)語自動抽取技術(shù)來說,目前主要的辦法有三種:基于規(guī)則的方法、基于統(tǒng)計的方法及二者(規(guī)則、統(tǒng)計)相結(jié)合的方法。基于規(guī)則的辦法基本利用了術(shù)語詞典和規(guī)則模板實現(xiàn)術(shù)語篩選,該辦法針對那些符合規(guī)則的特定術(shù)語效果較好。基于統(tǒng)計的辦法利用了統(tǒng)計學(xué)的原理,通過術(shù)語在語料庫中的分布統(tǒng)計情況來實現(xiàn)術(shù)語的篩選,該辦法的優(yōu)勢在于適應(yīng)性強,但是術(shù)語篩選的準確度仍要改進。規(guī)則、統(tǒng)計相結(jié)合辦法首先利用語法規(guī)則篩選出候選術(shù)語,再利用統(tǒng)計學(xué)原理進行再次篩選,即綜合了上述兩種辦法的優(yōu)點,在準確度方面表現(xiàn)地更為良好。
目前主流的術(shù)語自動抽取方法主要分為3 類:基于規(guī)則的方法、基于統(tǒng)計的方法以及統(tǒng)計與規(guī)則相結(jié)合的方法。基于規(guī)則的方法主要利用術(shù)語詞典和規(guī)則模板來進行術(shù)語抽取,這類方法對符合規(guī)則的某些特定類型的術(shù)語抽取具有良好的效果。基于統(tǒng)計的方法以統(tǒng)計學(xué)理論為基礎(chǔ),利用術(shù)語已經(jīng)在語料庫中的分布統(tǒng)計屬性來識別術(shù)語,該方法適應(yīng)性更強,實用性更好,但在術(shù)語抽取的準確率上還有待提高。統(tǒng)計與規(guī)則相結(jié)合的方法先是通過語法規(guī)則過濾出候選術(shù)語列表,再使用統(tǒng)計學(xué)方法對候選術(shù)語列表中的術(shù)語進行篩選,最終得到最后的候選術(shù)語列表,兩者相結(jié)合可以提高術(shù)語抽取的準確度。
總之,術(shù)語自動抽取的準確率及效率越高,則知識組織系統(tǒng)的建立就越完善、科學(xué),對此要重視術(shù)語自動抽取技術(shù)的發(fā)展。
總而言之,知識組織系統(tǒng)的搭建和計算機技術(shù)、人工智能技術(shù)、檢索技術(shù)、語言處理技術(shù)等密切相關(guān)。在當前,過去的知識組織系統(tǒng)通過詞匯標引和元數(shù)據(jù)等形式,基本上能夠?qū)崿F(xiàn)知識資源的檢索與獲取,但是隨著時代的發(fā)展,知識組織系統(tǒng)中的資源組織及語義表示等涉及知識資源分布等方面,需要得到進一步的完善。我們期待在今后的研究中,攻克這些問題,為我國學(xué)術(shù)事業(yè)發(fā)展貢獻力量。
[1]畢強.數(shù)字圖書館知識組織系統(tǒng)建構(gòu)的發(fā)展趨勢——從機器可讀到機器可理解[J].國家圖書館學(xué)刊, 2010, 19(1):12-17.
[2]黃日昆, 陳永騰, 孫逸玲.自主創(chuàng)新能力的助長劑—“中國知網(wǎng)”《中國知識資源總庫》及其應(yīng)用[J].圖書館界, 2006(1):63-67.
[3]司莉, 徐麗曉, 陳紅艷.知識組織系統(tǒng)在我國數(shù)字圖書館中的應(yīng)用及界面研究[J].情報科學(xué), 2007, 25(3):445-450.
[4]徐興文.我國企業(yè)社會工作研究文獻綜述——基于CNKI與萬方數(shù)據(jù)庫的文獻分析[J].企業(yè)導(dǎo)報, 2010(10):235-236.
[5]張運良, 梁健, 朱禮軍,等.基于術(shù)語定義的科技知識組織系統(tǒng)自動豐富關(guān)鍵技術(shù)研究[J].現(xiàn)代圖書情報技術(shù), 2010, 26(7):66-71.