白 銀 劉 宏
〔摘 要〕本文對現有各網站的網絡信息資源的分類目錄進行了對比研究,采用了分類—主題一體化和本體論相結合的方法,擬定了一個網絡信息資源的分類目錄,豐富了網絡信息資源組織的分類方法,進一步促進了基于本體論的分類組織方法的實現。
〔關鍵詞〕網絡信息資源;分類目錄;本體論
中圖分類號:F713.51文獻標識碼:A文
章編號:1008-4096(2009)02-0028-04
因特網的出現為人類開辟了新的更加廣闊的信息空間。它的無國界性和使用的便利性,使它迅速地集聚了億萬各種各樣的用戶。網絡的發展導致了一大批以網絡為依托的電子化信息資源的產生。與傳統的信息資源相比,網絡信息資源呈現出許多新的類型和特點,并在管理方面有了更為豐富的內容。如今因特網已經成為全球規模最大、用戶最多、資源最豐富的廣域網。如何讓海量的、無序的網絡信息資源為人類服務,這就是網絡信息組織的內容。本文采用了分類—主題一體化和本體論相結合的方法,擬定了一個網絡信息資源的分類目錄,豐富了網絡信息資源組織的分類方法。
一、信息資源的分類組織方法
目前,信息資源的分類組織方法主要包括分類法、主體法、分類—主題一體化的方法?,F存的方法對信息的描述大多局限在語法和語句層面,不能完全有效地表述信息。描述的信息中存在名稱相同、語義不同或名稱不同、語義相同的情況,會降低信息檢索的查全率和查準率。本體描述概念以及概念之間的關系,可以從語義層面對信息進行描述。本文利用本體實現從語義層面上描述網絡信息資源的分類組織,從而提高網絡檢索的查全率和查準率。
關于本體,目前尚無一個明確的形式化定義,較為認同的是1998年Rstuter的解釋[1]:“本體是對概念體系的明確的、形式化的、可共享的規范說明?!北倔w通過對概念的嚴格定義和概念與概念之間的關系來確定概念精確定義,表示共同認可的、可共享的知識。基于本體的網絡信息資源分類組織是通過構建網絡信息資源的領域本體來實現的,領域本體是用于描述特定領域中概念與概念之間的關系的本體。
二、現有的分類法在網絡信息資源分類組織中的應用
圍繞傳統的文獻分類法在Internet的應用,國外進行過不少實驗研究,目前已進入實用階段。一些大的萬維網站或搜索引擎就采用現有文獻分類組織Internet信息資源。
(1)杜威十進分類法(DDC)[2]?,F有一些站點以DDC為分類體系,這些站點以圖書館和大學為主。資源類型既有綜合性全球資源,也有專題性資源、國別資源。有些目錄在各層次的類目前均標記了標準的十進制分類號,而大多數沒有分類號,只是利用DDC體系建立了瀏覽結構。
(2)國際十進分類法(UDC)。UDC具有分面組配分類法的一些特點,可以通過符號組配獲得概念的組合,因此這種分類法較適用于機檢[3]。一些網絡目錄利用了UDC的這些優點,建起自己的分類系統。
(3)國會圖書館分類法(LCC)。使用LCC的網絡目錄如:CYBERSTACKS,由依阿華大學開發,主要提供6大部類的資源,包括:科學、醫學、農業、工業技術、軍事科學、海洋科學[4]。
網絡信息資源分類在國際上以及各個國家沒有一個特定的分類標準,許多搜索引擎采用自編的分類系統進行信息組織,具體表現為網站分類目錄和網頁分類索引。用于網絡信息組織的自編分類系統主要有以下三種[5]:
(1)等級式主題分類法系統。是指在分類中,基本上采用等級結構,一個主題充當一個類目,類目按字順或人為次序,類目不采用標記符號表示,一個類目可以細分為若干個細目,同位類的細目多按字順排列。這是一種主題分類法形式的分類體系,依事物分類,可以將相關事物的網絡信息資源集中。目前的大多數網絡檢索分類系統就是采用這種分類系統。
(2)分面組配分類系統。是由若干個分面組成,每一個分面的類目可以與其他分面的類目組配,表達專指的概念。
(3)學科分類法系統。這是將各個學科、領域及其分支設為類目的分類法系統。中文搜索引擎“網絡指南針”就提供了一個學科分類系統。
三、采用自編分類系統的網絡信息資源分類實例
Yahoo是WWW上最早、最著名的網絡分類目錄,它是由美國斯坦福大學的兩位博士研究生David Filo和Jerry Yang(楊致遠)于1994年創建的。目前,其分類目錄成為網絡自編分類系統的標準模式。
Yahoo將所收錄的信息分為16大類,每一個基本類目下會細分出不同層次的次一級類目,級別越低的類目中的網站主題越明確。Yahoo網站分類見圖1。

搜狐網站將信息資源分為16大類,每個大類下又細分了各個子類。和Yahoo的分類目錄相比較,兩者有相同的分類,也有不同的分類。不同之處是把Yahoo的某些大類又細分了子類作為搜狐一級類目。采用自編分類系統的搜索引擎多采用了等級式主題分類法系統和分面組配分類法系統相集合的方法[6]。類目既突出了主題,又可以與其他詞互相結合,產生出一個上下文關系,具有了更深層的含義。
通過對比各個網站的分類目錄(這里不再詳細例舉)發現,由于網絡信息資源的無序性、學科交叉性、種類多樣性以及所面對的對象的層次性,它不可能完全以傳統的信息組織方式和現有的網絡分類體系進行聚類和類目設置,那么,就要對傳統和現有的網絡分類目錄相互借鑒和改造,不斷完善網絡信息資源的分類目錄體系,旨在制定出一部網絡信息分類法。
四、基于本體論的信息資源分類組織研究
按照本體論的內容來劃分,可分為:領域本體論、通用本體論和任務本體論。領域本體是本體在具體領域中的應用,本文是本體論在網絡信息資源領域中的應用,屬于領域本體。
領域本體是對某個具領域的知識和特征的描述,通用的領域本體不可能窮盡所有的知識,要想使信息檢索尤其是某個專業領域的信息檢索達到較高的標準,就需要建立并合理地使用領域本體論。
開發一個領域本體包括如下的步驟:(1)考察現有的領域本體的可復用性,定義本體中的類;(2)設定類和子類的合理層次結構;(3)定義類的屬性和描述對屬性值的限制;(4)為實例中的屬性設定具體屬性值。
定義類和類的等級體系是構建網絡信息資源本體的關鍵步驟,對類的等級體系的確定,需要體現分類—主題一體化的方法[7]。定義類的屬性也是本體構建的重要組成。在定義類的屬性時,體現元數據表示方法的思想,從多角度多層次對類進行描述。完善類的等級體系和定義類的屬性是密不可分的,兩個環節必須同時進行,而且,在實現過程中會出現不斷的循環往復,直到合理、滿意為止?;诒倔w論的網絡信息資源檢索模型見圖2。
在本體的構建過程中,如果存在著現有的本體資源,應將其導入并在其基礎上進行添加和完善,這樣可以減少不必要的工作量,提高本體構建的效率,促進資源共享。目前,對于網絡信息資源而言,沒有一個標準的本體資源可以復用。但是各個網站已經有了自己的網站分類目錄,可以為網絡信息資源本體的構建提供參考。通過參考和比較搜狐、網易、Yahoo、新浪、Google等網站的分類目錄,在本體的分類組織思想的基礎上,符合概念邏輯,采用綜合法對網絡信息資源做如下的一級分類(表1):オ

其中,每一個一級子類包含著不同層數的次級子類[8]。網絡信息資源本體中類的關系包括:(1)每一個子類由其下級子類構成;(2)子類完全繼承其上一類的屬性;(3)同一層次的類互為不相交類;(4)每個類的個體不能成為其同級類的個體,但可以存在關聯。
類目劃分一般須遵守相應的概念邏輯規則[5]:(1)每次劃分只能按一個分類標準,一般不得同時采用兩個或兩個以上的標準。(2)劃分以后所得的子類的外延之和應等于母類的外延。(3)劃分出來的各個子類應該相互排斥,不能交叉重疊,界限分明,類目之間不應存在相互交叉現象。
因為中國是體育大國,所以把體育從休閑娛樂中分離出來,成為一級類。越來越多的人走出了國門,出國成為人們越來越關注的話題,所以把出國列為一級類。一級類中的參考,是就目前最新出現的事物、概念進行的匯總,歸為參考類。這樣在網絡上查找所需的信息資源時就會明確歸類,直接到所需內容的類去查找,提高了查全率與查準率。
類目設置充分體現了網絡信息組織的動態性,要根據網絡信息資源數量的分布情況、信息的用戶訪問率,隨時進行類目結構的調整或類目的增、刪、改,并根據網絡的需求進行改造。例如,對于新生的事物,網絡類目就要及時增加其內容,這樣才能完善自身的網絡信息資源。此外,對各自網站來說,用戶是不盡相同的,那么不同的用戶對網站的不同內容,興趣程度也不同,這也需要對網絡類目做出調整,要把大多數用戶感興趣的類目劃分出一個一級類目,以便于用戶查找。分類的層次也不要太多,不應該出現轉換十多次還找不到所需信息的情況。各個網站要結合自己的分類特點,分類對象要擴大到網站所包含內容的一切可利用的資源,讓各種類型的網絡信息資源都能在分類法中找到相應的位置。
基于本體論的網絡信息資源分類組織方法與其他的分類組織方法相比較,其優點是:(1)突出大多數用戶感興趣的類目,通用性強;(2)把網絡資源分成若干個一級類,類名是網絡資源的本源,也就是本體,用戶進行檢索時,就歸屬到對檢索內容所屬的類進行查找,提高了查全率與查準率;(3)網站可以隨時對領域本體進行補充、刪減,具有較強的動態性及實用性;(4)采用本體對網絡資源進行分類,是以知識分類、概念邏輯為基礎的,具有較強的完整性和邏輯性。
五、結論和展望
基于本體的網絡信息資源分類目錄的實現,有助于提高網絡信息資源的查準率和查全率。本體構建從語義層面上對網絡信息資源進行了描述,在對網絡信息資源進行搜索時,可以確保具有相同語義的信息被搜索到,同時排除名稱相同、語義不同的信息,從而提高搜索的查全率和查準率?;诒倔w的網絡信息資源分類組織的實現,還需要不斷地完善和改進,因為隨著社會的不斷發展、進步,新事物、新概念也不斷在產生,舊的事物也會被取而代之,要不斷對網絡信息資源的分類進行補充和調整。此外,在今后的研究中還應對分類方法進行評價,這樣才能使領域本體在網絡信息資源分類中更加完善。
參考文獻:
[1] 喬燕鴻.基于本體論的信息組織研究[D].鄭州:鄭州大學博士學位論文集,2007.
[2] 曹樹金,羅春榮.信息組織的分類法與主題法[M].北京:北京圖書館出版社,2000.
[3] 張燕飛.信息組織的主題語言[M].武漢:武漢大學出版社,2005.
[4] 馬張華,侯漢清.文獻分類法主題法導論[M].北京:北京圖書館出版社,2002.
[5] 游春山,狄九鳳.信息組織理論與實踐[M].北京:北京大學出版社,2001.
[6] 馬費城,李剛,查先進.信息資源管理[M].武漢:武漢大學出版社,2000.
[7] 譚華軍.知識分類[M].南京:東南大學出版社,2003.
[8] 艾偉.本體的構造及其研究[D].武漢:武漢理工大學,2005.
(責任編輯:楊 放)