黃美
(廣東工程職業技術學院圖書館,廣東 廣州 510520)
基于分眾分類法的圖書館書目本體構建研究
黃美
(廣東工程職業技術學院圖書館,廣東 廣州 510520)
分析了分眾分類法與本體結合的必要性和可行性,介紹了本體的構建原則、方法和工具。在此基礎上構建了圖書館書目本體模型,并重點闡述了書籍本體模型構建思路、標簽及定義類的體系等。
分眾分類法 圖書館書目 本體構建
隨著網絡時代的到來,分眾分類法已經開始廣泛應用于很多領域,但是這種方法本身也存在一定的局限性。相對來說,網絡信息資源冗雜繁復,所以分眾分類法在一定情況下局限了現代化信息組織的進一步發展[1]。在網絡環境下,使用的分類系統需要具備直觀明確、精致有序、具有動態性特征、有一定語義控制能力以及抽象概括能力等特點,唯此才能更好地滿足網絡信息組織、信息檢索以及信息分類的需求。
本體可以對資源語義之間的關系進行確認,并通過一定的形式對信息資源的概念和相互間關系進行表達,確保構造的模型能被計算機識別。在分眾分類法中運用本體,可以使網絡標簽的本體化變為現實。在分眾分類法模型的基礎上構建的本體有助于標簽本體的構建。筆者首先分析和探討了分眾分類法和本體研究的體系、內容和應用狀況,研究了分眾分類法與本體結合的可行性和必要性,并在此基礎上提出可以借由本體對分眾分類法標簽的特性進行約束。
1.1 分眾分類法與本體結合的必要性
標簽數量伴隨不斷增加的網絡用戶而呈現出迅速增長的態勢,結合了分眾分類法的標簽表現出了模糊性、多樣性以及扁平化組織等特點,增加了系統的檢索難度[2]。所以目前亟待解決的問題是如何使分眾分類法的語義性得到增強,以有效提升檢索效率。用戶在檢索過程中使用的分眾分類法標注系統只能以查找關鍵詞作為檢索標簽,這樣對資源進行檢索具有較高的漏檢率,將導致檢索結果的混亂,表現出了相應的局限性。
在概念與概念之間,本體能明確提供語義關系,并在分眾分類法標注系統中進行應用,達到語義檢索的目的。本體的使用能有效彌補在檢索方面分眾分類法標注系統體現出的不足[3]:有利于分享知識,作為自上而下的分類法,分眾分類法是用戶基于自身理解通過自然語言完成分類和標注,本體卻是通過相關領域的專家通過大量的分析和研究完成的分類,兩種分類方法之間的結合不僅使得信息組織方式更加專業,同時以用戶為中心的分類法更有利于共享知識;有利于向用戶提供個性化信息。兩種分類法的結合可以對用戶信息進行深度挖掘,然后根據用戶的標注活動、習慣喜好以及瀏覽歷史等為用戶自動推薦個性化信息資源;有利于檢索效率的提升,用戶把需要檢索的關鍵字在系統中輸入之后,利用本體可以實現擴展查詢,輸入的單一關鍵詞可以向語義相關的關鍵詞擴展,使檢索的查全率得到有效提升。
1.2 分眾分類法與本體結合的可行性
綜合本體和分眾分類法,可以把控制自由標簽的能力提供給用戶,把精確的語義信息賦予到標簽上,對標簽的瀏覽體驗和檢索機制進行改進。在分眾分類法系統中加入本體應用可以更好地控制標簽。筆者通過以下兩方面具體闡述其可行性。
1.2.1 借助本體規范標簽
通過本體的使用可以達到規范標簽的目的。從概念上對標簽進行控制,對歧義、同義和模糊標簽進行規范,使標簽的多樣性和模糊性得到有效消除,防止垃圾標簽的出現[4]。在分眾分類系統中,用戶的知識量、專業性、表達能力以及目的都有所不同,會導致多個標簽表達的概念完全相同的情況;即便是同一個標簽,當語境不同時,其表達的概念也有所不同。比如“蘋果”這個標簽,在計算機領域指的是計算機或者手機品牌,在水果店就是可食用的水果。借助本體可以解決這一問題,本體是規范化描述某一領域知識,可以對概念之間的關系、概念的定義進行再明確,并且以多樣化的形式把概念之間的關聯連接起來,對不同標簽的語義進行約束和控制,使標簽歧義的現象得以消除。
1.2.2 借助本體建立標簽間的語義關系
用戶可以依據本身需求,在分眾分類法系統中,使用相似或相同的標簽對相關資源進行描述,這些標簽具有可見性和共享性的特征。有學者在研究過程中以標簽使用頻率為切入點,通過語義浮出和類聚等方法把用戶使用頻率相對較高的詞匯集合成表。這些詞匯之間都存在著一定的同義、近義、反義或者上下級關系等關聯。本體說明是概念化的,具有共享性,是用戶對事物的共識,其詞匯表中的詞匯都是具有明確定義的。其實本體和分眾分類法標簽還是存在一定共性的,本體概念和部分標簽是可以重合的,通過本體的使用可以便于我們控制和揭示自由標簽的語義,把標簽之間的語義關聯揭示出來。針對分眾分類法標簽來說,有助于語義網絡的構建。本體可以通過兩種方式優化分眾分類法體系:一種是整理分析標簽,構建出標簽語義模型;另一種是通過控制標注過程,對標簽之間的語義關系進行再明確。圖1給出了本體和分眾分類法的具體結合機制。
2.1 本體構建準則
本體隨著多樣化的研究角度、發展壯大的研究隊伍以及不斷拓寬的研究領域,不管是在多樣性方面還是在數量上都有了顯著的提升[5]。對于大多數本體來說,都是用戶根據個性化需求對某個研究項目或者自己的研究領域專門設立的,這是本體多樣化構建過程的形成原因。目前本體構建方法還不規范,用戶都是基于自身需求和本體構建目的提出本體的構建標準。一般而言,本體構建需要遵循以下規則:一致性、客觀性和明確性、最小承諾、編碼編號程度最小以及最大單調可擴展性。筆者依據以上規則,基于構建目標需求,提出分類法領域本體構建的具體方法。
首先是一致性,也即是要求不管是本體的邏輯關系還是本體的概念都要確保前后一致,進而保障概念及邏輯關系的一致性。其次是客觀性和明確性,在分類法分類規則的基礎上對本體概念進行定義,把常用詞和規范詞之間的關聯關系建立起來,發揮本體概念的實用價值;第三是完全性,是指在本體的構建過程中,要盡可能完整表述本體定義,確保能把所描述的事物完全表達出來。當然在這一過程中,知識表達方式呈現出了多樣化的特征;第四是最小承諾,對于用戶來說,本體是為了支持用戶的檢索查詢需求,所以在建模過程中,要盡可能少地約束建模對象,只需要實現概念的語義知識,滿足用戶的特定需求即可;最后是可擴展性。用戶在本體提供的共享詞匯中,在不改變該詞匯原有概念的基礎上可以對新的術語進行定義;在對詞匯定義的本體擴展中,可以采用局部構建法。但是局部構建法自身也存在著一定的局限性,在進行本體擴展之后要在已有本體中嵌入詞匯的擴展部分,對兩者的沖突情況進行檢測,確保原本體與本體擴展部分的一致性。
分類法本體構建的過程中,由于本體構建原則并不統一,而且還不成熟,所以離不開專家的協作和參與。在本體的實際構建中,由于本體具有復雜的結構,所以本體構建方法還實現不了,而且在短期內也達不到完全自動化。
2.2 本體構建方法
構建本體多是面向特定領域進行的,通常具有較強的目的性,所以在本體構建過程中,選擇構建方法至關重要。國際上比較權威的有TOVE法、METHONTOLOGY法、骨架法以及七步法等本體構建方法[6]。有很多專家和學者都針對廣泛應用的本體構建方法進行了分析和研究,概括了各種方法的優劣,還有一些學者按照自身需求,結合不同方法的優點,提出適宜特定領域的分類法本體構建方法。
2.3 本體構建工具
相關統計數字顯示,截至2002年12月,已經存在52種本體構建工具。在此基礎上,中科院的李景博士又找到12種新的本體構建方法。到了2004年下半年,僅在互聯網上就可以找到高達64種本體編輯工具[7]。但是到了實際操作中,并不是所有的本體編輯工具都能得到切實的應用。其中常用的本體合并工具為ONIONS,常用的本體評價工具是Onto Clean;在本體基礎上拓展的標引工具是Onto Aimotate,本體還有一種合并和集成的Chimaera工具,Ontosaunrus常常被用于本體的轉換器、服務器和瀏覽器。通過研究發現,在以上提及的數十種本體編輯工具中,存在著一定的共同點:首先,用戶界面兼容性較強,易操作,穩定清晰;其次,本體構建工具可以對指令含義進行解釋,提供給用戶幫助;第三,本體構建工具都提供有本體文庫;第四,本體構建工具的驗證機制是統一的;最后,本體構建工具可以對文庫中的已有本體重復使用。
3.1 書籍本體模型構建思路
筆者已經分析和探討了構建本體的原則、方法和使用的工具,并在此基礎上與書籍本體的相關研究成果、書籍本體的特性以及構建書籍本體的目的相結合,使用分眾分類法構建了書籍本體模型。具體建模過程如下。
首先是收集和整理書籍標簽。根據構建本體的目的以及書籍的特性,對分眾分類法網站進行比較分析,從中選擇滿足研究要求以及可以展示出書籍標簽特性的網站,并在這些網站中對書籍的相關標簽資源進行搜集。書籍標簽搜集完成之后,根據研究的具體要求和標簽整理原則,規范整理這些標簽,如去重、清洗等,確保獲取的標簽是規范和有效的;其次是重要術語,重要術語其實主要是指語料,這些語料是與構建書籍本體相關的概念、關鍵詞以及術語等。在該步驟中主要是把重要術語從規范化的標簽中整理出來。值得注意的是,還要與其他學者研究的相關性較高的書籍本體比較,不僅可以參考具體的本體研究成果,還可以分析本體模型的可復制性,對現有數據本體提供參考和復用可行性分析,達到基于現有標簽,進一步充實書籍本體模型語義關系的目的,進而使書籍本體專業功能得到有效提升。第三,對書籍本體的結構體系進行定義,該體系結構其實就是書籍本體模型的概念化,是在書籍重要術語基礎上對概念化書籍描述體系進行定義。具體內容包括一級、二級以及三級類目等專業術語。對本體類結構體系定義是為了更加有效地構建書籍本體;第四,對類的屬性進行定義,在第三步中,在同級類之間,語義關系還較為匱乏。通過類的屬性定義,可以在不同級別不同類或者是相同級別不同類之間建立語義關系,書籍本體屬性的功能包括推理和判斷等,它有助于對書籍信息的高效檢索,能實現構建書籍本體的目的;第五是添加個體;最后是模型特征。
3.2 標簽
在構建本次書籍本體中,最主要的信息資源是在分眾分類法網絡上的相關書籍標簽。標簽質量的高低與研究結果的有效性和客觀性是直接相關的。筆者根據研究要求和目的,進行了嚴謹的比較和分析,發現豆瓣網是采用分眾分類法較早的網站之一,而且主要涉及的網站資源是書籍,在該網絡上不僅有大量的書籍標簽和信息資源,還匯集了海量的書籍信息用戶,與研究需求相吻合。所以,在構建本次書籍本體過程中,選用豆瓣網作為標簽來源網站。
3.2.1 標簽收集
筆者根據檢索和研究的需求,與分眾分類法充分結合,選用了“書”“書籍”“文學”“小說”“讀書”“生活”“文化”“穿越”“經濟”科技”等20個近期的熱門詞匯和標簽,并以這些關鍵詞為入口,通過摘錄和檢索等標簽收集活動在豆瓣網中進行標簽的采集。
3.2.2 標簽初次整理
通過以上步驟采集到的標簽只是簡單匯集了豆瓣網上的相關書籍資源標簽,還存在很多的標簽集合問題,不能拿過來直接應用在研究中,還需要進一步的規范化整理。首先是標簽去重,這種處理主要是去除標簽集合的冗余,主要思路是在集合中相同的標簽只能出現一次。以“文學”標簽為例,在搜集到的標簽集合中,該標簽一共出現了6次。根據標簽去重的原則只要保留一個“文學”標簽即可;其次是清洗標簽,清洗的對象主要包括容易帶給信息檢索者歧義以及不能把書籍信息知識準確反映出來的標簽,比如匯集的標簽集合中存在的歧義標簽或是無效標簽。由于自身包含的語義并不能對書籍的信息資源進行有效揭示,所以可以將類似標簽直接清除。通過去重、清洗等整理之后,得到的標簽集合是規范化的,可以在研究中直接應用。
3.2.3 重要術語
可以從多渠道獲取書籍相關的重要術語。筆者主要參照了主題詞表、元數據詞表、敘詞表以及其他本體的重要術語。在分眾分類法基礎上構建書籍本體,其實就是將用戶進行分眾分類法處理之后,利用書籍信息資源標簽對書籍本體進行構建,充分發揮系統化概念的優勢,使標簽與標簽之間的語義關系建立起來,進而實現用戶對所需資源的檢索。構建書籍本體語義關系的基礎是豐富的領域術語。筆者為了使書籍本體的構建更加高效,對前人的研究成果進行了分析,參考了相關的構建信息,使書籍本體的語義功能得到進一步增強。
3.3 定義類的體系
在書籍的描述過程中,本體類是術語的概念抽象化,概念化描述了眾多書籍的個體共性。類根據描述范圍和對象的區別,可以分為3種:同級、上位和下位類。這3種類具有一定等級結構和層級關系,是一個關系分明、結構明確的體系結構。本體這3個類層級等級的區分與確定,關系到書籍本體類間的語義聯系和層次聚類。筆者參考分眾分類法對用戶標簽的定義、語義的搜索及挖掘方法來對書籍本體進行分類。這種本體類間層次關系相對比較簡單,而且容易區分,故本研究擬利用Top-Down方式來構建基于分眾分類法的圖書館書目本體。圖2就是筆者使用Top-Down方式構建的書目本體類層體系圖。
G250.7