


[摘 要] 概述本體相關理論,在分析本體對實現數字內容有效組織、語義檢索、語義導航和個性化服務等的重要作用基礎上,綜合現有本體構建方法構建一個書店本體,以供后續研究者參考。
[關鍵詞] 數字內容 按需獲取 本體 數字出版
[中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 (2013) 05-0079-06
數字內容的爆炸式增長已將我們卷入“信息過載”的時代,海量的數字信息滿足了普通大眾的信息需求,但同時它的龐雜、無序以及缺乏機器可以理解的語義,又極大地限制了人們對自己真正需要的知識的快速獲取。實現異構信息的互操作,無序信息的序化,以及數字內容語義拆分、動態重構和語義檢索等是數字內容按需獲取的前提,而基于本體的數字技術以其日益顯現的突出能力,成為解決上述問題的基礎之一。
1 本體理論概述
本體是一套得到大多數人認同的關于概念體系的明確的、形式化的規范說明[1]。它對概念體系的規范和說明建立在類(或概念)、屬性、實例、關系、公理等基本元素之上。其中,類是構成本體概念模型的主要部分,類與類之間蘊含著復雜的語義關系。通過對類添加不同的屬性,以及由屬性構造公理和約束,能對類進行明確的描述和定義,并描述類與類之間的關系,進而將不同的類連接成一個復雜的概念網絡。
本體對概念的定義能力以及對概念關系的描述能力,使得它成為一種強大的知識表示方法和語義分析基礎,在諸如機器翻譯、智能檢索、異構信息處理、自動問答、跨語種檢索等方面都能夠發揮重要作用,因此有著廣泛的應用前景。近幾年,出版業也開始引入本體思想與技術,并借鑒圖書情報、人工智能領域業已取得的成果,以探索本體在數字出版領域的應用。國際上,牛津大學研究小組開發的一種引文類型本體,微軟針對Word 2007開發的本體插件[2],都嘗試將本體技術引入出版的不同環節。在國內,人民教育出版社組織開發的“人民金典”語義搜索系統[3],其底層語義模型運用了本體方法論作為指導。此外,研究人員也開始研究將本體引入方正科技等互聯網出版機構的知識組織系統中。
2 本體的作用
數字內容按需獲取的最終實現需要從兩方面來綜合考慮:一是數字內容本身;二是用戶。在數字內容方面,必須解決的問題是實現數字內容的有效組織,解決方案是構建數字出版內容知識庫——將各種加工好的數字內容系統地組織并存儲起來,實現對數字出版資源的初次優化。這也是實現數字內容語義分析和動態重組的基礎。在用戶方面,必須解決的問題是方便快捷地提供用戶所需的數字內容,這可以通過兩種途徑來實現:一是在用戶檢索時,系統需要根據用戶需求高效、快捷地從知識庫中獲取所需資源,并重新組織成滿足用戶需要的數字內容;二是系統根據用戶的瀏覽習慣、個人背景信息等主動向用戶提供個性化服務和信息導航。本體技術為這兩方面問題的解決提供了很好的基礎。
2.1 數字內容的有效組織
當前,從文獻層面對數字出版內容進行組織的主要方法有分類法、主題法、分類主題一體化法三種。如中國知網綜合運用了這幾種方法對其數據庫文獻進行組織,取得了不錯的效果[4]。但是,它們無法實現對知識內容本身的有效管理[5],尤其在面對信息過載的網絡環境時,會導致科研人員淹沒在大量無關信息之中。因此,知識信息組織從物理層次的文獻單元向認知層次的知識單元轉變、增加知識的關聯度以及實現異構信息的互操作都是亟待解決的問題。本體則為解決這些問題提供了有效機制。
一方面,可以先在領域專家的協助下構建領域本體,同時從領域文獻中抽取領域特征詞集,使用基于領城本體的空間向量模型方法建立領域特征詞集與本體概念之間的映射,采用這種方法對領域文檔進行語義標注,從而將文檔隱含的語義信息明確地表達和揭示出來;然后,借助信息抽取技術從文獻中抽取由特定語義和語用約束的知識片——知識元,并在此基礎上構建基于知識元的數字內容本體知識庫,由此實現由文獻單元向知識單元的語義拆分;最后,根據用戶需求,實現知識單元級別的數字內容動態重組,以滿足用戶個性化的知識需求。
另一方面,由于本體代表一種用機器可以理解的語言和邏輯建立的對信息資源的結構化描述規范,它為不同的系統建立了能夠共同理解并使用的術語。基于一個共同的本體進行語義標注可以提供共同的框架來集成異構數據源中的信息,可以滿足智能主體(Agent)對使用不同操作系統、應用語言和網絡協議的文獻資源進行有效檢索和訪問,實現信息資源在語義層次上的全方位互聯,并在此基礎上實現更高層次的、基于知識的智能應用[6]。
2.2 數字內容的語義檢索
傳統的檢索系統工作原理為:對采集來的信息資源進行分析,得到信息資源所對應的關鍵詞集合,然后將這些信息資源和關鍵詞集合存儲在數據庫中;當用戶進行檢索時,系統就會將用戶的查詢詞與數據庫中存儲的關鍵詞或者信息資源本身進行字符串匹配,只要查詢詞與關鍵詞或信息資源中的內容相同,就將包含此詞的信息資源檢索出來[7]。顯然,這種基于字符串的機械匹配模式并沒有考慮信息中的語義,因此檢索效率很低。一方面,它無法將語義相同,但查詢詞不同的信息檢索出來,比如在中國知網,用關鍵詞查詢法分別輸入“番茄”和“西紅柿”時,檢索結果差別很大。另一方面,它無法將字符串相同,但語義不同或者相關度很低的信息排除在外,因此檢索結果中混雜著很多無效信息。
基于本體的語義檢索則從語義理解的角度分析信息對象與檢索請求,是一種基于概念及其關系的檢索匹配機制[8]。它通過理解和分析用戶用自然語言表述的檢索需求,構造更為科學的查詢表達式,并將之與同樣用本體組織良好的知識庫中的數字內容索引庫進行語義推理和語義匹配,這樣檢索出來的結果在準確率和周全度上相較于傳統檢索模式都會有很大提高,因此更符合用戶按需獲取的最終目的。
2.3 個性化服務和語義導航
信息爆炸給用戶帶來了“信息迷航”的困擾,并促使用戶個人信息需求越來越個性化和碎片化。此外,用戶由于自身知識結構的缺陷、語義理解的主觀性等原因,并不總能清楚地意識到自己所需要的信息到底是什么。個性化服務和信息導航都是在應對這些問題中產生的對策。數字出版業已經在信息導航和個性化服務方面做了一些工作:信息導航方面,大多數在線數據庫在檢索界面中都提供簡單的分類或者主題層次結構,以方便用戶分類檢索或瀏覽;個性化服務方面,個性化訂閱和個性化推薦已成為重要的研究課題。但目前的信息導航服務所提供的分類或者主題結構過于簡單,用戶并不能從中獲取粒度較小的語義理解支持;而采用關鍵詞法、向量空間法和分類法構建的用戶興趣模型(個性化推薦服務的核心技術)則存在維度過粗、語義缺失、語義關聯能力不足等問題。本體技術能夠為這些問題的解決提供很好的支持。
本體是由領域概念及其關系構成的復雜的網狀結構,它不僅能夠實現基于語義的分類、主題概念的無縫組合,還能支持概念屬性、概念實例層級的知識表示,因此領域知識之間的豐富語義關聯通過本體能夠以網狀結構圖形詳細地、可視化地表現出來,從而為用戶提供上下文相關知識,方便用戶根據瀏覽意圖的不同,自主選擇不同粒度的檢索問題。
在用戶興趣模型的構建過程中,可以將用戶的特征詞集合與領域本體進行語義映射,建立用戶的語義空間,進而借助領域本體這一中介建立信息源和用戶之間的統一語義模型。由于本體自身突出的知識表示能力,基于本體的用戶語義模型能夠根據用戶背景提供遠比目前方法更為精準的主動信息服務,甚至激發用戶潛在的興趣點。
3 本體構建方法與流程:以書店本體構建為例
實現本體在數字出版方面應用的前提是必須有可用的、構建良好的領域本體。本體之于上文所述的功能實現,就如同建房子時必須建立框架,然后才能在此基礎上添磚加瓦,進而裝修成美麗的居室。當前經典的本體構建方法有IDEF5法[9]、Mike Uschold & King的骨架法[10]、Gruninger & Fox的評價法(又稱TOVE法)[11]、KACTUS工程法[12]、METHONTOLOGY法[13]、SENSUS法[14]、斯坦福大學醫學院的“七步法”[15]等幾種。它們為本體的構建提供了很好的方法論基礎。綜合上述方法的優點,本文構建一個書店本體案例。在整個流程方面,主要借鑒IDEF5法、骨架法、METHONTOLOGY法;在具體建模階段,主要參考斯坦福大學醫學院的“七步法”,并根據需要作了相應調整。總體過程包括:準備階段、本體建模階段、本體形式化階段、本體維護和進化階段四個階段。
3.1 準備階段
(1)構建目的及領域范圍
本體的構建不是無的放矢,只有明確了構建目的和領域范圍,我們才知道本體中大概需要哪些概念,哪些屬性,以及本體的粒度大小,即本體將在哪一層級終止。書店本體的構建旨在把我國不同類型書店的概念體系本體化地表示出來,為我國書店系統提供共享的知識基礎,以方便了解各種書店之間的關系,以及各書店自身的所有制性質、經營規模、資本形態、經營形態等屬性。其領域范圍為:我國的書店體系。為進一步明確,可以列出所構建本體將要回答的一些問題和預備實現的功能。作為自備知識庫,書店本體的預期目標是能夠回答諸如這樣一些問題:
a50380c1bf8bbd89ad544b0dc41695961)我國古籍書店、外文書店、二手書店……有哪些?都在什么地方?
2)三聯書店是國有的還是民營的?是綜合書店還是專業書店?主要銷售什么品類的圖書?
作為語義分析、標引和智能推理的基礎,它必須能夠在檢索系統中輔助完成諸如以下情況的任務:當一個檢索者需要檢索我國民營書業發展狀況時,它必須準確提供有關民營書業相關情況的文獻,而不會將國有書業狀況的文獻也一起提供給檢索者;它必須將記載我國書業發展狀況的文獻中有關民營書業的部分單獨抽取出來,而不是整篇提供給檢索者。
此外,需要說明的是,本文所構建的書店本體并不試圖厘清我國書店系統復雜的內部結構,因此該部分概念及關系將不在本文書店本體中涉及。
(2)考慮可復用的現有本體
本體提供了領域共享的知識基礎,本體的復用是構建本體的固有目標之一。在本體建模開始之前,考慮復用現有本體將極大地簡化本體構建過程。出版領域目前并沒有本體構建的具體案例可供參考,因此并無現成的本體可以作為我們構建本體的基礎。但凝結著領域專家智慧的已有領域文獻、詞典可以為本體構建工作提供一定參考。本部分主要以武漢大學編纂的出版發行詞典中關于書店系統的相關概念及其定義作為參考。該出版發行詞典由武漢大學出版發行系的專家及教授共同編纂,具有相當的權威性,因此可以作為書店本體概念分類及概念描述的基礎。
3.2 本體建模階段
(1)列出書店本體的核心概念和術語
識別本體的構建目標、范圍后,就要按照它們確定所需的核心概念,以便建立領域知識概念模型。結合書店本體構建的目標和范圍,以上述出版發行詞典為基礎,在領域專家的參與下,經過頭腦風暴法確定書店本體的潛在核心概念,然后通過識別、分析最終確定了“書店”“書店描述”“出版物”“出版物描述”四個核心概念。其中“書店”類下面包含我國各種類型的書店子類,它是書店本體中最為核心的概念;“書店描述”類為描述和定義“書店”類中各種類型書店而存在,它是本體化表示“書店”類概念的重要部分。書店是銷售出版物的商店,不同類型書店的劃分很大程度上是根據書店所售出版物的種類、形態等的不同而進行的,因此,“出版物”類也是書店本體中不可或缺的核心類;與“書店描述”類同樣,“出版物描述”類為描述和定義“出版物”類中各種類型出版物而存在,它是本體化表示“出版物”類概念的重要部分。這四大類核心概念基本上可以涵蓋根據上文書店本體構建目標和范圍所確定的主要領域概念。
(2)建立概念層次結構
確定核心概念后,在此基礎上建立概念的層次結構,即完成本體概念層級模型的構建。本部分工作是本體建模階段最為重要的一環。類的等級體系取決于本體的可能用途、應用需要細化的程度、個人偏好以及有時候需要結合考慮與其他本體模型的兼容性[16]。根據上文所確定的構建目的和領域范圍,書店本體最大的概念為“書店”,最小的粒度(即實例)將是我國現實的書店體系中的各個書店。因此,根據需要,書店實驗性本體的主要概念層級結構是一個兩層結構,部分概念將會涉及三層以及更多層次,其主要的最上兩層等級體系如圖1所示:
有兩點需要說明:第一,在學術研究中,我國的書店體系可以按照不同標準進行劃分,比如按所有制屬性可以劃分為國有書店、民營書店、集體書店、混合所有制書店;按出版物內容可以粗略劃分為兒童書店、教育書店、民族書店、學術書店、生活書店、工具書書店,等等。而在本文所構建的書店本體中,筆者并沒有將“書店”類進行這樣的劃分,這是因為:其一,并沒有一種分類標準能夠完全概括所有不同的書店類型,不同分類標準之間存在著很多交叉重復,比如一個現實中的書店可能既是國有書店也是教育書店,因此在本體構建中,這樣的分類并沒有很大必要;其二,現實中,并不存在“按所有制劃分的書店”“按出版物內容劃分的書店”這樣的書店類型,因此將它作為“書店”類的下位類概念也并無實際意義;其三[17],本體概念模型的可用性、可理解性和表達精確性是一個兩難選擇,現實中往往并不需要一個復雜且精確的概念模型來描述一個希望被大多數人理解和重用的本體,一個簡單清晰的模型更適合項目的實際需要。“出版物”類基于類似原因,也沒有進行過于復雜的劃分。
第二,在建模時的困難之一是決定何時建一個新類或者何時通過不同的屬性值來描述區別。在書店實驗性本體中,“書店描述”類和“出版物描述”類分別作為描述和定義“書店”類、“出版物”類的類別而存在。它們原本既可以作為類也可以作為屬性值而存在,本文的書店本體之所以分別為它們創建類,是因為考慮到一個把過多信息放在屬性中而類別過少的、過于扁平的概念體系是難以操縱的。
(3)定義概念、屬性
概念的層次結構只是為本體搭建了一個框架模型,只有類的體系語義信息太過簡單,根本不足以提供解決問題所需的答案信息以及作為語義分析和智能處理的基礎。因此確定了概念的層次結構之后,還必須描述概念間的內在結構,即對概念本身以及概念之間除了層級關系以外的其他復雜語義關系進行明確定義。結合書店本體的需要,筆者確定了三類屬性:第一類用來定義和描述各種類型的書店,包括“所有制”“規模”“資本形態”“地點”“職能”“經營方式”“形態”等。例如,確定了“所有制”屬性,就可以對“國有書店”類進行定義,即國有書店是所有制屬性為“國有”的書店。第二類用來定義和描述各種類型的出版物,包括“形式”“載體”“語言”“內容類別”“閱讀對象”“售價”等。例如,對“兒童出版物”類添加“閱讀對象”屬性并指定該屬性值為“兒童”,就可以對兒童出版物進行這樣的定義:兒童出版物是供兒童閱讀的出版物。第三類屬性主要描述的是“書店”類和“出版物”類的關系,主要屬性是一對互逆的屬性,即“銷售”和“被銷售”。例如通過“銷售”屬性可以建立“兒童書店”類和“兒童出版物”類的關系,即兒童書店是主要銷售兒童出版物的書店。
(4)創建實例
對本體中的概念及屬性進行定義之后,本體概念模型就可以宣告構建完畢,是否要對其進行實例化是由實際需要決定的:當所構建的本體僅僅是為領域提供共享的概念基礎時,就不必對其進行具體的實例化;當所構建的本體是面向具體應用目的時,根據需要對其實例化則是重要的一環。根據書店本體所擬定的構建目的以及預計功能可知,書店本體側重于信息描述(實例表現),對其進行實例化是十分必要的。實例化的工作包括實例聲明、實例描述和關系關聯三個部分[18]。以實例描述為例,假定已經聲明“天津古籍書店”是“古籍書店”的實例,雖然在“古籍書店”類中已經定義了古籍書店是銷售古籍出版物的書店,這個屬性可以為“天津古籍書店”自動繼承,但“天津古籍書店”的“所有制”“地點”“有無實體”等屬性則需要在實例描述環節作進一步描述。可以看出,在面向具體應用的本體構建中,本體的實例化是非常繁瑣的一個環節。
3.3 本體編碼階段
本體編碼階段即用本體描述語言將本體建模階段的成果規范地、形式化地表示出來,以便計算機能夠處理。由于本體編碼過程的繁瑣性以及人工編碼的易錯性,國內外眾多機構研究開發了不少本體開發平臺軟件,通過這些軟件能夠直接用自然語言編輯本體,而不需要掌握具體的本體描述語言,大大簡化了本體編碼過程。在這些軟件中,斯坦福大學醫學院信息化研究小組開發的Prot€間€槿砑19]因其在多方面的優勢成為應用最為廣泛的本體編輯軟件。因此,在書店本體編碼過程中,本文選用Prot€間€楸咎灞嗉砑ㄖ嚀宓謀嗦牘ぷ鰲R員咎迨道嗉?給出了上文提到的“天津古籍書店”實例描述在Prot€間€槿砑械謀嗉緱妗?
Prot€間€槿砑幸桓鎏乇鸕撓諾閌俏募涑齦袷嬌梢遠ㄖ啤?梢越玃rot€間€櫚哪誆勘硎咀懷啥嘀中問降奈謀頸硎靖袷劍╔ML、RDF(S)、OIL、DAML、DAML+OIL、OWL等系列語言。在目前眾多可用的本體表示語言中,OWL語言因其在豐富的語義表達能力和良好的邏輯推理之間找到了很好的平衡,成為使用最為廣泛的本體描述語言,因此書店本體擬采用的文件輸出格式是OWL語言。將Prot€間€?軟件編輯好的本體導出OWL文本,仍然以上面的“天津古籍書店”實例描述為例,導出的OWL文本片段用IE瀏覽器打開后截圖見圖3。
該段OWL文本用自然語言描述是:古籍書店的實例天津古籍書店,所有制為國有,是實體書店,地處北京。
3.4 本體維護和進化階段
本體構建后,需要對構建的本體進行維護和改進,以保證已構建本體的可用性。從功能角度來看,這一過程包括邏輯檢測、本體評價和本體進化等階段。
由于本體構建的復雜性以及過程的繁瑣性,很難保證所構建的本體沒有邏輯錯誤,因此在本體形式化編輯完成之后對本體進行邏輯檢測是十分必要的。書店本體采用德國弗朗茲公司(Franz Inc.)開發的Racer推理機[20],對概念進行一致性和包涵性檢測,對實例進行沖突檢測,以發現本體中概念、屬性、實例以及關系的邏輯不一致的情況,確保本體在邏輯上的正確性[21]。事實上,除邏輯檢測外,進行本體推理還能夠將本體中隱含的語義關系顯現地表示出來,如在書店本體中,由于“天津古籍書店”的所有制屬性是“國有”,符合“國有書店”類的定義,盡管我們在編輯過程中沒有指定“天津古籍書店”為“國有書店”類的實例,但當推理機進行推理后,“天津古籍書店”將會自動歸類到“國有書店”類的實例中。
本體評價是對所構建本體的正確性和有效性作出合理評估,主要看能否達成預期目標,評價標準是看所構建的本體在具體應用中所達到的效果。本體進化是根據本體評價結果、具體應用目的以及領域知識的變化更新而進行有目的的、長期的改進工作,它是保證本體能夠適用于具體需要而采取的必要措施。因為本文所構建的書店本體只是一個本體案例,尚沒有在具體應用中進行檢驗,因此評價和進化都不在本文的討論范圍之內。
至此,一個從工程視角構建本體的流程全部結束,將構建好的本體結合相關數字技術運用到前文所述的相關過程中去,就可以實現本體在數字內容按需獲取方面的基礎性作用。
4 結 語
傳統出版向數字出版的轉型,其最為直接的表現是載體的改變,但更本質的卻是知識組織方式、呈現方式、獲取方式的轉變。隨著數字出版產業的發展,數字出版機構已經由傳統的內容提供商向知識服務商轉變,數字內容組織由傳統靜態的文獻單元向動態的“流內容”轉變,而支持這些轉變的是數字技術及其思想。隨著數字技術及數字出版理念的不斷進步、成熟,當前的數字出版活動也逐漸由簡單的數字化向定制化、語義化出版方向發展。本體理論以及基于本體理論的一系列技術很好地契合了語義出版、按需出版等新的數字出版形態的內在要求,已經開始為數字出版業所關注和重視,其應用前景十分廣闊。但因為其復雜性,目前底層技術還不成熟,比如基于本體的語義標注技術、知識元抽取技術以及本體自身的自動構建、映射、匹配、集成等眾多技術還是研究的難點,還處于不斷探索和完善的階段。本文主要分析了本體在數字內容按需獲取方面的作用,結合目前廣泛應用的本體構建方法和流程構建了一個書店本體案例,以供后續研究者參考,其可行性和有效性還必須經過實踐檢驗,這也是后續研究需要逐步解決的問題。
注 釋
[1]Gruber,T.R.A Translation Approach to Portable Ontology Specification[J].Knowledge Acquisition,1993(5):199-220
[2]徐麗芳,叢挺.數據密集、語義、可視化與互動出版:全球科技出版發展趨勢研究[J].出版科學, 2012(4):73-80
[3]王洪俊,黃翬.“人民金典”語義檢索系統實現方法和技術[J].中國傳媒科技, 2011(4):74-77
[4]馬捷,劉小樂,鄭若星.中國知網知識組織模式研究[J].情報科學,2011(6):843-846
[5]文庭孝,羅賢春,劉曉英,張蕊.知識單元研究述評[J].中國圖書館學報,2011(5):75-86
[6]王亞斌.基于本體的語義標注研究[D].蘭州:蘭州理工大學,2010:1
[7]劉金桂.基于本體的信息資源組織[D].南京:南京航空航天大學,2006:1
[8]焦玉英,張璐.基于ontology的語義檢索模型架構[J].山東圖書館季刊,2006(3):10-14
[9]IDEF Family of Methods A Structured Approach to Enterprise Modeling and Analysis [OL].[2007-11-15].http://www.idef.com/
[10]Uschold M.Ontologies Principles,Methods and Applications[J].Knowledge Engineering Review,1996,11(2):56-57
[11]Gruninger M,Fox M S.Methodology for the Design and Evaluation of Ontologies.Workshop on Basic Ontological Issues in Knowledge Sharing[M],IJCAI-95,Montreal,1995
[12]Berbaras A,Laresgoiti I,Corera J.Building and reusing ontologies for electrical network applications[M].In:Proc of European Conf on Artificial Intelligence,1996:298-302
[13]Fernandez M,Gomez-Perez A,Juristo N. Methodology:From Ontological Art Towards Ontological Engineering[M].AAAI-97 Spring Symposium on Ontological Engineering,Stanford University,1997
[14]Ontology Creation and Use:SENSUS[OL].[2007-11-15].http://www.isi.edu/natural-language/resource/sensus.html
[15][16]Natalya F.Noy,Deborah L.McGuinness.Ontology Development 101:A Guide to Creating Your First ontology[OL].[2002-10-12].http://Prot€間€?stanford.edu/publications/ontology_development /ontologyl0l.pdf
[17][18][21]董慧.本體與數字圖書館[M].武漢:武漢大學出版社,2008:278-284
[19]Welcome to Prot€間€閇OL].[2007-11-22].http://Protege.stanford.edu
[20]Racer(Renamed Abox and Concept Expression Reasoner)[OL].[2007-11-5].http://www.racer-systems.com/products/racerpro/users-guide-1-9.pdf
(收稿日期:2013-03-21)