(北京工業大學 經濟與管理學院, 北京 100022)
摘 要:針對我國出口產品技術性貿易壁壘(TBT)信息獲取和搜索的準確性、針對性、及時性的迫切需求,設計了面向TBT電子產品領域的本體自學習構建模型,給出了模型的體系結構,介紹了此框架主要模塊的基本功能、實現的關鍵技術,以及構建中遇到的問題和對策。此模型可使計算機理解提取現有的信息描述方式,半自動化地高效率構建高質量的本體庫,具有良好的實用性。將此模型應用于TBT電子產品本體建設領域,并證明此模型具有很好的通用性和可行性。
關鍵詞:語義網;本體;自學習;技術性貿易壁壘
中圖分類號:TP311 文獻標志碼:A
文章編號:10013695(2009)01016804
Optimized autolearning ontology framework and application
JIANG Guorui,ZHAO Liang
( School of Economics Management, Beijing University of Technology, Beijing 100022, China)
Abstract:Aiming at the urgent need in China on the information of the newest dynamic technical barriers to trade (TBT) for timing and exactly,this paper gave a design of an ontology learning for the TBT electronic products domains. It introduced the framework of its architecture, and presented its main function and main implementing techniques, also the solutions to the problems. This framework could make computer semiautomatic extract and reuse text. This architecture could improve the efficiency and quality of ontology. It implemented this strategy in electronic product field and proved its universality and adaptability.
Key words:semantic Web; ontology; selfstudy; technical barriers to trade(TBT)
0 引言
眾所周知,語義網主要依靠本體庫來組織數據,這種數據組織方式不但有利于傳輸,而且機器也能理解,因此本體的構建很大程度上決定了語義網的性能。Thomson等人首次提出了本體自學習概念,即通過自動或半自動的形式從現有知識信息中提取并制作本體。由Velardi等人提出的OntoLearn框架,主要側重于詞義消歧(WSD),即如何根據本體或語義庫發現某一詞匯的正確含義,并提出了一種依賴于通用的本體結構的新算法SSI[1]。MopK工作臺采用非監督機器學習方法從文本集中歸納出概念層次,該框架突出了聚類技術,并允許本體工程師很方便地實驗不同的參數。最近提出的一些新方法和思想,如TextToOnto[2]、EKAW2006[3]、EON2006[4]、OntoLT[5]和OntoAGS[6]。TextToOnto是目前支持ontology自動構建最好的平臺之一,雖然它支持術語抽取,但不支持概念學習,也不支持用領域無關文集過濾術語,這使得抽取出的術語不能準確代表其所屬領域。此外,TextToOnto學習出的實例和關系不夠準確。OntoLT是Protégé(本體圖形化制作工具)的插件,它使本體工程和語義分析的關系更加緊密,并且可以從Protégé中提取已被注釋過的語義關聯關系。OntoAGS 支持從給定的領域文集中抽取術語,并用領域無關文集過濾術語。
這些方法從不同的角度為自動化構建本體提出了行之有效的解決方案,但在以下幾個方面還可以有所改進:a)它們都是依靠一個特定的本體模型,但這個本體模型無法直接轉換為其他模式,而本體的自學習工具為了得到廣泛的應用必須要支持不同本體模型;b)與機器的自學習能力相比,作為最熟悉此領域的最終用戶的交互部分卻沒有作為系統架構的核心[7];c)這些工具沒有提供一個可靠的適應不同數據格式變化的解決方法[8]。針對這個問題,本文提出的本體自學習模型突出如何讓本體工程師來利用各種非結構化的、半結構化或結構化的數據來組織本體的自動構建,這個本體自學習框架就是利用一些本體建模工具通過導入、提取、修改、精確化、評估等幾個步驟來建立高質量的本體。另外,本文還討論了本體自學習整個周期中所用到的技術,這些設計都以TBT電子產品領域的自動化構建作為實驗對象。
1 本體自學習構建模型概念設計
通過概念邏輯組織的本體使語義網可以被機器理解和處理,本體庫的這種組織方式使它在功能上更像元數據一樣提供了易于理解的概念詞匯,并且這些詞匯的定義方式可以被機器處理。通過定義共享的領域概念,本體可以幫助人和計算機互相溝通且支持語義交互。
對于本體的自學習,特別是機器的自學習,本文組織了大量的規則來構建本體。這個模型包括機器自學習獲取知識,然后提取網絡上文本文檔或標記文檔。領域本體的自學習構建如圖1所示。這個模型概念框架如下:
a)原始數據包括現有的結構化文檔或映射規則,首先導入或重用現有的原始數據。
b)提取操作是通過自學習技術提取網絡文檔,同時這也是本體庫建立的主要部分。
c)對提取到的初步本體進行修改,建立結構良好的目標本體。
d)將結構良好的目標本體再進行提煉,并在粒度上繼續精細化。
e)修改和提煉兩個操作都可以得到最終的本體,看具體本體質量的要求。
上述四個過程可以繼續循環,理論上每次的循環都會得到質量更高的本體,而原始數據的身份則成為上次循環所得到的目標本體。
2 本體自學習構建模型架構設計
本章在概念設計的基礎上提出了具體的架構設計,并結合TBT電子產品本體的制作對每一部分功能現實操作進行了詳細闡述。
在為語義網建立基于本體的知識入口時,要讓本體構建者參與其中。整個參與的結構如圖2所示。構建者僅通過兩個構建接口,即Protégé 本體構建平臺和管理組件。管理組件還包括資源處理和結果集。
眾所周知,這些本體建立平臺如Protégé或OntoEdit都可以運行在知識管理系統框架下,但為了建立知識接口,必須先解決如何整合現有的本體構建平臺和網絡文檔、網絡數據或其他領域的本體,這些都會影響所要建立的本體的性質。
通過注釋來區分每個特殊領域的本體概念以防止整合本體時出現意外的錯誤。例如,對于半導體這個詞匯需要在幾個不同的領域本體中應用,就可以用semiconductor或 semiconductor producer 來區分。本體的自學習通過在結構化的本體上進行標記或輸入描述語言來提取感興趣的概念、實體及這些實體之間的聯系;然后在此基礎上添加、刪除、整合原有本體。
2.1 導入和重用
以技術性貿易壁壘領域為實驗建立電子信息產品的本體庫,其中有國家、產品、技術指標等實體,而這些概念同樣在其他領域有所描述,如國家信息本體庫、出口產品本體庫等。所以筆者使用一些方法和策略來導入和重用這些已有領域概念,可以先從其概念的各種表示方法入手,如數據庫中的數據、DTD描述或已存的本體庫來發現與所要建立的本體庫之間的關系。
為了重用和導入,必須首先分開導入這些知識資源,明確它們的結構描述并與領域專家進行討論來確立與目標本體之間的關聯程度,可以手動寫入一些定義和翻譯規則,也可以利用一些反射工具,如描述其圖形關系的SQL語言。導入和重用的第二步是整合和排列這些概念的結構來形成目標本體的通用關系,以此為跳板來激發后面連續的提煉、修正和精確化的本體自學習過程?,F有的方法主要依靠啟發式的匹配策略來整合相似的概念和知識庫。本文在建立電子產品本體庫時,采取了基于應用的處理方法和自底向上的匹配法。例如,概念分析法能夠發現與應用數據和概念之間的關聯模式,再利用該模式來確立目標本體的關系和語義信息。
2.2 本體的提取
本體提取模型的主要部分就是通過自學習現有的各種網絡資源,把一個完整的大的本體描述成本文所要建立的本體的一個子領域。本體的自學習部分技術依賴于所給的各個本體,這樣就能在整個本體自學習周期中復用上一步的提取方法,并把一些在上一周期循環得到驗證的成熟算法用在將要建立的本體上。為了說明這部分,筆者對半結構化文本抽取過程(圖3)進行簡要說明。
具體過程如下:
a)錄入半結構化文本信息。
b)利用本體編輯工具建立初步本體,利用解析工具解析得到類和對象等基本元數據。
c)根據數據抽取規則并依據該規則和輸入前的半結構化文本信息進行搜索匹配,并把得到的結果數據存入內容數據庫,成為結構化數據。
2.2.1 詞匯目錄和概念提取
可以通過詞匯提取方法在這個框架中建立與概念相關的詞匯條目。具體方法可以通過數據庫的反映射、數據庫中定義的主鍵、依賴對象和不同數據庫中的關聯關系(一對多、多對多和一對一等)。若對Web文檔進行分析,可以通過統計單位詞匯出現的頻率、相關詞匯出現的頻率等來確定詞匯L變量大小。
2.2.2 概念的分類
對于得到的一些概念詞匯,首先就要按照本體的語義來給它們進行分類。最先考慮的就是它們的繼承關系,根據不同詞匯的屬性來確定相似的概念,其中一些可作為一個概念的實例。嘗試從普通文本中提取詞匯的繼承關系時可以考慮文本的術語連接和語法關系,如語句的不同語態(如被動式)。在概念的分類提取上,David Faure等人建造了一個成熟的關系機器自學習系統[9],對于符合句法的信息通過分析其中的名詞、動詞謂語來確定主賓語之間的關系。
2.2.3 字典的解析
可以得到機器理解的領域字典,雖然它們的內在結構是無序的,但可以利用一些模式來定義文本中的詞匯。筆者已經嘗試了從關于電子產品TBT領域Web文本提取概念本體。若從語法角度來提取文本,文本中的字典本體描述如下:Computer was barred by USA in 2005 lost nearly 23500000$,meanwhile,Europe also make me lost 14200000$。文字的描述可以不用如此規范,但一些關鍵詞匯確實需要解析,如其中的動詞barred、lost等,以及名詞國家USA、EUR。本文用了許多啟發式的分析方法來分析它們的關系,這里的lost、barred通過第一個主語國家來建立Hc∶Hc以關聯這些概念,這種關系或謂詞和補語用更精確的L、C和Hc來描述。事實上動詞總是被描述成兩個概念的關系,依此類推還可以擴展R及R和L的關系。
2.3 關聯規則
數據挖掘就是一個典型的關聯規則自學習算法。例如,要發現我國受到美國壁壘產品的壁壘準則和同種產品受到歐盟的壁壘準則的關系,如果用關聯規則來描述可以為:TV barred by USA with the rule Tvbr1 and barred by URO with the rule BVER。為了發現概念之間的關系,用一個繼承概念Hc作為參照物如USA,它與其他國家的壁壘準則(country、rule)作為配對的關系,然后計算機根據輸入的算法準則來提取其他國家的壁壘準則擴展關系。
2.4 組件
在整合管理組件中自然語言、非自然處理及本體算法庫之后,結果集組件就可以通過網絡數據來提取和維護本體庫。在此運用了一些如圖形用戶接口等核心組件。
2.4.1 管理圖形接口組件
本體工程師可以首先通過管理組件來選擇所輸入的數據,這些數據可以是HTML、XML文檔、DTD文檔、數據庫中結構化的數據或已有的本體庫;然后從暴露在管理組件中的非自然資源處理接口來選擇處理此數據的方法,也可以從算法庫中選擇對應的算法。這個管理組件與眾不同的特點是它可以發現相關聯的原始數據,如本體蜘蛛可以通過比較HTML文檔和現有的核心本體來發現待定的本體概念。
2.4.2 資源處理
在這些已導入的數據基礎上,構建者可以選擇多種方法來處理這些資源:
a)把HTML復合文檔處理成簡單的文檔。
b)把半結構化的文檔,如字典等翻譯成關聯性良好的文本信息。
c)導入半結構化和結構化的數據如DTDs,同時對存儲在數據庫中的數據或已有的本體使用不同的策略處理模式。
在此可用一些現有對應的數據處理方法來處理導入的數據,如G. Neumann的因數處理法或A.Meadche and R.Volz的詞匯組件分析法[10]。數據通過以上策略預處理后就可以被送到與之相關的特殊算法庫。
2.4.3 算法庫
在信息被提煉成本體的過程中,它存在不同的數據組織方式,雖然一些特殊的針對性強的算法只能處理其中一種數據組織形式,但是不同的組織形式有重疊的部分,而且其中的關系準則、通用概念的分析策略或簇集都是類似的。因此,可以在本體的不同部分重用針對性的算法。在實現過程中本文采用了多策略學習和結果集合并法來使各種不同算法導入到本體建設平臺,這樣有利于本體結構的一致性。
2.5 結果展示
圖4是利用上述本體自學習構建模型的本體展示。可以看到左邊是推理出的類繼承關系,下方是不同繼承樹的類關系和類的屬性,右邊是以屬性為中心的本體關系,其中有部分類和屬性是自動構建得到,并且與原有本體關系良好地融合在一起。
2.6 修改、提煉和樣庫說明
在用各種規則建模的同時還要在優勢和缺陷上找到平衡的結合點。為了一個領域模型更能符合本文描述規則時,就必須放棄一些詞匯目錄或去掉繼承關系中的一層來使描述更精確。為了達到此目的,就必須把焦點放在幾個公認重要的地方,這同時也是本體建設收尾階段所面臨的普遍問題。實際應用中對于計算機出口日本壁壘損失這個實例,考慮到IBM的PC業務被聯想收購這個事實,就去掉了此關系描述。
提煉和前述的本體提取惟一的不同點是劃分的尺度,提取只要有清楚的概念關系劃分即可,而提煉卻是為了整合一些重要的本體詞匯。提煉階段可以利用一些具體應用軟件所產生的日志信息、用戶查詢輸入信息和查詢結果等。其實,可以與提取階段用同一個策略和算法,但提煉需要對本體之間的關系有更深刻的理解。
如圖5所示,這是用上述框架方法作出的一個簡單本體的一部分關系演示,圖中實線代表了類本體的繼承屬性,包括四個類概念:電子產品、國家、壁壘原因和法規,它們之間通過屬性關聯。屬性與屬性之間也有關聯。一般屬性的描述要用謂語動詞來描述,如offend和barrier等。若要描述“洗衣機因污染遭受歐盟貿易性壁壘”就可用兩個屬性連接三個類,若有些語句同時表達出違法的條約,可以很方便地添加法規和重用offend屬性。這滿足了本體機器自學習、自動構建的要求,無須全部人工手動添加。
整個工程的流程用到了圖5框架的處理方法,在微觀具體類關聯、屬性關聯和宏觀處理流程的共同作用下成功建設出高質量的本體。
〈?xml version=\"1.0\"?〉
〈rdf:RDF
mlns=\"http://www.owlontologies.com/bjut_TBT.owl#\"〉
……
〈owl:Class rdf:about=\"#PC_Micro\"〉
〈rdfs:subClassOf〉
〈owl:Restriction〉
〈owl:someValuesFrom〉
〈owl:Class rdf:ID=\"dollor\"/〉
〈/owl:someValuesFrom〉
〈owl:onProperty rdf:resource=\"#lostMoney\"/〉
〈/owl:Restriction〉
〈/rdfs:subClassOf〉
〈rdfs:subClassOf〉
〈owl:Restriction〉
〈owl:onProperty rdf:resource=\"#barrieredByCode\"/〉
〈owl:someValuesFrom〉
〈owl:Class rdf:about=\"#ROHS\"/〉
〈/owl:someValuesFrom〉
〈/owl:Restriction〉
〈/rdfs:subClassOf〉
〈rdfs:subClassOf rdf:resource=\"#Computer_industry_products\"/〉
〈/owl:Class〉
……
以上是抽取的典型本體原文描述片段,包含了兩個父類PC_Micro和ROHS、兩個關聯屬性lostMoney和barreredByCode,并用了充分條件說明了關系性質。在實際處理交互時,為了加快處理本體提取、存儲的速度,可以把OWL本體文件通過Jena工具導入數據庫,充分利用數據庫提取、存儲的速度優勢,加快本體的自學習構建。
3 結束語
本體的自學習建立方法對于本體的建立有著重要的意義。本文提出一個通用的本體建立的自學習方案,詳細描述了各組件的含義、功能和使用的技術,并把此方案應用于TBT電子信息產品本體的實現,驗證了此方案的可行性。當然在實際操作過程中仍然存在一些問題,還要在如何優化結果集,如何選擇合適的算法庫和圖形組件接口的通用性上作出進一步研究。
參考文獻:
[1]
VELARDI P,NAVIGLI R,CUCHIARELLI A,et al.Evaluation of OntoLearn a methodology for automatic learning of domain ontologies[C]//Proc of Ontology Learning from Text: Methods,Evaluation and Applications.[S.l.]:IOS Press, 2005:1132.
[2]BUITELAAR P,HANDSCHUH S,MAGNINI B.ECAI workshop on ontology learning and population: towards evaluation of text based methods in the semantic Web and knowledge discovery life cycle [C]//Proc of the 16th European Conference on Artificial Intelligence.Valencia, Spain:[s.n.], 2004:16.
[3]NAVIGLI R,VELARDI P.Ontology enrichment through automatic semantic annotation of online glossaries[C]//Proc of the 15th International Conference on Knowledge Engineering and Knowledge Management. Podebrady, Czech Republic:Springer, 2006:126140.
[4]JANEZ B,DUNJA M, MARKO G. Golden standard based ontology evaluation using instance assignment[C]//Proc of the 4th International EON Workshop.Edinburgh:[s.n.], 2006:4754.
[5]BUITELAAR P,OLEJNIK D,SINTEK M.OntoLT: a Protégé plugin for ontology extraction from text[C]//Proc of International Semantic Web Conference. Florida:[s.n.], 2003:1722.
[6]李林,劉賀歡,劉椿年.Ontology自動構建平臺OntoAGS[J].計算機工程,2006,32(7):4246.
[7]MARTA S. Learning Web service ontology: an automatic extraction method and its evaluation [C]//Proc of ISWC’05.Osaka:[s.n.], 2005:98116.
[8]CIMIANO P,TAAB S S,TANE J.Automatic acquisition of taxonomies from text: FCA meets NLP[C]//Proc of ECML / PKDD Workshop on Adaptive Text Extraction and Mining.Cavtat Dubrovnik, Croatia:[s.n.], 2003:1017.
[9]NEUMANNETAL G.An information extraction core system for real world germen text processing[C]//Proc of the 5th Conference on Applied Natural Language Processing. 2004:208215.
[10]鄧志鴻,唐世渭,張銘,等.Ontology 研究綜述[J].北京大學學報,2005,38(5):3846.