王銳,何聚厚
(1.陜西師范大學計算機科學學院,陜西西安710119;2.陜西師范大學現代教學技術教育部重點實驗室,陜西西安710119)
基于領域本體學習資源庫自動構建模型研究
王銳1,何聚厚2
(1.陜西師范大學計算機科學學院,陜西西安710119;2.陜西師范大學現代教學技術教育部重點實驗室,陜西西安710119)
領域學習資源構建模型是實現個性化資源推薦、查詢檢索的關鍵因素,針對手動構建領域資源庫費時費力和領域資源之間缺乏語義聯系問題,提出了一種基于領域本體和搜索算法的學習資源知識庫構建模型,使用PageRank抓取算法對網頁資源進行抓取,通過結合領域本體增強資源之間的語義聯系,從而完成特定領域資源知識庫的自動構建。實驗表明該模型解決了手動構建領域資源庫費時費力和領域資源之間缺乏語義聯系的問題。
知識庫;領域本體;PageRank;語義
在21世紀的信息時代,互聯網為用戶提供了一個龐大的信息資源庫,面對海量的信息,用戶很難高效的找出自己需求的資源。因此出現了大量的個性化推薦、查詢算法,為用戶減輕“負擔”,但由于網絡上的信息資源庫過于龐大,導致推薦資源達不到用戶的要求,因此特定領域資源庫的構建十分重要,它是影響推薦、查詢算法準確性的關鍵因素。
傳統的學習資源庫構建主要是基于關鍵字手工或半自動化的將資源的相關信息存儲于知識庫中,知識庫中的學習資源之間相互獨立沒有任何聯系,在進行個性化資源推送、查詢時會忽略了語義問題,即有可能忽略用戶的真正需求和查詢的真正意圖,這將會造成資源推薦、查詢的不準確。同時,考慮到學習資源信息的呈現方式,如:文字、圖形、音頻、視頻等對用戶的興趣度及學習效果的影響不同[1],本文提出了一種基于領域本體和搜索算法的學習資源知識庫自動構建模型,該模型改進了經典的PageRank算法,主要思想是PageRank算法在進行網頁相似性分析時,結合領域本體,同時對網頁中資源之間的語義相關性進行分析抓取資源,最后根據信息的不同呈現方式對用戶興趣影響不同將信息資源存于不同的數據庫表中,完成特定領域資源知識庫的自動構建。
目前學習資源庫構建模型主要有以下兩種方式:
1)手動構建模型,主要思想是,首先相關領域專家將本領域相關知識資源的關鍵字羅列出來,然后,手動將關鍵字及其對應的資源加入學習資源庫中,重復此過程,直到關鍵字已全部加入學習資源庫。
手動模型,雖然能將所需的關鍵字及其資源存入資源庫中,但隨著領域規模的擴大,羅列的關鍵字會越來越多,相對應的資源也更加豐富,此時手動構建模型費時費力,已不能滿足要求。為解決手動費時費力的問題,提出了半自動構建模型。
2)半自動構建模型,主要思想是,利用網頁抓取算法在網絡上根據關鍵字抓取資源存入資源庫中。關于網頁抓取策略的研究,國外開始于20世紀90年代末,Cho等人第一次引入了網頁抓取策略的概念。之后,網頁抓取的方法不斷涌現。主要有寬度優先網頁抓取策略、基于反向鏈接數的網頁抓取策略、PageRank、Shark-Search、Best-FirstSearch等算法。自動構建模型利用抓取算法根據關鍵詞來抓取資源,雖然解決了費時費力的問題,但是領域資源庫中的資源之間相互獨立、沒有語義聯系。
本體[2]這個概念最早是在哲學中使用的,表達“存在論”,對世界上客觀存在的事物進行系統的描述,對其本質進行抽象。隨著信息技術的飛速發展,本體被引入到計算機領域并得到廣泛的應用。但是,到目前為止,本體一詞還沒有一個準確的含義。自1993年Gruber提出“本體是概念的模型明確的規范說明”以后,它主要通過概念、概念之間的關系、屬性、實例四個方面來描述概念之間的語義。領域本體是對特定領域概念、屬性及關系進行描述,對該領域內的知識進行抽象、描述、表達語義,從而達到信息整合與共享。本文以〈〈數據結構〉〉課程為例,參考“七步法”[3]構建數據結構本體。構建過程如下:
1)數據結構課程中概念的抽取。主要有:數據結構,線性結構,樹形結構,圖形結構,排序,線性表,棧,隊列,串,數組,廣義表,樹,二叉樹,森林,哈夫曼樹,鏈表,順序表,有向圖,完全圖,查找等概念。
2)概念屬性的確定。在本體描述語言OWL中Property包含3種。
一種是對象屬性(Object Properties),它表達實例和實例、類和類之間的關。如,在數據結構本體中包含8種主要的對象屬性,分別是,isSame、isSubclass、isPartOf、isSibling、isUpper、isLower、isRelation、isExercise。具體含義如下面表1所示。

表1 概念間的對象屬性Tab.1The object properties between concepts
一種是數據屬性(Data Properties),它是實例的基本屬性,表達實例和基本數據類型之間的關系。如,在此本體中包含的主要數據屬性有定義、存儲結構、邏輯結構、遍歷、分類、應用、最短路徑、算法、代碼、轉換。
最后一種是解釋屬性(Annotation properties),它可以用來解釋類、對象屬性、數據屬性、實例,屬于元數據,不常用。
3)向資源庫中添加實例。本文通過抓取算法結合數據結構本體進行自動構建,具體操作見下文。
圖1所示為用Protégé4.3構建的〈〈數據結構〉〉課本中線性表的類關系圖。

圖1 系統軟件設計結構圖Fig.1Schematic diagram of the software test system
PageRank算法[4]是1998年Larry Page和Sergey Brin提出的。此算法認為,一個頁面被多次引用,則這個頁面很可能是重要的,一個頁面盡管沒有被多次引用,但被一個重要頁面引用,則這個頁面的重要性被均勻地傳遞到它所引用的頁。PageRank評價標準認為每個超鏈接的重要性與包含這個超鏈接的原web網頁的重要性是成比例的,而不是每個鏈接的重要性都相同。一個網頁的PR值的計算公式為:

其中,Ti(i:1,2,…,n)是指向網頁P的其他網頁,C(Ti)是網頁T向外指出的鏈接數目,?是(0,1)區間上的規范化因子,一般取值為0.85,經過簡單的迭代就可以計算出PR(P)的值。由公式(1)可以看到,基本的PageRank算法中網頁P的PR值僅與其鏈入的超鏈接的個數以及鏈入的超鏈的PR值有關,因此存在偏重舊網頁、主題漂移等問題[5]。針對這些問題,李瑞提出了PageRank算法權威值均分的改進[6],楊博等人提出基于超鏈接多樣性分析的新型網頁排名算法[7],潘偉豐等人通過加權模型分析PR所識別關鍵包的傳播影響來確定PR值[8]。但這些方法都是在互聯網提供的龐大資源庫中進行,對沒有考慮特定領域中的內容主題相關因素的影響。因此,本文結合領域本,對基本PageRank算法進行改進,在抓取數據時一方面考慮網頁鏈接的相關性,另一方面考慮內容與領域本體的相關性。
為了構建特定領域的學習資源庫,本文結合領域本體,從領域本體概念和網頁主題的語義相似度和網頁鏈接相似度兩個因素入手,改進基本PageRank算法,從而自動構建領域資源庫。
基于本體的學習資源庫構建模型算法如下:
1)首先在t_concept表中查找第一個本體概念,接著利用PageRank算法抓取第一個網頁,同時計算此網頁中的主題概念與當前的本體概念的語義相似度,借鑒已有的語義相似度計算方法,具體如下:
①考慮語義距離、層次因素對概念間的語義相似度的影響

其中sc1,c2=Level(c1)+Level(c2)是概念c1和c2的層次和,dc1,c2=|Level(c1)-Level(c2)|,是概念c1和c2的層次差,L是本體的總層數。
Level(c1)表示概念c1所在的層次,depth(LCS(c1,c2))概念c1和c2共同的最小分類LCS所在的層次。
②考慮上下位概念重合度對語義相似度的影響的度量算法如下:

其中,ud(c1)表示c1的上下位概念集合,ud(c2)表示c2的上下位概念集合。
ud(c1)∩ud(c2)表示概念c1和c2相同的上下位概念集合,ud(c1)∪ud(c2)表示概念c1和c2所有的上下位概念集合。綜合考慮①、②因素,添加?,β進行調節,公式如下:

由式(4)就可以計算出此網頁中的主題概念與當前的本體概念的語義相似度
2)從時間效應考慮,在基本PageRank算法基礎上為頁面增加一個時間因子,使新網頁排名靠前,時間因子公式如下:

其中,D是本網頁的時間因子,d為阻尼系數,Td表示爬取到這張網頁的次數,次數越多說明時間越長,R是采集時間,λ為時間參數調節因子。綜合1)、2)兩個方面,改進PageRank算法的PR值計算式為:

3)通過步驟2)計算出當前網頁的PR值,當PR值達到要求時,將當前網址存于數據庫對應的數據表中。
4)重復1)~3)步驟,直到表t_concept中的所有概念查完。
通過基于本體的學習資源庫構建模型就可以完成特定領域學習資源庫的自動構建。
為了驗證該模型的有效性,本文基于本體建模工具Protégé4.3構建了〈〈數據結構〉〉課程本體,基于Jean接口完成本體文件到關系數據庫MySQl的存儲。由于本體文件存儲形式存儲的數據量較小而且每次使用開銷大,所以本文選擇用關系數據庫存儲數據。為了滿足特定領域的個性化推薦、查詢的方便,根據學習資源信息的呈現方式不同用戶的興趣度不同,主要分為視頻音頻、文字、圖像3種類型,將數據以3種類型存于3張不同的數據表中。數據庫中的7張表如圖2所示。

圖2 數據庫的7張表Fig.2Seven tables in database
抓取的學習資源存于數據表t_wordEntity,t_imageEntity,t_mediaEntity表中,如圖3所示。
該模型對基本PageRank算法進行改進,在其基礎上結合領域本體,使得在抓取學習資源的時候,參照本體之間的語義關系,與已有的構建模型相比,解決了人工費時費力的問題,同時又構建了具有語義關系的學習資源庫,為個性化資源推薦、查詢檢索的準確性奠定基礎。

圖3 t_wordEntity表Fig.3Table t_wordEntity
[1]康誠,周愛保.信息呈現方式與學習者的個性特征對多媒體環境下學習效果的影響[J].心理發展與教育,2009(1):83-90.
[2]吳建絨.論基于本體的領域知識庫構建[J].科技創新導報,2010(30):250-251.
[3]馬曉丹,鄧曉晴,彭文娟,等.基于領域本體的知識庫架構和實現[J].河北聯合大學學報:自然科學報,2012,34(4):44-45.
[4]PAGE L,BRINS,MOTWANI R,et al.The PageRank Citation Ranking:Bring order to the Web[EB/OL].(1998-12-19)http://ilpubs.Stanford.edu:8090/422,1998.
[5]劉恩海,張梅芳,李天義.基于兩級修正的頁面排序改進算法[J].計算機工程與設計,2014,35(6):2024-2028.
[6]李瑞,郭小溪.PageRank算法權威值均分的改進[J].大連交通大學學報,2013,34(2):109-110.
[7]楊博,陳賀昌,朱冠宇,等.基于超鏈接多樣性分析的新型網頁排名算法[J].計算機學報,2014,37(4):833-834.
[8]潘偉豐,李兵,馬于濤,等.基于加權PageRank算法的關鍵包識別方法[J].電子學報,2014,37(4):833-834.
Research of learning resources building model based on domain ontology
WANG Rui1,HE Ju-hou2
(1.School of Computer Science,Shaanxi Normal University,Xi'an 710119,China;2.Key Laboratory of Modern Teaching Technology,Ministry of Education,Shaanxi Normal University,Xi'an 710119,China)
Learning resources building model based on domain ontology is a key factor to achieve a specific field of personalized resources recommended,query and retrieve.For repository time-consuming and laborious in manual build and lacking of semantic contact between resources,this paper propose learning resources building model based on domain ontology and search algorithm.Using PageRank algorithm to grab web resources,by combining domain ontology enhance the semantic relations between the resources,to complete automated building knowledge base resources in special fields.The experiment show that the model solves laborious problem of learning resources building manually and lacking of semantic relations between learning resources.
knowledge base;domain ontology;PageRank;semantic
TN91
A
1674-6236(2015)24-0032-04
2015-03-20稿件編號:201503273
中央高校基本科研業務費專項資金資助(GK201002028,GK201101001)
王銳(1988—),女,陜西西安人,碩士研究生。研究方向:資源信息推薦。