999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域本體學習資源庫自動構建模型研究

2015-11-02 02:34:05王銳何聚厚
電子設計工程 2015年24期
關鍵詞:語義概念資源

王銳,何聚厚

(1.陜西師范大學計算機科學學院,陜西西安710119;2.陜西師范大學現代教學技術教育部重點實驗室,陜西西安710119)

基于領域本體學習資源庫自動構建模型研究

王銳1,何聚厚2

(1.陜西師范大學計算機科學學院,陜西西安710119;2.陜西師范大學現代教學技術教育部重點實驗室,陜西西安710119)

領域學習資源構建模型是實現個性化資源推薦、查詢檢索的關鍵因素,針對手動構建領域資源庫費時費力和領域資源之間缺乏語義聯系問題,提出了一種基于領域本體和搜索算法的學習資源知識庫構建模型,使用PageRank抓取算法對網頁資源進行抓取,通過結合領域本體增強資源之間的語義聯系,從而完成特定領域資源知識庫的自動構建。實驗表明該模型解決了手動構建領域資源庫費時費力和領域資源之間缺乏語義聯系的問題。

知識庫;領域本體;PageRank;語義

在21世紀的信息時代,互聯網為用戶提供了一個龐大的信息資源庫,面對海量的信息,用戶很難高效的找出自己需求的資源。因此出現了大量的個性化推薦、查詢算法,為用戶減輕“負擔”,但由于網絡上的信息資源庫過于龐大,導致推薦資源達不到用戶的要求,因此特定領域資源庫的構建十分重要,它是影響推薦、查詢算法準確性的關鍵因素。

傳統的學習資源庫構建主要是基于關鍵字手工或半自動化的將資源的相關信息存儲于知識庫中,知識庫中的學習資源之間相互獨立沒有任何聯系,在進行個性化資源推送、查詢時會忽略了語義問題,即有可能忽略用戶的真正需求和查詢的真正意圖,這將會造成資源推薦、查詢的不準確。同時,考慮到學習資源信息的呈現方式,如:文字、圖形、音頻、視頻等對用戶的興趣度及學習效果的影響不同[1],本文提出了一種基于領域本體和搜索算法的學習資源知識庫自動構建模型,該模型改進了經典的PageRank算法,主要思想是PageRank算法在進行網頁相似性分析時,結合領域本體,同時對網頁中資源之間的語義相關性進行分析抓取資源,最后根據信息的不同呈現方式對用戶興趣影響不同將信息資源存于不同的數據庫表中,完成特定領域資源知識庫的自動構建。

1 學習資源庫構建模型

目前學習資源庫構建模型主要有以下兩種方式:

1)手動構建模型,主要思想是,首先相關領域專家將本領域相關知識資源的關鍵字羅列出來,然后,手動將關鍵字及其對應的資源加入學習資源庫中,重復此過程,直到關鍵字已全部加入學習資源庫。

手動模型,雖然能將所需的關鍵字及其資源存入資源庫中,但隨著領域規模的擴大,羅列的關鍵字會越來越多,相對應的資源也更加豐富,此時手動構建模型費時費力,已不能滿足要求。為解決手動費時費力的問題,提出了半自動構建模型。

2)半自動構建模型,主要思想是,利用網頁抓取算法在網絡上根據關鍵字抓取資源存入資源庫中。關于網頁抓取策略的研究,國外開始于20世紀90年代末,Cho等人第一次引入了網頁抓取策略的概念。之后,網頁抓取的方法不斷涌現。主要有寬度優先網頁抓取策略、基于反向鏈接數的網頁抓取策略、PageRank、Shark-Search、Best-FirstSearch等算法。自動構建模型利用抓取算法根據關鍵詞來抓取資源,雖然解決了費時費力的問題,但是領域資源庫中的資源之間相互獨立、沒有語義聯系。

2 領域本體及其構建

本體[2]這個概念最早是在哲學中使用的,表達“存在論”,對世界上客觀存在的事物進行系統的描述,對其本質進行抽象。隨著信息技術的飛速發展,本體被引入到計算機領域并得到廣泛的應用。但是,到目前為止,本體一詞還沒有一個準確的含義。自1993年Gruber提出“本體是概念的模型明確的規范說明”以后,它主要通過概念、概念之間的關系、屬性、實例四個方面來描述概念之間的語義。領域本體是對特定領域概念、屬性及關系進行描述,對該領域內的知識進行抽象、描述、表達語義,從而達到信息整合與共享。本文以〈〈數據結構〉〉課程為例,參考“七步法”[3]構建數據結構本體。構建過程如下:

1)數據結構課程中概念的抽取。主要有:數據結構,線性結構,樹形結構,圖形結構,排序,線性表,棧,隊列,串,數組,廣義表,樹,二叉樹,森林,哈夫曼樹,鏈表,順序表,有向圖,完全圖,查找等概念。

2)概念屬性的確定。在本體描述語言OWL中Property包含3種。

一種是對象屬性(Object Properties),它表達實例和實例、類和類之間的關。如,在數據結構本體中包含8種主要的對象屬性,分別是,isSame、isSubclass、isPartOf、isSibling、isUpper、isLower、isRelation、isExercise。具體含義如下面表1所示。

表1 概念間的對象屬性Tab.1The object properties between concepts

一種是數據屬性(Data Properties),它是實例的基本屬性,表達實例和基本數據類型之間的關系。如,在此本體中包含的主要數據屬性有定義、存儲結構、邏輯結構、遍歷、分類、應用、最短路徑、算法、代碼、轉換。

最后一種是解釋屬性(Annotation properties),它可以用來解釋類、對象屬性、數據屬性、實例,屬于元數據,不常用。

3)向資源庫中添加實例。本文通過抓取算法結合數據結構本體進行自動構建,具體操作見下文。

圖1所示為用Protégé4.3構建的〈〈數據結構〉〉課本中線性表的類關系圖。

圖1 系統軟件設計結構圖Fig.1Schematic diagram of the software test system

3 PageRank算法的基本原理

PageRank算法[4]是1998年Larry Page和Sergey Brin提出的。此算法認為,一個頁面被多次引用,則這個頁面很可能是重要的,一個頁面盡管沒有被多次引用,但被一個重要頁面引用,則這個頁面的重要性被均勻地傳遞到它所引用的頁。PageRank評價標準認為每個超鏈接的重要性與包含這個超鏈接的原web網頁的重要性是成比例的,而不是每個鏈接的重要性都相同。一個網頁的PR值的計算公式為:

其中,Ti(i:1,2,…,n)是指向網頁P的其他網頁,C(Ti)是網頁T向外指出的鏈接數目,?是(0,1)區間上的規范化因子,一般取值為0.85,經過簡單的迭代就可以計算出PR(P)的值。由公式(1)可以看到,基本的PageRank算法中網頁P的PR值僅與其鏈入的超鏈接的個數以及鏈入的超鏈的PR值有關,因此存在偏重舊網頁、主題漂移等問題[5]。針對這些問題,李瑞提出了PageRank算法權威值均分的改進[6],楊博等人提出基于超鏈接多樣性分析的新型網頁排名算法[7],潘偉豐等人通過加權模型分析PR所識別關鍵包的傳播影響來確定PR值[8]。但這些方法都是在互聯網提供的龐大資源庫中進行,對沒有考慮特定領域中的內容主題相關因素的影響。因此,本文結合領域本,對基本PageRank算法進行改進,在抓取數據時一方面考慮網頁鏈接的相關性,另一方面考慮內容與領域本體的相關性。

4 基于本體的學習資源庫構建模型

為了構建特定領域的學習資源庫,本文結合領域本體,從領域本體概念和網頁主題的語義相似度和網頁鏈接相似度兩個因素入手,改進基本PageRank算法,從而自動構建領域資源庫。

基于本體的學習資源庫構建模型算法如下:

1)首先在t_concept表中查找第一個本體概念,接著利用PageRank算法抓取第一個網頁,同時計算此網頁中的主題概念與當前的本體概念的語義相似度,借鑒已有的語義相似度計算方法,具體如下:

①考慮語義距離、層次因素對概念間的語義相似度的影響

其中sc1,c2=Level(c1)+Level(c2)是概念c1和c2的層次和,dc1,c2=|Level(c1)-Level(c2)|,是概念c1和c2的層次差,L是本體的總層數。

Level(c1)表示概念c1所在的層次,depth(LCS(c1,c2))概念c1和c2共同的最小分類LCS所在的層次。

②考慮上下位概念重合度對語義相似度的影響的度量算法如下:

其中,ud(c1)表示c1的上下位概念集合,ud(c2)表示c2的上下位概念集合。

ud(c1)∩ud(c2)表示概念c1和c2相同的上下位概念集合,ud(c1)∪ud(c2)表示概念c1和c2所有的上下位概念集合。綜合考慮①、②因素,添加?,β進行調節,公式如下:

由式(4)就可以計算出此網頁中的主題概念與當前的本體概念的語義相似度

2)從時間效應考慮,在基本PageRank算法基礎上為頁面增加一個時間因子,使新網頁排名靠前,時間因子公式如下:

其中,D是本網頁的時間因子,d為阻尼系數,Td表示爬取到這張網頁的次數,次數越多說明時間越長,R是采集時間,λ為時間參數調節因子。綜合1)、2)兩個方面,改進PageRank算法的PR值計算式為:

3)通過步驟2)計算出當前網頁的PR值,當PR值達到要求時,將當前網址存于數據庫對應的數據表中。

4)重復1)~3)步驟,直到表t_concept中的所有概念查完。

通過基于本體的學習資源庫構建模型就可以完成特定領域學習資源庫的自動構建。

5 實驗

為了驗證該模型的有效性,本文基于本體建模工具Protégé4.3構建了〈〈數據結構〉〉課程本體,基于Jean接口完成本體文件到關系數據庫MySQl的存儲。由于本體文件存儲形式存儲的數據量較小而且每次使用開銷大,所以本文選擇用關系數據庫存儲數據。為了滿足特定領域的個性化推薦、查詢的方便,根據學習資源信息的呈現方式不同用戶的興趣度不同,主要分為視頻音頻、文字、圖像3種類型,將數據以3種類型存于3張不同的數據表中。數據庫中的7張表如圖2所示。

圖2 數據庫的7張表Fig.2Seven tables in database

抓取的學習資源存于數據表t_wordEntity,t_imageEntity,t_mediaEntity表中,如圖3所示。

6 結論

該模型對基本PageRank算法進行改進,在其基礎上結合領域本體,使得在抓取學習資源的時候,參照本體之間的語義關系,與已有的構建模型相比,解決了人工費時費力的問題,同時又構建了具有語義關系的學習資源庫,為個性化資源推薦、查詢檢索的準確性奠定基礎。

圖3 t_wordEntity表Fig.3Table t_wordEntity

[1]康誠,周愛保.信息呈現方式與學習者的個性特征對多媒體環境下學習效果的影響[J].心理發展與教育,2009(1):83-90.

[2]吳建絨.論基于本體的領域知識庫構建[J].科技創新導報,2010(30):250-251.

[3]馬曉丹,鄧曉晴,彭文娟,等.基于領域本體的知識庫架構和實現[J].河北聯合大學學報:自然科學報,2012,34(4):44-45.

[4]PAGE L,BRINS,MOTWANI R,et al.The PageRank Citation Ranking:Bring order to the Web[EB/OL].(1998-12-19)http://ilpubs.Stanford.edu:8090/422,1998.

[5]劉恩海,張梅芳,李天義.基于兩級修正的頁面排序改進算法[J].計算機工程與設計,2014,35(6):2024-2028.

[6]李瑞,郭小溪.PageRank算法權威值均分的改進[J].大連交通大學學報,2013,34(2):109-110.

[7]楊博,陳賀昌,朱冠宇,等.基于超鏈接多樣性分析的新型網頁排名算法[J].計算機學報,2014,37(4):833-834.

[8]潘偉豐,李兵,馬于濤,等.基于加權PageRank算法的關鍵包識別方法[J].電子學報,2014,37(4):833-834.

Research of learning resources building model based on domain ontology

WANG Rui1,HE Ju-hou2
(1.School of Computer Science,Shaanxi Normal University,Xi'an 710119,China;2.Key Laboratory of Modern Teaching Technology,Ministry of Education,Shaanxi Normal University,Xi'an 710119,China)

Learning resources building model based on domain ontology is a key factor to achieve a specific field of personalized resources recommended,query and retrieve.For repository time-consuming and laborious in manual build and lacking of semantic contact between resources,this paper propose learning resources building model based on domain ontology and search algorithm.Using PageRank algorithm to grab web resources,by combining domain ontology enhance the semantic relations between the resources,to complete automated building knowledge base resources in special fields.The experiment show that the model solves laborious problem of learning resources building manually and lacking of semantic relations between learning resources.

knowledge base;domain ontology;PageRank;semantic

TN91

A

1674-6236(2015)24-0032-04

2015-03-20稿件編號:201503273

中央高校基本科研業務費專項資金資助(GK201002028,GK201101001)

王銳(1988—),女,陜西西安人,碩士研究生。研究方向:資源信息推薦。

猜你喜歡
語義概念資源
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
基礎教育資源展示
一樣的資源,不一樣的收獲
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
資源回收
學習集合概念『四步走』
聚焦集合的概念及應用
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 欧美日本在线播放| 亚洲人成网站色7777| 日韩小视频网站hq| vvvv98国产成人综合青青| 久久semm亚洲国产| 国产精品福利尤物youwu| 免费观看男人免费桶女人视频| 免费国产好深啊好涨好硬视频| 青青操国产| 东京热高清无码精品| 精品人妻AV区| 在线国产91| AV在线天堂进入| 18禁黄无遮挡网站| 亚洲伦理一区二区| 亚洲三级a| 五月婷婷综合网| 2048国产精品原创综合在线| 狠狠五月天中文字幕| 国产成人精品免费视频大全五级| 欧美日韩久久综合| 四虎永久在线| 精品国产香蕉在线播出| 91精品国产一区自在线拍| 日本人又色又爽的视频| 日本a∨在线观看| 亚洲国产精品无码久久一线| 亚洲欧洲AV一区二区三区| 日韩精品一区二区三区大桥未久 | 色亚洲激情综合精品无码视频| 超碰91免费人妻| 日本欧美精品| 国产一区二区三区在线观看免费| 色香蕉影院| 国产精品香蕉在线| 国产亚洲精品自在线| 夜夜爽免费视频| 国产精品一区在线观看你懂的| 亚洲第一国产综合| 亚洲成在人线av品善网好看| 亚洲成网站| 国产在线精品99一区不卡| 91亚洲视频下载| 国产精品女人呻吟在线观看| 91年精品国产福利线观看久久| 无码网站免费观看| 九九热精品视频在线| 激情综合激情| 亚洲天堂网在线播放| 亚洲男女天堂| 露脸真实国语乱在线观看| 亚洲欧美日韩精品专区| 天天操精品| 国产精品永久在线| 伊人久久久久久久久久| 久久性妇女精品免费| 亚洲综合九九| 欧美激情视频二区三区| 欧美69视频在线| 无码内射在线| 欧美在线观看不卡| 欧美在线免费| 久久青草精品一区二区三区| 国产综合网站| 国产婬乱a一级毛片多女| 亚洲中文字幕在线一区播放| 曰AV在线无码| 精品视频在线一区| 亚洲美女高潮久久久久久久| 亚洲男人天堂网址| 中文字幕在线一区二区在线| 久久夜色撩人精品国产| 91亚洲影院| 国产成人高清在线精品| 91青草视频| 亚洲啪啪网| 女人18毛片久久| 福利在线一区| 日本精品影院| 亚洲国产91人成在线| 日韩国产另类| 日韩久草视频|