999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義的數(shù)字圖書館檢索模型研究

2016-05-14 21:12:48陳巧玉
現(xiàn)代電子技術(shù) 2016年9期

陳巧玉

摘 要: 隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,數(shù)字圖書館已經(jīng)成為信息傳播和獲取的重要途徑。而現(xiàn)階段的數(shù)字圖書館缺乏具有語義性的匹配,同時沒有提供計算機可讀的語義信息。結(jié)合圖書館的具體應(yīng)用,構(gòu)建了基于本體語義技術(shù)的數(shù)字圖書館檢索模型,并設(shè)計實現(xiàn)了一個檢索系統(tǒng)原型,然后綜合分析并利用 DC 元數(shù)據(jù),建立了描述圖書元數(shù)據(jù)的本體,同時結(jié)合圖書館的具體應(yīng)用,構(gòu)建了基于本體語義技術(shù)的擴展檢索模型。最后,根據(jù)上述擴展檢索模型設(shè)計了檢索系統(tǒng)原型,并通過三組實驗對比,驗證了構(gòu)建的檢索模型的有效性和實用性。

關(guān)鍵詞: 數(shù)字圖書館; 語義檢索; 本體; 語義擴展

中圖分類號: TN911?34; TM417 文獻標(biāo)識碼: A 文章編號: 1004?373X(2016)09?0103?04

Abstract: With the rapid development of network technology, the digital library has become an important way of information transmission and acquisition. The digital library at this stage lacks the semantic matching, and can′t provide the semantic information with computer readable. The digital library retrieval model based on ontology semantic technology was constructed. A retrieval system prototype was designed and implemented. And then, the ontology to describe the book metadata was established by synthetically analyzing and using DC metadata, and the extension retrieval model based on ontology semantic technology was constructed in combination with the specific application of the library. Finally, according to the extension retrieval model, the retrieval system prototype was designed. The effectiveness and practicability of the constructed retrieval model was verified with the experimental comparison of three groups.

Keywords: digital library; semantic retrieval; ontology; semantic extension

0 引 言

對于數(shù)字圖書館的形式可以概括為以下兩種:高校的圖書館檢索系統(tǒng),它將圖書信息數(shù)字化,并提供了一個檢索系統(tǒng),方便學(xué)生進行借閱;類似超星數(shù)字圖書館、中國知網(wǎng)或是中國國家數(shù)字圖書館等數(shù)字圖書館網(wǎng)站,不僅提供圖書、期刊、專利等信息資源的檢索,還提供在線試讀和下載、相關(guān)學(xué)術(shù)的新聞視頻等一系列綜合信息[1]。

數(shù)字圖書館實現(xiàn)數(shù)字化的兩個關(guān)鍵技術(shù)就是資源的數(shù)字化以及檢索系統(tǒng),而這兩個關(guān)鍵技術(shù)目前存在缺乏語義性的表現(xiàn),直接導(dǎo)致用戶檢索效果不佳,影響了用戶的閱讀體驗[2]。傳統(tǒng)的搜索引擎沒有處理任何學(xué)科領(lǐng)域的知識,所以他們不能理解用戶的搜索請求以及文章的內(nèi)在聯(lián)系,沒有傳統(tǒng)圖書館的用戶挑選過程,即包含語義性的過程[3]。

1 圖書館學(xué)本體構(gòu)建

1.1 必備條件

基于作者的專業(yè),本文所選取的研究學(xué)科領(lǐng)域為“圖書館學(xué)”,且目前這一學(xué)科領(lǐng)域的本體沒有被提出。根據(jù)“圖書館學(xué)”相關(guān)書籍以及專家學(xué)者的建議,將“圖書館學(xué)”的相關(guān)概念進行提取、歸類,并比較各個數(shù)據(jù)庫中的相關(guān)圖書期刊,充實該學(xué)科領(lǐng)域本體[4]。

(1) 工具語言的選擇階段。系統(tǒng)均采用OWL本體語言,Protégé本體構(gòu)建工具。

(2) 需求分析。涉及學(xué)科領(lǐng)域為“圖書館學(xué)”,目的就是提高“圖書館學(xué)”相關(guān)圖書檢索的語義性,從而提高圖書的查全率以及查準(zhǔn)率,所以需要給出“圖書館學(xué)”領(lǐng)域的專業(yè)概念以及相互之間的關(guān)系、實例等。系統(tǒng)設(shè)計的用戶主要有兩類:一類是圖書館的普通用戶即讀者,他們只是需要檢索這個功能,這部分也是這個系統(tǒng)研究的重要部分;另外一類是圖書館管理人員,他不僅需要檢索,而且需要負(fù)責(zé)本體的整個維護工作。為了保證本體的持久性,本文選擇使用MySQL數(shù)據(jù)庫對本體文件進行存儲[5]。

(3) 領(lǐng)域?qū)<业膮⑴c。領(lǐng)域本體構(gòu)建的結(jié)果是獲得這一領(lǐng)域的共同認(rèn)識,所以應(yīng)該在領(lǐng)域?qū)<业膸椭?,共同建立這一學(xué)科的本體[6]。

1.2 圖書館學(xué)本體構(gòu)建過程

參考中國知網(wǎng)對圖書館學(xué)這一學(xué)科的圖書分類,將圖書館學(xué)分為:普通圖書館學(xué)、比較圖書館學(xué)、專門圖書館學(xué)、應(yīng)用圖書館學(xué)、相關(guān)學(xué)科這五大類。這五大類又分別按照下面的體系結(jié)構(gòu)進行了分類,如圖1所示。

從圖1的體系結(jié)構(gòu)可以看出,有的概念需要進行實例擴展,以便達到更好的檢索效果。這五大類中,專門圖書館類似中圖分類號中的各種類型圖書館,從中圖分類號的分類可以看出,屬于窮舉類型,因此在本體的結(jié)構(gòu)體系中,利用實例對其進行擴充;相關(guān)學(xué)科是指與圖書館學(xué)相交叉的學(xué)科,由于學(xué)科的發(fā)展,相關(guān)學(xué)科也是不斷的變化,所以使用實例對其進行擴展,而沒有運用子類的形式[7]。

具體介紹構(gòu)建“圖書館學(xué)”領(lǐng)域本體中使用owl-sameAs具體實例:

(1) 圖書館現(xiàn)代化:圖書館信息化、圖書館網(wǎng)絡(luò)化;

(2) 圖書館工作者:館員;

(3) 數(shù)字圖書館:電子圖書館;

(4) 題跋:書評根據(jù)上述體系結(jié)構(gòu),利用Protégé工具,“圖書館學(xué)”本體如圖2所示。

2 圖書元數(shù)據(jù)本體構(gòu)建

2.1 構(gòu)建圖書元數(shù)據(jù)本體的必備條件

學(xué)科領(lǐng)域本體的構(gòu)建有助于基于用戶檢索詞進行推理或是學(xué)科層級的判斷,但是真正要實現(xiàn)語義性,應(yīng)該對描述圖書的DC元數(shù)據(jù)進行語義性的描述。結(jié)合DC元數(shù)據(jù)簡單、靈活的特點,加之本體OWL語言的語義、智能的檢索,使檢索結(jié)果更加有效。實際上,RDF等語義Web和OWL的描述語言都有自己對于DC的使用方法,本文采用了OWL語言下對本體的描述辦法。DC元數(shù)據(jù)共有15個基本元素,將這15個基本元素分為三組,在創(chuàng)建描述DC元數(shù)據(jù)的本體時,借鑒DC元數(shù)據(jù)對圖書信息的描述,這些元素在本體中可以以屬性的方式存在。在本體的構(gòu)建過程中,可以引用DC屬性的命名空間,以達到使用DC屬性的目的。具體引用如下:

本模型共有5大模塊:用戶檢索、結(jié)果查看模塊,語義擴展排序模塊,Lucene檢索模塊,圖書資源建立模塊,本體構(gòu)建模塊。各模塊的作用如下:

本體構(gòu)建模塊,這一部分包括領(lǐng)域本體以及圖書元數(shù)據(jù)的本體。

圖書資源建立模塊,本模塊主要用于提供檢索數(shù)據(jù)。

語義擴展排序模塊,本模塊主要是對用戶的檢索詞進行語義的擴展,也是本體系的重要模塊部分。

Lucene檢索模塊,將語義擴展排序模塊擴展排序之后的檢索詞提交到Lucene檢索,Lucene檢索對之前建立起來的文檔索引進行檢索,根據(jù)用戶選擇的檢索范圍進行檢索,返回給用戶檢索結(jié)果。

用戶查看、結(jié)果查看模塊,本模塊提供用戶進行檢索詞的輸入以及檢索結(jié)果的查看,用戶檢索提供兩種方式,分別為輸入檢索詞和樹形結(jié)構(gòu)的檢索。

3.2 語義擴展排序模塊

(1) SPARQL查詢

利用SPARQL查詢語言進行本體文件的查詢時,需要利用Jena的com.hp.hpl.jena.rdf.model包對本體文件進行處理,在對本體文件進行處理時要注意亂碼問題。本模型的構(gòu)建是對用戶的檢索詞進行更為精準(zhǔn)全面的匹配擴充,所以首先需要對用戶的檢索詞進行擴充,之后進行排序。利用SPARQL查詢語言查詢用戶檢索詞的上下級學(xué)科以及實例擴充。

(2) Jena推理子系統(tǒng)

使用JenaAPI中的com.hp.hpl.jena.reasoner包實現(xiàn)基于OWL語言的規(guī)則集推理,同時可以創(chuàng)建自己的使用規(guī)則。實際上,就是利用com.hp.hpl.jena.reasoner包中的ModelFactory類把推理機同本體或是數(shù)據(jù)關(guān)聯(lián)起來,以達到推理的目的。Jena進行推理有以下兩種方式:OWLReasoner和自定義推理。針對領(lǐng)域本體進行推理,在構(gòu)建“圖書館學(xué)”領(lǐng)域本體中,定義了OWL:sameAs 表示具有相同涵義的類以及個體,以解決同義詞查詢的問題。

(3) 語義相似度算法

本文將相似度算法與本體語言的特性相結(jié)合,提出了一個綜合的排序算法:將用戶輸入的檢索詞進行分析處理之后,將與檢索詞的有關(guān)概念(包括子類、同義類等)歸結(jié)到一個概念集合,利用上述基于語義距離的算法將概念集合進行建模,根據(jù)相似度值的大小進行排序,最后利用Lucene進行檢索。

同義詞之間的相似度值為1,實例擴充的相似度大于子類之間的相似度,子類的相似度大于子子類的相似度。故排序應(yīng)該是為匹配用戶輸入詞的文章、匹配同義詞的文章、實例擴充的文章、子類的文章、子子類的文章。那么子類的文章具有同父類相同的相似度,對于具有相同層級的文章默認(rèn)按照查閱量或是下載量等進行排序。

3.3 Lucene檢索模塊

根據(jù)之前定義的底層圖書元數(shù)據(jù)的屬性對其進行檢索,針對一本圖書需要構(gòu)建24 個Field文檔的屬性,即Title,Subtitle,NonChineseTitle,Subject,Description,Source,Language,Relation,Coverage,Name,Age,Native,Email,Organization,Sex,Publisher,Contributor,Rights,Date,Type,F(xiàn)ormat,CLC,IndexNum,ISBN(均省略has)。

為了創(chuàng)建一個較為完整的圖書元數(shù)據(jù)的本體結(jié)構(gòu),將DC 元數(shù)據(jù)的15 個基本元素都涉及到了。為了簡化著錄項目,DC 元數(shù)據(jù)只要確保7個基本元素:Title,Publisher,F(xiàn)ormat,Type,Identifier,Date和Subject即可。為了解決作者重名的問題,建立了如下Field 文檔屬性:Title,Subtitle,NonChineseTitle,Subject,Name,Age,Native,Email,Organization,Sex,Publisher,Date,CLC,IndexNum,ISBN,Type,F(xiàn)ormat(均省略has)。

首先,對數(shù)據(jù)庫中的底層圖書元數(shù)據(jù)本體數(shù)據(jù)document 建立索引,其中對本體數(shù)據(jù)中的主題Subject,將其按照分號進行分詞存儲。

其次,對上述擴展之后的檢索詞建立indexSearcher對檢索詞進行檢索。對同作者的文章推薦,對作者的擴展屬性進行判斷。

最后,將檢索結(jié)果返回用戶。

4 實驗分析及功能評估

硬件環(huán)境CPU:Intel 3.40 GHz,2.99 GB的內(nèi)存;操作系統(tǒng)為Windows XPSP3;實驗平臺:Eclipse +Jena2.6.3+Lucene3.5.0;服務(wù)器:Tomcat 6.0。

4.1 功能演示

之前介紹過本系統(tǒng)有兩種用戶:學(xué)生和教師(管理員)。提供了六種檢索方式:基于關(guān)鍵字?jǐn)U展查詢、基于關(guān)鍵字普通查詢、基于題目擴展查詢、基于題目普通檢索、基于作者查詢、基于樹形目錄的查詢。其中基于關(guān)鍵字?jǐn)U展查詢以及基于關(guān)鍵字的普通查詢可以提供對比。教師角色除了可以提供查詢功能外,創(chuàng)新性的提供給了修改領(lǐng)域本體的功能界面,減免了操作領(lǐng)域本體的復(fù)雜性。

(1) 樹形目錄檢索:當(dāng)用戶點擊樹形目錄進行查詢時,可將圖書館的領(lǐng)域本體按照樹形的結(jié)構(gòu)進行顯示,用戶可點擊各個節(jié)點進行查詢。

(2) 擴展檢索與不擴展檢索進行對比,針對“題目”屬性,以“實例擴充檢驗”為例進行敘述。輸入檢索詞“圖書宣傳”,在“圖書館學(xué)”領(lǐng)域本體中構(gòu)建了圖書宣傳的實例:圖書展覽、圖書館講座、圖書館報告會、讀者座談會、圖書館閱讀輔導(dǎo)。對概念的擴充,檢索結(jié)果界面如圖5,圖6所示。

由表1~表3可以看出三組檢索詞的具體檢索情況。數(shù)據(jù)庫中錄入了300篇與上述三個檢索詞相關(guān)的文章,且案例采用的是基于題目的檢索,故當(dāng)題目中含有上述關(guān)鍵字且文章含義也為上述關(guān)鍵字的文章的正確率都具有良好的效果。且目前的檢索算法是將用戶的關(guān)鍵字進行本體匹配,然后本體進行擴展,對于子類、子子類以及實例都進行了擴展,故查全率能夠有很好的提高。對于擴充之后的檢索詞仍是采用Lucene對field進行匹配,所以對查準(zhǔn)率的提高有限。但是從上述案例可以看到,查全率以及查準(zhǔn)率都有所提高,本體構(gòu)建的基于本體的語義數(shù)字圖書館檢索模型的語義擴充以及檢索是合理的。

5 結(jié) 論

傳統(tǒng)數(shù)字圖書館的信息表達以及基于關(guān)鍵字的檢索機制均存在缺乏語義性的問題,導(dǎo)致用戶的體驗度以及滿意度不高。為提高數(shù)字圖書館的檢索效果,將語義本體技術(shù)與數(shù)字圖書館技術(shù)相結(jié)合,提高數(shù)字圖書館的檢索效果,這也是目前數(shù)字圖書館的發(fā)展方向。本文針對數(shù)字圖書館缺乏語義性的兩種表現(xiàn),提出了學(xué)科領(lǐng)域本體以及描述圖書元數(shù)據(jù)的本體,并在此基礎(chǔ)上構(gòu)建了基于語義的數(shù)字圖書館檢索系統(tǒng)。本文的研究成果對于下一代語義數(shù)字圖書館具有一定的科學(xué)意義。

參考文獻

[1] 楊萌.圖書館防盜系統(tǒng)漏洞的研究[J].現(xiàn)代電子技術(shù),2014,37(5):94?96.

[2] 董慧,杜文華.基于本體和多代理的數(shù)字圖書館信息檢索模型[J].中國圖書館學(xué)報,2004(2):65?67.

[3] 袁穎,趙捧未.基于語義網(wǎng)的數(shù)字圖書館信息檢索模型研究[J].科技情報開發(fā)與經(jīng)濟,2010(7):1?3.

[4] 盧勝軍,真溱.本體匹配基本理論框架研究[J].現(xiàn)代圖書情報技術(shù),2007(11):28?32.

[5] 鞠彥輝,劉宏偉,牟冬梅,等.國外典型語義數(shù)字圖書館系統(tǒng)的比較研究[J].圖書館論壇,2009(3):68?71.

[6] 馬費成,羅志成,曾杰,等.知識相關(guān)度的計量研究[J].情報科學(xué),2008,26(5):641?646.

[7] 余正濤,宋面,樊孝忠.基于本體的個性化領(lǐng)域信息服務(wù)[J].計算機工程,2005(5):22?24.

[8] 谷琦.對語義網(wǎng)格及其在數(shù)字圖書館信息檢索中應(yīng)用的探討[J].現(xiàn)代情報,2009(1):68?72.

主站蜘蛛池模板: 日韩av电影一区二区三区四区| 日本亚洲最大的色成网站www| 日韩精品亚洲一区中文字幕| 天天做天天爱夜夜爽毛片毛片| 亚洲视频a| 久久久久青草大香线综合精品| 亚洲毛片一级带毛片基地| 久久精品午夜视频| 57pao国产成视频免费播放| 2020极品精品国产| 天堂亚洲网| 日韩午夜福利在线观看| 精品一区二区三区视频免费观看| 九九热视频精品在线| 永久免费AⅤ无码网站在线观看| 欧美激情伊人| 97国产精品视频自在拍| 午夜福利网址| 日韩av在线直播| 免费a在线观看播放| 精品欧美视频| 午夜国产精品视频| 欧美一区二区福利视频| 72种姿势欧美久久久大黄蕉| 一级毛片基地| 久久这里只有精品国产99| 五月综合色婷婷| 亚洲国产成人精品无码区性色| 国产小视频a在线观看| а∨天堂一区中文字幕| 国产成人精品午夜视频'| 亚洲av日韩综合一区尤物| 日本色综合网| 国产在线观看99| 婷婷丁香色| 五月婷婷中文字幕| 伊人久久大线影院首页| 2018日日摸夜夜添狠狠躁| 欲色天天综合网| 国产无码性爱一区二区三区| 亚洲无码熟妇人妻AV在线| 丁香五月亚洲综合在线 | 日韩精品久久无码中文字幕色欲| 国产精品深爱在线| 国产白浆在线观看| 91福利片| 亚洲视频二| 国产打屁股免费区网站| 国产第一福利影院| 国产91视频观看| 日韩黄色精品| 中文字幕2区| 国产成人av一区二区三区| 国产内射在线观看| 在线欧美国产| 在线色综合| 最新国产麻豆aⅴ精品无| 成人在线天堂| 亚洲人成网站日本片| 一本一本大道香蕉久在线播放| 精品久久综合1区2区3区激情| 91娇喘视频| 熟妇人妻无乱码中文字幕真矢织江 | 欧美精品伊人久久| 国产一区二区三区精品欧美日韩| 亚洲水蜜桃久久综合网站| 欧美成人综合在线| 久久久久九九精品影院 | 亚洲午夜福利在线| 国产丝袜第一页| 四虎在线高清无码| 国产福利观看| 91久久偷偷做嫩草影院电| 国产精品偷伦在线观看| 亚洲色图欧美一区| 色呦呦手机在线精品| 丁香婷婷久久| 国产视频只有无码精品| 国产精品太粉嫩高中在线观看| 日本一区二区不卡视频| 国产精品吹潮在线观看中文| 國產尤物AV尤物在線觀看|