基于語(yǔ)義網(wǎng)技術(shù)的信息檢索研究

2015-05-13 19:31:20王智剛

卷宗 2015年3期

摘要：語(yǔ)義網(wǎng)致力于改善讀者檢索體驗(yàn)，是Web3.0技術(shù)的一個(gè)核心指標(biāo)。本文首先分析了基于關(guān)鍵詞的機(jī)械式匹配的傳統(tǒng)信息檢索系統(tǒng)的不足，其次描述了語(yǔ)義網(wǎng)的特征、體系結(jié)構(gòu)、并分析了語(yǔ)義網(wǎng)檢索系統(tǒng)的關(guān)鍵技術(shù)，最后，在此基礎(chǔ)上構(gòu)建出基于語(yǔ)義網(wǎng)技術(shù)的信息檢索系統(tǒng)。

關(guān)鍵詞：語(yǔ)義網(wǎng)；檢索；智能

校級(jí)科研項(xiàng)目：本文系鄖陽(yáng)師范高等專科學(xué)校校立科研項(xiàng)目“基于語(yǔ)義網(wǎng)技術(shù)的武當(dāng)文化特色庫(kù)檢索模型研究”（編號(hào)：2012B06）的研究成果之一。

在進(jìn)入大數(shù)據(jù)時(shí)代的今天，萬(wàn)維網(wǎng)（WWW）成為了人們生活和工作中獲取信息的一個(gè)重要渠道，它是面向文檔的，信息量豐富、獲取簡(jiǎn)便。和傳統(tǒng)信息相比，因其表現(xiàn)形式多樣而往往會(huì)出現(xiàn)組織形式整體無(wú)序或局部無(wú)序的狀態(tài)。在廣袤的信息資源面前，怎樣迅速獲取自己想要的信息是迫切需要解決的問(wèn)題。萬(wàn)維網(wǎng)聯(lián)盟的創(chuàng)始者蒂姆·伯納斯-李（Tim Berners-Lee）在1998年提出了“語(yǔ)義網(wǎng)”的概念，它的核心是：通過(guò)給萬(wàn)維網(wǎng)上的文檔（如： HTML）添加能夠被計(jì)算機(jī)所理解的語(yǔ)義（Meta data），從而使整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換媒介[1]。語(yǔ)義網(wǎng)是一種能夠理解人類(lèi)語(yǔ)言的智能網(wǎng)絡(luò)，因此，語(yǔ)義網(wǎng)的初步實(shí)現(xiàn)也作為智能網(wǎng)絡(luò)web3.0的重要特征之一。

1 傳統(tǒng)信息檢索存在的問(wèn)題

信息檢索是指從信息資源集合中查找所需文獻(xiàn)，或查找文獻(xiàn)中包含的信息內(nèi)容的過(guò)程。Baidu、Google等搜索引擎的誕生，讓人們從無(wú)序的、海量的網(wǎng)絡(luò)信息中抽取自己想要的信息成為了可能，這種檢索工具讓萬(wàn)維網(wǎng)的作用得以充分發(fā)揮，在某種程度上促進(jìn)了信息革命。但人們很快就發(fā)現(xiàn)，用戶在使用這些檢索工具時(shí)，雖能能得到許多信息，但有時(shí)很難迅速地找到自己想要的信息。這種傳統(tǒng)的信息檢索技術(shù)，都是基于關(guān)鍵詞機(jī)械匹配的，雖然具有使用簡(jiǎn)單、快捷的優(yōu)點(diǎn)，但是因?yàn)槿狈φZ(yǔ)義描述，所以存在以下幾個(gè)問(wèn)題：

（1）忠實(shí)表達(dá)的問(wèn)題。有些情況下，用戶無(wú)法用一個(gè)確切的詞語(yǔ)來(lái)表達(dá)自己需求的信息時(shí)，就無(wú)法使用搜索引擎。

（2）表達(dá)差異的問(wèn)題。在人類(lèi)語(yǔ)言當(dāng)中，一詞多義和一義多詞是比較普遍的。一詞多義，如“蘋(píng)果”，即可以指人們吃的蘋(píng)果，也可指某一種品牌的計(jì)算機(jī)。如果用傳統(tǒng)的檢索方法，就會(huì)產(chǎn)生查準(zhǔn)率的問(wèn)題；一義多詞即同義詞，如“立刻”、“馬上”，如果用傳統(tǒng)的檢索方法，只檢索一個(gè)詞語(yǔ)，又會(huì)帶來(lái)查全率的問(wèn)題。

（3）詞匯孤島的問(wèn)題。“詞匯孤島”是指?jìng)鹘y(tǒng)的信息檢索不能將關(guān)鍵詞關(guān)聯(lián)起來(lái)，每個(gè)關(guān)鍵詞像孤島一樣獨(dú)立存在[2]。比如：檢索“文具”，理論上講，鋼筆、直尺、橡皮都是文具，但在檢索結(jié)果中一般都不會(huì)出現(xiàn)含有帶“鋼筆”、“直尺”、“橡皮” 的網(wǎng)頁(yè)。

（4）機(jī)械表達(dá)的問(wèn)題。傳統(tǒng)的信息檢索工具只能機(jī)械地從字形上標(biāo)識(shí)關(guān)鍵字，比如：檢索“圖書(shū)”，會(huì)機(jī)械匹配出一大堆與“圖書(shū)館”相關(guān)的信息。

2 語(yǔ)義網(wǎng)及其關(guān)鍵技術(shù)

人們?yōu)榱私鉀Q上述傳統(tǒng)信息檢索中存在的問(wèn)題，開(kāi)始了語(yǔ)義網(wǎng)技術(shù)的研究。語(yǔ)義網(wǎng)是一種智能網(wǎng)絡(luò)，它不僅可以理解詞語(yǔ)和概念，而且還能夠理解詞匯之間的邏輯關(guān)系，從而使人機(jī)交互變得更有效率。對(duì)語(yǔ)義網(wǎng)技術(shù)的研究，需要對(duì)語(yǔ)義網(wǎng)的基本特征、體系結(jié)構(gòu)和關(guān)鍵技術(shù)有一定的了解。

2.1 語(yǔ)義網(wǎng)的基本特征

語(yǔ)義網(wǎng)雖然是WWW的延伸，但它與WWW有很大的區(qū)別，它不僅可使用自然語(yǔ)言表現(xiàn)網(wǎng)絡(luò)內(nèi)容，而且這些內(nèi)容還可以被軟件代理人（software agent）所閱讀和使用。 “語(yǔ)義網(wǎng)”是計(jì)算機(jī)和互聯(lián)網(wǎng)界在描述下一階段網(wǎng)絡(luò)發(fā)展時(shí)所使用的術(shù)語(yǔ)[3]。所謂“語(yǔ)義”就是文本的含義，語(yǔ)義網(wǎng)就是能夠根據(jù)語(yǔ)義進(jìn)行判斷的網(wǎng)絡(luò)，也就是一種能理解人類(lèi)語(yǔ)言，可以使人與電腦之間的交流變得像人與人之間交流一樣輕松的智能網(wǎng)絡(luò)[3]。依據(jù)這種設(shè)計(jì)理念，語(yǔ)義網(wǎng)具有以下幾個(gè)特征：語(yǔ)義網(wǎng)是WWW的擴(kuò)展與延伸；語(yǔ)義網(wǎng)則面向文檔所表示的數(shù)據(jù)；語(yǔ)義網(wǎng)具有一定的判斷、推理能力，其指令便于計(jì)算機(jī)理解與執(zhí)行[4]。

2.2 語(yǔ)義網(wǎng)的體系結(jié)構(gòu)

萬(wàn)維網(wǎng)的締造者Berners-Lee，在1998年提出了語(yǔ)義網(wǎng)的概念。當(dāng)他提出這個(gè)概念時(shí)，RDF開(kāi)始嶄露頭角；XML技術(shù)已經(jīng)被廣泛使用；在知識(shí)工程領(lǐng)域，已經(jīng)對(duì)本體技術(shù)、邏輯語(yǔ)義研究了幾十年。而B(niǎo)erners-Lee對(duì)這些技術(shù)進(jìn)行分析與總結(jié)，將以上技術(shù)融合在一起，設(shè)計(jì)出了語(yǔ)義網(wǎng)的體系架構(gòu)。在2000年，他又提出了語(yǔ)義網(wǎng)的體系結(jié)構(gòu)，如圖1所示。

Berners-Lee將整個(gè)語(yǔ)義網(wǎng)結(jié)構(gòu)分為七個(gè)層次：標(biāo)識(shí)符和字符集層、根標(biāo)記語(yǔ)言層、資源描述框架層、本體層、邏輯層、證明層、信任層，在不同的機(jī)構(gòu)層次中，又融合了多種互聯(lián)網(wǎng)新技術(shù)，最終實(shí)現(xiàn)語(yǔ)義檢索。

2.3 語(yǔ)義網(wǎng)檢索系統(tǒng)的關(guān)鍵技術(shù)

構(gòu)建基于語(yǔ)義網(wǎng)的信息檢索系統(tǒng)的目的，是為了能讓計(jì)算機(jī)輕松地理解并處理用戶的檢索需求，并為用戶提供智能化、個(gè)性化的信息檢索過(guò)程。在語(yǔ)義網(wǎng)的體系結(jié)構(gòu)中，根標(biāo)記語(yǔ)言、資源描述框架和本體，是語(yǔ)義網(wǎng)的關(guān)鍵技術(shù)。

2.3.1 本體

本體（Ontology）是源自哲學(xué)領(lǐng)域的一個(gè)概念，即“存在論”。圖2是各種語(yǔ)言對(duì)這一詞語(yǔ)的表述。

在信息科學(xué)領(lǐng)域，本體是指一種形式化的，對(duì)共享概念體系明確而又詳細(xì)的說(shuō)明，它是對(duì)特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達(dá)。一個(gè)本體描述了一個(gè)特定研究領(lǐng)域的一個(gè)形式化的、共享的概念化模型，它用于描述互聯(lián)網(wǎng)上各種不同的、分散的、半結(jié)構(gòu)化的信息資源[5]，從而幫助人與機(jī)器之間交流。關(guān)于本體的基本要素，Perez 等人認(rèn)為可以按分類(lèi)法來(lái)組織，劃分為5個(gè)基本要素：類(lèi)（classes），關(guān)系（relations），函數(shù)（functions），公理（axioms）和實(shí)例（instances）[6]。

語(yǔ)義網(wǎng)首先用XML定義標(biāo)簽，然后用靈活性很高的RDF來(lái)表達(dá)數(shù)據(jù)，最后用一種本體的網(wǎng)絡(luò)語(yǔ)言來(lái)描述網(wǎng)絡(luò)文檔中術(shù)語(yǔ)的明確含義和他們之間的關(guān)系。本體語(yǔ)言非常多，既有專有本體語(yǔ)言，也有基于標(biāo)準(zhǔn)的本體語(yǔ)言，而和Web有關(guān)的主要有：RDF、RDF-S、OWL等，它們之間有著非常密切的聯(lián)系，是W3C本體語(yǔ)言棧中的不同層次，都是基于XML的。

2.3.2資源描述框架

資源描述框架（RDF）是一個(gè)處理元數(shù)據(jù)的XML應(yīng)用，RDF即Framework for Describing Resources。資源（Resource）是指所有在Web上被命名、具有統(tǒng)一資源標(biāo)識(shí)符URI的事物，比如網(wǎng)頁(yè)和XML文檔中的元素等；描述（Description）是指對(duì)資源屬性的陳述，以表明資源的特性以及資源之間的聯(lián)系；框架（Framework）是指一種與被描述資源無(wú)關(guān)的通用模型，用以管理資源的多樣性、不一致性和重復(fù)性[7]。

RDF定義了一種通用框架，使用屬性、屬性值來(lái)描述資源，然后用Web標(biāo)識(shí)符URI來(lái)標(biāo)識(shí)事物。通過(guò)這種框架，RDF用以描述語(yǔ)義網(wǎng)上的所有資源。資源，作為RDF中的三要素之一，是指可擁有URI的所有事物，比如http：//www.calis.edu.cn/rdf；屬性是指擁有名稱的資源，比如“author”或“homepage”等；屬性值是指某個(gè)屬性的值，如屬性值“Johnson”是屬性“author”的值。下面是一個(gè)用XML描述資源http：//www.calis.edu.cn/rdf的RDF文檔：

David

http：//www.w3school.com.cn

[6]

2.3.3語(yǔ)義標(biāo)注技術(shù)。

語(yǔ)義標(biāo)注就是將實(shí)例與本體的概念相聯(lián)系的過(guò)程，它用本體對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行標(biāo)引，讓動(dòng)態(tài)變化中的實(shí)例與本體結(jié)合在一起，使網(wǎng)頁(yè)實(shí)現(xiàn)智能化。語(yǔ)義網(wǎng)中的根標(biāo)記語(yǔ)言XML，既能描述文檔數(shù)據(jù)對(duì)象本身，也能部分描述如何處理這些數(shù)據(jù)。同時(shí)，它是一種語(yǔ)義/結(jié)構(gòu)化語(yǔ)言，用戶可以很方便地定義自己領(lǐng)域的專用標(biāo)記。XML文檔在不同應(yīng)用中使用時(shí)，文檔本身不必修改，僅需改變相應(yīng)的表現(xiàn)形式。

圖3所示是對(duì)普通文檔進(jìn)行語(yǔ)義標(biāo)注的過(guò)程。語(yǔ)義標(biāo)注工作類(lèi)似于給數(shù)據(jù)庫(kù)添加記錄，對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)做語(yǔ)義標(biāo)注，將網(wǎng)頁(yè)文檔中的信息和推理規(guī)則聯(lián)系起來(lái)，讓網(wǎng)頁(yè)文檔信息的含義轉(zhuǎn)化為本體，使計(jì)算機(jī)能夠理解，最終使檢索者能夠得到自己想要的準(zhǔn)確結(jié)果。由此可知，語(yǔ)義標(biāo)注就是用本體對(duì)數(shù)據(jù)進(jìn)行索引的過(guò)程。

3 構(gòu)建語(yǔ)義網(wǎng)信息檢索系統(tǒng)的策略

標(biāo)引和檢索是信息檢索的兩個(gè)基本過(guò)程，傳統(tǒng)的信息檢索技術(shù)，僅僅停留在關(guān)鍵詞的標(biāo)引和關(guān)鍵詞檢索上，因而，傳統(tǒng)信息檢索技術(shù)借助關(guān)鍵詞、目錄和索引實(shí)現(xiàn)全文檢索，雖簡(jiǎn)單快捷，但檢索結(jié)構(gòu)卻很難讓人滿意。而語(yǔ)義網(wǎng)，可通過(guò)XML語(yǔ)句、RDF概念和本體系統(tǒng)對(duì)萬(wàn)維網(wǎng)信息資源進(jìn)行概念標(biāo)引，進(jìn)而讓用戶實(shí)現(xiàn)概念檢索，實(shí)現(xiàn)智能匹配。一個(gè)語(yǔ)義網(wǎng)信息檢索系統(tǒng)實(shí)現(xiàn)的過(guò)程主要包括本體的構(gòu)建、語(yǔ)義標(biāo)注和語(yǔ)義檢索機(jī)制等核心程序。

3.1 領(lǐng)域本體的建立

語(yǔ)義網(wǎng)信息檢索系統(tǒng)實(shí)現(xiàn)的第一步就是構(gòu)建領(lǐng)域本體，如果本領(lǐng)域研究的是文獻(xiàn)檢索，那么需要有文獻(xiàn)領(lǐng)域本體研究的專家做建模幫助。文獻(xiàn)領(lǐng)域本體的建立過(guò)程是：本體確立——本體編碼。

文獻(xiàn)本體確立的步驟如下：（1）確定以文獻(xiàn)為對(duì)象為研究領(lǐng)域，以文獻(xiàn)檢索為研究目的；（2）需求分析，需求為文獻(xiàn)本體；（3）對(duì)研究領(lǐng)域中文獻(xiàn)的關(guān)鍵詞、編號(hào)、標(biāo)題、作者等進(jìn)行概括，以確定本領(lǐng)域的核心概念集；（4）對(duì)抽取的本體核心概念集，定義類(lèi)與類(lèi)之間的關(guān)系，確定概念集的對(duì)象屬性；（5）確定文獻(xiàn)數(shù)據(jù)屬性，包括文獻(xiàn)關(guān)鍵詞、題目、內(nèi)容數(shù)據(jù)屬性。

本體編碼一般由本體編輯工具對(duì)照本體模型來(lái)實(shí)現(xiàn)，首先編輯文獻(xiàn)本體的類(lèi)，然后編輯類(lèi)的屬性，最后對(duì)本體編碼并存儲(chǔ)。這個(gè)過(guò)程普遍采用的是網(wǎng)絡(luò)本體語(yǔ)言O(shè)WL進(jìn)行編碼，并形成一個(gè)文件來(lái)保存。文獻(xiàn)領(lǐng)域本體構(gòu)建的目的，是為了實(shí)現(xiàn)概念匹配，讓計(jì)算機(jī)與人交互，獲得更精準(zhǔn)的檢索結(jié)果。

3.2 信息語(yǔ)義標(biāo)注

如何將領(lǐng)域本體和信息關(guān)聯(lián)起來(lái)，是語(yǔ)義網(wǎng)需要解決的一個(gè)重要問(wèn)題。因此，研究人員便結(jié)合構(gòu)建領(lǐng)域本體，對(duì)信息進(jìn)行語(yǔ)義標(biāo)注。在以上文獻(xiàn)本體確立之后，我們便要對(duì)概念集、文獻(xiàn)數(shù)據(jù)屬性進(jìn)行一一標(biāo)注，比如，對(duì)文獻(xiàn)標(biāo)題、作者、關(guān)鍵詞字段進(jìn)行標(biāo)注，最后將實(shí)例加入到本體庫(kù)之中，以實(shí)現(xiàn)對(duì)文獻(xiàn)信息的語(yǔ)義標(biāo)注。

3.3 語(yǔ)義檢索機(jī)制

領(lǐng)域本體的建立，以及信息語(yǔ)義標(biāo)注，加工的對(duì)象都是信息資源，在一個(gè)檢索系統(tǒng)中，我們還要對(duì)用戶檢索請(qǐng)求和檢索結(jié)果進(jìn)行分析，才能精準(zhǔn)而全面地找到用戶所需要的結(jié)果。首先，要用基于關(guān)聯(lián)樹(shù)的，或者基于概念的，或者基于語(yǔ)義相似度的語(yǔ)義查詢擴(kuò)展算法，對(duì)用戶的檢索請(qǐng)求做語(yǔ)義擴(kuò)展分析，充分理解用戶的檢索請(qǐng)求，獲得一組語(yǔ)義擴(kuò)展后的查詢關(guān)鍵詞集合，再進(jìn)一步進(jìn)行檢索。最后，需要用基于語(yǔ)義權(quán)重的結(jié)果排序方法，比如HITS 算法、PageRank 算法、基于關(guān)鍵詞位置的算法等，對(duì)檢索結(jié)果進(jìn)行排序，將最接近用戶檢索請(qǐng)求的結(jié)果呈現(xiàn)靠前，以提高檢索質(zhì)量。

4 結(jié)束語(yǔ)

語(yǔ)義網(wǎng)的提出與發(fā)展已經(jīng)走過(guò)了十余年，也取得了比較多的研究成果。國(guó)外理論研究相對(duì)成熟，部分商用數(shù)據(jù)庫(kù)產(chǎn)品，和語(yǔ)義搜索引擎也相繼問(wèn)世。但相比之下，國(guó)內(nèi)理論研究大多停留在綜述國(guó)外研究的水平上，語(yǔ)義網(wǎng)應(yīng)用方面的研究也相對(duì)較少。在信息爆炸的今天，人們普遍感覺(jué)檢索體驗(yàn)差的情況下，我們有必要將語(yǔ)義網(wǎng)運(yùn)用到數(shù)字圖書(shū)館建設(shè)中來(lái)，以解決信息檢索中遇到信息量大、檢索雜亂繁雜、垃圾信息干擾的問(wèn)題，使讀者檢索變得更精準(zhǔn)，方便廣大的讀者。

參考文獻(xiàn)

[1]語(yǔ)義網(wǎng)[EB/OL][2014-12-30] http：//zh.wikipedia.org/wiki/語(yǔ)義網(wǎng)

[2]賈思宇，馬玲，常瑋. 基于語(yǔ)義網(wǎng)分析的在線學(xué)習(xí)智能答疑方法研究[J]. 情報(bào)雜志，2012，09：104-108.

[3]黃怡. 基于本體的構(gòu)件描述以及Jena框架下構(gòu)件庫(kù)的設(shè)計(jì)和實(shí)現(xiàn)[D].吉林大學(xué)，2009.

[4]張莉萍. 語(yǔ)義Web層級(jí)論析[J]. 情報(bào)雜志，2006，11：89-91.

[5]李潔，丁穎. 語(yǔ)義網(wǎng)關(guān)鍵技術(shù)概述[J]. 計(jì)算機(jī)工程與設(shè)計(jì)，2007，08：1831-1833+1836.

[6]郭亮. 基于知識(shí)單元的語(yǔ)義Wiki知識(shí)庫(kù)[D].西安電子科技大學(xué)，2009.

[7]賈正雪. UTO本體的構(gòu)建及應(yīng)用研究[D].吉林大學(xué)，2008..

[8] 田蓉. 語(yǔ)義網(wǎng)在數(shù)字圖書(shū)館信息檢索中的應(yīng)用[J]. 青年與社會(huì)，2013，10：298.

作者簡(jiǎn)介

王智剛，網(wǎng)絡(luò)工程師，館員，鄖陽(yáng)師范高等專科學(xué)校圖書(shū)館技術(shù)部主任，研究方向：數(shù)字圖書(shū)館。