劉雨亭
摘 要:本文從用戶角度分析了傳統(tǒng)搜索引擎檢索結(jié)果的不足,提出在語義網(wǎng)環(huán)境下可以從注重分析用戶提問的語義關(guān)系、擴(kuò)展檢索方式、改變爬行策略、優(yōu)化檢索結(jié)果界面等方式對傳統(tǒng)搜索引擎的檢索結(jié)果進(jìn)行優(yōu)化。
關(guān)鍵詞:語義網(wǎng) 搜索引擎 檢索結(jié)果 優(yōu)化
一、引言
隨著信息時(shí)代的到來,人們更依賴于通過搜索引擎來獲取所需信息。然而Internet上資源類型多樣,內(nèi)容豐富,信息量越來越大,傳統(tǒng)搜索引擎的結(jié)果已經(jīng)不能滿足用戶的需求,局限性開始顯現(xiàn):它側(cè)重于從用戶提問中抽取關(guān)鍵字(詞)進(jìn)行查詢并返回與關(guān)鍵字(詞)相關(guān)的鏈接,忽略了從語義角度分析用戶提問;它對檢索結(jié)果按一定的排序算法進(jìn)行排序,但并不是所有的檢索結(jié)果都是按照相關(guān)度進(jìn)行排序,所以有時(shí)候用戶需要的內(nèi)容在前1-2頁找不到答案[1]。
早在1998年萬維網(wǎng)聯(lián)盟的Tim Berners-Lee就提出了語義網(wǎng)這一概念。它是對Web的補(bǔ)充和擴(kuò)展 [2]。它在國外已有很大的發(fā)展,其中最顯著的一項(xiàng)便是語義搜索引擎的出現(xiàn),其典型代表有面向任何主題的Kngine和專注于食品、烹飪、食譜的Yummly。我國各大高校都紛紛學(xué)習(xí)研究并利用該技術(shù)更好地實(shí)現(xiàn)智能化。
從國內(nèi)外研究現(xiàn)狀來看,語義網(wǎng)已經(jīng)被人們逐漸認(rèn)識(shí)并運(yùn)用到很多方面。本文在對傳統(tǒng)搜索引擎檢索結(jié)果分析的基礎(chǔ)上提出語義網(wǎng)環(huán)境下搜索引擎應(yīng)朝著理解用戶提問的語義關(guān)系、提高檢準(zhǔn)率、提供多種檢索方式、檢索界面簡潔等更利于用戶使用的方向發(fā)展。
二、傳統(tǒng)搜索引擎檢索結(jié)果分析
傳統(tǒng)搜索引擎是定期收錄和整理網(wǎng)絡(luò)信息,按照關(guān)鍵詞查詢并返回結(jié)果的網(wǎng)絡(luò)信息檢索工具 [3]。它經(jīng)歷了較長的發(fā)展時(shí)期,以百度,google為典型代表。由于搜索引擎的主要作用是收集、整合、標(biāo)記Web上的各種資源進(jìn)而方便用戶查找,那么我們將從用戶角度對傳統(tǒng)搜索引擎的檢索結(jié)果進(jìn)行分析。
(一)檢準(zhǔn)率
檢準(zhǔn)率是指檢出的相關(guān)文獻(xiàn)數(shù)量占檢出的文獻(xiàn)總量的比率。傳統(tǒng)搜索引擎的檢準(zhǔn)率相對較低。因?yàn)閭鹘y(tǒng)搜索引擎針對用戶提問進(jìn)行查詢時(shí),重點(diǎn)在分析該提問中的關(guān)鍵詞,并根據(jù)關(guān)鍵詞進(jìn)行檢索,很少分析該提問式中的語義關(guān)系,所以常常導(dǎo)致在檢索結(jié)果的前2頁[1]很少有滿足用戶需求的信息。查詢結(jié)果的冗長和不相關(guān)會(huì)直接導(dǎo)致用戶使用該搜索引擎的積極性。
(二)重鏈率
重復(fù)鏈接率是指檢索結(jié)果中重復(fù)內(nèi)容占全部結(jié)果的百分比。該指標(biāo)越低說明檢索結(jié)果越好 [4],進(jìn)而導(dǎo)致在其檢索結(jié)果中經(jīng)常會(huì)出現(xiàn)不同資源標(biāo)題、不同URL和不同描述項(xiàng)等指向同一結(jié)果,這樣不僅浪費(fèi)用戶的時(shí)間也影響用戶對檢索工具的再次利用。
(三)空鏈率
空鏈接率是檢索結(jié)果中檢索結(jié)果為空或者檢索結(jié)果無法鏈接占總?cè)繖z索結(jié)果的百分比。在當(dāng)前搜索引擎檢索結(jié)果中用戶無法直接判斷當(dāng)前鏈接是否正確,需要點(diǎn)擊進(jìn)去之后才能確定當(dāng)前鏈接是否為空鏈,尤其是空鏈的內(nèi)容恰好是用戶需要的內(nèi)容,這種情況下會(huì)影響用戶對該搜索引擎的使用。
(四)檢索結(jié)果的權(quán)威性
檢索結(jié)果的權(quán)威性和正確性與信息發(fā)布者的權(quán)威性和專業(yè)度有很大關(guān)系。在平時(shí)檢索中若是對概念性的詞進(jìn)行檢索我們會(huì)青睞于百度百科、維基百科等,再比如當(dāng)我們要查“鄭州大學(xué)情報(bào)學(xué)2015考研參考書目”時(shí),雖然從其他網(wǎng)站上也能查到相關(guān)信息,但我們卻更相信由鄭州大學(xué)官網(wǎng)發(fā)布出來的信息,所以若其他網(wǎng)站也整理了相關(guān)信息最好是能標(biāo)注信息的原始出處并附上鏈接,這樣會(huì)提高當(dāng)前網(wǎng)站的可信度。
(五)檢索結(jié)果展示方式
傳統(tǒng)搜索引擎一般地會(huì)將查詢結(jié)果以鏈接和簡要描述形式返回以便用戶在簡單的描述中判斷檢索結(jié)果的相關(guān)性進(jìn)而點(diǎn)擊鏈接進(jìn)行查看,但對是否是死鏈以及該鏈接的網(wǎng)頁具體內(nèi)容是否與前面鏈接重合等都無法進(jìn)行判斷,所以以鏈接形式返回的檢索結(jié)果在某種程度上也潛藏了問題。
三、語義網(wǎng)環(huán)境下的優(yōu)化措施
通過對傳統(tǒng)搜索引擎的檢索結(jié)果分析得到,那些基于關(guān)鍵詞匹配和排序算法的搜索引擎在檢準(zhǔn)率等方面已經(jīng)出現(xiàn)了很多問題,所以在當(dāng)前語義網(wǎng)技術(shù)已得到較快發(fā)展的知識(shí)經(jīng)濟(jì)時(shí)代,從語義網(wǎng)角度對搜索引擎檢索結(jié)果進(jìn)行優(yōu)化已有了較強(qiáng)的必要性和可行性。當(dāng)前國外已經(jīng)有了13例典型的語義搜索引擎,語義搜索引擎是通過對網(wǎng)絡(luò)資源進(jìn)行語義標(biāo)注以及對用戶查詢請求進(jìn)行語義處理,實(shí)現(xiàn)語義推理和精確、全面的檢索[4]。借鑒國外已有的成功案例,在語義網(wǎng)環(huán)境下主要通過以下方面對傳統(tǒng)搜索引擎的檢索結(jié)果進(jìn)行優(yōu)化:
(一)注重理解用戶提問的語義關(guān)系
首先傳統(tǒng)搜索引擎可以利用OWL2(Web Ontology Language)[5]描述Web上的信息資源,理解并分析資源間的語義關(guān)聯(lián),建立相應(yīng)的知識(shí)圖譜,從而使得搜索引擎針對用戶提問進(jìn)行檢索時(shí)擴(kuò)大檢索范圍并深度挖掘信息。
同時(shí)注重理解用戶提問的語義關(guān)系,而不是單純的對該提問式進(jìn)行分割抽取關(guān)鍵詞,這方面我們需要借助語義技術(shù)來實(shí)現(xiàn),在充分理解用戶提問的基礎(chǔ)上,搜索引擎便可采用基于知識(shí)和統(tǒng)計(jì)的方法遍歷知識(shí)圖譜并計(jì)算出答案。
(二)語音搜索
傳統(tǒng)搜索引擎大都提供簡單檢索和高級(jí)檢索,但隨著互聯(lián)網(wǎng)的普及,搜索引擎的使用者已經(jīng)從專業(yè)人士擴(kuò)展到普通大眾,同時(shí),隨著人們搜索習(xí)慣的改變,語音搜索已經(jīng)成為一種大眾普遍接受的方式,而傳統(tǒng)搜索引擎主要是通過分析用戶輸入的內(nèi)容進(jìn)行檢索,而不支持語音搜索,所以,隨著語音搜索功能的擴(kuò)展,傳統(tǒng)搜索引擎已不再能滿足人們的需要。阿密特·辛格爾說“搜索引擎的三個(gè)主要功能將需要改進(jìn),搜索將需要:答案,對話,預(yù)測”[6]。故而傳統(tǒng)搜索引擎也需有支持語音搜索的功能。語音搜索這種功能在國外已有的語義搜索引擎中已有應(yīng)用,比如在Congnition中語音問“為什么要接受LASIK手術(shù)?”“LASIK手術(shù)的程序有哪些?”語音導(dǎo)航員一邊解答,一邊在網(wǎng)頁上顯示回答的內(nèi)容[4]。
(三)檢索結(jié)果顯示簡潔直觀
傳統(tǒng)搜索引擎將查詢結(jié)果按鏈接形式返回,用戶需要根據(jù)該鏈接的簡要描述判斷是否進(jìn)入該鏈接,并且該鏈接的網(wǎng)頁內(nèi)容是否與前面鏈接內(nèi)容重合、是否為空鏈都要進(jìn)一步點(diǎn)擊之后才能確定,這在某種程度上浪費(fèi)了大量時(shí)間。
借鑒語義搜索引擎的特點(diǎn),語義網(wǎng)環(huán)境下傳統(tǒng)搜索引擎可以將檢索結(jié)果直觀化,在結(jié)果頁面上直接顯示結(jié)果,這樣減少了鏈接的次數(shù),也方便用戶直觀地獲取信息;語義網(wǎng)環(huán)境下傳統(tǒng)搜索引擎也可以將檢索結(jié)果可視化,以用戶能夠理解的圖表形式顯示出來,這樣可避免用戶從大批文字中分析答案而占用較長時(shí)間;語義網(wǎng)環(huán)境下傳統(tǒng)搜索引擎的檢索結(jié)果頁面應(yīng)干凈整潔,過濾掉廣告、垃圾信息。
(四)優(yōu)化爬行策略
當(dāng)前Web上信息內(nèi)容豐富,更新頻率不一致,各種信息間呈網(wǎng)狀多樣聯(lián)系,這種情況給搜索引擎搜集網(wǎng)上信息資源提出了更嚴(yán)苛的要求。在語義網(wǎng)環(huán)境下,搜索引擎應(yīng)更加注重分析各種信息資源間的關(guān)系,從深度挖掘信息。在這方面搜索引擎可以優(yōu)化爬行策略,針對每個(gè)網(wǎng)頁信息都能找尋它的最初鏈接,這樣既可以提高當(dāng)前網(wǎng)頁的可信度,也分析了各網(wǎng)頁間的關(guān)系,增強(qiáng)搜索引擎內(nèi)部信息的關(guān)聯(lián)度也便于更深層次分析信息,更好地為用戶服務(wù);當(dāng)然搜索引擎也要根據(jù)各類型網(wǎng)站的更新頻率設(shè)置相應(yīng)的爬行時(shí)間和次數(shù),以便能在第一時(shí)間內(nèi)收集歸納新的信息,方便用戶查詢。
參考文獻(xiàn)
[1] 王淵.面向用戶的搜索引擎檢索結(jié)果評(píng)價(jià)[J].河南圖書館學(xué)刊,2007,27(4):74.
[2] Berners-LeeT,Hendler J,Lassila O.The semantic Web [J].Scientific American,2001,284(5):28-37.
[3] 趙夷平.傳統(tǒng)搜索引擎與語義搜索引擎服務(wù)比較研究[J].情報(bào)科學(xué),2010,28(2):265-270.
[4] 郭衛(wèi)寧,司莉.國外語義搜索引擎調(diào)查與分析[J].圖書情報(bào)工作,2013,57(23):121.
[5] 曾新紅,吳鵬,林偉明. OWL2 Web本體語言入門. http://nkos.lib.szu.edu.cn/OWL2/OWL2PrimerSimplifiedChinese.htm.
[6] 胡祝.搜索引擎的最新進(jìn)化[N].電腦報(bào),2014-4-21(13).
[7] 張海濤,高松.搜索引擎檢索結(jié)果的網(wǎng)頁組織及其優(yōu)化策略[J].情報(bào)科學(xué),2006,24(6):900-903.
[8] 蘇明明,宋文.基于本體的語義搜索引擎解決方案與研究新進(jìn)展[J].現(xiàn)代圖書情報(bào)術(shù),2008(11):24-28.
[9]語義網(wǎng). http://baike.baidu.com/link?url=P7TLysay0heBDC4WuYCOH7f1ORSpnKJSRopNco6KngTmb8dNtd-lJfVXpn1 Wkkeq8KpcjP6StZTE-GyM99F2FK.