[摘要] 隨著Internet的快速發(fā)展,商務(wù)信息爆炸式的增長以及網(wǎng)絡(luò)環(huán)境的日益復(fù)雜,搜索引擎作為信息檢索的重要工具在網(wǎng)絡(luò)經(jīng)濟(jì)中的作用變得越來越重要,文章試從搜索引擎在電子商務(wù)中的應(yīng)用角度介紹、分析和研究智能搜索引擎的相關(guān)問題,從搜索引擎存在的問題及解決策略幾個(gè)方面探討面向電子商務(wù)的智能搜索引擎技術(shù)的發(fā)展問題。
[關(guān)鍵詞] 搜索引擎 電子商務(wù) 智能搜索 人工智能
一、搜索引擎的現(xiàn)狀
當(dāng)前搜索引擎數(shù)據(jù)庫檢索和應(yīng)用性差,不利于用戶使用;排序技術(shù)指標(biāo)單一,查找到的信息有效性低;信息分類類目和標(biāo)準(zhǔn)不統(tǒng)一,導(dǎo)致界而友好性低;自身搜索技術(shù)不成熟,誤檢率高,不利于電子商務(wù)使用。
搜索引擎主要由搜索器、索引器、檢索器和用戶接口四部分組成。搜索器一般采用一種被稱為Spider的網(wǎng)絡(luò)自動跟蹤索引程序。索引器的功能是理解搜索器所索引的信息,從中抽取索引項(xiàng)、建立起自己的物理索引數(shù)據(jù)庫。檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢索出文檔,進(jìn)行文檔與查詢的相關(guān)度評價(jià),對將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。用戶接口的作用是輸人用戶查詢,顯示查詢結(jié)果,提供用戶相關(guān)性反饋機(jī)制。
目前搜索引擎根據(jù)構(gòu)建時(shí)的不同策略,大致可以分為三種模式:一、建立在分類基礎(chǔ)上的搜索引擎,優(yōu)點(diǎn)是準(zhǔn)確率比較高,不足是查全率不是很好。二、建立在索引文檔基礎(chǔ)上的搜索引擎,優(yōu)點(diǎn)是搜索網(wǎng)絡(luò)信息效率高,查全率好于第一種,但查準(zhǔn)率不及第一種;三、建立在概念的基礎(chǔ)上,突破了傳統(tǒng)搜索引擎中相對比較簡單的基于關(guān)鍵詞的匹配,它借助數(shù)據(jù)字典擴(kuò)展條件,通過模式的提取和識別抽象化搜索條件與文檔之間的聯(lián)系,這種搜索引擎的查準(zhǔn)率較差,而查全率是三者中最高的。
利用人工智能先進(jìn)技術(shù)重新設(shè)計(jì)搜索引擎,使搜索引擎更具智能化,使檢索結(jié)果更能反映用戶的需求,這類搜索引擎稱為智能搜索引擎。把信息檢索從目前基于關(guān)鍵詞層面提高到基于知識層面,是解決問題的根本和關(guān)鍵。
二、智能檢索技術(shù)的分析研究
1.網(wǎng)絡(luò)Robot的智能技術(shù)分析研究
網(wǎng)絡(luò)Robot是一種軟件,它完成任務(wù)必須具備一定的智能,可以概括為以下幾個(gè)方面:
(1)提取網(wǎng)頁中的有效鏈接
智能Robot從分析一組指定的URL開始,按照電子商務(wù)的電子詞典對文檔的相關(guān)性進(jìn)行判斷提取超鏈,濾去不適宜的文檔,降低索引的混亂程度,滿足條件的超鏈按照標(biāo)題或單詞建立索引并產(chǎn)生本地?cái)?shù)據(jù)庫,使搜索結(jié)果更加純凈。
(2)識別訪問過的鏈接,剔除廣告等無意義的鏈接
智能Robot排除掉那些在目標(biāo)URL中已被訪問過的URL;由于WWW的巨大規(guī)模,為避免Robot搜索得太深,從而回不到原處的情況發(fā)生,必須對搜索的深度進(jìn)行限制;剔除圖像、音頻、視頻等無法進(jìn)行索引的文檔。
(3)確定搜索策略
Robot的搜索策略是指當(dāng)Robot搜索到一個(gè)文檔后,下一步應(yīng)當(dāng)轉(zhuǎn)移到哪個(gè)文檔的方法問題。它主要有以下幾種搜索策略:①IP地址搜索策略。它實(shí)現(xiàn)的方法是先賦予Robot一個(gè)起始的IP地址,然后根據(jù)IP地址遞增的方式搜索本IP地址段后的每一個(gè)WWW地址中的文檔。優(yōu)點(diǎn)是搜索全面,缺點(diǎn)是不適宜大規(guī)模的搜索。②深度優(yōu)先搜索策略。它是從起始節(jié)點(diǎn)出發(fā),一直搜索到那些不包含任何超級鏈接的文件為止,然后再返回某一文檔,再繼續(xù)選擇該文檔中的其他超級鏈接。優(yōu)點(diǎn)是便于發(fā)現(xiàn)新的站點(diǎn),但信息面增長相對慢一些。③廣度優(yōu)先搜索策略。它是先搜索完一個(gè)Web頁面中所有的超級鏈接,然后再繼續(xù)下一層的搜索,直到最底層為止。它能夠很好地解決搜索面的問題,缺點(diǎn)是對于深層Web文檔要花很長的時(shí)間才能到達(dá)。
我們采取深度與廣度相結(jié)合的策略來采集文檔,滿足條件的文檔放到搜索數(shù)據(jù)庫并建立索引數(shù)據(jù)庫,針對鏈接內(nèi)容發(fā)生變化,采取迅速、及時(shí)的更新機(jī)制,建立的索引庫供檢索數(shù)據(jù)使用。
2.搜索條件的獲取和智能分析研究
通常搜索引擎支持最多的是關(guān)鍵詞搜索和在此基礎(chǔ)上的邏輯運(yùn)算,在初步搜索結(jié)果中再搜索和限制條件較為復(fù)雜的高級搜索,這種簡單的用戶信息獲取方式勢必直接影響著搜索結(jié)果的準(zhǔn)確性和相關(guān)性。目前,由于各類電子商務(wù)站點(diǎn)使用的搜索引擎都是基于關(guān)系數(shù)據(jù)庫的檢索引擎,它無法處理在用戶看來是非常普通的常識性知識,更不能處理個(gè)性化知識、區(qū)域性知識以及專業(yè)性知識等。造成上述種種信息檢索困難的原因在于搜索引擎缺乏知識處理能力和理解能力,對要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來實(shí)現(xiàn)。智能搜索引擎檢索的內(nèi)容應(yīng)該是知識而不是信息,它對查詢條件的智能分析主要包括以下兩種:
(1)提取查詢條件中的有效成分,包括詞匯和邏輯關(guān)系。
(2)建立電子商務(wù)知識庫來獲取關(guān)鍵詞的同義詞、近義詞及相關(guān)詞,如計(jì)算機(jī)、電腦和微機(jī)是同義關(guān)系,建立概念之間復(fù)雜的語義關(guān)系及常識上的聯(lián)系,如相機(jī)與膠卷存在常識上的聯(lián)系。根據(jù)語義關(guān)系和常識性聯(lián)系對用戶查詢進(jìn)行相關(guān)性聯(lián)想,提供引導(dǎo)用戶進(jìn)行下一步查詢的線索。這樣一步步地在與用戶交互過程中誘導(dǎo)用戶“表達(dá)”出他真正想找的東西,從而實(shí)現(xiàn)對查詢的智能導(dǎo)航。
三、結(jié)論
互聯(lián)網(wǎng)智能搜索是一個(gè)新興的極具魅力的研究領(lǐng)域,它不但為商務(wù)主體提供了迅速接人Internet搜索自己所需商品的智能技術(shù),而且也免除了交易雙方對象尋找進(jìn)行交易所耗費(fèi)的大量時(shí)間和精力。搜索引擎主要向?qū)n}性智能搜索引擎發(fā)展是今后的發(fā)展趨勢,專題性搜索引擎索引器因?yàn)樯婕邦I(lǐng)域小、信息量相對少,所以完全可以在自動分類標(biāo)引的過程中加人人工智能技術(shù),提高信息的查詢質(zhì)量。
參考文獻(xiàn):
[1]孫煒:中文搜索引擎開發(fā)利用策略研究.科技情報(bào)開發(fā)與經(jīng)濟(jì).2005(1).230~231
[2]吳茵茵:不同搜索引擎在網(wǎng)絡(luò)影響因子分析中的比較研究.情報(bào)科學(xué).2005(3):43~35
[3]薛萬新:中文搜索引擎的現(xiàn)狀與發(fā)展.科技情報(bào)開發(fā)與經(jīng)濟(jì).2005(3).266~267