余 波,潘桂寧,李伶思,張倩男
(1.廣西民族大學(xué) 管理學(xué)院;2.廣西民族大學(xué) 圖書館,廣西 南寧 530006)
百度是全球最大的中文搜索引擎,也是國內(nèi)最大的商業(yè)化全文搜索引擎.它致力于向人們提供“簡單,可依賴”的信息獲取方式.百度搜索引擎自如的可擴展性和采用ASP(APPLICATION SERVICE PROVIDER)商業(yè)服務(wù)模式是它的兩個最鮮明的特點.可擴展的搜索技術(shù)保證用戶最快最多地收集網(wǎng)絡(luò)信息,構(gòu)建大規(guī)模索引庫.在國際互聯(lián)網(wǎng)屆,百度目前是世界上唯一一家在不具備搜索引擎支持動態(tài)網(wǎng)頁的情況下,成功解決了動態(tài)網(wǎng)頁的索引與收集問題的網(wǎng)站.
Google目前被公認為是全球規(guī)模最大的搜索引擎,提供了簡單易用的免費服務(wù),是一個功能十分強大、網(wǎng)絡(luò)信息資源非常豐富的搜索引擎.Google現(xiàn)已擁有30多億網(wǎng)頁,支持30多種語言檢索,包括中文簡體和中文繁體,并有中文Google網(wǎng)頁.全世界平均每天上網(wǎng)人次高達1.5億,Google約搜索4,285,199,774張網(wǎng)頁,提供網(wǎng)站、圖像、新聞組等多種資源的查詢,其中包括35個國家和地區(qū)的語言的資源.
百度搜索引擎由四部分組成:蜘蛛程序、監(jiān)控程序、索引數(shù)據(jù)庫、檢索程序.門戶網(wǎng)站只需將用戶查詢內(nèi)容和一些相關(guān)參數(shù)傳遞到百度搜索引擎服務(wù)器上,后臺程序就會自動工作并將最終結(jié)果反饋給網(wǎng)站.
先進的“鏈接分析(Link Analysis)技術(shù)”:超鏈分析就是通過分析鏈接網(wǎng)站的多少來評價這個被鏈接的網(wǎng)站質(zhì)量,這保證了用戶在百度搜索時,越受用戶歡迎的內(nèi)容排名越靠前.百度搜索引擎將傳統(tǒng)情報學(xué)中的引文索引技術(shù)同Web中最基本的東西——“超級鏈接分析”的技術(shù)相結(jié)合,在查找的查全率、查準率、更新時間、響應(yīng)時間等方面與其他技術(shù)相比都有很大的優(yōu)勢.自如的可擴展性:百度搜索引擎自如的可拓展性是它最鮮明的特點之一.百度搜索引擎可以承受所有高峰的負荷而不會在性能方面有任何偏差.對于超過6000萬的網(wǎng)頁,檢索一次的本地平均響應(yīng)時間小于0.15秒.ASP商業(yè)服務(wù)模式:百度的客戶主要針對的是門戶網(wǎng)站,而不是最終的網(wǎng)絡(luò)用戶,所以百度采用了國內(nèi)最為流行的ASP商業(yè)服務(wù)模式,當(dāng)終端網(wǎng)絡(luò)用戶通過門戶網(wǎng)站輸入查詢請求的時候,數(shù)據(jù)將會傳輸?shù)桨俣鹊乃阉饕娣?wù)器上完成查詢?nèi)蝿?wù),再通過百度數(shù)據(jù)傳輸協(xié)議將答案傳回到門戶網(wǎng)站界面,從而完成整個搜索過程,這個過程的時間在0.5秒以內(nèi).
Google搜索技術(shù)所依托的軟件可以同時進行一系列的運算,且只需片刻即可完成所有運算.而傳統(tǒng)的搜索引擎在很大程度上依賴于文字在網(wǎng)頁上出現(xiàn)的頻率.Google使用Page Rank技術(shù)檢查整個網(wǎng)絡(luò)鏈接結(jié)構(gòu),并確定哪些網(wǎng)頁重要性最高.然后進行超文本匹配分析,以確定哪些網(wǎng)頁與正在執(zhí)行的特定搜索相關(guān).在綜合考慮整體重要性以及與特定查詢的相關(guān)性之后,Google可以將最相關(guān)最可靠的搜索結(jié)果放在首位.
特有的Page Rank技術(shù):Page Rank是Google評價一個網(wǎng)站質(zhì)量高低的重要標準,通過對由超過50000萬個變量和20億個詞組組成的方程進行計算,PR能夠?qū)W(wǎng)頁的重要性做出客觀的評價.更新和收錄速度快:Google搜索引擎收錄新站一般在十個工作日左右,是所有搜索引擎中收錄較快的,而且更新也比較穩(wěn)定,一般一個星期都會有大的更新.并且Google搜索引擎所搜索的內(nèi)容及時性強,言論也相對自由些,還可以搜索很多國內(nèi)看不到的新聞.重視鏈接的文字描述和鏈接的質(zhì)量:鏈接的文字描述就是做鏈接用的文字,這個文字對Google排名起一定作用,因此我們建議如果網(wǎng)站要做某些關(guān)鍵詞,在交換鏈接時要用這個關(guān)鍵詞做鏈指向你的網(wǎng)站,鏈接的質(zhì)量與鏈接網(wǎng)站的權(quán)威性以及與你站是否相關(guān)有關(guān)系,權(quán)威越高你站獲得的排名越好.超文本匹配分析:Google的搜索引擎同時也分析網(wǎng)頁內(nèi)容,但是并不采用單純掃描基于網(wǎng)頁的文本的方式,而是分析網(wǎng)頁的全部內(nèi)容以及分區(qū)、字體及每個文字精確位置等因素.同時還會分析相鄰網(wǎng)頁的內(nèi)容,以確保返回與用戶查詢最相關(guān)的結(jié)果.Google檢索技術(shù)使得用戶可以獲得較高的查全率和查準率.
Google是世界上最大的搜索引擎,通過對200多億網(wǎng)頁信息的整理,每天為世界各地提供1.5億次以上的網(wǎng)上信息查詢服務(wù).百度是全球最大的中文搜索引擎,擁有超過10多億的中文網(wǎng)頁數(shù)據(jù)庫,每天響應(yīng)超過億次的網(wǎng)絡(luò)信息搜索請求.
百度提供的高級搜索語法有:intitle—把搜索范圍限定在網(wǎng)頁標題中,site—把搜索范圍限定在特定站點中,inurl—把搜索范圍限定在url鏈接中,雙引號和書名號—精確匹配.
如果對百度各種查詢語法不熟悉,可以使用百度集成的高級搜索界面,可以方便的做各種搜索查詢.百度還支持對某個地區(qū)的網(wǎng)頁進行搜索.進入高級搜索,進入地區(qū)搜索,選中希望查詢的地區(qū),就可以在該地區(qū)搜索了.我們還可以根據(jù)自己的習(xí)慣,改變百度默認的搜索設(shè)定,如每頁搜索結(jié)果數(shù)量,搜索結(jié)果的頁面打開方式等.先進入高級搜索,然后點擊下方的“點擊此處進入個性設(shè)置”,就可以進行設(shè)定了.
Google提供的高級檢索功能包括:可以將檢索結(jié)果局限在一個網(wǎng)站上;可以排除某個特定站點的網(wǎng)頁;可以對網(wǎng)頁以及檢索結(jié)果頁面的語言類型進行限制;可以檢索鏈向某一個網(wǎng)頁的所有頁面;可以檢索與某一個網(wǎng)頁相關(guān)的所有網(wǎng)頁.Google的特有高級搜索語法還有:related,cache,info.
圖像搜索是通過搜索圖像文本(關(guān)鍵詞)或者可視屬性,為用戶提供網(wǎng)絡(luò)上相關(guān)圖形圖像資料檢索服務(wù)的專業(yè)搜索引擎系統(tǒng).將搜索引擎細分為兩大類:輸入圖片名稱或內(nèi)容相似的關(guān)鍵字檢索;上傳與搜索結(jié)果相似的圖片或圖片URL搜索.
在用戶界面的方面,百度的界面一打開就是以白色為主色調(diào),藍色字體顯得相當(dāng)簡潔,實用性較好.在百度首頁,點擊“圖片”鏈接,就可以進入百度的圖像搜索界面,默認的是“全部圖片”.涉及面非常廣,界面清新,便于人們更加清楚的找到自己想要的圖片.Google的圖片檢索界面顯得更為簡潔,Google圖像搜索的工作原理是利用網(wǎng)絡(luò)蜘蛛(Smart Spider)技術(shù),通過分析頁面上圖像附近的文字、圖像標題以及許多其他元素來確定圖像內(nèi)容,并確保在搜索結(jié)果中首先顯示質(zhì)量最好的圖像.Google在檢索框中加上了按照圖片搜索的功能,用戶可上傳圖片進行搜索,同樣也可按關(guān)鍵詞進行檢索.
在高級檢索方面,百度的圖片高級檢索里有輸入關(guān)鍵字,站內(nèi)圖片,還有個性設(shè)置,功能分類簡潔明了.Google的圖片高級選項中分的更加細致,如圖片尺寸的選擇:大尺寸,中尺寸,圖標,以及多少像素,分的很細.圖片的顏色可以選擇黑白圖片或全彩圖片.在限制網(wǎng)站方面,用戶可以只顯示特定站點或域內(nèi)的圖片.在使用權(quán)限方面,用戶可以選擇未經(jīng)許可過濾的圖片、標明可供使用的圖片、標明可用于商業(yè)用途的圖片、標明要修改后方可使用的圖片、標明要修改后方可用于商業(yè)用途的圖片.
百度搜索引擎應(yīng)用的核心排序技術(shù)是“超鏈分析”技術(shù).“超鏈分析”是通過分析鏈接網(wǎng)站的多少來評價被鏈接的網(wǎng)站質(zhì)量,保證了用戶在百度搜索時越受用戶歡迎的內(nèi)容排名越靠前.Google應(yīng)用了多項排序技術(shù),其中最核心、最關(guān)鍵的是Page Rank技術(shù)(網(wǎng)頁級別)和“超文本匹配分析”技術(shù)(Hyper text Matching Analysis).根據(jù)網(wǎng)頁之間的鏈接結(jié)構(gòu),Page Rank技術(shù)對網(wǎng)頁的重要性進行客觀的評價,并將網(wǎng)頁的Page Rank值應(yīng)用于檢索結(jié)果的排序.Google在排列其檢索結(jié)果時,都會考慮每個網(wǎng)頁的Page Rank值,將重要的、高質(zhì)量的網(wǎng)頁排在結(jié)果列表的前面.因此Google將Page Rank算法“超文本匹配分析”技術(shù)結(jié)合在一起.一般的搜索引擎僅僅考慮檢索詞出現(xiàn)的次數(shù),而Google還在此基礎(chǔ)上分析關(guān)鍵詞的字號、字體以及關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的精確位置,并且對該網(wǎng)頁的鄰近網(wǎng)頁(包括鏈入網(wǎng)頁和鏈出網(wǎng)頁)的內(nèi)容加以分析.
在規(guī)模、內(nèi)容及更新時間方面,百度收錄的大更新時間是每月11號和26號,特別是26號,更新幅度最大,K站也是最多的.小更新時間為每周四,更新時刻都在凌晨4點.一般凌晨4點更新,對網(wǎng)站流量都沒多少影響,百度對網(wǎng)站的關(guān)鍵字搜索進行重新調(diào)整之后,才會有流量上的大的變化.
在查全率方面,Google收取了大概200億的英文搜索頁面,覆蓋了英文網(wǎng)頁數(shù)據(jù)量的60%到70%,用戶滿意度能達到60%到70%.互聯(lián)網(wǎng)上中文網(wǎng)頁有效數(shù)量大致在100億到150億之間,而百度和Google收錄的中文網(wǎng)頁量都在40億到50億之間,因而,百度和Google的中文網(wǎng)絡(luò)資源查全率一般只能達到30%-40%.對西文網(wǎng)絡(luò)信息資源查全率進行研究,百度不及谷歌,在中文網(wǎng)絡(luò)資源查全率方面,Google的查全率也明顯高于百度.
在查準率方面,查準率是衡量網(wǎng)絡(luò)信息檢索質(zhì)量的標準.搜索引擎的查準率體現(xiàn)在兩個方面,一是搜索引擎對垃圾網(wǎng)頁的抗干擾能力,二是搜索引擎對檢索結(jié)果的排序能力,它主要取決于搜索引擎采用的排序算法的優(yōu)劣.為了形象、直觀地對比Google和百度的檢索效果,筆者選擇了2組搜索詞來測試兩種搜索引擎的檢索性能,結(jié)果是Google的查準率強于百度.
綜上所述,不難看出百度和Google這兩種搜索引擎都是目前比較出色的搜索引擎,它們各具特色.Google的檢索功能強大、靈活,尤其是支持多種字段檢索、特定文件類型檢索以及網(wǎng)頁推薦功能,并可以按用戶的習(xí)慣設(shè)置檢索界面;百度更注重服務(wù)的本地化,更多地融入了中文檢索的特點,信息更新更快一些.目前搜索引擎的發(fā)展日新月異,在很多地方還有待于完善和提高.搜索網(wǎng)站需要加強對自身數(shù)據(jù)庫更新的速度,為用戶提供更全面、更豐富、更準確的信息.相信在不久的將來,百度和Google對自身不斷完善和進步的追求,也一定會為廣大用戶帶來更大的福音,并且引發(fā)一場真正的搜索引擎的革命.
〔1〕馬麗.百度與谷歌差在哪?[J].法人雜志,2009(02):96.
〔2〕李志明.谷歌、百度、讀秀三大中文圖書搜索引擎比較及啟示[J].圖書館工作與研究,2009(08):64-66.
〔3〕李蘭燕,徐軍英.“谷歌”、“百度”與圖書館的關(guān)系[J].中華醫(yī)學(xué)圖書情報雜志,2010(04):22-23+64.
〔4〕羅賢春.中小企業(yè)電子商務(wù)三流整合研究[J].商業(yè)研究,2006(04):196-198.
〔5〕王知津,潘穎.中文搜索引擎商業(yè)模式比較:以百度和谷歌為例[J].圖書館工作與研究,2012(11):4-11.
〔6〕姚明,余波,劉孟.基于知識地圖的廣西文化信息資源開發(fā)構(gòu)想[J].湖北第二師范學(xué)院學(xué)報,2013(09):130-132.
〔7〕羅賢春.網(wǎng)絡(luò)信息市場交易模式研究[J].情報雜志,2004(02):96-97.
〔8〕李洪心,李婷.中外搜索引擎比較——百度與Google[J].中國信息界,2005(19):19-22.
〔9〕羅賢春.交互式信息查尋的全信息分析[J].情報理論與實踐,2006(03):335-337+273.