趙園丁
摘要:對于電子商務網站,站內搜索結果的好壞直接決定著網站商品的銷量。擁有高質量的站內搜索引擎對于在線銷售收入是至關重要的。用戶對站內搜索的要求越來越高,好的站內搜索引擎應該盡量滿足準確、高速、方便和搜索智能化這些方面的要求。
關鍵詞:電子商務;站內搜索;用戶需求
1什么是站內搜索引擎
站內搜索是指對網站內部信息的精確檢索和資源挖掘,它為用戶提供全面、準確、快速的站內信息檢索服務,是網站的核心競爭力之一。通俗地說,站內搜索引擎就是一個提供給網站用戶的軟件,方便他們搜索網站中的信息從而得到想要的內容。
2站內搜索引擎在電子商務網站中的重要地位
2.1站內搜索效果的好壞直接決定著網站商品的銷量
對于電子商務網站,網站的每一條信息都具有商業價值,而有限的頁面是不可能反映所有信息的價值的。站內搜索因此而成為電子商務網站發展的關鍵,是網站的核心服務之一。站內搜索效果的好壞可以直接決定網站商品的銷量。2008年6月24日,中國互聯網絡信息中心(CNNIC)發布了《2008年中國網絡購物調查研究報告》。報告中的調查數據顯示(如圖1),站內搜索對用戶最重要,影響也最大,有43.8%的用戶習慣通過站內搜索瀏覽商品。
如果消費者無法搜索到他們想要的商品,那么他們就會轉移到其他網站。因此,擁有高質量的站內搜索引擎對于在線銷售收入是至關重要的。
2.2站內搜索引擎是研究網站用戶行為的一個有效工具
站內搜索引擎同時也是研究網站用戶行為的一個有效工具。通過對網站用戶搜索行為的分析,了解他們瀏覽商品的習慣對于網站有針對性地改進網頁布局,進一步制定更為有效的網絡營銷策略以及改善網站服務質量都具有重要價值。
3站內搜索發展過程中存在的問題
隨著使用互聯網進行電子商務的普及程度的不斷提高,搜索引擎已成為人們上網購買商品不可缺少的工具。用戶對站內搜索引擎的精確度、速度和便利友好程度等的要求也越來越高。一個好的站內搜索應該盡量滿足準確、高速、方便和搜索智能化這些方面的要求。而目前大部分站內搜索引擎,還存在種種的問題缺憾,需要進一步結合相關先進技術發展完善。
3.1用戶輸入與結果不相符
很多網站通過關鍵字匹配查詢數據庫來實現搜索,關鍵字所對應的數據庫字段非常有限。但由于文化水平的差異,并不是所有的用戶都能輸入合適的關鍵詞來進行搜索。他們往往輸入的是一些簡單的短語,甚至是一句話。關鍵詞錯誤匹配的情況很多,用戶看到的常常是“沒有您所需要的搜索結果”或者很多無關結果。例如:輸入“禮品行”進行搜索,可能會出現“禮品行業”、“禮品行李”、“禮品行云流水”等大量無關結果。不理想的原因之一是分詞不準確。要提高站內搜索的水平,就得對用戶的輸入進行進一步處理,加入分詞技術和智能搜索技術,才能使用戶隨心所欲地輸入,從而提供網站的友好程度。
3.2搜索速度緩慢
很多網站讓用戶的搜索操作直接與數據庫查詢掛鉤,這樣使網站數據庫的負荷很大。當數據庫記錄量比較大的時候,頻繁地查詢數據庫,查詢速度會很慢,進而影響網站的正常運轉。尤其是同時有很多用戶進行操作的時候,會導致信息塞車,這樣用戶經過一段時間等待仍然看不到結果,很快就會轉移到其他網站選購商品。如何不讓用戶不耐煩是一個至關重要的問題,加入索引技術是解決這一問題的很重要的手段。
3.3關鍵詞中的同音字和錯別字得不到自動更正
在網站的站內搜索中輸入“挪積壓”進行搜索,如果得到的是與“諾基亞”相關的結果,并且提示你是不是要找“諾基亞”。這說明網站提供了搜索關鍵詞的相關詞的自動匹配,幫助用戶在搜索的時候進行參考。因為已經預先估計到用戶可能誤拼這個詞,因而避免了搜索不到任何結果的糟糕結局。但目前只有極少數的電子商務網站實現了這一智能化檢索功能,大部分網站上輸入這樣的關鍵詞,會返回“0”個結果,除非更正拼寫,才會有所收獲。這也是決定網站用戶多少的一個因素。
3.4無法提供主題搜索和熱門統計功能
如果搜索引擎根據用戶的搜索要求,按照一個主題把與之相關的信息提供給用戶,就可以讓用戶更加全面地了解他所想要的商品。這就需要優化電子商務網站信息之間的內部組織結構,從而方便用戶的使用。另外,如果搜索引擎具備統計功能,可以統計一段時間內關鍵字的訪問頻度,列出熱門關鍵字。就可以讓用戶知道熱門商品,網站也能更好地把握其用戶的需求,抓住市場動向,創造更多的財富。但是當前這些智能檢索功能在大部分電子商務網站中都沒有得以實現。
4站內搜索引擎發展所需的計算機技術
4.1中文分詞技術
中文分詞技術屬于自然語言處理技術的范疇。從語言哲學的高度講,“詞”是從無意義的聲音到有意義的“語音”的關鍵過度。計算機理解和處理自然語言,也得從這一步開始。眾所周知,英文詞與詞之間是靠空格分隔開來,而中文詞與詞之間沒有顯性的分隔標記。例如對于英文句子I need a cup和與之相應的中文句子“我需要一個杯子”。計算機可以通過空格知道need是一個詞,但是沒有顯性標志使它知道“需”和“要”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為切詞。“我需要一個杯子”這個句子經過分詞后的結果是:我/需要/一個/杯子。
4.2索引技術
索引是數據庫隨機檢索的常用手段,它實際上就是記錄的關鍵字與其對應地址的對應表。建立索引的目的就是為了檢索數據。如同書籍目錄,其中指明了章節內容在正文中的頁碼,方便讀者很快查找到內容。使用索引技術提高查詢的速度原理也是一樣,當數據庫的容量很大時,如果要快速有效地獲取信息,那么就需要使用特定的索引技術,避免信息塞車。
“倒排索引”是支持提高搜索引擎速度的核心技術之一。一個網頁文件要建立倒排索引,需要先抽取它的純文本內容,然后把文本中的一個個詞切分開來,每個詞在數據庫里對應一條記錄。在索引中詞作為關鍵字,后面跟著文件的標識及其位置。例如有3個文件:文件1、文件2、文件3。它們的內容如下:文件1(詞1,詞2,詞3)、文件2(詞a,詞b。詞c)、文件3(詞1,詞a,詞3)。建立的倒排索引就是:詞1(文件1,文件3)、詞2(文件1)、詞3(文件1,文件3),詞a(文件2,文件3)、詞b(文件2)、詞c(文件2)。
4.3智能檢索技術
傳統的檢索由于存在查不全、查不準、檢索質量不高的現象,早已不能滿足用戶的需求。智能檢索技術利用了同音詞典、同義詞典來改善檢索效果,比如用戶查詢“計算機”類商品,那么與“電腦”、“微機”相關的信息也能檢索出來。進一步通過主題詞典、上下位詞典等還可以形成一個概念網絡,在概念層面上輔助檢索,對用戶的檢索進行相關性聯想,給予用戶智能知識提示線索,在交互過程中誘導用戶表達出真正想要的東西。比如用戶查詢“膠片”,提示出與之相關的“相機”、“知名膠片品牌”、“膠片銷售店鋪”等。