賈博研,王瑞琰,鄭宇峰,王丹丹
(江蘇大學,江蘇 鎮江 212013)
搜索的本質是用戶通過互聯網工具找尋信息,搜索行為就是二者之間的交流。搜索引擎的更多渠道引導有效信息直達,從“單流主導”到“人與信息雙向互動”,從“信息找人”到雙向“選擇搜索”,形成“信息流”與“搜索流”的閉環。
早期的搜索引擎主要是PC端的信息檢索,單單通過技術爬蟲去全網抓取海量信息,供用戶使用;而現在的搜索引擎則是基于內容平臺和移動互聯網的產物。移動時代到來后,海量APP涌現,移動端的搜索引擎面對擁有海量客戶與優質內容的平臺,需要在技術與內容上不斷優化,在實現精確搜索的同時,通過地理與時間標簽,發掘用戶興趣,提高用戶粘性[1]。
若兩個或多個變量的取值之間存在某種規律,就稱為關聯。關聯規則是尋找同一個事件中出現的不同項的相關性,比如,在一次購買活動中所購買不同商品的相關性。關聯分析,即利用關聯規則進行數據挖掘,目的是挖掘隱藏在數據間的相互關系,自動探測以前未發現的、隱藏著的新模式[2]。
解決關聯規則問題的原始算法是AIS算法,為改進AIS算法,提出了OCD算法、Apriori算法。由于Apriori算法I/O開銷很大,因此,大多改進算法都在如何減少搜索次數上做文章。其后又提出一個基于Hash技術的DHP算法與數據進行分區的Partition算法。Partition算法提出了頻繁模式增長(FP-Growth)的思想,設計了基于該思想的頻繁模式樹(FP-tree)存儲結構,并在此結構上的頻繁模式挖掘算法FP-growth,FP-growth在效率上較Apriori算法有較大的提高。在國外,關聯規則已經進入產品化階段。
近年來,國內隨著大數據時代的到來和互聯網的發展,關聯規則算法開始應用于各方面,如:挖掘電子商務潛在客戶,在臨床醫療診斷、精準扶貧中的應用,基于關聯規則分析的物流定制服務推送系統、學校教育和學生行為分析等[3]。
現如今,在智能搜索引擎的發展中,關聯規則能夠提供一定技術支持,進行搜索引擎優化(Search Engine Optimization,SEO)。關聯規則的概念擴展包括:頻繁模式、序列模式挖掘、時序模式挖掘、空間模式挖掘、結構(圖)挖掘、多媒體挖掘、其他高級挖掘等方面,對搜索引擎搜索與推薦等不斷進行優化,可通過用戶搜索索引提取時間、地理標簽等,進一步搭建用戶興趣庫模型,與用戶保持良好粘性。
搜索引擎的工作原理是從互聯網上抓取網頁,建立索引數據庫并進行搜索排序。整個工作過程大體分為4個部分:信息采集、信息分析、信息查詢和用戶接口。
搜索引擎的信息主要源自于互聯網網頁,通過網絡爬蟲將整個互聯網的信息獲取到本地,當搜索引擎接收到用戶的查詢后,首先,需要對查詢詞進行分析,結合查詢詞和用戶信息來正確推導用戶的真正搜索意圖。其次,檢索器根據用戶輸入的關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。
結果排序最重要的兩個參考排序中,一個是內容相似性因素,即網頁是和用戶查詢密切相關的;另外一個是網頁重要性因素,即網頁是質量較好或相對重要的,往往從鏈接分析的結果獲得。結合以上兩個考慮因素,就可以對網頁進行排序,作為用戶查詢的搜索結果。搜索引擎的最重要目的是為用戶提供準確、全面的搜索結果,滿足用戶查詢需求并實時提供準確結果,最終構成了搜索引擎前臺計算系統。
本次研究實際體驗各搜索引擎的搜索效率、設計及用戶體驗等,并進行橫向比較,以“世界上最大的島嶼是”為檢索字句,體驗結果如表1所示。

表1 各搜索引擎體驗分析
對于用戶現階現使用搜索引擎現狀的數據獲取,本次研究采用了問卷調查法,共收集問卷217份,皆為有效數據,基于此,共分為以下4個方面對用戶使用情況做數據分析。
常用搜索引擎使用占比:百度為34%,自帶瀏覽器為20%,360搜索為20%,其他占比相對較低,對于搜索引擎的使用主要為國內搜索引擎,且對于移動設備的搜索引擎有一定依賴性;對于調查人員,18~25歲居多,使用搜索引擎的年限為6年以上的人群占比超過50%,在一定程度上表明搜索引擎在用戶的使用中仍占有重要地位[4]。
對于無法使用平臺的失望度可側面反映用戶對于平臺的依賴性,對于所搜集的數據進行統計,將近90%的用戶對搜索引擎平臺有較強的依賴性;同時,對于附加擴展應用的用戶使用情況,在一定程度上也表明用戶對于搜索引擎的粘性。
對于平臺使用頻率(見圖1),結合調查的用戶學歷發現,高學歷人群使用搜索引擎的頻率相對較高,專本科及本科以上的用戶使用搜索引擎的頻率平均每天10次以上,在一定程度上表明對于知識、信息的獲取,有專業研究的人群更傾向于對搜索引擎的使用。
對于搜索平臺的使用,大部分是需要查詢特定信息,對于搜索平臺的選擇因素,主要看重搜索平臺使用的簡易度、搜索范圍、搜索準確度與相關瀏覽信息等;對于平臺的使用期望最首要的就是搜索結果的準確性、搜索頁面的簡潔性、減少廣告的植入,并由搜索信息對于其他知識領域的擴展等方面,對于平臺的個性化搜索期望不高。
搜索內容的選擇性瀏覽方面,用戶會優先選擇與信息相關度較高詞條,描述內容簡單易懂,對于搜索結果的返回,一些信息的更新也會對內容的選擇有一定影響,如圖2所示。

圖1 搜索引擎使用頻率

圖2 搜索內容選擇
隨著互聯網的誕生與新技術的不斷興起,處于信息時代的用戶最重要的就是對信息的檢索與獲取。搜索引擎平臺除了提供搜索功能外,現下智能化互聯網搜索與推薦應用也將會推動搜索引擎的進一步更新與完善,兼具搜索與自動問答功能,并結合可視化技術,能為用戶更好地提供檢索服務[5]。
Google,Yahoo、百度、搜狐等傳統的搜索引擎也在不斷探索新的、符合時代潮流的搜索方式,并隨之衍生了個性化推薦的功能,讓用戶不僅能夠主動搜索信息,也能被動接受自己需要信息的擴展部分。對于興起的、結合社交媒介的社會化引擎,更傾向于將自己定位為社交與新聞熱點推薦的引擎產品,即為用戶提供有特色的、個性化的信息。無論是傳統的搜索引擎,或是社會化搜索引擎,都面臨著如何保持用戶粘性與提高用戶體驗的問題。
5.2.1 搜索界面的優化
依據問卷數據可知,用戶對于搜索界面的簡潔度選擇有一定偏好;在搜索入口的優化方面,可以設置多個小搜索入口,如熱點推薦、猜你喜歡、與你相關、學科細分等;對于搜索路徑,也可以添加個性化時間搜索、位置搜索。
5.2.2 技術上的革新
技術決定搜索的體驗,搜索引擎的技術支持主要依賴于協同過濾算法與關聯規則算法,協同過濾算法對于電商平臺的個性化推薦有一定的準確性,而關聯規則在智能引擎上的應用也逐漸深入,二者結合推動智能引擎的發展。用戶檢索詞條記錄的數據庫要不斷更新,提高自然語言處理能力,建立詞條索引,通過對頻繁搜索索引,可在用戶再次搜索時進行推薦。對于用戶興趣庫的建立,也可關聯規則算法進行搭建,通過用戶的搜索行為及點擊行為對用戶行為心理進行分析,選擇適合用戶偏好的推薦結果,從而提高用戶與搜索引擎粘性。
5.2.3 內容上的優化
內容是搜索的根本,對于用戶搜索內容的返回,準確性為最首要的因素。返回結果的準確性也影響著用戶對于搜索引擎的粘性。對于內容返回的準確性,一方面,要擴大檢索數據庫,聯合互聯網生成內容,知識庫等;另一方面,要對檢索匹配技術進行優化,提取有效信息。
對于搜索引擎,要提供多場景優質內容,滿足多行業搜索需求,依據問卷數據,專業人士更傾向于使用搜索引擎以滿足知識需求,多場景打造垂直內容,滿足多行業商業信息搜索需求。支持用戶創造內容,國內一些視頻軟件擁有巨大而無可替代的內容池,建立了更加豐富與優質的內容,搜索引擎也可與其結合,形成多場景、多內容、多信息數據庫的聚合憑條,一站式滿足用戶需求,提高用戶與平臺的粘性。