999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

個性化移動元搜索引擎研究與設計*

2013-02-19 07:28:42何震葦鄒若晨鐘偉彬嚴麗云
電信科學 2013年5期
關鍵詞:搜索引擎用戶信息

何震葦,鄒若晨,鐘偉彬,嚴麗云

(1.中國電信股份有限公司廣東研究院 廣州510630;2.華南理工大學 廣州510006)

1 引言

隨著手機上網人數的快速增長和網絡信息的飛速膨脹,移動搜索已經成為人們利用移動終端進行信息檢索的最主要工具,CNNIC的最新報告顯示,移動搜索已成為國內僅次于手機即時通信的第二大移動互聯網應用。移動搜索與傳統Web搜索相比,對信息精度的要求更高、對個性化搜索服務的需要更迫切,因此,如何提高移動搜索上的信息查詢準確率、搜索結果返回的精度,滿足搜索用戶的個性化需求成為亟需解決的問題。

較好地解決這些問題的根本思路就是在移動終端和搜索引擎之間引入搜索代理,正確理解用戶搜索意圖,返回精確的搜索結果,簡化用戶搜索操作。

2 個性化移動搜索的基本要求

移動搜索基本過程與PC搜索類似,包括3個步驟:提交搜索請求,分析查詢語義,獲取搜索結果。由于終端設備和用戶群體的差異性,移動搜索具有其顯著特點,如移動性,用戶可能會邊走邊搜,而在移動中要輸入搜索文字是很困難的;多元化,移動用戶搜索的信息多種多樣,既可能是吃喝玩樂信息,也可能是商品比價、健康醫療信息,單一的搜索引擎往往難以覆蓋用戶的信息需求;隱私性,要挖掘個人興趣必須搜集個人信息,而用戶的隱私又要得到合理保護。

因此,一個完善的移動個性化搜索引擎應重點考慮以下幾個方面。

·使用便捷:不僅要提供用戶查詢詞的自動補全和相關搜索提示等功能,還需要提供語音、菜單等更高效的搜索請求輸入方式。

·個性化服務:所謂個性化,就是能夠感知人及人所在的環境,針對“此時、此地、此人”建立模型,正確理解用戶的搜索意圖。

·保護隱私:允許用戶定義隱私基準,控制個人信息開放的范圍。

·響應迅速:迅速響應用戶的搜索請求,與傳統搜索引擎相比沒有明顯時延。

3 移動個性化搜索代理相關技術

作為一種新型搜索技術,個性化移動搜索的研究仍處于起步階段。這種新興的搜索是搜索技術在移動平臺上的延伸,真正打破了地域、網絡和硬件的局限性,滿足了用戶隨時、隨地的搜索需求。根據第2節提出的移動個性化搜索代理的需求,對其中較為關鍵的實現技術進行了細致分析。

3.1 元搜索引擎

元搜索引擎,是指在統一的用戶查詢界面與信息反饋形式下,共享多個搜索引擎的資源庫為用戶提供統一的搜索服務。元搜索引擎是對搜索引擎進行搜索的引擎,元搜索引擎與一般搜索引擎的最大不同在于,它可以沒有自己的資源庫和機器人,而只是充當一個中間代理的角色,接受用戶的查詢請求,將請求翻譯成相應搜索引擎的查詢語法。在向各個搜索引擎發送查詢請求并獲得反饋之后,首先進行綜合相關度排序,然后將整理抽取之后的查詢結果返回給用戶。

因為元搜索引擎的結果是基于獨立搜索引擎的,所以在功能上,這些排列順序會根據網站權重、網站關聯度等進行改變,實現上將會受到獨立搜索引擎的限制。元搜索引擎的覆蓋比較廣,但是檢索的準確率卻不容易控制,而個性化結果整合排序就顯得尤為重要。

3.2 用戶興趣建模

個性化搜索的核心是根據用戶的行為,建立一套準確的個人興趣模型。用戶興趣即用戶的檢索習慣,針對用戶的搜索習慣進行信息檢索,可以極大地提高信息傳遞的準確性。對于移動搜索代理來說,不僅是移動搜索的內容,移動設備所提供的其他信息(如地理位置)也同樣重要。個性化移動搜索系統的核心內容便是通過數據挖掘技術在用戶數據信息中自動地發現有用的信息,構建用戶興趣模型。

用戶建模主要包括如下兩個方面。

(1)興趣模型結構的構建

用戶的興趣可以表現為不同的興趣類別,各個興趣類別之間在結構或者語義上存在一定的聯系,模型構建的意義在于發現并組織這些聯系,確定以何種數據模型表達用戶的興趣,使用戶興趣模型清晰、高效地為個性化信息檢索服務。

(2)興趣類別以及興趣度權值的計算

用戶的興趣類別千差萬別,對不同類別表現的興趣也有很大差異,用戶興趣建模用興趣類別和興趣度權值體現這種差異,在得到興趣模型結構的基礎上,計算不同的興趣類別,并對不同的興趣進行分析,以區別用戶對不同類別喜好的程度高低。現有的用戶興趣模型中,使用較多的主要有空間向量模型、GauchS的基本體的表示方式以及概念層次模型。

圖1是一種比較理想化的用戶建模方式,即通過終端全面收集與用戶相關的信息源,包括用戶搜索歷史及點擊記錄、用戶瀏覽過的網頁、用戶位置信息、用戶所收藏的信息以及用戶發布的信息等內容。

圖1 理想化的用戶興趣模型

在用戶興趣建模中,最常用的方式是將顯示和隱示兩種方式結合起來,通過顯示的方式獲取靜態用戶信息,通過隱示的方式獲取動態用戶信息。具體來說,用戶興趣挖掘信息的主要來源有以下幾個方面:

·用戶輸入搜索引擎的關鍵詞;

·用戶的瀏覽歷史,即用戶在搜索結果中點擊瀏覽的頁面,通過計算用戶瀏覽頁面與興趣分類模型的相關度,可以識別用戶的瀏覽興趣;

·用戶位置,可通過用戶的位置坐標識別用戶的位置屬性,如街道、城區、城市、省份等;

·用戶社交信息,用戶所屬的社交網絡群組的興趣特征;

·用戶發布的信息,如用戶自定義的標簽。

作為建模數據的用戶信息需要經過謹慎選擇,因為用戶信息對用戶興趣模型的性能有非常重要的影響,因此,建模數據只能是那些真正反映用戶興趣的信息,否則構建出來的用戶興趣模型的性能將得不到保證。

3.3 意圖分類

用戶發出的每個搜索請求背后都隱含著潛在的搜索意圖,如果能夠通過查詢詞匯,自動找出背后的用戶搜索意圖,然后針對不同的搜索意圖,提供不同的檢索方法,將更符合用戶意圖的搜索結果排在前列,無疑會增加搜索引擎用戶的搜索體驗。例如,用戶搜索“廣州 天氣”的時候,會主動將當天的氣溫等情況列在搜索結果最前面。

搜索意圖分類的任務,就是確定用戶輸入的查詢屬于哪個預定義的意圖類別。多數分類技術是根據輸入數據集建立分類模型的系統方法。其通過學習算法確定分類模型,該模型不僅要很好地擬合輸入數據,還要能夠正確地預測未知樣本的類別。因此,學習算法的主要目標就是建立具有很好的泛化能力的模型,即建立能夠準確地預測未知樣本類別的模型。

圖2展示了解決分類問題的一般方法。首先,需要一個訓練集,它由類標號已知的記錄組成。在使用訓練集建立分類模型前,先要對數據進行預處理,以幫助提高分類的準確性、效率和可擴展性。預處理包含大量以復雜方式相關聯的不同策略和技術,例如聚集、抽樣、維規約、特征子集選擇、特征創建、離散化和二元化、變量變換等。這些項目分為兩類,即選擇分析所需要的數據對象和屬性以及創建/改變屬性。例如記錄用戶提交搜索的星期數,就可能與搜索類型分類無關;此外有些屬性也可能是冗余的。因此需要對數據進行維規約以及特征子集選擇,以幫助其在學習階段就消除無關或冗余的屬性。

圖2 一般分類過程

其次,預處理從原始的、大量的特征項中篩選出區分能力最強、最有代表性的特征項。數據經過預處理之后,將會轉換成分類算法所能接受的數據類型。此時分類算法已從訓練集的學習過程中得到了一個目標函數,也稱作分類模型,該模型將運用于對未知類別的用戶查詢進行分類。

3.4 語音識別

語音識別能夠代替繁瑣的鍵盤或手寫輸入,大大提升了移動搜索的便捷性。目前Android、Windows Phone等主流的智能終端均提供了語音識別SDK,這些SDK封裝了服務端語音識別引擎的API,為終端應用提供Speech2Text的轉換能力。

以Android的語音識別SDK為例,整個語音識別過程包括以下步驟。

(1)判斷當前設備是否支持語音識別能力,只有終端安裝Android語音識別軟件并開啟網絡連接時,才能進行語音識別。

(2)開啟語音識別功能,啟動語音識別界面,提示用戶輸入語音。

(3)用戶進行語音輸入時,通過明顯的語音停頓或點擊“完畢”按鈕完成語音輸入。

(4)語音識別SDK捕捉用戶輸入的語音信號,發送給谷歌語音識別引擎進行處理。

(5)谷歌語音識別引擎根據語音信號的聲學特征、語言模型及發聲詞典,尋找能夠以最大概率輸出該語音信號的詞串,返回給終端。

語音識別SDK將語音識別引擎返回的詞串通過回調函數返回給終端應用。

4 個性化移動搜索代理設計

4.1 架構設計

個性化移動搜索代理采用C/S架構,如圖3所示,移動用戶通過客戶端輸入搜索請求,客戶端將用戶的搜索請求和用戶個性化標簽通過HTTP+JSON協議發送給搜索代理服務器,代理服務器將用戶的搜索請求轉發給百度、谷歌等商業搜索引擎,并將搜索引擎返回的搜索結果進行處理后返回給用戶。代理服務器提供數據加工和頁面重排服務;而客戶端發揮著收集、分析和提取用戶資料的作用。出于對用戶個人隱私保護的考慮,搜索過程中一些簡單的任務,如整理用戶瀏覽記錄、更新點擊率和搜索記錄、創造用戶特征等都在客戶端處理。

圖3 搜索代理系統架構

客戶端不僅能夠記錄用戶的搜索歷史、搜索位置,還能利用智能終端的傳感器搜集與用戶搜索行為相關的溫度、速度等關聯的場景信息,整合成完整的用戶個性化模型。用戶的查詢信息在客戶端與用戶喜好標簽關聯,以體現用戶的搜索意圖,客戶端還負責對自服務器的搜索結果數據進行個性化展示。

代理服務器接收客戶端的請求,根據用戶的搜索意圖調用合適的成員搜索引擎,將搜索引擎的結果進行個性化排序后返回給客戶端。

4.2 客戶端設計

客戶端采用基于PhoneGap的混合應用架構,如圖4所示。在查詢過程中,用戶的輸入方式有很多種,除了傳統的文本輸入方式外,還可以使用語音輸入、菜單輸入方式。客戶端會依據用戶的興趣模型優化用戶的查詢請求,縮小查詢范圍,例如在查詢餐館時增加城市關鍵字。同時客戶端會從用戶興趣模型中提取出與本次查詢相關的用戶標簽,如查詢餐館時,打上川菜、粵菜等標簽。查詢的關鍵字和用戶標簽以JSON格式封裝,通過HTTP發送給代理服務器。代理服務器返回的查詢結果也以JSON格式封裝,客戶端通過Web View框架進行解釋和呈現。

客戶端還記錄用戶的搜索關鍵字、搜索位置、搜索結果頁面的瀏覽歷史,為了保護用戶隱私,這些詳細日志信息只保存在客戶端數據庫中,不發送給服務器,只有搜索的關鍵字和與搜索會話相關的用戶標簽才會發送給服務器。用戶還可以通過設置位置精度(街道、城區、城市、省份等)和內容精度(即用戶標簽級別)來保護個人隱私。

4.3 服務端設計

代理服務器的架構如圖5所示,代理服務器負責根據用戶的搜索請求選擇成員搜索引擎,向成員搜索引擎轉發搜索請求,按用戶喜好整合搜索結果并以JSON格式返回給客戶端。

圖4 客戶端結構

圖5 代理服務端結構

(1)成員引擎調度

成員搜索引擎的選擇要根據用戶的搜索意圖和成員引擎的評價進行綜合判斷,用戶的搜索意圖可通過搜索關鍵字和用戶標簽判斷,比如用戶搜索商品信息就選擇淘寶引擎,搜索餐館信息就選擇大眾點評引擎。成員引擎的響應速度、結果質量也是成員引擎選擇的重要依據。

(2)搜索請求轉發

不同搜索引擎的搜索條件可能存在差異,將原始的搜索請求轉換為成員搜索引擎的目標搜索條件有助于提升搜索的精度。例如用戶輸入“1 000元手機”,映射到淘寶引擎的搜索輸入條件即為“商品:手機+價格:800~1 200”。

(3)搜索結果整合

根據用戶的興趣計算搜索結果和用戶的關鍵詞和標簽的相關度,然后考慮成員搜索引擎的權重、搜索結果的重復度等因素,最后計算搜索結果的權重值,對結果進行整合排序。整合后的搜索結果封裝成JSON對象,通過HTTP返回給客戶端。

為了提高代理服務器的性能,可以引入負載均衡器構建代理服務器集群,并通過分布式緩存技術保存頻繁訪問的搜索結果。

5 結束語

個性化服務是移動搜索的一種趨勢,也是一個研究熱點,為了滿足移動搜索的個性化需求,本文研究了個性化技術和元搜索技術,結合智能終端能力,設計出了個性化移動搜索代理的基本架構,能夠在一定程度上提升移動搜索的效率和準確性。今后將持續改進用戶興趣模型,優化服務器性能,使之能在用戶檢索效率和用戶體驗方面得到更好的提高。

1 Kenneth Wai-Ting Leung,DikLun Lee,Wang-Chien Lee.PMSE:a personalized mobile search engine.IEEE Transations on Knowledge and Data Engeneering,2013,25(4)

2 許天亮,王義峰,曾平.個性化元搜索引擎技術研究.電子科技,2008(1):56~59

3 王忠,程磊.基于元搜索引擎的個性化Web信息采集.計算機工程與設計,2009(7):3117~3119

猜你喜歡
搜索引擎用戶信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 国产欧美在线观看精品一区污| 欧美在线天堂| 国产一级做美女做受视频| 最新日韩AV网址在线观看| 91在线激情在线观看| 国产精品七七在线播放| 国产高清无码第一十页在线观看| 国产成人福利在线| 91人人妻人人做人人爽男同| 国产91在线|日本| 天天躁夜夜躁狠狠躁图片| 欧美日韩资源| 午夜在线不卡| 麻豆精品视频在线原创| 中文字幕永久在线看| 国产美女一级毛片| 真实国产乱子伦视频| 精品久久久久久成人AV| 理论片一区| 亚洲三级成人| 久久99国产视频| 色噜噜狠狠狠综合曰曰曰| 在线精品亚洲国产| 熟妇人妻无乱码中文字幕真矢织江 | 国产aⅴ无码专区亚洲av综合网| 精品国产aⅴ一区二区三区| 99视频在线观看免费| 亚洲精品在线影院| 国产精品永久不卡免费视频| 久久狠狠色噜噜狠狠狠狠97视色| 东京热一区二区三区无码视频| 黄色成年视频| 日韩欧美在线观看| 亚洲性视频网站| 婷婷六月激情综合一区| 日韩在线欧美在线| 九九热这里只有国产精品| 国产精品伦视频观看免费| 国产中文在线亚洲精品官网| 99久久精品无码专区免费| 久久一本精品久久久ー99| 五月激激激综合网色播免费| 老司机午夜精品网站在线观看| 亚国产欧美在线人成| 黄色福利在线| 国产无码在线调教| 国产精品成人第一区| 欧美综合区自拍亚洲综合天堂| 日本欧美在线观看| 青青草国产免费国产| 国产成人综合网在线观看| 在线看国产精品| 亚洲欧洲国产成人综合不卡| 国产美女无遮挡免费视频| 日韩在线网址| 欧美专区日韩专区| 熟女成人国产精品视频| 中文字幕有乳无码| 国产美女叼嘿视频免费看| 欧美午夜视频在线| 国产精品三级av及在线观看| 中文字幕免费在线视频| 国产成人高清精品免费| 国产18在线| 很黄的网站在线观看| 免费人成视网站在线不卡| 日韩A∨精品日韩精品无码| 2021天堂在线亚洲精品专区| 亚洲成人在线网| 国产在线小视频| 在线播放国产99re| 亚洲区视频在线观看| 啪啪免费视频一区二区| 97青青青国产在线播放| 一本视频精品中文字幕| 欧美精品色视频| 久久久久国产精品熟女影院| 欧美高清国产| 波多野结衣在线一区二区| 日韩小视频在线播放| 国产凹凸视频在线观看| 日本精品αv中文字幕|