王志超 李銀松
(國家知識產權局專利局專利審查協作河南中心,河南 鄭州 450002)
基于檢索意圖識別的信息檢索專利技術綜述
王志超李銀松
(國家知識產權局專利局專利審查協作河南中心,河南鄭州450002)
信息檢索是對大規模電子文本和其他人類語言數據進行表示、搜索和處理的技術。隨著信息檢索技術的發展,為了使檢索結果更加符合用戶要求,基于檢索意圖識別的信息檢索技術迅速發展。本文首先介紹信息檢索和檢索意圖識別的基本概念,然后從專利技術的角度介紹基于檢索意圖識別的信息檢索技術的發展路線,并介紹基于檢索意圖識別的信息檢索技術重要申請人的技術路線,最后,總結現有的基于檢索意圖識別的信息檢索技術的整體發展趨勢和專利文獻在其中所起的作用。
信息檢索;檢索意圖;多維度
信息檢索(Information Retrieval,IR)被認為是對大規模電子文本和其他人類語言數據進行表示、搜索和處理的技術。信息檢索系統和服務現在已經非常普遍了,成千上萬的人每天都在使用它們來方便的進行商務、教育和娛樂。Google、Bing、Yahoo、百度等Web搜索引擎,是目前為止最普遍和大量使用的信息檢索服務形式,提供獲取最新技術信息、搜索人和組織、總結新聞和事件意見簡化比較購物的途徑[1]。
信息檢索通常包括:Web搜索、其他搜索應用、其他信息搜索應用等。通常的Web搜索形式是使用Web搜索引擎,通過輸入簡單的查詢,得到問題的答案。對于其他搜索應用,兩個常用的實例就是桌面搜索和文件系統搜索。與Web搜索引擎相比,桌面搜索引擎系統需要對文件格式和創建時間更加了解。其他搜索應用還包括企業級信息搜索系統、數字圖書館等其他專業信息檢索系統。其他信息搜索應用通常處理的問題還包括存儲、處理和檢索人類語言數據等各種相互關聯的問題[1],具體包括:文檔路由、過濾和選擇性傳播、文本聚類和分類、摘要、信息提取、話題檢索與跟蹤、專家搜索、問答、多媒體信息檢索等。
大部分信息檢索系統都可以表示為一個共同的基礎組織結構,如圖1所示。首先用戶產生一個信息需求,并基于該需求,用戶在信息檢索系統中輸入一個查詢,由搜索引擎根據該查詢在數據庫中進行檢索,然后對檢索結果進行過濾、排序等處理生成檢索結果,最后將檢索結果返回給用戶。

圖1 信息檢索系統
檢索意圖(Retrieval Intention)是檢索中包含的用戶信息需求、查詢目標、查詢動機等。
根據用戶輸入的檢索信息,自動識別出其檢索意圖,返回與其信息需求更相關的信息,成為有效把握用戶需求、提高搜索引擎檢索質量的途徑之一。
對于檢索意圖的分類,學術界通常使用Broder等人提出的分類標準[2]:
(1)導航類(Navigational):又叫主頁查找類。這類檢索意圖是為了訪問某個特定的網站,例如某企業、組織的主頁;
(2)信息類(Informational):又叫話題相關類。這類檢索意圖是為了獲取例如如何改變閱讀器背景顏色等會在多個網頁上存在的信息;
(3)事務類(Transactional):又叫服務查找類。這類檢索意圖是為了進行一些基于Web的活動,例如:觀看視頻、網上購物等。
Rose等人[3]在Border等人的基礎上,又提出了更加細致的分類層次,除了導航類和信息類外,又增加了:
①指導類(Directed):用戶想知道關于某個話題的特定信息,其中包括:確定的(Closed)和開放的(Open);
②無指導類(Undirected):用戶想知道關于一個話題的任何信息;
③建議(Advice):用戶想要得到關于某個主題的建議或攻略等,例如:春節海南旅行攻略;
④位置(Locate):用戶想知道在哪里能夠得到現實世界中的某種服務或產品;
⑤下載(Download);
⑥娛樂(Entertainment);
⑦交互(Interact);
⑧獲取(Obtain)。
基于檢索意圖識別的信息檢索的關鍵技術通常包括[4]:特征提取(確定特征詞匯、詞項之間的關系、詞性、相關數據的統計信息等)和數據集的構造或獲取(用于分類的數據集通常包括訓練接和測試集,通常可以使用搜索引擎的日志)。
一直以來,學界認為傳統信息檢索的核心宗旨為:用戶內在的信息需求促使其采用相應的信息檢索系統并產生相應檢索行為,從而將用戶查詢中所包含的信息需求狹義地界定為信息類信息,即主題類查詢。
1987年12月2日,日本的日立有限公司的申請(JPH01145721 A,19890607)首次通過評價檢索意圖來對搜索結果排序,公開了一種通過檢索關鍵詞計算得到的擬合優度(goodness-of-fit)這一測度來數值化檢索意圖的方法。直到2000年出現韓國的申請之前,在基于檢索意圖的信息檢索領域的專利全部集中在日本,其中以FUJI XEROX CO LTD為首,包括12件專利申請,MATSUSHITA ELECTRIC IND CO LTD、NIPPON TELEGRAPH& TELEPHONE、YAHOO JAPAN CORP、YAHOO KK次之,分別有8件專利申請。此時的基于檢索意圖的信息檢索還遵循著傳統的信息檢索的定義,通過用戶輸入的關鍵詞進行主題類查詢。
自2002年開始,學術界認為用戶執行檢索不只是想獲取信息類信息,并通過對用戶查詢及AltaVista日志進行分析將用戶查詢意圖分為三類,即信息類(I)、導航類(N)和事務類(T)。自此,人們開始從多個角度研究基于檢索意圖識別的信息檢索技術。
2003年7月2日,日本的OKI ELECTRIC IND CO LTD的申請(JP2003000190556,20030702)不僅通過關鍵詞來獲得用戶的檢索意圖,同時加入關鍵詞的屬性,來共同表示檢索意圖。即,檢索意圖識別中的一個關鍵技術——特征提取——開始備受關注,多角度、多維度的特征提取方法激增。
中國專利CN101782909A公開了一種基于用戶對網頁搜索和操作網頁的記錄來計算用戶后續需求意向的方法。通過記錄用戶對網頁的點擊數、點擊速率、網頁速度、瀏覽時長、瀏覽次數和鏈接文字的操作,計算出用戶對搜索結果的喜好分值和后續需求意向。當用戶點擊一個超鏈接時,搜索引擎要實時的計算一個喜好分值,并將鏈接上的文字和檢索請求相聯系起來,可認為是相關聯。
中國專利CN102880723A公開了一種識別用戶檢索意圖的搜索方法和系統。計算檢索請求的意圖特征相似度、實體詞關聯度、以及句法格式相似度三種度量,根據上述計算的三種度量確定用戶檢索意圖,既考慮到檢索詞匯與意圖特征庫的相似度,又考慮到實體詞的特殊作用以及整體的檢索句法結構,從局部和整體上對檢索關鍵字做意圖識別,為搜索引擎提供盡可能多的信息支持,同時不完全依賴于線上搜索引擎的結果信息,更易于實現。
基于檢索意圖識別的信息檢索技術專利申請,中國申請以阿里巴巴集團控股有限公司為首,有73件專利申請,百度在線網絡技術(北京)有限公司次之,有43件專利申請;國外申請以阿里巴巴(ALIBABA GROUP HOLDING)為首,有19件專利申請,騰訊(TENCENT)次之,有18件專利申請。但阿里巴巴的申請的申請日都集中在2010年以后。在2010年以前,都集中在日本和美國,其中日本以FUJI XEROX CO LTD為主。
以下主要分析阿里巴巴在中國申請的關于檢索意圖識別方法的技術路線。
2009年9月4日,阿里巴巴在中國提交的第一件關于檢索意圖識別的信息檢索方法(CN200910171083),主要以查詢關鍵字的語言特點和歷史用戶行為作為特征,對用戶意圖進行分析,以語義檢索為主,不再是傳統信息檢索中簡單的文字匹配。
2010年4月30日,提交的CN201010160535提出了一種基于垂直搜索的查詢方法,其體現了在搜索領域新出現的一個搜索技術——垂直搜索,是用這項新的技術,結合協同過濾的思想,在用戶推薦領域獲得用戶的查詢意圖。
2010年12月31日,提交的CN201010618555提出了一種通過建立非意圖詞集的方式,預先確定多種推薦方式,其中第一預定推薦方式為基于知識庫的推薦方式和/或基于會話相關性的推薦方式,從而解決了沒有明確搜索意圖的用戶推薦搜索關鍵詞時推薦效果不佳,造成搜索引擎服務器系統資源浪費的問題。
2011年9月1日,提交的CN201110256639使用兩級查詢,進一步提高檢索精度。
2011年11月15日,提交的CN201110361975在原來只進行單詞這一層面分析的基礎上,使用詞的匹配規則,進一步挖掘用戶的搜索意圖。
2012年1月17日,提交的CN201210015340通過輸入的查詢字和選取的類目,確定查詢詞與類目名稱之間的上下位關系,根據確定的上下位關系確定擴展查詢詞,從而加大匹配到用戶查詢意圖的可能性。且在2012年的多項申請中,都致力于根據用戶輸入的查詢詞,進行查詢詞擴展,找到更能符合用戶查詢意圖的關鍵詞。
2013年的申請主要結合用戶的搜索行為制定個性化的搜索方案,從而輸出合理的符合某一用戶的搜索意圖的結果。
隨著計算機技術的迅猛發展及用戶需求的急劇增加,對信息檢索的精度和速度的要求越來越高。為了得到更加貼近用戶意圖的檢索結果,用戶意圖識別技術必將得到更多重視。與其他機器學習方法的發展歷程一樣,基于用戶檢索意圖的信息檢索正在由單維度向多維度發展,由底層的數據匹配向高層的語義匹配發展。
由于發明成果在專利文獻中的公開早于其他公開媒介,且體現了行業和技術的發展趨勢及商業價值。所以,有效利用專利文獻更有利于提高研究效率、減少研究投入并提高研究水平。通過專利文獻中技術的發展脈絡,能夠及時發現現有技術的空白點及改進點,有助于研究者及時調整技術研究及企業發展方向及戰略,研發出更加符合用戶需求的產品。
[1]Stegan Büttcher,Charles L.A.Clarke,Gordon V.Cormack著,陳健,黃晉等譯,信息檢索:實現和評價搜索引擎,機械工業出版社,北京,2011.12.
[2]Andrei Broder.A taxonomy of web search[C].SIGIRForum. New York,N Y,USA:ACM Press,2002:3-10.
[3]Daniel E,Rose,Danny Levinson.U nderstandinguser goals in web search[C].WWW’04:Proceedingsof the 13th international conference on World WideWeb.New York,N Y,U SA:ACM Press,2004:13-19.
[4]張森,王斌.Web檢索查詢意圖分類技術綜述.中文信息學報.2008,22(4):75-82.
Patent technical review of information retrieval based on retrieval intention
Wang ZhichaoLi Yinsong
(Patent Examination Cooperation Henan Center of the Patent Office,SIPO,Zhengzhou Henan 450002)
Information retrieval is the technology to represent,search and process large-scale electronic text and other human language data.With the development of the information retrieval technology,in order to make the result more in line with the user’s requirements,the technology of information retrieval based on retrieval intention develops rapidly.First,we introduce the basic concepts of information retrieval and retrieval intention recognition.Then,we introduce the development routes of the technology and important applicants of information retrieval based on retrieval intention from the perspective of patent technology.Finally,we summarize the overall development trend of the existing information retrieval technology based on retrieval intention and the role of patent literatures.
Information retrieval;retrieval intention;multi-dimension
王志超(1987-),女,碩士,研究方向:機器學習;李銀松(1988-),男,碩士,研究方向:機器學習(等同第一作者)。
G354
A
1003-5168(2016)03-0063-03
2016-2-20