嚴(yán)中華,孟亞琪,程秀峰
在社會(huì)化閱讀平臺(tái)中,由于信息過(guò)載,用戶越來(lái)越難找到符合需求的書目。特別是學(xué)習(xí)型用戶在使用平臺(tái)時(shí)需要探索不熟悉的領(lǐng)域,檢索難度提升使他們有可能有意避開專業(yè)領(lǐng)域而去尋找感興趣的閱讀資料,導(dǎo)致建立在搜索引擎上的查詢提示工具在不熟悉用戶的情況下提供有偏差的提示信息。一般來(lái)說(shuō),用戶通常只會(huì)利用簡(jiǎn)短的非語(yǔ)義檢索詞來(lái)進(jìn)行查詢(往往只有1~2 個(gè)詞),這并不能反映出其深層的檢索需求。查詢擴(kuò)展被認(rèn)為是解決檢索過(guò)程中非語(yǔ)義問(wèn)題的有效方案[1]。它使搜索引擎具備擴(kuò)展查詢?cè)~語(yǔ)義范圍的能力,是信息檢索領(lǐng)域研究的重點(diǎn)問(wèn)題。查詢提示(也稱作查詢建議)功能便是查詢擴(kuò)展的一種實(shí)際應(yīng)用。對(duì)大多數(shù)檢索系統(tǒng)而言,即使具有較高的語(yǔ)義理解和信息處理能力,其響應(yīng)速度也不能達(dá)到查詢提示功能的水平,查詢提示功能的出現(xiàn)緩解了因查詢式過(guò)短而產(chǎn)生的語(yǔ)義缺乏問(wèn)題。學(xué)者嘗試從多種角度,包括查詢?nèi)罩尽⑹状螜z索結(jié)果、多種聚類方法等來(lái)實(shí)現(xiàn)提示信息的生成[2-4],但在所用語(yǔ)料的多源信息融合、系統(tǒng)的實(shí)用性和可預(yù)測(cè)性方面一直存在拓展空間。本文使用響應(yīng)速度較高的詞-詞關(guān)聯(lián)的解決方法,快速融入包含用戶查詢行為的特征庫(kù),得到優(yōu)化后的查詢提示結(jié)果;并用實(shí)證檢驗(yàn)這一方法的有效性,通過(guò)檢驗(yàn)豐富度和檢全率兩個(gè)指標(biāo)來(lái)評(píng)價(jià)這一方法的效果。
用戶提供的查詢式往往較短,因此查詢擴(kuò)展(Query Expansion)一直是檢索過(guò)程中存在的問(wèn)題。Furnas 于1987年提出查詢擴(kuò)展概念[5],隨后學(xué)者們提出多種解決查詢擴(kuò)展問(wèn)題的方法,如查詢提示。但應(yīng)用查詢提示得到的結(jié)果在實(shí)用性和可預(yù)測(cè)性上依然不能徹底解決信息過(guò)載問(wèn)題。從信息融合角度看,查詢提示研究根據(jù)提示信息的生成來(lái)源可劃分為兩類:獨(dú)立于查詢歷史的研究和基于查詢歷史的研究。
獨(dú)立于查詢歷史的研究主要基于文檔內(nèi)容或文檔鏈接的相似度計(jì)算,得到文檔-詞的頻率矩陣,利用矩陣進(jìn)行查詢擴(kuò)展[6]。但是,矩陣存在稀疏性、計(jì)算開銷大、精度低等缺點(diǎn)。為解決這個(gè)問(wèn)題,有學(xué)者提出只計(jì)算查詢結(jié)果中文檔的相關(guān)詞[7],有學(xué)者提出可直接使用詞典得到查詢提示結(jié)果[8],也有學(xué)者提出利用知識(shí)庫(kù)(維基)擴(kuò)展生成查詢提示結(jié)果[9]。獨(dú)立于查詢?nèi)罩镜姆绞饺秉c(diǎn)是機(jī)械性、精度低、無(wú)法預(yù)測(cè)用戶檢索意圖。由于硬件處理數(shù)據(jù)效率的不斷提高,這種方法逐漸被具有動(dòng)態(tài)行為反饋功能的查詢提示機(jī)制所取代。基于行為反饋的查詢提示研究,建立在日志與文本分析技術(shù)的基礎(chǔ)上。Cucerzan 等利用日志中的session 信息,提出一種方法用以識(shí)別用戶的目標(biāo)網(wǎng)頁(yè),探尋用戶的查詢意圖[10]。Baeza-Yates等將查詢?nèi)罩局械牟樵冇涗涍M(jìn)行聚類,當(dāng)新的查詢式出現(xiàn)時(shí),利用向量相似度度量和識(shí)別相似的查詢記錄并推薦給用戶[11]。Barouni-Ebarhimi 等通過(guò)計(jì)算用戶提交的查詢式歷史頻率來(lái)作為查詢提示的參考[12]。國(guó)內(nèi)學(xué)者利用日志中的有效信息,通過(guò)概率統(tǒng)計(jì)[13]、聚類[14]、圖理論[15]、語(yǔ)義關(guān)聯(lián)[16]等建立模型,進(jìn)行查詢擴(kuò)展與提示信息的生成。
對(duì)閱讀社區(qū)應(yīng)用而言,查詢提示大多停留在利用詞典機(jī)械擴(kuò)展查詢?cè)~的水平,提示結(jié)果并不理想[17]。因?yàn)椋?dāng)學(xué)習(xí)型用戶進(jìn)行書目檢索時(shí),除書名信息外,并不能融入更多內(nèi)容相關(guān)信息。針對(duì)閱讀社區(qū),構(gòu)建一個(gè)集用戶各種檢索行為于一體的行為特征庫(kù),利用關(guān)鍵詞序列、訪問(wèn)鏈接、停留時(shí)間等信息進(jìn)行多源融合,為查詢提示提供快捷的查詢擴(kuò)展接口,是簡(jiǎn)潔高效的手段。目前學(xué)者對(duì)用戶行為特征庫(kù)(簡(jiǎn)稱“特征庫(kù)”)已有一定研究,大量應(yīng)用型研究均集中于用戶畫像與信息的精準(zhǔn)推薦方面,鮮有針對(duì)閱讀社區(qū)查詢擴(kuò)展的特征庫(kù)。本文根據(jù)日志信息,通過(guò)提取用戶特征向量,構(gòu)建用戶行為特征庫(kù)的方式,將特征庫(kù)的離散信息融入查詢擴(kuò)展機(jī)制,做到擴(kuò)大查詢提示維度的同時(shí)又保證響應(yīng)速度快、推薦結(jié)果具有一定豐富度和可預(yù)測(cè)性,進(jìn)而提升用戶體驗(yàn)。
用戶在網(wǎng)絡(luò)交互過(guò)程中會(huì)留下很多記錄,包括用戶個(gè)人信息,如認(rèn)證、瀏覽、檢索、購(gòu)買等信息;以及群體性或交互性信息,如評(píng)論、發(fā)布的內(nèi)容。從中可以挖掘出用戶行為規(guī)律。因此,建立針對(duì)個(gè)人的行為畫像,構(gòu)建特征庫(kù)成為可能;也可以利用特征庫(kù)的信息挖掘個(gè)體或群體的行為規(guī)律,進(jìn)而進(jìn)行知識(shí)推薦或信息決策。
用戶行為特征庫(kù)是各種體現(xiàn)用戶行為特征離散信息的融合。融合過(guò)程需要對(duì)不同類型的行為特征進(jìn)行形式化描述。社會(huì)化閱讀平臺(tái)的特征庫(kù)由五個(gè)基本方面組成:(1)認(rèn)證特征,存儲(chǔ)用戶的認(rèn)證信息,如用戶名、用戶編號(hào)及其他基本信息。(2)分布特征,存儲(chǔ)用戶的時(shí)間(訪問(wèn)時(shí)間)和空間(基站ID、IP 地址等)分布特征信息。(3)瀏覽特征,記錄用戶點(diǎn)擊跳轉(zhuǎn)頁(yè)面時(shí)的信息,如目標(biāo)頁(yè)面、訪問(wèn)時(shí)間,以及頁(yè)面的停留時(shí)間。(4)檢索特征,主要是檢索時(shí)使用的關(guān)鍵詞序列(將檢索式進(jìn)行分詞和篩選處理)。(5)交互特征,用來(lái)存儲(chǔ)用戶在信息發(fā)布、評(píng)論、打分、留言等文本信息。
用戶檢索行為特征的提取與融合是構(gòu)建優(yōu)化查詢提示機(jī)制的主要方面,因此上述五種特征信息并不都具有查詢擴(kuò)展功能上的意義。根據(jù)文獻(xiàn)[18]與文獻(xiàn)[19]中用到的日志特征種類,將從以上特征類型中篩選出具有檢索擴(kuò)展意義的特征向量和元組進(jìn)行重組。將有效的檢索行為與檢索特征向量一一對(duì)應(yīng),并以此為基礎(chǔ)構(gòu)建檢索特征庫(kù)。本文認(rèn)為具有檢索擴(kuò)展意義的用戶特征有三類:分布特征、瀏覽特征和檢索特征。
(1)分布特征。在檢索系統(tǒng)的服務(wù)器日志中包含了多種特征信息,如IP 地址、Cookie、session、訪問(wèn)時(shí)間等。這些參數(shù)分別可以用于統(tǒng)計(jì)用戶空間和時(shí)間分布信息。下面的公式可用于描述用戶的分布特征:

DFi表示用戶i 的分布特征向量,是一個(gè)包含地理位置信息的實(shí)踐序列。vtn表示用戶訪問(wèn)時(shí)間,ipn表示用戶IP 地址。
(2)瀏覽特征。用戶瀏覽特征除包含用戶點(diǎn)擊的目標(biāo)頁(yè)面信息(URL),也包含用戶每次點(diǎn)擊后在目標(biāo)頁(yè)面的停留時(shí)間,因此瀏覽特征比用戶點(diǎn)擊特征更有價(jià)值。下面的公式用于描述用戶瀏覽特征:

BFi表示用戶i 的瀏覽特征。urln表示用戶訪問(wèn)過(guò)的頁(yè)面URL,stn表示用戶在該URL頁(yè)面的停留時(shí)間。
(3)檢索特征。用戶檢索特征在構(gòu)建過(guò)程中會(huì)抽取用戶每一次檢索所提交的檢索式,并通過(guò)相關(guān)處理得到關(guān)鍵詞序列。下面的公式用于描述用戶檢索特征:

SFi表示用戶i 的檢索特征向量。swn表示檢索式中第n 個(gè)檢索詞。每個(gè)檢索詞所表示的語(yǔ)義與主題有效特征并不相同,因此,引用劉湘生提出的主題分面組配公式,將各個(gè)檢索詞的語(yǔ)義信息按照一定標(biāo)準(zhǔn)進(jìn)行概括性劃分,tmn表示檢索詞的主題分面類型,包括“主體-通用-時(shí)間-空間-文獻(xiàn)類型”等語(yǔ)義標(biāo)注類型[20]。
每類特征信息對(duì)語(yǔ)義擴(kuò)展的價(jià)值不同。經(jīng)過(guò)經(jīng)驗(yàn)性篩選,本文從三類特征信息中提取具有檢索意義的元組,分別是IP 地址、訪問(wèn)時(shí)間、關(guān)鍵詞序列、查詢結(jié)果URL 和停留時(shí)間。頁(yè)面鏈接(URL)用于有效瀏覽的判斷。IP 地址用于判斷用戶發(fā)生檢索行為的地點(diǎn)。本文主要針對(duì)閱讀平臺(tái)查詢提示,因此地理特征并沒有被融入,但該特征對(duì)其他應(yīng)用領(lǐng)域(如基于地理位置的內(nèi)容推薦)則十分必要。停留時(shí)間信息對(duì)于決定擴(kuò)展的結(jié)果十分重要。為此,在構(gòu)建特征庫(kù)時(shí)著重考慮URL、停留時(shí)間、關(guān)鍵詞序列三項(xiàng)特征。圖1描述了用戶檢索行為特征庫(kù)的構(gòu)建過(guò)程。

圖1 用戶檢索行為特征庫(kù)構(gòu)建過(guò)程
查詢提示機(jī)制過(guò)程可分為三部分:特征庫(kù)構(gòu)建、查詢過(guò)程優(yōu)化、查詢提示生成。特征庫(kù)的構(gòu)建過(guò)程中,需要收集每一次有效檢索的檢索式A1和檢索結(jié)果A2,以及檢索結(jié)果的瀏覽時(shí)長(zhǎng)A3,為了確保記錄的有效性,檢索式需要與URL 進(jìn)行有效性匹配過(guò)濾。過(guò)濾所得可作為構(gòu)建檢索特征向量的基礎(chǔ)。當(dāng)特征向量積累到一定數(shù)量之后可以根據(jù)其關(guān)鍵詞共現(xiàn)頻率建立頻數(shù)矩陣,再利用頻數(shù)矩陣計(jì)算其詞-詞歐氏距離矩陣,之后通過(guò)后述標(biāo)準(zhǔn)化公式對(duì)矩陣進(jìn)行標(biāo)準(zhǔn)化,使得矩陣的數(shù)值都在0 到1 之間,并形成j*j(j 為特征向量集中涉及到的所有關(guān)鍵詞和檢索結(jié)果詞的總數(shù))矩陣,即完整的相似度矩陣;剔除掉所有關(guān)鍵詞的行和列,可以得到只關(guān)系到書與書之間的i*i(i 為檢索結(jié)果詞的數(shù)量)相似度矩陣。圖2是檢索特征庫(kù)融入到檢索過(guò)程的具體圖示。

圖2 查詢結(jié)果不為空時(shí)的查詢提示過(guò)程圖示

圖3 查詢結(jié)果為空時(shí)的查詢提示過(guò)程圖示
查詢過(guò)程優(yōu)化過(guò)程貫穿整個(gè)書目檢索過(guò)程,該過(guò)程通常可以根據(jù)用戶輸入的檢索式查找篇名、作者等書目基本信息,得到包含檢索式或檢索式子集的書目集LIST1,初步過(guò)濾后得到LIST1’,且LIST1’是根據(jù)相關(guān)度排序,融入瀏覽時(shí)長(zhǎng)與URL 等信息。查詢提示生成過(guò)程中首先應(yīng)按LIST1’順序逐一在書目相似度矩陣中查詢與該書目高相關(guān)的書目。LIST1’前n 本書找到的相關(guān)書目構(gòu)成相關(guān)書目集LIST2。在根據(jù)書目的源書目(即找到該書目的依托書目)及二者之間的相似度進(jìn)行加權(quán),最終排序輸出LIST2’作為查詢提示。在這個(gè)過(guò)程中,并不是所有查詢都是合適的,因?yàn)榭倳?huì)有檢索式Q 的查詢結(jié)果為空。因此,當(dāng)用戶輸入的某個(gè)檢索式導(dǎo)致結(jié)果為空,查詢提示機(jī)制會(huì)按照?qǐng)D3流程為用戶提供信息。
當(dāng)用戶查詢結(jié)果為空時(shí),會(huì)用到前述過(guò)程中沒有用到的完整相似度矩陣SM(j*j)。這個(gè)過(guò)程分為兩部分(忽略前述中相似度矩陣的構(gòu)建方法):查詢式分解與查詢提示構(gòu)建。查詢式分解過(guò)程即通過(guò)分詞、去停用詞的方法提取關(guān)鍵詞序列。在查詢提示構(gòu)建過(guò)程中,將上一過(guò)程提取出的關(guān)鍵詞序列中的關(guān)鍵詞在相似度矩陣中進(jìn)行查詢,將相同關(guān)鍵詞的高相關(guān)書目進(jìn)行記錄;最終形成未排序的相關(guān)書目集合LIST3,然后依據(jù)相似度進(jìn)行排序后得到LIST3’,可以作為查詢提示輸出。如最終形成的查詢提示為空,則有幾種可能:查詢式Q 中有錯(cuò)別字、查詢式不夠充實(shí)。此時(shí),提示用戶檢查查詢式輸入是否有誤或建議其擴(kuò)充查詢式、更換檢索詞等。
數(shù)據(jù)來(lái)源是豆瓣讀書TOP250①,采集排行榜前列225 本書的書名、作者、評(píng)分信息(評(píng)分與評(píng)分人數(shù))、出版時(shí)間、(前10 個(gè))熱門標(biāo)簽、“有用”數(shù)量前3 的短評(píng)內(nèi)容、“贊”數(shù)量前3 的長(zhǎng)評(píng)內(nèi)容。對(duì)不同的檢索系統(tǒng)來(lái)說(shuō),選取標(biāo)簽、長(zhǎng)評(píng)個(gè)數(shù)應(yīng)作出相應(yīng)改變。在“豆瓣讀書”中,每一本書的主頁(yè)都會(huì)顯示其支持?jǐn)?shù)前9~10 個(gè)標(biāo)簽(視標(biāo)簽長(zhǎng)度而定),而前3 個(gè)評(píng)論(含長(zhǎng)評(píng)及短評(píng))的閱讀量和互動(dòng)數(shù)都明顯高于其他長(zhǎng)評(píng)。出于這樣的考慮,本文選取每本書的前10 個(gè)熱門標(biāo)簽、前3 個(gè)長(zhǎng)評(píng)和短評(píng)的內(nèi)容,其中標(biāo)簽、短評(píng)和長(zhǎng)評(píng)的內(nèi)容用于書目主題特征值的確定。
檢索特征的統(tǒng)計(jì)算法分為兩步。首先設(shè)置閾值,根據(jù)每次檢索的頁(yè)面停留時(shí)間過(guò)濾掉無(wú)效瀏覽的情況;其次將有效檢索的相應(yīng)檢索結(jié)果URL轉(zhuǎn)化為結(jié)果內(nèi)容信息,具體到某一本書、某一份報(bào)紙、某一本刊物等讀物的信息,并同時(shí)統(tǒng)計(jì)其檢索特征信息(即關(guān)鍵詞序列),關(guān)鍵詞序列和檢索結(jié)果將共同構(gòu)成一次有效檢索的檢索特征向量。
(1)篩選有效檢索。在不同的檢索系統(tǒng)中,可根據(jù)檢索對(duì)象適當(dāng)變更有效查詢的判斷方式。本文針對(duì)書目檢索系統(tǒng),將判斷閾值設(shè)置為δ=30s,目標(biāo)頁(yè)面停留時(shí)間大于δ 的瀏覽行為被稱作是一次有效檢索的結(jié)果。該次檢索行為也是一次有效檢索。檢索結(jié)果信息和檢索特征將會(huì)根據(jù)下面方法進(jìn)行處理。
(2)檢索特征向量的構(gòu)建。檢索特征向量由檢索特征信息和檢索結(jié)果兩部分組成。檢索特征信息可直接從服務(wù)器日志中提取,每一條檢索特征信息以關(guān)鍵詞序列的形式存在。在書目檢索系統(tǒng)中,檢索結(jié)果通常是一本書,因此要統(tǒng)計(jì)每一本書的書目信息,初步形成書目特征向量。書目特征向量分為兩個(gè)維度:書目信息特征和書目主題特征。對(duì)于學(xué)習(xí)型用戶來(lái)說(shuō),用戶興趣并不是重要的維度,因此沒有納入書目特征的考慮。書目信息特征向量公式為:

Bli表示編號(hào)為i 的書目的信息特征向量。authorName 表示作者,publishPeriod 表示出版年代,scoreLevel 表示評(píng)分級(jí)別(豆瓣評(píng)分?jǐn)?shù)據(jù)與評(píng)分人數(shù)加權(quán)值分級(jí)),origin 表示書目來(lái)源(國(guó)內(nèi)/國(guó)外)。考慮到學(xué)習(xí)型用戶需求多為探索型,國(guó)籍對(duì)學(xué)習(xí)型用戶的意義不大,且“作者”維度與“國(guó)籍”維度之間的區(qū)分度低、相關(guān)度高,因此本文將書目來(lái)源的維度定義為“國(guó)內(nèi)”和“國(guó)外”兩個(gè)值。書目主題特征向量公式為:

BTi表示編號(hào)為i的書目的主題特征向量,type1表示書目體裁,type2 表示書目題材,theme1表示書目主題1,theme2 表示書目主題2。相比短評(píng)和長(zhǎng)評(píng)的內(nèi)容,熱門標(biāo)簽的適用性更高,原因是:以短語(yǔ)和詞語(yǔ)的形式出現(xiàn),無(wú)需預(yù)先處理;而且其參評(píng)人數(shù)是書評(píng)內(nèi)容的5~10倍,甚至更多。確定書目主題特征值有三個(gè)步驟。
第一,篩選熱門標(biāo)簽。通過(guò)咨詢專家和筆者討論,將每本書10 個(gè)熱門標(biāo)簽按如下原則篩選:①刪除長(zhǎng)句子。②刪除作者名與國(guó)籍信息,如遇地名,則判斷書目主題是否與地名非常相關(guān):是,保留;否,刪除。③刪除重復(fù)信息,如“明史”“明朝”“歷史”同為某書熱門標(biāo)簽,則刪除“明史”標(biāo)簽。④刪除“文學(xué)”標(biāo)簽,其區(qū)分度幾乎為零。⑤合并同義詞、近義詞,如“愛情”與“言情”,“大學(xué)”與“校園”。⑥合并學(xué)術(shù)領(lǐng)域,如“心理學(xué)”與“心理”,“政治學(xué)”與“政治”。⑦拆分組合詞,如“古典名著”拆分為“古典”和“名著”兩個(gè)標(biāo)簽。篩選方法如下:將原始數(shù)據(jù)以Excel 表格的形式收集在一張表中,規(guī)格為225*10。依次按照上述原則來(lái)刪除或合并符合要求的標(biāo)簽。筆者將不同處理人員的篩選結(jié)果進(jìn)行了一致性檢驗(yàn),檢驗(yàn)結(jié)果表明該篩選原則并無(wú)界限不明或引起歧義之處。
第二,將標(biāo)簽填入相應(yīng)主題特征維度。將經(jīng)過(guò)篩選的熱門標(biāo)簽根據(jù)屬性分別填入主題特征的題材、體裁、主題維度后,所有書目題材和體裁都已填充完畢,部分書目的書目主題部分沒有值或是只有一個(gè)值。
第三,提取主題詞。利用中文分詞軟件對(duì)待填充書目的長(zhǎng)評(píng)和短評(píng)內(nèi)容進(jìn)行分詞并歸納共現(xiàn)頻數(shù),去掉停用詞和無(wú)意義詞。按照頻數(shù)大小選擇詞語(yǔ)作為書目主題特征值填入書目主題特征向量公式中。最終形成的書目主題特征向量(部分)見表1。
得到檢索特征向量后,需分別根據(jù)詞的共現(xiàn)頻率建立關(guān)鍵詞共現(xiàn)矩陣FM。比如,“兄弟”和“人性”兩個(gè)詞在所有書目主題特征向量中共同出現(xiàn)2 次,則FM(“兄弟”“人性”)=2,同時(shí)該矩陣是一個(gè)對(duì)陣矩陣,因此FM(“人性”“兄弟”)=2。共現(xiàn)矩陣FM 建立目的是計(jì)算各關(guān)鍵詞之間的距離,從而對(duì)其進(jìn)行標(biāo)準(zhǔn)化,量化為關(guān)鍵詞或書目之間的相似度。本文用于計(jì)算的距離選擇的是歐氏距離,公式如下:


表1 書目主題特征向量(部分)
其中δ(x,y)表示書目x 和書目y 在n 維空間中的歐氏距離。i,j 分別為書目x,y 的編號(hào)。aik為矩陣第i 行所對(duì)應(yīng)第k 維的值,ajk為矩陣第j行所對(duì)應(yīng)第k 維的值。本文用于計(jì)算標(biāo)準(zhǔn)化相似度的公式如下:

其中,s(x,y)表示書目x 和書目y 的相似度。c 是一個(gè)常數(shù),本文中取c=1.4。經(jīng)過(guò)公式2 的計(jì)算,可以將矩陣的值都控制在[0,1]之間,以上處理是一種科學(xué)的將相似度量化為數(shù)值的方法。
根據(jù)公式(1)(2)計(jì)算結(jié)果,分別形成書目信息相似度矩陣和書目主題相似度矩陣,并進(jìn)行加權(quán)處理。考慮到對(duì)于學(xué)習(xí)型用戶的需求,筆者認(rèn)為書目主題的重要性大于書目信息,但書目信息中的作者、年代維度又是書目檢索與推薦的必備因素,因此將書目主題的權(quán)重定為w1=0.6,將書目信息的權(quán)重定為w2=0.4。最終形成的書目相似度矩陣(部分)結(jié)果見表2。

表2 書目相似度矩陣(部分)
本文方法更加看重算法在查詢提示豐富度和覆蓋(檢全)率兩個(gè)維度上的表現(xiàn)。因此從這兩個(gè)方面出發(fā),分別對(duì)該方法進(jìn)行評(píng)價(jià)[21]。
(1)豐富度。豐富度的計(jì)算公式如下:


圖4 查詢提示的豐富度結(jié)果表
其中Vi表示ID 為i 的書目的查詢提示豐富度,SNi表示該書目在普通書目檢索系統(tǒng)中檢索結(jié)果的、屬于原始數(shù)據(jù)庫(kù)的書目數(shù)量,RNi表示該書目的查詢提示結(jié)果的、屬于原始數(shù)據(jù)庫(kù)的書目數(shù)量。計(jì)算結(jié)果如下:豐富度最大值為38,表示以這本書的書名作為查詢式時(shí)查詢提示的書目數(shù)量為38;最小值為1,表示這本書的書名作為查詢式時(shí)查詢提示書目的數(shù)量為1,沒有改善。平均數(shù)為9.734,中位數(shù)為4,標(biāo)準(zhǔn)差為10.644,表示書目查詢提示結(jié)果的書目數(shù)量并不是非常穩(wěn)定,隨著數(shù)據(jù)量的上升,這種情況會(huì)逐步改善。豐富度評(píng)定具體結(jié)果如圖4所示。其中,橫軸表示豐富度區(qū)間,縱軸表示圖書數(shù)量。
在書目檢索系統(tǒng)中,用戶普遍使用書名進(jìn)行檢索,而得到的書目通常是書名相符的一本書(系列圖書、重名圖書除外)。因此,本文認(rèn)為檢索提示結(jié)果數(shù)量大于1 的查詢視為比普通查詢結(jié)果更豐富的查詢。由圖4看出,49 本書的查詢結(jié)果豐富度為1,176 本書的查詢結(jié)果豐富度大于1,因此176/225(78.22%)的檢索式可以在檢索提種得到比普通檢索更豐富的結(jié)果。
(2)覆蓋率。覆蓋率計(jì)算公式如下:

其中,ci為ID 為i的書目的覆蓋率,RN’i為該書目二次查詢提示的書目數(shù)量,即首次檢索的提示數(shù)目,加上在此基礎(chǔ)上對(duì)第一個(gè)提示條目進(jìn)行檢索的查詢提示數(shù)量,并去重后的結(jié)果數(shù)量。T為樣本總數(shù),在本研究中為225。
查詢提示排序機(jī)制應(yīng)用了社會(huì)網(wǎng)絡(luò)分析方法中中心度的概念。中間中心度表示書目的中介性,即該書目作為兩書目之間最短路徑的中間節(jié)點(diǎn)的次數(shù);接近中心度則由節(jié)點(diǎn)與其他節(jié)點(diǎn)距離之和計(jì)算得到,可以描述書目整體的中心性。考慮到學(xué)習(xí)型用戶在使用書目檢索系統(tǒng)時(shí)更加需要提示結(jié)果的引導(dǎo)作用,因此筆者認(rèn)為中間中心性的重要性應(yīng)大于接近中心度,故分別給兩者賦權(quán)值7 和3。另外,由于這兩個(gè)值在計(jì)算方法上并不同,因此在進(jìn)行加權(quán)之前會(huì)對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化方式是用原中心度值除以該類中心度最大值。綜合中心性計(jì)算結(jié)果見表3。

表3 綜合中心性計(jì)算結(jié)果(部分)
根據(jù)中心性計(jì)算結(jié)果和相似度矩陣,計(jì)算書目查詢提示的二次查詢提示的書目覆蓋率和二次檢索相對(duì)于一次檢索的覆蓋率提升情況。以二次檢索覆蓋率作為檢索覆蓋率指標(biāo)的原因是,用戶喜歡在檢索過(guò)程中選擇重構(gòu)檢索式,以修正檢索方向。二次查詢提示書目覆蓋率計(jì)算結(jié)果見圖5,其中縱坐標(biāo)表示圖書數(shù)量,橫坐標(biāo)表示二次檢索后查詢提示的覆蓋率區(qū)間。二次檢索相比單次檢索的查詢提示覆蓋率提升情況見圖6,其中橫坐標(biāo)表示覆蓋率提升的倍數(shù)區(qū)間,縱坐標(biāo)表示圖書數(shù)量。

圖5 二次查詢提示書目覆蓋率

圖6 二次檢索覆蓋率提升情況
由圖5看出,只有40 本書的二次檢索覆蓋率不高于1%,也就是大約82.22%的檢索式經(jīng)過(guò)兩次檢索后都可以得到數(shù)據(jù)集中1%以上的書目。有些書目的主題非常流行或主題并不鮮明,可能會(huì)導(dǎo)致檢索過(guò)程中得到太多的查詢提示(有13 條檢索式在二次檢索后得到超過(guò)數(shù)據(jù)集中20%的書目)。因此,在應(yīng)用過(guò)程中,查詢提示列表的排序更重要,因?yàn)楸疚牡哪康氖窍蛴脩籼峁┳顑?yōu)而不是最多的提示結(jié)果。
由圖6可看出,在225 條檢索式中,59 條檢索式在二次檢索后并未提升書目覆蓋率,166條檢索式在二次檢索后均有1 倍以上的覆蓋率提升。其中,有22 條檢索式在進(jìn)行二次檢索后較單次檢索提升了5 倍以上的覆蓋率,這是因?yàn)橛胁糠謺康南嗨茣亢苌伲桥c之相似的書目卻擁有很多相似書目。
實(shí)驗(yàn)結(jié)果表明,本文提出的查詢提示優(yōu)化方法在豐富度和覆蓋率兩個(gè)方面都比普通書目檢索系統(tǒng)更加出色。對(duì)于學(xué)習(xí)型用戶來(lái)說(shuō),在檢索初期很可能并沒有明確的檢索目標(biāo),因此提示列表提示結(jié)果的豐富度和檢全率有助于用戶更快地確定檢索方向,具有一定預(yù)測(cè)性。
本文利用檢索特征向量構(gòu)建用戶檢索行為特征庫(kù),并融合傳統(tǒng)書目檢索系統(tǒng)從而實(shí)現(xiàn)書目查詢提示。在實(shí)證部分,利用數(shù)據(jù)集進(jìn)行查詢提示機(jī)制的模擬實(shí)驗(yàn),并量化和計(jì)算了提示結(jié)果的豐富度和檢全率。實(shí)驗(yàn)證明,本文提出的方法可以在提示豐富度和提示書目覆蓋率兩方面提升用戶檢索體驗(yàn)。并且由于豐富度的提高,該查詢提示機(jī)制非常適合學(xué)習(xí)型用戶進(jìn)行探索,除了提供直接相關(guān)的書目,還會(huì)根據(jù)其他用戶的檢索數(shù)據(jù)找到用戶潛在需要的書目。同時(shí),對(duì)學(xué)習(xí)型用戶來(lái)說(shuō),查詢提示結(jié)果的豐富性和檢全率可以很好地引導(dǎo)用戶找到合適的檢索方向。在研究與實(shí)驗(yàn)過(guò)程中,筆者也發(fā)現(xiàn)了該方法的局限性:(1)特征庫(kù)的構(gòu)建還需要進(jìn)一步融合其他類型的行為信息,從更豐富的維度優(yōu)化提示機(jī)制。(2)檢索特征庫(kù)的成長(zhǎng)需要一定時(shí)間,提示效果是隨著數(shù)據(jù)量增長(zhǎng)而提升的。下一步的研究將會(huì)著重研究提升檢索特征向量維度的多樣性,從更豐富的角度構(gòu)建檢索特征庫(kù),從而使檢索特征庫(kù)能代表更廣泛人群的檢索行為。本文認(rèn)為查詢提示優(yōu)化方法的提出可以在未來(lái)的研究中輔助形成一種適合學(xué)習(xí)型用戶(或無(wú)具體檢索目標(biāo)的用戶)使用的書目檢索系統(tǒng)。
注釋
①來(lái)源:https://book.douban.com/top250,檢索日期:2017-11-09。
②書目編號(hào)-書名索引:B1-《追風(fēng)箏的人》;B2-《小王子》;B3-《圍城》;B4-《解憂雜貨店》;B5-《或者》;B6-《白夜行》;B7-《挪威的森林》;B8-《嫌疑人X 的獻(xiàn)身》;B9-《三體》;B10-《不能承受的生命之輕》。