金安
出版社網站建設的核心價值在于及時、全面、準確地發布本社的圖書產品信息,并將其傳遞給目標客戶,從而發揮網絡營銷作用。隨著出版社網站建設的深入,產品信息愈加豐富,網站建設水平將更多的體現在對信息的組織和其所提供的使用功能上,最終目標是提高信息傳遞的效率。
對于一個大型的科技出版社,其產品涉及的學科門類紛繁,品種數量眾多,內容層次不一;同時,讀者群體遍布科學技術的各個領域,且專業分工明細,但閱讀能力卻分布于不同層次。因此,讀者在尋找適合自己的圖書產品時,就產生了“多對多”的矛盾,信息傳遞在此出現了“瓶頸”。如何突破這個“多對多”的瓶頸,實現“一對一”,即一位讀者一次性找到符合檢索定義的一類圖書產品的所有信息,成為本研究的目標。
幾年來,我們圍繞網站信息組織和功能技術兩個方面開展工作,以期實現上述“一對一”的目標。在信息組織方面,完成了產品分類與導航體系的建設。在功能技術方面,開展了搜索引擎應用技術研究,并對網站內容進行了結構化處理(碎片化)。這些實踐探索,已經取得了初步成果。
傳統的圖書檢索方式,是基于已知書名的,不外乎書名查詢和組合查詢兩類。其中組合查詢需要明確的查詢條件,一般只適用于條件限制嚴格和已知信息較豐富的情況,其準確性與查詢條件的多少成正相關,在并不確知書名或其他條件信息的情況下就不適用;且如果查詢條件之一輸入有誤,就得不到預期的結果,因此有較大局限性。而書名查詢又因為有以下兩類問題,而存在較大的不確定性。
書名中不一定包含內容主題,或是書名與內容無直接關聯。例如《誰動了我的奶酪》并不是一本關于食品的書,而《國家健康報告》也與體檢或醫療無關。此外,還有許多專業性的詞匯也不會出現在書名中,因為在確定書名時需要考慮有較廣泛的讀者覆蓋。
書名中的一些連接字(或符號)輸入的不準確,會導致檢索沒有結果,盡管這些并非關鍵字,如“和、與、及、的”等以及“破折號(——)、頓號(、)、冒號(:) ”等。
出版社的生存與發展主要依靠新的出版物,因此出版社網站的宣傳營銷工作應該主要圍繞新書展開,所以新書推介功能就顯得尤為重要。但這與已知書名的傳統查詢方式產生了矛盾。如何響應讀者基于內容主題(而不是書名)的檢索需求,并能夠快速地提供相關度很高的查詢結果,是我們潛心鉆研的課題。為此,我們開發了自己的圖書搜索引擎。
圖書搜索引擎是一個網絡應用軟件系統,它能夠接受用戶通過瀏覽器提交的搜索文本(詞組或短語),在可接受的時間內返回一個與該用戶搜索匹配的網頁信息列表,這個列表中的每一個條目至少包含書名及其網址鏈接,同時依其相關程度自動排序。
搜索引擎技術在大型電子商務網站應用的比較普遍,但在出版社網站上卻幾乎沒有看到,讀者比較在這兩類網站上的購書體驗時,明顯感到出版社網站的功能落后。其實,到訪出版社網站的人,大多是受到出版社品牌感召的忠實讀者,奔著獲得更具專業特色的經典圖書而來。為他們提供優質高效的檢索工具和服務,不僅是出版社品牌的直接體現,更起到了留住這部分忠實讀者,同時減少潛在客戶流失的“吸附”作用。努力提高網站的“粘度”是我們的重要理念之一,開發適用于出版社網站的圖書搜索引擎,是該理念指導下的一個重要技術措施。這項工作有三個關鍵要素:
匹配——相關性評價。即如何定義和評價我們認為內容與搜索條件匹配的那些圖書與該搜索條件之間的相關性程度。這種評價必須是量化的,否則將無法進行精確的比較判斷。將書的內容(及其他屬性)納入搜索范圍比僅從書名中搜索,準確程度有了質的飛躍,這是決定搜索質量的關鍵要素。量化算法隨之成為搜索引擎的技術核心。
可接受的時間——響應時間。對于在Web上向廣大用戶提供服務的軟件來說,響應時間不能太長,通常可以接受的量級是“秒”級。
取詞——自動分詞(切詞)處理。用戶的搜索條件一般是詞的組合或自然語言短語,搜索引擎必須理解這些對搜索條件的描述。但是漢語不同于英語,英語的詞與詞之間以空格分開,漢語的詞之間沒有分隔符,這對計算機處理造成了困難,所以必須使用中文信息處理系統——自動分詞系統,才能將一串字符分解為若干規范化的主題詞,同時也過濾掉當中的無價值字符。同理,對圖書內容的加工處理也是如此。
由此可知,應用搜索引擎技術,必須首先對網站的圖書內容等信息,進行結構化的加工處理,就是大家常說的“碎片化”,這是不可或缺的基礎性工作。
下面談談搜索引擎到底是如何工作的,大家就知道它為什么能夠大幅提高搜索的質量和效率了。其工作流程依次分為三個步驟:
信息采集。相對于流通領域的電商網站而言,出版社網站具有得天獨厚的內容資源優勢,可用于支持自己產品的精確定義。這其中不僅包括內容簡介、章節目錄、樣章(甚至全文)等可以用于詞頻的定量計算,還有CIP數據中的主題詞、分類號,以及作者名、自定義分類名等定性資源,這些資源可以為相關性評價提供完整的數據支持。因此,廣泛地采集這些信息,充分利用本社產品的數據資源,構建全方位的評價體系,是保證和提高搜索引擎質量的基礎與前提。同時,通過保持較高的采集頻率,及時將新書信息抓取入庫,還可以達到宣傳推廣新書的目的。
預處理。這是生成中間數據的準備過程,也是運算量最大的階段,包括建立內容索引庫和倒排索引表。其工作過程是將一本書的可取內容和屬性信息,轉化為一組權重不同的索引詞的集合,然后將書到索引詞的映射轉化為索引詞到書的映射,生成倒排文件(包括倒排表和索引詞表),用于下一步的檢索服務。其中由內容到索引詞集合的轉化,就是我們說的“碎片化”。這一過程既需要中文自動分詞技術的支持,也需要對分詞對象選擇和權重設置等具有一定的經驗。
檢索服務。這是直接與用戶交互的過程,也是限制搜索引擎性能的瓶頸。該過程包括四個環節:接受用戶輸入的搜索主題詞或短語,運行檢索并獲得相應的匹配結果,計算評價匹配者的相關性程度,最后依次顯示給用戶。即,首先對用戶輸入的搜索語句進行切分取詞,然后分別從索引詞表和倒排索引表中檢索出包含這些主題詞的圖書記錄,再依據各主題詞的權重進行量化計算和匯總比較,從而確定所有可匹配圖書的相關性程度排序,最后生成有序的結果列表頁面顯示給用戶。其中起決定性作用的是相關性評價算法,它的優劣直接關系到搜索引擎的質量和效率。
評價算法與出版物的特性及內容有密切關系,需要結合本社特點反復調試,通過不斷優化,一定可以摸索出最具本社產品特色的算法模型。下面介紹一下我社建立相關性評價算法模型的思路與經驗:
該模型采用計分方式,依得分多少分段排序。得分的計算是依據所匹配詞的詞頻和權重,分級的依據是匹配度,是根據經驗修正后建立起來的統計模型。
首先,根據出版社網站的產品數據結構和功能架構,采集盡可能多的可用于描述圖書內容的信息,如章節目錄、內容簡介、樣章、CIP數據中的主題詞和分類號、作譯者名、自定義分類名等,并將它們分為定量詞和定性詞兩類,分別賦予不同的權重,而具體的權重值需根據經驗不斷修正,一個基本原則是定性詞的權重分略高于定量詞最高詞頻的平均值。
然后,計算出所匹配詞的權重與詞頻的乘積之和,同時記錄下匹配度——匹配詞數與輸入分詞總數之比,再依據這兩項數據進行綜合評價,得到相關性分級結果列表,即匹配度為100%的按得分由高到低在前面依次排列,匹配度低于100%的也依得分多少,但排在后面。
這一模型從我社自身內容特點出發,經反復修正和優化,已經達到如下三點設計目標:
保證相關度高的圖書全部出現在列表的第1-2頁;
在線使用時,每次檢索耗時0.5-2秒,平均耗時1秒;
相關度排序基本與客觀實際一致。
搜索引擎技術的應用開發,至能夠成功上線運行的程度,還只是完成了基本任務。其后續的優化和運行維護工作還有許多,這項長期性工作主要包括兩個方面:
新書入庫和新詞識別。不斷地推出新書,是出版社網站的任務使命。除了在相關頻道進行宣傳推薦以外,能夠及時出現在搜索引擎的結果列表中,也是很有推薦意義的。這就需要我們的預處理工作必須與新書上線同步進行,如果網站每天都有新書發布,那么,預處理工作就需要每天進行。由于預處理的運算量非常之大,所以一般應安排在夜間自動運行。以我社在庫品種為例,預處理得到的索引記錄已達350多萬條。同時,新書中涌現的新詞也十分重要,只有及時地將這些新詞識別出來,才能保證以后此類新書的內容可以被正確切分。
算法和權重值的不斷優化。隨著社會和科技進步以及出版社的發展,出版領域將不斷擴展。而每當出版物涉及一個新的范疇以后,必然帶來內容結構和特點的變化。因此之前確定的算法、參數、權重值等都需要同步進行適應性調整。另外,隨著信息技術和人工智能的發展,算法和建模理論正在迅速完善和提高過程中,這將給我們提供許多指導和借鑒,優化工作就有了方向。所以,運維工作的另一方面內容就是應當根據產品結構的變化及技術的發展,適時地對搜索引擎的效果和效率做出評價,以選擇時機進行優化升級,使其不斷完善和提高。
出版社網站的圖書搜索引擎技術開發,是我社在數字出版理念指導下,進行的一次改善讀者產品搜索體驗的實踐,從中積累了經驗,達到了預期目的。但同時也感到,還有許多可以繼續努力提高的空間,隨著信息技術的進步以及各方面條件的完善,我們有信心取得新的飛躍。
(作者單位系科學出版社)