董競艷
摘 要:期刊對文化、科技、知識傳播有著重要意義,文化是期刊的內涵,期刊是文化的載體。在網絡高度普及的今天,期刊發揮著巨大的文化影響力。期刊具有文化導向功能、教育功能、信息功能、娛樂功能。網絡的高度普及期刊帶來了更多的客戶,但同時也帶來了競爭。雖然我國情期刊市場秩序十分混亂,存在許多問題有好有壞,但實際上依然存在著巨大的競爭壓力,據統計我國期刊數量達到八千多種。個性搜索設計是增強期刊競爭力,提升影響力和利用率的重要手段。本文將針對期刊的個性搜索設計與實現展開分析討論。
關鍵詞:期刊;個性搜索;設計與實現
二十一世紀是一個網絡的時代,人們對網絡搜索引擎的應用十分普遍,但現如今傳統搜索引擎已經難以滿足人們的個性化需求。通過對傳統網絡搜索引擎的調查發現,傳統網絡搜索引擎提供的檢索服務,不同用戶在不同時期搜索到的結果幾乎一致,設計上并沒有考慮到用戶需求變化,缺少個性設計。雖然國內對個性搜索設計研究的很多,但卻極少涉及期刊個性搜索。但實際上期刊更需要個性搜索,因為期刊往往信息量大,刊數眾多,并且每一個客戶的需求和側重點都有著很大差異,傳統搜索很難滿足用戶需求。所以想要使用戶能夠快速搜索到自己想要的信息,必須將個性搜索融入期刊中。
1 期刊的起源及發展
期刊是隨著網絡的廣泛和普及發展起來的,我國期刊起步于二十世紀八十年年代,一九九五年清華同方開始大規模出版期刊,經過不斷的發展一九九八年我國已經發展到了三千五百多種專業特色期刊[1]。萬方是我國一百二十種同步介入網絡的期刊,是我國第一個網絡期刊,一九九九年我國網上期刊已經達到一千多種。這個階段期刊形式和內容上都比較簡單,完全可以理解為傳統紙質期刊的電子版,這個時期多采用掃描的方式,以掃描紙質期刊為主,使用中并沒有經過任何加工和處理,這個時期的期刊商家主要有中國知網、萬方、維普、龍源等等[2]。經過不斷的發展和演變,二零零四年期刊開始發生革命性的變化,不論是在傳播技術上,還是表現形式上都有了質的飛躍,大量多媒體技術開始融入期刊中,期刊的交互性、可讀性大幅度增加,實現了大量同步傳播。期刊類型、種類、內容、形式也越來越多,為讀者提供了更多的選擇,但這也增加了讀者索引到自己想要信息的難度。雖然后期搜索引擎的出現大大提高了期刊檢索速度,但效果依然不理想,個性搜索融入期刊勢在必行。
2 期刊的個性搜索設計
Lucene是基于當前JAVA最流行的全文檢索工具包,Lucene是純java實現。這個工具包具有一定的特殊性,實際上它并非一個完整的全文搜索引擎,而是一個經過編寫的全文檢索引擎框架,它主要所能提供的是查詢引擎、索引引擎、存儲管理以及文本的對接[3]。雖然它并不是完整的全文搜索引擎,但它可以根據不同的需要鑲入不同的需要,來實現全文搜索功能,并且他還能夠提供部分文本分析引擎,這便大大提升了檢索效率。此工具包開發發出簡單易操作,在設計中可以利用全文檢索和部分檢索功能實現完善檢索。完全可以用于個性搜索設計,想要實現個性搜索,應通過用戶興趣模型來實現。用戶興趣模型包括:初始興趣模塊、用戶興趣模塊。初始興趣模塊可具備采集功能,不斷采集和觀察用戶興趣、行為。然后將觀察結果和采集結果用于更新用戶興趣模型。用戶類型可分為普通用戶和作者用戶。如果用戶登陸時,權限屬于作者用戶,期刊中含有該作者論文,那么作者論文內容必然可以反映用戶興趣,在搜索時便可相應反映作者感興趣的內容。如果普通用戶初次使用系統,則自動獲取初始興趣模型,在客戶端上用戶可自己進行興趣選擇,系統便可為用戶顯示感興趣的內容,如果所顯示內容被用戶采納那么關鍵詞便存入用戶興趣模型中。用戶興趣模型的不斷更新,使得搜索精準率越來越高,效果越來越好,從真正意義上實現個性搜索。此外,個性化排序模塊也是個性搜索中必不可少的關鍵。個性化排序模塊通過對用戶興趣模塊數據調用,并個性化排序在用戶使用搜索引擎查詢時便會得以展現。如用戶興趣庫中已經存儲了用戶搜索過的關鍵詞,那么個性化排序時便會優先顯示與其相對應興趣度較高的相關內容,排序時根據用戶興趣度大小方式進行排序。在設定檢索條件時利用聚類概率結果的方式,取前三個概率分布主題,以保障關鍵詞和期刊主題關鍵詞上有一定的概率分布。個性化排序模塊運行時,用戶發送相應關鍵詞查詢請求,Query調用query request,發送查詢請求,Usermodel接收請求后,便會自動獲取到用戶興趣庫中的關鍵詞并分析興趣度。Index在獲取到用戶興趣關鍵詞后調用execute query進行檢索,檢索后結合personalsort模塊來實現個性化排序,將排序結構返回給用戶。
3 期刊的個性搜索的實現
索引模塊的實現,首先要初始化index Writer,當建立建立索引模塊時,可以利用index Writer來寫索引文件,INDEX_DIR是索引文件存放位置。在index Writer創建后,可利用Analyzer來進行文文檔詞法分析和語言處理。在處理和分析完畢后便通過DocumentProducer來解析處理結果。結果分析后,建立索引封裝成Field,最后再通過index Writer來調用函數實現索引文件,完成整個索引的建立。索引模塊應由關鍵字記錄、關鍵字屬性、組合記錄、關鍵詞預存等組成。用戶興趣模型的實現,可利用添加聚類結果表paper來進行用戶權限的運算,利用LDA來提高關鍵詞,利用記錄用戶瀏覽歷史來更新用戶興趣模型。個性化排序模式的實現十分關鍵,因為用戶興趣模塊的實現需要建立在個性化排序模塊的基礎之上才能得意實現。個性化排序模塊先要設定搜索條件,根據用戶提交的搜索條件,調用搜索機制及各類模塊,通過各個模塊的相互結合實現返回初始化檢索結果。而后利用用戶興趣模塊按用戶興趣度大小排序,用personalsort來調用排序結果,依次取出用戶興趣度相關的關鍵詞。接收返回的關鍵信息后,按聚類概率分布的方式進行判斷。并根據相似度計算公式,計算每一個返回結果的相似度,AI判斷相似度后,以用戶興趣度的大小進行內容相似度判斷,得出搜索結果后,排序時按照興趣大小、相似度大小排序檢索結果,最終把整個個性化排序節結果展現給用戶。結果顯示后,用戶興趣庫便進行自動記錄采集,更新入用戶興趣庫中。個性化排序模塊利用Index Searcher創建事例化對象,然后通過該對象訪問索引目錄,利用Term保存檢索關鍵詞,通過Query建立查詢器,利用HITS返回查詢結果。個性化排序模塊應包括:相關度大小排序、連接地址排序、關鍵詞排序、摘要檢索、結果排序、關鍵詞檢索、作者檢索等。
4 結束語
期刊個性搜索是未來期刊發展的必然方向,隨著期刊用戶量和信息量的增多,傳統搜索很難滿足用戶需求,不僅搜索效率低,并且準確度也比較低。用戶需要的是更方便,更快捷的搜索服務,個性搜索融入期刊勢在必行,對期刊發展有著重要意義。
參考文獻
[1]王佳玉.淺析個性搜索設計在網絡書籍搜索中的應用[J].湖北現代職業技術學院,2012,13(11):119-124.
[2]汪蘇瀧.網絡期刊的發展及其評價研究[J].浙江電子商務學院,2011,11(14):132-135.
[3]王先謙.信息化時代期刊個性化的重新定位[J].寧波信息工程學院,2013,12(13):112-123.
[4]全歐冠.新時代背景下期刊個性化設計與實現的思路[J].海南信息工程學院,2012,21(13):202-211.