孫雨生,李沁蕓,劉 陽,朱禮軍
(1.湖北工業大學經濟與管理學院;2.中國科學技術信息研究所信息技術支持中心)
伴隨Web 2.0時代到來,可視化搜索引擎應運而生。可視化技術將搜索結果轉成圖形或圖像顯示,[1-5]以形象化其中隱含規律、形成概念并通過人機交互高效引導用戶搜索,方便其更好地分析、理解領域信息,直觀發現信息間隱藏關系并最終提升用戶搜索效率及體驗。[6-12]現有可視化搜索引擎應用領域雖較廣但存在理論研究不充分(可視化技術在搜索過程中應用潛力待挖掘)、架構體系不完整、應用深度不夠(重引入輕原創、實用性搜索引擎不多)等問題。因此,系統研究可視化搜索引擎應用與實現問題具有重要意義。
本研究以中國知網、萬方數據的學位論文庫、期刊論文庫及維普的期刊論文庫為信息源,分別以“可視化”、“搜索”和“可視化”、“檢索”為關鍵詞組合在題名中檢索相關文獻(截止2017年7月28日)。以“可視化”、“搜索”為關鍵詞組合,從知網檢索到碩博論文12篇、期刊論文28篇,從萬方檢索到碩博論文13篇(新發現3篇)、期刊論文21篇(新發現0篇),從維普檢索到期刊論文29篇(新發現2篇);以“可視化”、“檢索”為關鍵詞組合,從知網檢索到碩博論文15篇、期刊論文101篇,從萬方檢索到碩博論文16篇(新發現6篇)、期刊論文91篇(新發現5篇),從維普檢索到期刊論文101篇(新發現3篇);合計175篇文獻。通過閱讀175篇文獻歸納出國內可視化搜索引擎應用領域、系統實現進展,并從領域應用、系統實現兩方面闡述國內可視化搜索引擎研究進展。
國內可視化搜索引擎應用集中在生物醫學[1,13-15]、數字圖書館[8,10,12,16](文獻[5,17-19]、專利[20]、多語言[21]搜索)、農業[22-24]、地理空間 (GIS)[3-4,25-28]、電子商務[29-30]、社交網絡[5,11,31]等領域且前景良好。其中,生物醫學、GIS可視化應用領域性較強但實現方式及
架構可供Web信息可視化參考。
作為分子生物學新興交叉學科,生物信息學旨在由生物、數學、計算機學家共同研究生物分子數據,對其進行獲取、處理、分析、利用,以揭示其內涵及人類未知的生物學知識和有用信息。龔慶俠[15]基于信息圖層動態可視化生物醫學數據提出KNALIJ引擎,輔助用戶瀏覽并高效搜索PubMed海量信息;張浩然[14]基于Android系統開發了支持代謝網絡可視化和生化反應檢索的搜索引擎;王鋆[1]提出新的分子數據集分析算法并結合可視化技術提供高效直觀分子數據集搜索方法;張飛[13]設計了旨在可視化RNA序列數據的B/S模式基因預測平臺,并成功預測雞microRNA新基因。
可視化搜索數字圖書館中文獻(論文、著作、專利)及其來源(期刊、會議等)、作者、研究領域等信息,相關研究主要分為理論、應用兩類。
理論方面,王寧[8]闡述數字圖書館可視化搜索引擎總體結構及關鍵技術;竇淑慶[10]闡述圖書館可視化文獻搜索引擎設計理論方法并進行具體設計;桂思思[32]從設計步驟、實現方法方面闡述基于主題圖與MARC書目的可視化搜索引擎構建原理;周怡雪[19]基于共現分析理論構建“二維度(橫向和縱向)-三方面(內部特征、外部特征和內外部特征結合)-四部分(關鍵詞、作者、研究機構和主題)”的文獻搜索結果可視化研究框架;周寧[18]基于詞頻分析圖,運用Java Applet對文獻搜索結果進行可視化;秦雪梅[33]指出文獻可視化搜索引擎可將文獻間語義關系、提問與搜索結果關系可視化并提供有效信息反饋機制。此外,Julia J.Jürgens[20]指出市場上可視化專利搜索引擎多采用傳統圖表、顯示技術(如3D專利地圖)分析并展示搜索結果集,未充分發掘可視化技術在搜索過程中的潛力,但已開始探索新應用方向,如從專利空間分布展示到搜索結果集可視化。
應用方面,錢力[16]、馬雨佳[12]設計并實現交互、立體式數字圖書館館藏跨庫可視化搜索引擎并用于中科院國家科學圖書館,[16]最終實現視覺化人機交互;王寧[8]用3D漫游實現虛擬圖書館場景并用于復旦大學圖書館;[5,34]桂思思[32]融合 MARC、主題圖與可視化技術構建原型系統,以可視化主題圖中主題類型間聯系并基于此搜索圖書;張學福[17]實現基于知識模型的文獻可視化搜索引擎;蔚元方[5]針對文獻互引問題提出共引矩陣構造方法,基于社會網絡分析[19]算法實現文獻可視化搜索。此外,張秀梅[35]基于文獻信息的科研合作復雜網絡方法并用于大型文獻搜索引擎,同時介紹美國國家科學數字圖書館為館藏增加交互式可視化瀏覽器以提供可視化搜索服務;張學福[17]指出新西蘭數字圖書館用自組織可視化技術處理搜索結果,用HyperSpace生成三維圖像并提供文獻訪問途徑;劉如[36]指出微軟學術搜索在深度搜索過程中可視化搜索結果所隱藏有價值信息。
目前國內農業搜索引擎主要有農搜網、搜農網等,仍處發展期。[24]張陽[22]以農業文本信息、農產品價格為研究對象,構建基于地理信息庫的農業信息可視化搜索引擎;趙蘭榮[23]構建基于元搜索的農業信息可視化平臺以圖形化搜索結果;王恬[24]二次開發農業搜索引擎,用Web信息抽取、數據挖掘及信息可視化技術將搜索結果可視化,實現人機交互,提升搜索體驗。
徐少坤[26]研究基于多維可視化技術的地理空間元數據可視化搜索;宋國民實現基于雙曲線樹[4]和基于平行坐標[27]的地理空間元數據可視化搜索原型系統;張向榮[25]設計空間數據管理系統模型,實現基于SVG(可縮放矢量圖形)的GIS可視化,通過可視化搜索引擎模塊返回空間屬性信息來動態維護GIS數據;孫洪亮[28]設計地理空間語義搜索引擎架構,基于地學知識庫,用命名實體識別、實體消歧等自然語言處理技術空間化非結構化文檔,用WebGIS將搜索過程、結果可視化;朱向彩[3]結合VB、可視化等技術研究城市交通站點可視化搜索問題,為城市建設、三維仿真、交通模擬、信息搜索及維護等提供技術途徑。
目前大多數商務搜索引擎為用文本標注方式標注、索引圖像的視覺搜索引擎。黃輝[29]提出可視化搜索引擎及相關技術是可視化電子商務核心和業務基礎,構建了符合用戶搜索和使用習慣的可視化電子商務搜索引擎體系,通過第三方技術授權與合作的方式提供可視化搜索服務,運用完善互聯網圖片自動采集分析機制構建可視化電子商務平臺并提供搜索服務;胡亦奇[30]分析了現有電子商務網站搜索結果顯示的優缺點,比較了多維數據可視化方法,用氣泡圖顯示電子商務網站的搜索結果;劉曉慧[37]設計并實現了基于可視化圖像搜索技術的商務可視化搜索引擎iSearch,由Web端可視化搜索、廣告注冊、手機端可視化搜索、數據操作模塊組成,以增強海報廣告交互性。
關岳[31]認為當前社交網絡數據可視化研究較分散,主流研究是可視化信息傳播路徑;周霞娟[11]認為微博搜索過程用戶需求較模糊,更傾向于探索式搜索,提出用戶驅動微博可視化搜索方法,基于微博用戶特征和興趣特征,用向量空間模型表示用戶微博,引入IDF(逆文本頻率指數)降低常用詞匯權重、提升用戶興趣模型精準性。提出關注度傳遞算法,計算微博用戶對特征詞的關注度并用氣泡圖將其可視化,以搜索用戶感興趣的微博。此外,蔚元方[5]指出北京大學開發的微博分析工具WeiboEvents可輔助用戶認知,理解微博運轉、傳播過程,展示微博事件中關鍵人物、觀點、人物關系及轉發情況。
在海量信息中,若想快速、準確且可視化地獲取所需信息,必需在掌握搜索方法與技巧基礎上熟悉可視化搜索引擎,并深刻理解其相互間的區別與聯系,[38]其中的核心是可視化搜索模型(注意其適用情形和可擴展性[12,39])及相關算法,以在有限可視空間中展示搜索對象主要屬性[21]、揭示搜索對象間深層語義和復雜關系,[7,9,12,17,21,33,39]同時為構建新可視化搜索引擎[38]提供支持,最終更好地幫助用戶搜索,提高搜索效率。[6-12]現有可視化搜索引擎主要分為四類。
該類引擎能夠分析并可視化用戶提問與搜索結果,為搜索結果中的文獻間關系提供可見語義關系,用可視化技術在知識域中輔助用戶深度搜索及分析,通過可視化圖形交互降低用戶認知文獻間語義關系的負荷,[33]現有文獻可視化搜索引擎見表1。
該類引擎能夠基于圖像內容語義特征來消除文本標注等導致的搜索結果偏差,提升搜索準確性和用戶體驗。[37]現有基于內容特征圖像搜索引擎見表2。

表1 文獻可視化搜索引擎

表2 基于內容特征圖像搜索引擎[29,37]
該類引擎能夠結合用戶搜索和瀏覽行為將復雜搜索對象結構、語義、相互關系可視化,基于用戶行為優化并明確用戶搜索需求進而精準獲取所需文獻,提升人機交互效果和搜索效率,[9]最終將用戶搜索過程變為學習過程。現有基于用戶行為可視化搜索引擎見表3。

表3 基于用戶行為可視化搜索引擎[9]
該類搜索引擎聚類文獻標題、摘要并以樹和圖形式可視化,從而向用戶快速、全面、直觀、結構化地展示搜索結果,輔助用戶準確獲取領域信息。[6]現有聚類可視化搜索引擎見表4。
此外,周群[38]基于各可視化搜索引擎相似點,用動態引擎技術串聯可視化搜索引擎,以便用戶全面準確獲取所需可視化信息并一定程度解決可視化搜索易導致的網絡堵塞及死機等問題。

表4 聚類可視化搜索引擎[6]
[參考文獻]
[1]王鋆.生物數據庫搜索和可視化的研究[D].杭州:浙江大學,2006.
[2]周寧,文燕平.檢索結果的可視化研究[J].中國圖書館學報,2002,28(4):48-50,53.
[3]朱向彩,等.利用VB技術實現城市交通站點檢索及其可視化[J].泰山學院學報,2006,28(3):34-37.
[4]宋國民,等.雙曲線樹在地理空間元數據可視化檢索中的應用研究[J].測繪科學技術學報,2014,31(3):300-304.
[5]蔚元方.文獻檢索的信息可視化技術研究[D].鄭州:中原工學院,2015.
[6]趙華軍,等.網頁搜索結果聚類與可視化[J].南京大學學報(自然科學),2010,46(5):542-551.
[7]韓麗華.信息檢索可視化效率若干問題研究[D].哈爾濱:黑龍江大學,2008.
[8]王寧,等.可視化信息檢索系統的設計與實現[J].計算機工程,1997,23(S1):179-182.
[9]李春旺.信息檢索可視化技術[J].現代圖書情報技術,2003(6):44-46,49.
[10]竇淑慶.圖書館可視化文獻檢索系統研究[J].情報探索,2009(10):11-13.
[11]周霞娟,等.用戶驅動的微博可視化搜索[J].中國圖象圖形學報,2015,20(5):715-723.
[12]馬雨佳.信息可視化技術在數字圖書館館藏資源檢索中的應用研究[J].圖書館界,2015(4):57-60.
[13]張飛.雞microRNA新基因預測與檢索自動化軟件系統及Web可視化[D].咸陽:西北農林科技大學,2011.
[14]張浩然,等.基于Android的代謝網絡可視化和生化反應搜索的實現[J].計算機應用與軟件,2016,33(6):224-226,302.
[15]龔慶俠,雷潤玲.生物醫學可視化搜索引擎KNALIJ特色評析[J].中國醫學教育術,2017,31(3):302-305.
[16]錢力,等.信息可視化檢索在數字圖書館中的應用實踐[J].現代圖書情報技術,2012(4):74-78.
[17]張學福.基于知識模型的文本信息檢索可視化研究[J].中國圖書館學報,2006,32(5):52-56.
[18]周寧,等.文獻檢索結果的可視化研究[J].情報探索,2007(6):3-6.
[19]周怡雪.基于共現分析的文獻檢索結果可視化研究[D].北京:北京大學,2009.
[20]Julia JJürgens,等.專利檢索系統中可視化查詢的比較研究[J].情報工程,2015,1(5):8-17.
[21]朱云霞.我國信息檢索可視化研究現狀與發展趨勢分析 [J].情報探索,2012(8):112-115.
[22]張陽.農業搜索可視化平臺的研究[D].合肥:中國科學技術大學,2010.
[23]趙蘭榮,朱學芳.基于元搜索的農業信息可視化平臺實現研究[J].農業圖書情報學刊,2011,23(12):5-8,11.
[24]王恬,等.農業信息搜索可視化平臺研究[J].計算機應用與軟件,2016,33(3):271-274.
[25]張向榮.空間數據的儲存、檢索與可視化研究[D].西安:西北工業大學,2006.
[26]徐少坤,等.多維可視化技術在地理空間元數據檢索中的應用研究[J].地理信息世界,2013,20(1):46-50.
[27]宋國民,等.基于平行坐標的地理空間元數據可視化檢索研究 [J].測繪工程,2015,24(5):1-4.
[28]孫洪亮,等.基于WebGIS與SOLR的地學可視化檢索系統研究[J].計算機技術與發展,2016,26(6):171-174.
[29]黃輝,等.基于可視化搜索技術的新一代3G移動電子商務 [J].電信科學,2011,27(6):33-37.
[30]胡亦奇.數據可視化的研究及其在搜索結果顯示中的應用[D].南京:東南大學,2008.
[31]關岳.大規模微博數據的品牌檢索與可視化[D].大連:大連理工大學,2015.
[32]桂思思,石義金.基于主題圖與MARC的書目可視化檢索系統設計與實現[J].科技創業月刊,2012(8):194-196.
[33]秦雪梅,等.可視化情報檢索[J].圖書情報工作,2002,46(4):89-92.
[34]陳穎.基于摘要信息的中文信息檢索可視化系統研究與實現[D].哈爾濱:黑龍江大學,2007.
[35]張秀梅,吳巍.科研合作網絡的可視化及其在文獻檢索服務中的應用[J].情報學報,2006,25(1):9-15.
[36]劉如,等.微軟學術搜索的可視化應用探析[J].天津科技,2014,41 (9):48-50.
[37]劉曉慧.基于可視化檢索的廣告信息增強系統的設計與實現[D].廣州:中山大學,2013.
[38]周群.論可視化信息檢索系統研究[J].情報雜志,2006,25(7):94-96.
[39]張進,等.信息檢索可視化的主流路徑[J].圖書情報知識,2008(5):24-27.