沈奎林



摘 要 信息技術、傳播技術的飛速發展,帶來了信息環境的變化。大數據、移動互聯網、新媒體以及個性化定制和社交網絡的蓬勃發展,加上學術分析、知識圖譜的普及,給知識發現系統提出了新的更高的要求。論文在文獻分析的基礎上,分析了目前知識發現系統的現狀和不足,以超星發現系統為例,提出了一些創新型的探索。
關鍵詞 大數據 知識發現系統 新媒體 社交化網絡知識圖譜
分類號 G250.73
DOI 10.16810/j.cnki.1672-514X.2017.01.003
The Exploration of Innovation in Knowledge Discovery System Under the New Information Environment
Shen Kuilin
Abstract The fast development of information technology and communication technology brings the change of information environment. Big data, mobile Internet and new media as well as customization and social network, combine with academic analysis, the popularization of knowledge map, request new and higher requirements to the knowledge discovery system. This paper takes the superstar discovery system as an example, and puts forward some innovative exploration based on the analysis of literature review of the current knowledge discovery system.
Keywords Big data. Knowledge discovery system. New media. Social network knowledge map.
近幾年來,隨著圖書館紙本資源及電子圖書、數據庫資源的快速增長,從海量的資源里找到所需的文獻成了讀者的迫切需要,于是很多一站式檢索系統應運而生,從最初的聯邦檢索到后來帶有一定智能的知識(資源)發現系統,以及各種類似百度、谷歌的檢索系統。2012年更是被稱為“知識發現系統元年”,知識發現系統相關的研究成果頻繁出現在各個學術期刊上,學界也召開了很多相關的會議,目前發現系統的發展處在一個膠著期,在新信息環境下如何讓發現系統更實用、更能贏得用戶的喜歡、與“互聯網+”的概念更融合,是我們應該關注和研究的重要課題。
1 知識發現系統的研究和應用現狀
在大數據、新媒體等新信息環境下,要研究和實現更好用的知識發現系統,就有必要對目前發現系統的發展現狀從計量、圖譜等方面分析研究圖書情報界的研究主題,為后期的內容做梳理和支持。
1.1 國內知識發現系統的研究現狀
在超星中文發現系統里面,選擇高級檢索功能,以“知識發現系統”或“資源發現系統”或“知識發現”進行精確匹配,選擇載體類型為圖書、期刊、會議論文、學位論文、報紙為來源,檢索得到9896條相關信息,對這些文獻進行分析,可以得出目前國內知識發現系統的研究和應用現狀。
1.1.1 文獻計量分析
根據超星發現系統的分析結果(見圖1)來看,知識發現系統的研究文獻自1996年始逐年上漲,雖然最近2年發展平穩,在2015年還略有下降趨勢,但符合事物螺旋上升的發展規律。
根據期刊和相關學科以及相關知識的分析結果,從圖2可以看出知識發現系統涉及到了很多學科,在技術方面,主要研究領域在計算機領域、圖書情報領域,涉及到數據挖掘、人工智能、數據庫、聚類、情報分析、知識分析、信息分析、檢索、搜索引擎等概念,相關的發文高頻學者也是這兩個領域最多。
根據相關的地區數據統計來看(見圖3),經濟和文化發達的地區,有關知識發現系統研究的研究機構、學者和話題最多,這也是符合事物的發展規律的;另外一個相關因素是高校和名校,特別是計算機相關專業和圖書情報專業發展比較迅速的高校,比如武漢就是因為武漢大學信息管理學院是圖情相關領域研究和發展的排頭兵。
圖3 知識發現系統研究的地區分布
1.1.2 文獻主題分析
1.1.2.1 關鍵文獻內容分析
胡瑋[1]調查985工程高校圖書館資源發現系統建設和應用現狀,統計和分析了數量、系統名稱、建設方式以及系統選擇幾個方面,認為要根據館情選擇系統。袁玉英[2]介紹了目前常用的四種資源發現系統,從功能性、可靠性、易用性、可移植性等角度對其進行分析比較,指出資源發現產品的不足和今后發展方向。王悅辰[3]從整合資源、發現知識、知識關聯與預測、文獻獲取方便度以及個性化服務等方面,對國內四大發現系統“中國學術搜索”“超星發現系統”“智立方發現系統”“學知搜索”的中文資源發現功能進行了比較分析,認為“超星發現系統”在各方面都占據優勢。朱前東[4]通過國外文獻調研和網站調查,將國外資源發現系統評價策略歸納為三種,即系統功能評價、系統可用性評價和系統使用績效評價。陳小磊[5]等人利用資源發現系統的特性研究了圖書館的學科服務內容。張為江[6]以用戶需求為中心、從知識服務平臺、用戶知識行為分析平臺、知識發現平臺、數字圖書館資源等方面對數字圖書館知識發現系統進行了論述。王灝[7]從圖情機構館藏和服務的問題入手,介紹了資源發現系統的概念和技術路線,并以“中國學術搜索網”為例,介紹了該平臺在資源發現服務中的總體設計、關鍵技術、核心功能和服務方式。張松巖和崔鵬[8]概述了發現系統的內涵和功能,對比國內常見的發現系統,提出發現系統引進和應用的措施。陳定權[9]等人介紹了WorldCat Local、EBSCO
Discovery Service、Summon、Primo四大具有集中索引倉儲的Web級資源發現系統,從內容索引、系統特性、檢索結果顯示三個方面對它們進行比較分析,測定出未來的發展趨勢。王海花和陸為國[10]在比較和評估發現系統的過程中,開展用戶體驗度量測試,結果表明,用戶體驗測試在一定程度上能夠反映不同廠商發現系統的優勢與缺陷,發現系統的信息質量影響著用戶的滿意度。竇天芳和姜愛蓉[11]介紹資源發現系統的產生背景、邏輯、結構、功能特點及體系框架,指出當前資源發現系統需要引起關注的兩個問題,以清華探索實踐為例,介紹使用經驗,創新出數據驅動新思路。王天虹[12]對基于超星發現系統的高校圖書館中文資源發現服務進行了初步評估,并比較了其與國外發現系統的不同之處。謝含[13]以超星發現系統為原始數據統計源,對2010年至2013年江西中醫藥大學發表的國內論文進行統計分析,通過對論文中文學科分類情況、作者、文獻類型、核心期刊、基金項目等項指標的統計分析,研究了大學學術發展狀況以及影響力。
1.1.2.2 內容主題分析
從知識發現系統相關文獻和系統的調查來看,目前圖書情報界對知識發現系統領域的主要研究分為以下幾個部分。(1)理論探索。這些文獻主要在早期,主要以內容統一檢索、一站式檢索、聯邦檢索、元數據整合、系統可行性等方面的研究居多。(2)實踐探索。主要內容是關于圖書館技術部門自身或聯合相關技術公司共同開發適合于圖書館使用的知識發現系統,這部分多數是原型和框架結構的研究,還有部分試用型產品,能用于正式使用的系統并不多。(3)對國內外知識發現系統的介紹、比較、選型。這個類型的文獻最多,主要是世界上三大發現系統的推廣和使用,超星中文發現系統的研究和應用。這些產品的應用給圖書館帶來了活力,也引發了一系列的討論和對比研究。(4)知識發現系統評價類、綜述類。主要是對發現系統本身的合理性、易用性等方面的研究。(5)利用知識發現系統對其他學科的分析。主要是基于國外三大發現系統、超星中文發現系統,利用系統本身的檢索和匯聚功能對各自學科的研究熱點、研究趨勢等方面的研究。(6)對發現系統本身優點、缺點的研究和思考,以及對發現系統近幾年來的使用效果的反思。(7)新信息環境下知識發現系統的更新和功能增強。這方面文獻較少,可能更值得去關注和研究。
1.2 知識發現系統的欠缺之處
根據文獻調研和瀏覽各廠商知識發現系統,可以看出,目前的知識分析系統已經做得非常實用,從功能、資源到使用友好度,都有了很大提高,但還有欠缺之處,其主要表現在以下幾個方面。(1)產品的成熟度方面。元數據的深度整合和標準化處理流程、網絡環境下的系統架構和智能化發現功能需要增強。(2)資源覆蓋率不足。(3)圖書館資源信息安全隱患,如數據的流失。(4)個性化、社交化功能欠缺。(5)資源推薦、數據挖掘、知識分析等方面有待加強。(6)信息滯后問題,特別是和館藏更新的匹配方面。
2 知識發現系統在新信息環境下的改進要求
目前,知識發現系統雖已在業界得到了一定的程度的研究和實踐,數據庫商、系統開發商主導開發的系統功能、用戶體驗、資源配置等方面都基本滿足了需求,但整個開發進程當中圖書館員和讀者參與度比較小,開發商不能及時了解用戶的需求,使得系統和用戶之間始終有一道隔膜,使用中也有很多不滿意的地方。這就需要主導產品的開發商積極聯系圖書館行業的專業人士、調研廣大的讀者,根據需求改進知識發現系統,使其成為用戶喜愛的產品。
2.1 大數據環境對知識發現系統的要求
大數據(Big data或Megadata),或稱巨量數據、海量數據,指的是所涉及的數據量規模巨大到無法通過人工在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。大數據復雜而無序,其內在的關聯性是其價值所在。大數據的核心是從海量數據中抽取相關內容,形成有價值的信息[14]。知識發現系統產生的基礎是資源的海量增長,目的是將書刊目錄、二次文獻、電子期刊、電子圖書等文摘或全文有效地加以利用,為用戶提供完善有效地知識挖掘、信息分析、趨勢預測。發現系統的基礎是大數據、全數據,發現系統包括結構化元數據和全文數據,更包括半結構化、非結構化的數據,建立關鍵詞表、機構庫、引文庫、作者庫、學科分類、刊種表、來源庫、學術專業詞庫同義詞表、單位產出庫等,來建立數據資源基礎。
2.2 新媒體環境對知識發現系統的啟發
一般來說,新媒體可以看做是利用網絡技術、數字和終端技術向用戶提供信息、娛樂服務的傳播形態[15]。一般包括數字雜志、報紙和廣播,手機上的微信、微博、電視、網絡以及桌面視窗、數字電視、數字電影、觸摸媒體等。新媒體平臺一般指的是微博、微信、各種APP、MOOC、播客、Wiki、RFID等等和傳播、服務有關的載體或技術平臺。知識發現系統應該跟進這些新媒體的發展,創新服務,做好用戶體驗,服務用戶。
2.3 移動互聯網、“互聯網+”環境下知識發現系統的跟進
截止2015年12月,國內移動終端設備擁有8.99億的活躍量,人均單日手機使用時長為2.36小時,人均單日啟動手機應用頻次為78次,在應用上微信和QQ處于領先地位[16]。任忠忠和胡德華[18]調查發現,大學生使用手機上網比較頻繁,使用移動搜索的機會比較多,上網頻率以“每天多次”為主,平均每天3次以上使用手機上網的用戶占54%左右,有32%的用戶使用手機上網的頻率為每天1-3次,已是移動搜索的一個龐大的穩定消費群體。知識發現系統應該順應移動互聯網的需求,開發出基于微信或“手搜”APP之類的移動化服務,以好用、易用、有效為上,牢牢抓住年輕大學生的使用習慣。
2.4 社交化、個性化對知識發現系統的需求
社交化、個性化是Web2.0概念的核心產物,很多產品都是基于SNS理念將產品帶上了盈利的道路。知識發現系統作為圖書館應用的重要產品,不應千人一面,應該結合本校系統的讀者庫,做到個性化服務、社交化服務。
3 知識發現系統功能改進的想法
在大數據、“互聯網+”、新媒體乃至全媒體環境下,知識發現系統必須從功能和體驗上改進,以便能在新環境下吸引用戶來使用。根據文獻和實踐研究,筆者設計新環境下知識發現系統的結構如圖4所示。從圖中可以看出,知識發現系統核心是大數據處理、預測;新媒體的引入;社交化服務的引入;多終端個性化輸出。
3.1 基本功能的完善
知識發現系統的基礎功能是:提供類似谷歌、百度的簡單搜索框,進行全文、全字段搜索,檢索結果列表頁包括相關結果(本館館藏書刊、電子圖書、電子期刊、學位論文、會議論文等),提供分面檢索(按文獻類型、時間、作者、機構、期刊等類型精煉檢索),提供檢索結果的多個全文下載途徑或者文獻傳遞入口。在點開某個具體記錄的結果頁面中,提供相關文獻推薦和文獻的相關引文。
需要增強的相關功能:(1)檢索結果最好能直接提供全文下載,將多個途徑一一列出,區分開CNKI、維普、萬方等數據庫,避免有時候某個數據庫暫時不能訪問的問題;(2)嚴格檢測檢索結果重復條目,區分是數據庫里面重復還是知識發現系統本身的問題;(3)館藏紙本資源可分成紙本圖書、紙本期刊,并且能用接口及時同步圖書館自動化管理系統中的書刊數據,本館館藏能顯示館藏地基本信息;(4)在搜索框中加入類似谷歌自動提示的功能,提高用戶搜索體驗;(5)對于用戶輸入錯誤能夠智能糾錯,如提示“你是否要搜索xxx”;(6)提供搜索推薦,如果讀者未能找到自己想要的資料,在頁面底部的檢索建議欄目為讀者提供更多選擇,如谷歌、百度、讀秀、e讀等等,或讓用戶嘗試“返回檢索框,檢查您的拼寫、修改檢索詞或擴展檢索條件”,或者轉向咨詢臺去在線咨詢或者留言;(7)收錄要全、相關度排序更準確;(8)收集用戶的搜索關鍵詞,對熱門搜索的關鍵詞做成標簽云圖,對讀者的搜索起到一個導向作用;(9)嵌入百科類產品、用戶評論、網摘、系統或自定義標簽等,將用戶的搜索名詞、地點等有定義和典故的顯示出來,以眾籌、眾包模式來解決用戶的問題,強化圖書館的知識交流中心功能,拉近用戶與圖書館的距離;(10)吸收更多OA資源。
3.2 大數據功能的支持
大數據對知識發現系統要求集成海量資源、資源深度加工、超強計算能力、穩定的檢索服務和優質的檢索效果。
海量資源的高度集成及深度加工需要與世界知名內容提供商進行一對一合作,授權獲取到最為全面、穩定、優質的題錄數據。對于OA資源,利用OAI-PMH等協議收割數據,利用爬蟲收錄、解析、加工和處理長尾站點。這樣就可能構建比較全面的元數據庫。
大數據處理能力上,TB、PB以及EB等級別的數據,可以進行實時計算、更新,然后深加工為優質學者庫、期刊庫、會議庫、機構庫等,為用戶提供更好的信息揭示服務。
檢索系統要穩定快速,檢索效果相關度要高,對此,可學習百度、谷歌的搜索技術,提供更好的檢索體驗。利用相關性計算,分析文獻他引情況、作者影響、影響因子、時間等因素綜合給出最為貼切的排序效果。
3.3 個性化、社交功能的引入
SNS社交網絡是Web2.0、Web3.0的核心理念和應用。人們在網絡上渴望交往和交流,喜歡記錄自己的心得、評論,將人類生活的社交圈子無限擴展。六度分割理論、小世界網絡理論、長尾理論是SNS的理論基礎。
知識發現系統的核心對象是資源和讀者,讓讀者活躍、讓資源流動和被揭示是其重要作用。要想做到這點,引入個性化和社交化是必不可少的。以人為中心,把相關興趣和學科的用戶聯系在一起;以資源為中心,把和此資源有關的書刊、電子資源、人推薦給使用者;提供檢索結果、命中條目打分、評論、推薦、添加標簽、認領成果等功能。圖5和圖6是基本功能示意圖。
3.4 文獻分析、知識分析的功能
知識發現系統中文獻信息分析、知識分析和知識圖譜的應用越來越多,將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,利用可視化圖形形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構為學科研究提供切實的、有價值的參考[18]。以超星知識發現系統為例,目前,該系統已經能做到以下幾方面。(1)知識相關鏈、作者相關鏈、作者機構相關鏈,將知識、作者、作者機構等立體關聯,追溯、挖掘學科與文獻信息的研究領域和研究方向。(2)學術發展現狀、預測未來趨勢。(3)提供同類主題、學科、領域等文獻資源的知識發展方向分析,方便研究某一學科領域或者主題方向的知識發展;挖掘分析多個主題、學科、領域等文獻資源的知識生長方向,便于發現不同學科領域或者主題之間的知識關聯性;提供不同機構的學術文獻生長方向分析,便于合理有效的利用和掌握機構的知識體系。(4)將檢索結果根據關鍵詞的類型、時間、作者、學科、學術價值等進行統計分析聚合,實現可視化查看統計結果。
但是,筆者在超星發現系統的“學術輔助分析系統”的實際操作中仍然發現一些需要改進之處。(1)在文獻計量方面,發文趨勢圖上應直接標出每年的發文量,這樣更直接和明晰。(2)在圖表的展示上應使用統一、簡潔風格(顏色、樣式)。(3)應加強合作網絡分析功能和作者、機構或者國家的合作網絡分析。(4)應加強主題、關鍵詞或WoS 分類的共現分析。(5)應加強文獻的共被引分析、作者的共被引分析以及期刊的共被引分析。(6)應加強文獻的耦合分析。(7)應支持聚類分析,探測文獻突變,得出研究熱點和趨勢等功能。(8)應支持多種記錄格式的導出,支持其他軟件的分析,擴大超星發現系統的通用性和知名度。
參考文獻:
[ 1 ] 胡瑋.“985工程”高校圖書館資源發現系統現狀分析和思考[J].圖書館學研究,2013(16):43-48.
[ 2 ] 袁玉英.常用幾種資源發現系統對比分析研究[J].圖書館工作與研究,2015(9):38-41.
[ 3 ] 王悅辰.國內四大中文知識發現系統比較分析[J].圖書館工作與研究,2015(9):42-45.
[ 4 ] 朱前東.國外資源發現系統評價策略研究[J].圖書與情報,2014(4):6-10.
[ 5 ] 陳小磊,季培培,王莉.基于高校圖書館學科服務的資源發現系統研究[J].農業圖書情報學刊,2015,12(12):25-28.
[ 6 ] 張為江.基于用戶需求分析的數字圖書館知識發現系統研究[J].圖書館理論與實踐,2014(9):83-85.
[ 7 ] 王灝,張正鋒,馮巍.圖情資源發現系統的研究與實現[J].數字圖書館論壇,2013(6):51-56.
[ 8 ] 張松巖,崔鵬.圖書館知識發現系統建設與應用研究[J].圖書館工作與研究,2014(2):54-57.
[ 9 ] 陳定權,盧玉紅,楊敏.圖書館資源發現系統的現狀與趨勢[J].圖書情報工作,2012,56(7):44-48.
[10] 王海花,陸為國.學術資源發現系統的用戶體驗測試研究[J].新世紀圖書館,2015(11):48-51.
[11] 竇天芳,姜愛蓉.資源發現系統功能分析及應用前景[J].圖書情報工作,2012,56(7):38-43.
[12] 王天虹.基于超星發現系統的高校圖書館中文資源發現服務[J].圖書館學刊,2014(8):72-74,78.
[13] 謝含.基于超星發現系統的數據分析:以江西中醫
藥大學國內論文為例[J].江西中醫藥大學學報,2015(3):95-98.
[14] 劉文遠,李少雄,王曉敏,等.大數據知識發現[J].燕山大學學報,2014,38(9):377-379.
[15] 百度百科.新媒體[EB/OL].[2016-03-10].http://baike.baidu.com/subview/339017/5403053.htm.
[16] 新浪科技.2015年中國移動互聯網研究報告[EB/OL].[2016-03-11].http://tech.sina.com.cn/2016-01-08/doc-ifxnkkuy7746197.shtml.
[17] 任忠忠,胡德華.大學生移動搜索特征研究[J].知識管理論壇,2014(3):45-52.
[18] 百度百科.知識圖譜[EB/OL].[2016-03-14].http://baike.baidu.com/view/5361633.htm.