大數據時代下圖書館數據挖掘和情報分析研究

2018-01-14 13:21:10王繼華

河南圖書館學刊 2018年11期

王繼華

關鍵詞：?大數據時代;圖書館數據挖掘;情報分析;中文發現系統

摘要：?大數據時代，對大量數據進行挖掘、分析、處理、提取成為圖書館服務升級及服務范圍拓展的主要工作內容，而海量數據中存在的暗數據對相關數據的實際應用價值造成了嚴重的阻礙。文章以大數據時代圖書館中文發現系統數據挖掘及情報分析功能為例，結合大數據的概念及應用特點，對大數據時代圖書館的數據挖掘及情報分析進行了探究，旨在為大數據時代圖書館服務效率的提升提供一些參考。

現階段，全球信息總量呈爆炸式增長，大數據時代已經到來。目前學界還沒有明確的關于大數據的概念，一般來說，大數據主要是指管理PB級的數據存儲，并通過數據挖掘及情報分析技術，獲得對應數據的潛在價值，從而為相關人員提供信息數據支持。圖書館大數據主要用于學術性質的數據集合，其在數據大小方面遠遠超出了常規運行軟件可以承受的處理范圍。因此，對圖書館大規模數據進行分析，對數據挖掘及情報分析技術進行適當探究具有非常重要的意義。

1 大數據的特點

相較于以往的海量數據而言，大數據具有價值密度低、多樣性、體量大、速度快的特征。大數據時代，人們可以利用數學運算的方式對內部數據進行綜合分析，從而得出相應事件的未來發展趨勢，獲得未知領域相關學術信息的關聯性。大數據時代，系統、完整、全面的數據深度剖析，可以對以往知識體系進行逐步完善，并獲得更深層次的知識脈絡，如亞馬遜、奈飛依據用戶類似查詢，可以進行相關產品推薦，從而提高對應商品的銷售效益。

2 大數據時代下圖書館的數據挖掘及情報分析的困境及優化思路

2.1 大數據時代圖書館數據挖掘困境及優化思路

大數據時代，數據科學得到了迅速的發展，圖書館大數據開發處理效率得到了有效提升。首先，大數據時代圖書館內部學術信息資源規模的提升，對圖書館數據挖掘工作提出了更高的要求。大數據時代，數字館藏規模不斷擴大，數據類型也呈現出多樣化的特征。以往隨機取樣的大數據分析方法，已不能滿足現階段圖書館數字化服務的要求，再加上大數據環境中相關數據價值往往隱藏在海量數據中，單一的機器及取樣方式已無法獲取相應數據的細節問題。針對這種情況，在數據挖掘模型構建過程中，圖書館就需要進行分布式計算框架的設置，如利用Spark、Map Reduce等軟件進行集群計算環境的設置，同時，結合數據前期清洗也可在時間一定的情況下獲得相應的文獻關聯信息。其次，隨著圖書館內部數據類型的多元化發展，圖書館數據也由以往的多維、一維逐步轉化為巨維。而在巨維數據分析過程中，以往多維數據模型就無法發揮良好的分析能力。在這種情況下，圖書館就需要結合主成分分析、奇異值分解等維度規約技術，適當降低數據維度，保證數據模型的可靠性。最后，在當前數據挖掘分析過程中，圖書館仍然無法在常規數據挖掘任務中有效識別詞語語義關聯、近義詞或同義詞的聯系，如信息檢索、自動摘要等。此時，短文本處理環節就無法保證整體數據文獻處理的效果，再加上目前圖書館數據知識庫在規模及應用方式上的限制，也對圖書館提供全方位的數據信息服務造成了一定的阻礙。筆者認為，以上問題都可通過應用語義處理技術加以解決，即適當提升相關數據挖掘算法的語義化等級，提高整體數據的處理效率。在語義處理過程中，圖書館主要依靠中文知網、WordNet、維基百科、互動百科等結構化程度較高的知識庫，結合Word2 Vcctor工具的應用，進行大規模預料詞語矩陣的建立，以便為圖書館圖像、視頻、語音挖掘效率的提升提供依據?[1]。利用語義處理技術還可以將音頻數據轉換為文本，并通過聲音信號時間位置的記錄，提高整體音頻數據標準的準確性。結合語義標注方式及微信等社會化API網絡接口的設置，圖書館也可以確定相應數據概念的本體，便于明確信息間的聯系，構建多維度知識處理網絡。

2.2 大數據時代圖書館情報分析困境及優化思路

以往圖書館情報分析大多為專利資源、Web資源、文獻資源等文本信息，而現階段數據源除文本數據外，還包括科技計劃項目立項書、政府公文、科技報告等非機構文檔，致使傳統數據情報分析的弊端日益凸顯。同時，基于大數據存儲量的TB或PB級別，圖書館還需要在統一數據非結構情報分析模型中，進行有效信息抽取算法的設置，以便實現多數據源情報的有效融合?[2]。在大數據情報分析數據挖掘算法設置過程中，圖書館需要在以往關聯規則、分類算法的基礎上，對分析結果的準確度要求進行螺旋式處理，并設置相應的實時數據動態情報分析工具，以保證大量情報資源的有效分析。以往圖書館情報資源大多為純凈情報資源，相關資源可采用人工分析方式進行清洗，而在大數據時代，數據規模的巨大化導致大量臟數據存在于圖書館數據庫中，這對整體數據分析的真實性造成了嚴重的影響。針對這種情況，圖書館可以對半結構化、非結構化數據進行預處理，利用特征屬性提取的方式將冗余數據去除，然后對相應數據進行集中整合分析，以保證情報分析的效率。

3 大數據時代下圖書館中文發現系統數據挖掘及情報分析

3.1 中文發現系統機理

大數據時代，圖書館中文發現系統主要是在非結構化數據、結構化數據、半結構化數據的基礎上，利用現代化數據儲存及挖掘工具，結合搜索引擎技術的應用，對圖書館內部及外部各項學術信息進行深度挖掘探究，以便為圖書館用戶提供更加全面的服務?[3]。中文發現系統數據挖掘具有發現知識、洞察全局、價值再生的效果。其中，發現知識主要是針對圖書館內部工作人員與圖書館用戶之間的數據進行搜集，通過對信息資源的深度關聯分析，可在資源與服務之間建立系統聯系，提升信息搜索定位的效率;洞察全局主要是在統一的文獻信息資源中，將各個獨立的信息模塊進行有機整合，從而形成一個完整的情報分析系統，便于全面分析研究學習趨勢，為文獻機構提供全局形式的文獻學術信息;價值再生主要是對文獻內部資源立體聯系的總體分析，通過對學位論文、圖書、期刊等文獻資源的關聯分析，可確定最終學術發展的趨勢，便于挖掘圖書館大數據暗信息。

3.2 中文發現系統引文及學術源流分析

在實際應用中，圖書館中文發現系統可以提供圖書間、圖書與期刊、期刊間、期刊與圖書的前后引證聯系，同時也可以為圖書館用戶提供施引文獻列表、鏈接及被引文獻列表、鏈接，為相關學術反向研究提供有效的數據支持?[4]。現階段，圖書館中文發現系統已擁有7，000多萬條的引用分析數據，而引文關聯數據總體數量也在11億條以上。通過對圖書、期刊、會議論文等相關學術文獻的立體引文分析，圖書館可進一步完善立體服務網絡。在中文發現系統運行過程中，圖書館可以綜合利用抽象、歸納等多種統計學和數學方法，對內部學術對象引用、被引用情況進行統一概況敘述，便于獲得相應學術資源內部學術情報特征。在實際應用中，中文發現系統引文分析功能可以打破時間、空間及學科的限制，通過有序化的學術文獻排列，從外向內、由表及里地對相應學術文獻進行量化分析，這有利于明確學術研究環節文獻引用頻率，進而確定相關研究科目的影響情況。同時，中文發現系統引文研究也可以明確不同學科間的聯系和不同文獻信息要素間的引證關系及其信息來源特征，而通過對相關文獻信息被引用頻率、引用頻率的關聯分析，也可以明確相應學術文獻的老化規律，以便確定相關文獻的學術價值。圖書館中文發現系統主要具有知識相關鏈條、作者相關鏈條、作者機構相關鏈條等幾個方面的搜索功能。其中，知識相關鏈條主要是對知識源頭、知識主體、知識活動進行相關關聯分析，通過立體知識鏈條的設置，確定相關知識主體之間的聯系。通過對知識主體、作者機構、作者立體聯系的分析，圖書館可確定對應學科、文獻信息及學術關聯的關系，為學術信息與文獻信息建立反向聯系，為后續學術研究提供有效的數據支持。圖書館中文發現系統學術源流功能的作用是在以往單一文獻資源研究單位的基礎上，進行深入分析，對學術文獻中數據與對應研究單位之間的聯系進行逐步明確，最終形成知識概念鏈條。在實際應用過程中，圖書館中文發現系統的學術源流模塊可以從單向、雙向線性兩個方面對整體知識關聯鏈狀架構進行合理分析，直至得到需要的信息?[5]。?結合文獻基本要求，中文發現系統還可以對文獻學科領域與文獻學術寫作人員之間的信息關聯進行綜合分析，并依據學術文獻創作人員所在機構的特征，進一步創建機構間的聯系，從而確定相應學術研究人員的工作方向及對應學術研究的發展趨勢。

3.3 中文發現系統知識關聯及生長方向評估

圖書館中文發現系統主要是在提供同一主題、領域及學科學術文獻信息的基礎上，對相應知識關聯及生長方向進行合理評估，并對不同主題、領域及學科的學術文獻信息進行挖掘分析，從而確定相關學術研究機構之間的聯系。在圖書館中文發現系統中，知識不僅僅是一個立體網絡架構，而是具有較為廣闊的空間范圍。而相關學術知識間也具有較為密切的聯系，相關知識間的聯系也被稱為知識延伸及情報分析的關鍵節點，因此，為了保證知識間組織的科學性及實際效用，圖書館對知識關系進行科學管理就顯得非常重要。知識關聯是知識發現、知識創造的節點，其在知識載體間聯系的判定方面具有重要的作用。而通過某個知識點的觸發，也可以帶動另外的知識點過渡到迅速發展階段，以便對同一主題或不同主題間學術產出情況進行綜合對比分析，并得出不同學術研究的發展情況。在學術領域一定的情況下，對相關學術知識的關聯度分析，也可以確定相關學術研究行為的連續性及生長方向，以便建立具有學術參考價值的學術研究體系?[6]。

3.4 中文發現系統可視化及智能輔助評估

圖書館中文發現系統可視化功能主要包括學術要素查看、學術檢索結果輸出等模塊，同時還可以提供研究主題、學科關聯對比分析曲線圖表、圖書文獻現狀及生長方向可視化處理等服務。圖書館中文發現系統主要利用計算機可視化技術，對統一結構化文獻進行深度剖析，并利用對比、歸一等數理方法，將學術文獻創作時間、學術文獻創作人員、學術文獻創作類型、學術文獻價值等相關要素進行集中整合，形成系統科學的數理統計分析文件，并結合計算機可視化圖表處理，展示相關學術研究的主題熱門程度，為相關學術研究人員提供更加直觀的學術研究參考信息，為其學術研究工作的正常開展及明確開題方向提供依據。圖書館中文發現系統智能輔助模塊具有檢索關鍵詞相關詞條解釋、期刊及圖文導航、用戶搜索行為分析、學術研究產出推送、用戶潛在搜索需求主動推送、常用學科分析推送等功能?[7]。現階段，圖書館中文發現系統在運行過程中對智能輔助系統的應用，徹底改變了以往單一用戶檢索詞輸入、提交、尋找的信息檢索模式，通過主動信息推送的形式對圖書館用戶檢索詞輸入環節信息輸送需求進行自動評估，并為其提供相關文獻信息的來源及類似信息。

3.5 中文發現系統趨勢評估

圖書館中文發現系統趨勢分析主要包括產出量指標劃分、學術發展現狀展示、規定時間段學術發展趨勢總結、學術信息發展趨勢深度挖掘及相關主題關聯指標搜索等。圖書館中文發現系統趨勢分析主要是通過對搜索主題、篇數等數字性質資料的分析，確定指標一定時多個連續關聯之間的增減變動趨勢變化。在中文發現系統實際運行過程中，文獻搜集人員可以通過主題搜索，獲得相應主題變動趨勢數字曲線，并結合相關內容數據，得出對應學術主題的發展情況。而對不同年代的學術主題進行數據分析，有助于對學術發展的趨勢進行預估判定，以便為后續學術研究主題的確定提供數據指導?[8]。在圖書館中文發現系統學術變化曲線中，若相應曲線在某一環節處于波峰階段，則表明相應環節內相關主題學術研究工作的開展較為頻繁;若相應曲線在某一環節處于波谷階段，則表明相應環節內該主題學術研究處于低迷狀態。

4 結語

綜上所述，大數據時代下的圖書館數據挖掘及情報分析工作主要是指在新技術思維的指導下，針對現階段圖書館數據處理需求，從智能輔助、生長方向分析、趨勢分析等方面進行多模塊數據挖掘系統的構建。而在基礎數據挖掘及情報專業分析的前提下，通過第三方軟件或其他技術工具的應用，不僅可以展示圖書館內部學術資源的關聯情況，而且便于相關決策數據進行單個圖像元素的描述，從而為數據各個屬性值的多維展示提供有效幫助。

參考文獻：

[1] ??史夢楚.數據挖掘在大數據時代下的應用?[J].?中國新通信，2017（8）：88.

[2]?劉春霞.基于數據挖掘的用戶借閱行為分析：以河南理工大學圖書館為例?[J].圖書情報導刊，2017（8）：1-8.

[3]?程晏萍.大數據在高校圖書館中的數據挖掘?流程及應用分析?[J].高校圖書情報論壇，??2016（3）：33-35.

[4] ?張宏偉，史惠媛.數據挖掘在高校圖書館文獻采購決策中的應用：以黑龍江中醫藥大學圖書館為例?[J].中國中醫藥圖書情報雜志，2016?（2）：22-24.

[5]?李艷，呂鵬，李瓏.基于大數據挖掘與決策分析體系的高校圖書館個性化服務研究?[J].圖書情報知識，2016（2）：60-68.

[6]?陳靜榮.圖書借閱分析系統的數據挖掘技術?[J].農業圖書情報學刊，2017（2）：69-72.

[7]?王紅.數據挖掘在數字化圖書館中的應用研究?[J].農業圖書情報學刊，2016（1）：39-41.

[8]?余鵬，李艷，呂鵬.高等院校大數據挖掘與決?策分析體系的應用研究?[J].現代教育技術，??2016（8）：102-108.

河南圖書館學刊2018年11期

河南圖書館學刊的其它文章: 面向新型智庫建設的高校圖書館服務與發展研究; 數字化轉型背景下黨校圖書館學科數字資源整合研究; 基于知識分類技術的數字圖書館知識服務模式研究; 論政府購買圖書館公共服務的管理與評價; 《國家珍貴古籍名錄》（一至五）碑帖拓本評審述略; 基于WCF的圖書館數據集成檢索研究