[摘要]大數據時代的到來,給情報研究帶來了機遇和挑戰。本文分析了大數據對情報工作的影響,然后討論了在此環境下情報研究的新變化,在此基礎上探討了幾種可用于情報方法研究的大數據分析技術。
[關鍵詞]大數據環境;科技信息;情報服務
當數據和黃金一樣,成為一種新的經濟資產,當科研處于以數據為基礎進行科學發現的第四范式,當數據開始變革教育,這些無不宣告著我們已經進入了大數據時代。不同的學科領域,正在不同的層面上廣泛地關注著大數據對自己的研究和實踐帶來的深刻影響,情報研究領域也不例外。
1、情報研究邁入大數據時代
大數據又稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。研究機構Gartner給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的特點是數據體量巨大、數據類型繁多、價值密度低、高速變化實時處理。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。對于在數據分析領域扮演重要角色的情報研究工作而言,大數據的理念和技術既帶來了機遇,也帶來了挑戰。一方面,在大數據時代,情報研究工作正在得到空前的重視,大數據為情報研究的新發展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數據時代本身也要求各行各業重視情報研究工作,這就必然使得眾多學科有意識地涉足到以往作為專門領域的情報研究之中,并將其作為本學科的重要組成部分加以建設?,F代情報研究已經邁入了大數據時代。
2、大數據對情報工作的影響
2.1研究領域全域擴展
各領域中的情報研究從視角、方法上的相互借鑒,社交網絡分析方法、空間信息分析等其他學科的分析方法正廣泛應用于軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發,情報學中的引文分析等文獻計量方法被借鑒用于網站影響力評估??梢暬?、數據挖掘等計算機領域的技術,為情報研究提供了有力的技術視角,情報研究獲得的知識反過來又給予其他技術領域的發展以引導。在情報研究過程中,不僅僅局限于就本領域問題的分析而分析,而將所分析的內容置于一個更大的情景下做通盤考慮,從而得到更為嚴謹的結論。
2.2多數據源綜合利用
在大數據環境下,情報不在局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,也更為細化。這導致單一數據源不能滿足分析的要求,需要不同類型的信息源相互補充。不同信息源可以從不同角度揭示問題,可以較為直觀地反映研究者對某種科技問題的理解與描述?,F實中通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代。
2.3情報研究嚴謹智能
在大數據環境下,利用情報分析技術在一定程度上避免人的主觀性,通過多種技術手段或采用不同的算法避免由技術產生的偏見。情報研究由定性化分析轉變為定量化分析,將各種信息資源轉化為計算機可理解、處理的形式,采用同級、數據挖掘等方法加以計算,獲取隱含的知識。
3、大數據環境下的科技信息技術
3.1語義處理技術
語義技術提供了機器可理解或是更好處理的數據描述、程序和基礎設施,整合了Web技術、人工智能、自然語言處理、信息抽取、數據庫技術、通信理論等技術方法,旨在讓計算機更好地支持處理、整合、重用結構化和非結構化信息。核心語義技術包括語義標注、知識抽取、檢索、建模、推理等。語義技術可以為信息的深層挖掘打好基礎,即通過對各類信息的語義處理。在獲取的富有語義的結構化數據上使用各種數據挖掘算法來發現其中的潛在模式。
3.2可視化分析技術
可視化分析是通過交互式可視化界面促進分析推理的一項技術,它涉及多學科的領域,一是分析推理技術,使用戶獲得直接支持評價、計劃和決策行為的見解;二是可視化表示和交互技術,利用人眼的視覺能力觀察、瀏覽和理解大量的信息;三是數據表示和交換,支持以可視化和分析的方式轉換各種類型的異構動態數據;四是支持分析結果的產生、演示和傳播的技術,能與各種用戶交流有適當背景資料的信息。可視化分析的核心是推理過程,它從各種假設和證據的混合信息中利用人的判斷得到結論。第一建立推理、意會、認知和感知的理論基礎,創建視覺激活的工具用來分析推理復雜動態數據。第二建立基于認知和感知原理的可視化表示原理,有助于利用可重復使用的組件,可視化表示原理必須能處理各種數據、各種尺度和復雜度的信息,通過信息融合實現知識挖掘,推進分析推理,提供從低級交互到復雜交互的技術來處理不同的顯示環境和任務。第三開發一種將數據轉換到新的可擴展表示的理論和實踐方法,能忠實地表示原來的數據信息,把各種類型與各種來源的數據信息合成一個統一的數據,并能對數據的質量、可靠性和確定性進行度量。第四開發獲得響應行為、分析評估和決策建議的方法和工具,通過使用合適的可視化形式和可接受的推理和圖表示原則和用戶進行交流,同時考慮安全和隱私問題。第五使用基于組件的軟件開發方法來進行可視化分析軟件的開發,并開發新的可視化分析技術的評估方法。
3.3數據挖掘技術
數據挖掘是從存儲于數據庫、數據倉庫、數據集市或者其他非結構化的信息倉庫的大量數據中挖掘出有用知識的過程。數據挖掘融合了數據庫、人工智能、機器學習、統計學等多個領域的理論技術,是利用各種分析工具在海量數據中發現模型和數據間關系的過程,使用這些模型和關系可以進行預測,幫助決策者尋找數據間的潛在關聯,發現被忽略的因素。數據挖掘技術同當前傳統的情報方法比較,情報獲取方式由人工搜取擴展到機器自動抓取;情報分析上升為多維分析,目前采用基于數據挖掘技術工具軟件對多種資源進行自動采集、自動分類和去重等處理,從海量信息中及時準確地篩選關鍵情報信息,通過系統自動化與人工干預相結合的方式,經過可定義的處理流程,作為了解各類信息的重要渠道和決策輔助支持的工具,從而提高快速反應能力,無論從體系結構上還是從具體方法上,數據挖掘算法都能夠很好地融合到情報系統中去。
4、結束語
大數據的理念和技術為情報研究的理論和實踐帶來了機遇,也帶來了挑戰。本文分析了大數據環境下情報研究的若干變化,討論了情報研究中值得關注的技術問題,以期能為促進情報研究的理論和實踐的發展添磚加瓦。
參考文獻
[1]謝新洲.發展情報方法研究對大數據挑戰[J].圖書情報工作,2014
[2]李廣建,楊林.大數據視角下的情報研究與情報研究技術[J].圖書與情報,2013