姚 毅
大數(shù)據(jù)是繼互聯(lián)網(wǎng)、Web2.0、云計算、數(shù)據(jù)挖掘之后,近兩年最為流行和最受關(guān)注的詞語之一。自從概念提出之后,其蘊含的巨大價值逐漸為人們所認知。美國等發(fā)達國家對大數(shù)據(jù)的研究極為重視,2012年,美國政府撥款2億美元啟動“大數(shù)據(jù)研究和發(fā)展倡議”計劃,將大數(shù)據(jù)的研究提升至國家層面[1]。我國對大數(shù)據(jù)研究同樣重視,科技部發(fā)布的“十二五”國家科技計劃信息技術(shù)領(lǐng)域2013年度備選項目征集指南中,關(guān)于大數(shù)據(jù)的研究(存儲設備)排在第一位[2]。隨著 IT業(yè)巨頭如 IBM、Microsoft、Google、Oracle等跨國公司相繼投入資金,推動大數(shù)據(jù)處理技術(shù)的快速發(fā)展,大數(shù)據(jù)的分析和研究在許多領(lǐng)域取得了巨大成功。在圖書館方面,國外的研究者進行了“關(guān)聯(lián)開放數(shù)據(jù)”和“圖書館數(shù)據(jù)監(jiān)管”的研究項目[3];梵蒂岡圖書館將多達8萬部古籍數(shù)字化后,放入存儲中,占用空間約2.8PB[4];清華大學利用元數(shù)據(jù)倉儲進行數(shù)據(jù)挖掘,建立可檢索多種數(shù)據(jù)源的檢索平臺,并利用關(guān)鍵詞分析作者與合作者的關(guān)系,建立知識關(guān)聯(lián)網(wǎng)絡[5];2013年10月25日,北京大學圖書館承辦了“大數(shù)據(jù)時代數(shù)字圖書館的變革與創(chuàng)新”學術(shù)研討會[6]。大數(shù)據(jù)正在成為當前圖書情報領(lǐng)域研究的熱點之一。然而,圖書館掘金大數(shù)據(jù)之路并不平坦,面臨著許多問題與挑戰(zhàn)。本文擬從大數(shù)據(jù)獲取與存儲、應用研究、分析與挖掘技術(shù)三個方面,探討圖書館應用大數(shù)據(jù)面臨的幾個問題。
關(guān)于大數(shù)據(jù),科學界給出的定義比較籠統(tǒng)?!?br>