陶丹
關于“大數據”的定義、內涵、是什么眾說紛紜、莫衷一是。但是,關于“大數據”的特點,卻得到專業人士的共識。在維基百科、百度百科以及各種語言發表的關于“大數據”文章中,對于”大數據”的4個特點達成了一致。即:Volume(數據量大)、Velocity(輸入和處理速度快)、Variety(數據多樣性)、Value(價值密度低)。維克托在其《大數據時代》中表述,大數據并不是字面上所表述的“大”,大數據的內涵是:數據量巨大的、全部的、混雜的數據。
根據維克托的表達,“大數據”是全部的數據。數據量的全面是“大數據”的主要特點之一。也可以講,只有提供全部的數據,才有可能應用“大數據”的解決方案。對于中國出版業來講,能夠提供全部的數據恰好是其重要特色。
1.與世界各國相比,中國出版業有歷史悠久的全部數據,完全夠格搭乘大數據的快車。
中國的出版業歷史淵源悠久,擁有大量的實物記錄,從公元前770~前221年的春秋戰國時期,就有利用竹木簡牘和縑帛記錄的信息。
公元前206~公元220年紙的發明和推廣使用,就有了利用紙記錄的信息。大約在公元7世紀的唐代,中國發明了雕版印刷術,就有了利用雕版記錄的信息。這也是中國出版業開始的標志。
10世紀下半葉到19世紀中葉,這一時期,發明了活字印刷術,印刷技術也不斷得到改進和提高,出現了套版印刷術。1840年鴉片戰爭以后,西方的現代印刷術傳入,圖書、報紙和雜志也有了迅猛的發展,中國擁有了活字印刷術記錄的信息。
1919年五四運動以后,特別是1921年中國共產黨成立后,在中國萌發了新型的人民出版事業。1949年10月新中國成立后,中國的出版事業開始進入嶄新的歷史時期,發展到目前網絡時代,我國已經擁有了數字化記錄的信息。
綜上所述,中國的出版業擁有從竹木簡牘和縑帛記錄的信息——雕版記錄的信息——活字印刷術記錄的信息——數字印刷記錄的信息這樣完整的、全面的數據,這些是中國出版業使用“大數據”的完美資本。
2.中國出版業在網絡時代急需變革,“大數據”的提出與其一拍即合。
出版業面臨眾多媒體的挑戰,特別是新媒體,分流著出版物的受眾群。受眾希望快捷、有效地獲得知識和信息,而不必換成其他媒介。大數據的應用將把這個愿望變為現實,或者說哪種媒介應用了大數據就將在媒介的競爭中取得先機。在各行各業都在探索引用大數據的今天,出版界如果仍固步自封,等來的將是被其他媒介的收購或兼并。
3.中國出版業要實現跨越式發展,必須注重“大數據”的應用。
大數據是21世紀信息高速公路上的高速列車。只要回想一下上個世紀80年代的激光照排的應用,有效解決了圖書出版周期長、出書慢的問題,從而推動了上個世紀出版業的持續發展的歷史,我們就能夠理解在媒體融合時代,如果人們仍然按照集約化調整、多元化經營、數字化生產的思路前行,已經很難取得跨越式發展的空間。所以只有從現在開始準備應用大數據的硬件、軟件條件,不失為引入先進生產力時機。
大數據不光是大,最為主要特色是全面的數據。只有擁有全面的數據才有可能和大數據結合得上。此外,對于有著悠久歷史記錄的中國出版業而言,使用大數據具有天生的優勢。還有,大數據的出現完全契合了目前中國出版業變革的需要。所以,“大數據”的應用是適合中國出版業的。