譚躍
我曾讀到這樣一個觀點,數據化將使世界一切皆可量化。一切,當然也包含出版。這個觀點指出,過去年代的重點是在技術;而現在,人們聚焦在信息,也就是數據(Data)。Data的拉丁文本意是已知,是存在過的現實。
那么,數據化與數字化是什么樣關系呢?學術上有很多表述。我認為,在二進制的數字條件下,數據又做了進一步開拓,讓它更加實用,更加能夠運用到社會領域的方方面面。美國很多專家認為,數據無處不在。

美國專家認為,人類現在正進入一個新的時代,這個時代的“數據”事實證明,世界的本質不是原子,而是信息。也就是說,世界是由萬物組成的,過去我們對世界的認知是基于萬物由原子構成,而今專家們認為萬物的基礎不是原子而是信息。這讓我想到了老子在《道德經》中所講:“大道汜兮,其可左右。萬物恃之以生而不辭,功成而不有。衣養萬物而不為主,常無欲,可名于小。”不管是原子,還是數據,都是從不同角度回答什么是道的問題。其實,我們的祖先早在很多年前就已經闡釋了它。道,就是原子形式的物質,數據形式的信息,不同領域的道表現不同,所以它無處不在。
任何事物都不是從天而降的,都有一個歷史演化過程,都能找到它的根。在中國,這個根就是中國古老的思想文化。我們知道,佛教上有一樁公案,講的是釋迦牟尼在一次佛眾大會上,拈起了一枝花,高高舉起,什么都不說,注視著全場。大家都不明白他的意思,面面相覷,只有他的大弟子迦葉破顏一笑。正是這一拈一笑,彼此心領神會,后來釋迦牟尼就把衣缽傳給了迦葉。
這也是“拈花一笑”的出處。對此闡釋的學者很多,最有名的是南懷瑾先生。他與孔子的“一以貫之”聯系了起來。孔子跟曾子說:“曾參啊,我的道是什么呢?吾道一以貫之。”過去人們的理解是,講道的人做任何事情都要一以貫之。而南先生的理解是,道是一,因而要一以貫之。老子《道德經》講:“道生一,一生二,二生三,三生萬物。”這與我們前面講的“數據”是有聯系的,只是我們的先賢在當時的條件下已經以自身獨到的悟性作出了闡釋。隨后,孔子講完,曾子就說:“是,我知道了。”等到孔子一走,曾子的同門就問,“一以貫之”到底是什么意思呢?曾子說,“夫子之道,忠恕而已矣!”老師的道,只有忠恕而已矣。
孔子講的是“一以貫之”,而不是“二以貫之”,怎么用“忠恕”二字解呢?南懷瑾先生認為,這就是陰陽,一就是二,二就是三,三就是萬物。這就是中國古老哲學中的大數據。一是一切的一,一是一的一切。還有什么大數據比“一”還大嗎?這就是古代哲學觀與現代大數據的聯系。
不只如此。《易經》的三大原則——變易、簡易、不易,三大法則——象、數、理,也跟大數據的問題相關。象是現象,八卦就是8個現象掛在墻上,然后又演化成16卦、32卦和64卦,這些都是自然和社會的現象。大數據所描述的東西就是各個領域的現象。數,是數據。理,也叫辭,是對象和數的理性認識。象靠看,靠眼睛觀察。數靠算,也即是運算。理講判斷,也就是理性思維。象、數、理,最終是判斷。因此,有人提出的理論不存在的觀點是不成立的,只是理論建立在什么基礎上很重要;如果建立在象、數的基礎上,理還是有必要、有道理的。所以,在《易經》64卦的基礎上,孔子才寫了《十翼》,作了10篇論文,在“理”的層面把《周易》講清楚了。
了解這一文化內容,我們心中便有了數。俗話說“掐指一算”,“算”的背后是數,心中有數,算到心中有數的層面就定了。就像現在的出版業,如果對大數據背后的道理不理解就會產生畏懼,數字化還沒明白,又來大數據了?
中國人的思想中,什么事情發生了,大家會說“早有定數”,這是普通老百姓都會講的。但這些思想是哪里來的呢?比如,先天八卦、后天八卦,這些是數字。《易經》在漢朝時的研究被稱為“京房十六卦變”,也離不開數字。黃道十二宮,還是數字。當然,“十二宮”里面的數字就更復雜了。六十花甲,60年一個花甲,也離不開數字。十二生肖,還是離不開數字。前一段,我又翻出《洛書》來看,之前只注意它的圖案,這次帶著問題看,發現圖案的上面全是數字,還有一句話:“戴九履一、左三右七、二四為肩、六八為足。”《易經》中有“六爻之動”,講的是八卦的每一卦里有六個爻,“六爻之動,三極之道也”,它告訴我們的第一層意思是,天地之間雖然數字很多,但是真正有用的不會超過“六”。中國文化博大精深,中國先賢也是極具智慧。對此后來的科學家做過研究,除了極少的現象,萬事萬物的物理現象,基本上都是六個階段。它講的第二層意思是,“六爻”都在動,動的本質是什么呢?它告訴我們是“三極之道”,“三極”指的是天、地、人,也就是說,“六爻”是三極變化的法則。
這些都是古代人們的一種表達方式,現代人也許會認為這是非理性的,甚至是一種迷信說法。其實,這就是古人對科學研究的一種數據表達,只不過現在我們不使用、不研究了。
因此,從中國古代文化中可以看出,中國先人有很強的數字概念,而如今所講的數字、數據、大數據等,其實古已有之。
對大數據的理解,我們要正確去把握。數據本來就是有的,古人早就意識到了,并做了高度抽象的概括。只不過到了新的條件下,特別是到了大數據時代、云計算的條件下,它的作用和潛能被釋放了出來,只是和古代數據觀已不可同日而語了。這是第一個觀念。
第二個觀念是,哲學上講量變到質變,大數據其實也一樣。當數據大到一定程度的時候,事物的形態就發生變化了。大數據的意義就在于此,它已經不是原來的樣子了,或者說它是、也不是了。
舉個例子,法國拉斯科洞窟壁畫中有很多是馬的造型。畢加索參觀后開玩笑說,人類自這以后就沒有再創造了,畫來畫去,都是馬。然而,現在的科學家又從量變到質變的角度重新解釋,雖然一幅馬的圖案大同小異、十分相似,但是把它分成24幅,變成電影以后,性質就發生變化了。這就是數字帶來的變化。靜止“1”的時候它是一幅畫,到了動態“24”的時候它成為一部電影,性質發生了變化。
還有一個例子,是關于納米技術。納米技術告訴我們,把東西變小,變到分子量級的程度,物質形態、本質就會發生變化。比如銅,銅是可以導電的,分子級別的銅就不導電了。還有陶土,分子級別的陶土,就成了柔軟、帶有彈性的物質。再說金屬,金屬是硬的,分子級別的金屬是軟的,可以任意擺弄它。
這些例子都在說明“大數據”的概念早已存在,只是到了現代技術條件下,較為集中地體現了出來,但體現并揭示的仍然是哲學上的定律,量變到質變。這也就是大數據的意義所在。
第三個觀念,作為企業,過去最為強調的是有形資產,當然現在還作為一個重要的判斷標準,也就是企業規模。我們知道,與有形資產同樣重要的,還有無形資產。對出版業來說,那就是版權、商標、商號等。到了大數據時代,它又告訴人們,比這些還重要的是數據資源。一個企業做得好,數據也是投入,也是潛在的競爭力。比如美國蘋果手機公司,如果用有形資產去評估它,那它就沒什么了不起,如果用大數據的思維去評價它,那就不得了。因為像這樣的公司,他們擁有巨量的數據,并且每天還在增加。
第四個觀念,是主因。我們分析得知,大數據古已有之,只是現在集中體現了出來,那么主因是什么?我認為,是處理數據的能力在迅速提升。

大數據首先來源于哪里呢?一是來源于天文學,因為天文學的信息量巨大。二是來自生物學中對基因的研究。一個是宏觀,一個是微觀,這兩極的數據都是巨量的,以至于大到現在的計算能力都無法實現。因此,到了大數據時代,這就倒逼著科學家們處理數據的能力迅速提升。
再舉幾個例子。有資料顯示,2000年在美國新墨西哥州啟動的斯隆數字巡天項目啟動,用望遠鏡幾周之內收集的數據,比自人類有史以來收集的所有數據還要多。但到了2010年,智利利用巡天望遠鏡5天的時間就完成了它所有的運算,打破了新墨西哥州的記錄。2013年,中國的“天河二號”超級計算機,已經又把計算速度提高了幾倍,成為當時全球最快超級計算機。2020年,我國的神威·太湖之光超級計算機已經實現千萬核心并行第一性原理計算模擬,排名于世界前列。
10多年前,全球科學家聯手用10年的時間完成了31.6億個基因堿基對的排序。而今,這樣的工作量只需十幾分鐘完成。谷歌公司每天要處理超過24拍字節的數據,這意味著其每天的數據處理量是美國國家圖書館所有紙質出版物所含數據量的上千倍。Facebook每天更新的照片量超過1000萬張,每天的點擊量或者寫評論大約有30億次,點擊一次,就有大量的數據保留下來。當然,這些數據還在不斷增長。
那么,問題就來了:第一,大數據的核心是什么?第二,大數據的特點是什么?第三,關鍵在哪里?通過不斷學習,思路就慢慢清晰了。
首先,大數據的核心在于預測。對于出版業來說,早在幾年前,亞馬遜公司就已經開始使用大數據預測,預測市場需求、市場反應。這樣的預測,可以明確某一個人的閱讀領域是什么、最近的閱讀熱點在哪里,等等。不管是手機端、電腦端,只要使用一次就能留下數據,公司后臺通過數學模式計算運轉,結果就出來了。
其次,有人提出,大數據的特點有三個:一是數據更多,二是數據更雜,三是數據更好。這有一定道理。
數據更多,不是隨機樣本,而是全體數據。就是對一件事用全數據——即這件事的幾乎所有數據來預測,準確率將會大大提高。比如人口普查,與抽樣是相反的理念,抽樣最大的特點是用盡量少的數據反映更多更真實的信息,而大數據預測則與之相反。
數據更雜,不是精確性,而是混雜性。說的是越復雜、越紛繁的數據,預測將更有效、更接近真實。這種預測不是在追求每個數據的精確性,當一件事物的數據達到臨界點的時候,它的形態性質等可能就發生了變化。這與抽樣又不一樣,抽樣強調的是隨機性,不能帶入主觀意愿,犧牲的是數據的量。而大數據追求的是量,放棄的是精確性。
數據更好,不是因果關系,而是相關關系。比如沃爾瑪的歷史數據表明,一旦有颶風的時候,蛋撻的銷量就大增,不問為什么,不問因果關系,只問相關關系,就是一旦A出現了,B必然出現。所以沃爾瑪就把蛋撻和雨傘、手電筒等颶風用品放在一起,銷量大增。這就是相關關系,也就是讓數據說話,只說現象,不問原因。
最后,關鍵在哪里?我歸納有這樣幾條:一是整體性,就是關于某個事物數據的整體性,而不是隨機、抽樣、代表。二是既然有了大數據,就必然呼喚云計算處理能力。三是容錯,如谷歌公司為了做翻譯平臺,它建立了上萬億的語料庫。這些數據都是互聯網上已經發生過的數據,其中大多是廢舊數據,所以會出錯,那么容錯才能接近真理。四是相關性。它的核心是量化兩個數據值之間的數理關系。簡單說,就是此長彼長或此消彼長的關系,A情況出現時B情況必然出現的關系,就是相關關系。
聯系實際,我有這樣的體會:一方面,傳統出版人要正視這一問題,有必要清楚大數據的由來、爆發的主因,及其核心、特點和關鍵所在,這是大勢所趨,也是發展方向;但另一方面,要充分估算到互聯網、數字化、大數據、云計算等對出版的影響,以及又是如何影響的,還要對此進行總結。
15世紀印刷機被發明出來以后,它帶動了一次世界性的信息爆炸。印刷機面世以后,大約出版了1.3億冊圖書。到2010年,也就是谷歌的數字化圖書計劃實行7年之后,大約有2000萬圖書被掃描成了數字圖書,這幾乎相當于人類所有書寫文明的15%;也就是說500多年產生的信息量,它只用了7年就完成了。這還只是一家公司,還沒有完全展開來做。
大家知道亞馬遜,它的優勢是Kindle(電子書閱讀器)。在Kindle上閱讀的重復率、標記次數以及畫線次數會有數據留存,這都是讀者的重要信息。可是亞馬遜都把它藏在那兒,不愿意跟出版商共享,因為出版商也不愿意把版權跟它分享。前面我們也講了數據無處不在,如今大數據已經運用到各個行業,從未來的眼光看,它一定會繼續深刻的、長期的影響社會生活的各個方面。
再回到出版業,我們需以辯證的眼光來看待。
第一,究竟改變的是什么呢?數字化已經并將持續改變我們圖書生產和管理流程,并部分改變呈現方式、閱讀方式和營銷方式。我還是比較保守的,不太相信顛覆論。因為結果往往不是專家預測的,而是消費者來決定的。我的簡單判斷是,像我這樣的人,正常情況閱讀還有 30年,我們的選擇傾向主要還是紙質書。但是改變是必然的,現實已經改變了,并且還將更大地改變。
第二,凸顯的問題是什么呢?是內容的海量,以至于泥沙俱下,難以選擇。我們打開各種數字化的端口,只要打開就會感覺到什么都有,但困惑的是不知道如何選擇。現在有了監管,效果是好了很多。
第三,最終稀缺的是什么呢?稀缺的是有效內容的搜索,以及重大思想成果的選擇和獲得。這一方面表現了不管是互聯網,還是大數據,都在不斷成長中,另一方面也說明傳統出版的努力依然有著巨大空間。
第四,比較難辦的是什么呢?難辦的是內容主體的孤島化。剛才說到亞馬遜,各大書商和亞馬遜之間,雖然各有資源優勢,但之間卻是屏蔽的。這雖然是幾年前的數據,但主體的孤島化以及內容數據化的商業模式還是有待探索與開發。
第五,數字化和數據化,改變著關于內容生產的市場預測、加工方式、管理過程、呈現樣式、交易方法,但是沒有改變內容本身的價值。沒有改變傳統出版人原來所擁有的立點,就是內容這個立點沒有改變;也沒有改變內容創新的主體地位,特別是不會改變精神產品生產的規律,即是說規律是不會改變的。

前些年,美國人在歡呼、崇拜大數據的同時,也發現了問題。比如,有人問喬布斯,蘋果公司經營得這么好,市場是怎么調研的?喬布斯說沒有調研,并接著說,消費者沒有義務去了解自己想要什么,這是生產者的事。這是一個反向的例子,不用大數據預測卻成功的例子。還有一個,500多年前哥倫布發現新大陸,沒人做過預測,沒人有數據概念,更沒有大數據概念,但是一個歷史性的重大發現誕生了。還有,福特時代沒有數據顯示,汽車可以代替馬車,但是汽車這個重大發明也誕生了。這些都說明,大數據是管用的,但是更大的數據,比大數據更大的數據是什么呢?是源于人本身,是人的創造力、直覺和天賦。我們的先賢哲人,那個時候都不具備大數據的運算能力,依靠的就是他們的智慧,給我們留下了豐厚的文化遺產,這種智慧源于直覺,靠的是人自身的悟性,對事物規律的把握。
因此,我們要看到,數字化、大數據對傳統出版帶來了知識的集成、需求的判斷、趨勢的把握、搜索的便捷以及跨界的鏈接。這不僅是挑戰,更重要的是商機,是發展空間,是文化的傳承。科學再怎么發展,它不會改變出版的本質——選擇。比如,孔子年代占卜書不少,著名的、上了《左傳》的、和《周易》一樣地位的就有兩本。但是孔子最后列入“六藝”的只有《周易》。沒有這方面內容的選擇,就不會有后來《周易》的地位。《詩經》也是一樣,也是孔子選擇的結果。看上去一個簡單的、具體的編輯工作,帶來的是長久的社會影響和偉大的思想成果。
歸根結底,我們應積極認真地對待并研究數字化、大數據等科技手段給出版帶來的影響,應跟隨時代步伐、適應時代要求,為傳統出版在新的技術條件下尋找出路,繁榮發展出版業。
(摘自8月2日《人民政協報》)