岑嶸
早在2002年,谷歌就有了一個類似的將“全世界無產者聯合起來”的理想,這個理想就是把全世界的數字圖書館項目統一起來,谷歌由此開啟了Google Print項目。
到2010年,谷歌已經掃描了1500萬冊書,這時谷歌決定將已經掃描過的書的某些統計結果公開,這便是Google Books Ngrams。也就是說,書的內容不一定公開,但關于書的詞頻統計結果可以公開。輸入任意一個詞語,都會出來一幅像股票價格走勢一樣的詞頻走勢曲線圖。
當我們輸入“市場”和“價格”這兩個詞語后,會發現“價格”詞頻走勢的第一個高點出現在1955年,然后就一個猛子扎進海底;到了1967年,這個詞語幾乎消失在詞語的海洋中;然而在1976年,這個詞語以45度角的姿態重新躍出水面,向上飛騰。
而“市場”這個詞的詞頻走勢表現更讓人驚嘆,它的曲線在20世紀40年代只是有一些小的波動,和“價格”一樣,它在1976年左右猛然爆發,但是它的體量更加驚人,仿佛一頭座頭鯨,并且以接近90度角的勢頭向上攀升,如同一支射出的箭,到了1997年才到達頂點開始回落。
如果輸入“國家”和“個人”這兩個詞,我們會發現“國家”這條詞頻曲線總是遠遠高于“個人”這條曲線。從1970年到1990年,“國家”的詞頻曲線一路上揚,而“個人”的詞頻曲線則波瀾不驚,呈現出一條幾乎和橫坐標軸平行的曲線。
當我們將詞語換成“黑暗”和“光明”時,得到的詞頻曲線和詞語本身的文學性一樣復雜,“黑暗”和“光明”互相糾纏,彼此追逐。1964年到1971年間,“光明”獲得了短暫的勝利,把我們帶到這一段“陽光燦爛的日子”,然而有意思的是,在1972年“黑暗”超過“光明”之后,雖然彼此一直很接近,但“光明”再也沒有沖破“黑暗”。
我們來看看“腐敗”和“廉潔”的詞頻曲線吧。“廉潔”這個詞一直是躺在“地平線”上,從20世紀80年代開始抬頭向上攀緣,而“腐敗”的個詞頻曲線則野性十足,從1984年到1998年經歷了第一輪波瀾壯闊的“牛市”,指數從2000點一直上漲到9000點,一路上揚勢不可當,從1998年到2002年經過短暫的調整以后,2003年以更加凌厲的速度繼續上攻,輕松突破1萬點。
“敵人”和“偉大”這兩個詞的詞頻曲線從1940年開始飆升,在1974年同時達到最高峰后一路下滑,到了2004年,近9成的“敵人”被消滅,“偉大”也縮水了8成。
最后,我們來說說“人民”“群眾”和“公民”吧。“人民”的詞頻曲線從1945年筆直上揚,整個圖形像青藏高原一樣壯觀,而“群眾”的詞頻在20世紀50年代到70年代也頗具規模,只有“公民”就像在山腳下修建的一條小路,低調而含蓄。
那些如恒河沙數般的詞匯正靜悄悄地躺在電腦磁盤中,這些詞匯將為我們揭示出一部部隱秘的歷史。