詞頻，一部隱秘的歷史

2015-05-14 13:11:40岑嶸

讀者·校園版 2015年7期

關鍵詞：詞匯

岑嶸

早在2002年，谷歌就有了一個類似的將“全世界無產者聯合起來”的理想，這個理想就是把全世界的數字圖書館項目統一起來，谷歌由此開啟了Google Print項目。

到2010年，谷歌已經掃描了1500萬冊書，這時谷歌決定將已經掃描過的書的某些統計結果公開，這便是Google Books Ngrams。也就是說，書的內容不一定公開，但關于書的詞頻統計結果可以公開。輸入任意一個詞語，都會出來一幅像股票價格走勢一樣的詞頻走勢曲線圖。

當我們輸入“市場”和“價格”這兩個詞語后，會發現“價格”詞頻走勢的第一個高點出現在1955年，然后就一個猛子扎進海底;到了1967年，這個詞語幾乎消失在詞語的海洋中;然而在1976年，這個詞語以45度角的姿態重新躍出水面，向上飛騰。

而“市場”這個詞的詞頻走勢表現更讓人驚嘆，它的曲線在20世紀40年代只是有一些小的波動，和“價格”一樣，它在1976年左右猛然爆發，但是它的體量更加驚人，仿佛一頭座頭鯨，并且以接近90度角的勢頭向上攀升，如同一支射出的箭，到了1997年才到達頂點開始回落。

如果輸入“國家”和“個人”這兩個詞，我們會發現“國家”這條詞頻曲線總是遠遠高于“個人”這條曲線。從1970年到1990年，“國家”的詞頻曲線一路上揚，而“個人”的詞頻曲線則波瀾不驚，呈現出一條幾乎和橫坐標軸平行的曲線。

當我們將詞語換成“黑暗”和“光明”時，得到的詞頻曲線和詞語本身的文學性一樣復雜，“黑暗”和“光明”互相糾纏，彼此追逐。1964年到1971年間，“光明”獲得了短暫的勝利，把我們帶到這一段“陽光燦爛的日子”，然而有意思的是，在1972年“黑暗”超過“光明”之后，雖然彼此一直很接近，但“光明”再也沒有沖破“黑暗”。

我們來看看“腐敗”和“廉潔”的詞頻曲線吧。“廉潔”這個詞一直是躺在“地平線”上，從20世紀80年代開始抬頭向上攀緣，而“腐敗”的個詞頻曲線則野性十足，從1984年到1998年經歷了第一輪波瀾壯闊的“牛市”，指數從2000點一直上漲到9000點，一路上揚勢不可當，從1998年到2002年經過短暫的調整以后，2003年以更加凌厲的速度繼續上攻，輕松突破1萬點。

“敵人”和“偉大”這兩個詞的詞頻曲線從1940年開始飆升，在1974年同時達到最高峰后一路下滑，到了2004年，近9成的“敵人”被消滅，“偉大”也縮水了8成。

最后，我們來說說“人民”“群眾”和“公民”吧。“人民”的詞頻曲線從1945年筆直上揚，整個圖形像青藏高原一樣壯觀，而“群眾”的詞頻在20世紀50年代到70年代也頗具規模，只有“公民”就像在山腳下修建的一條小路，低調而含蓄。

那些如恒河沙數般的詞匯正靜悄悄地躺在電腦磁盤中，這些詞匯將為我們揭示出一部部隱秘的歷史。