文/新華社“中國網事”總編 李俊

《“詞云”提醒:城鎮化還需以人為本》配圖。(新華社/發)
“天上一片云,地上一張網”。數字時代的瞭望者以此描述新的傳播格局。一方面,海量數據以幾何級數在“云端”匯聚;另一方面,媒體、自媒體井噴般地采集、生產新數據和知識。
這是大數據時代令人興奮的信息圖譜,也是擺在媒體工作者面前的時代難題。大數據采之為財富,存之則如糞土。未經分析、挖掘的大數據,百無一用。大數據時代的主要矛盾是社會日益增長的龐大的數據生產、存儲能力和媒體、受眾貧瘠的數據分析、加工能力間的矛盾。
今年3月,新華社新媒體專線首次采用“詞云”技術報道全國兩會,媒體用戶和讀者盛贊“新風撲面”。但如果把這項小小的技術升級放在“大數據之問”的時代背景下,它的意義和啟示也許才能彰顯。
所謂詞云,就是利用語言分析技術,對大數據文本進行詞頻分析,并生成可視化圖像的技術。由清華大學計算機系自然語言分析實驗室開發的中文“詞云”就像一把打開數據之門的鑰匙——十萬字的文本,“讀懂”只需幾秒鐘,還能飛快生成“趨勢化、可視化”的圖表。
十年來的兩會文本、文獻浩如煙海。政府工作報告如何讓公眾“聽得懂,愿意聽,記得住,能管用”?艱深專業的預算報告如何讓公眾像“看緊”自家賬本一樣“看緊”公共賬本?如何看懂文字背后十年來的成就與變遷?
新華社采編人員和清華大學年輕的工程師們在“摸著石頭過河”的狀態中,“試”出了《“詞云”提醒:城鎮化還需以人為本》等一批新報道。在這些稿件中,詞云技術分別被用來分析文本本身,得出帶有趨勢性的結論,并配以精準解讀。
在一個越來越開放透明、公眾和媒體擁有同步獲取大數據能力的時代,在圖閱讀、淺閱讀盛行的時代,媒體的價值在于將那些看起來雜亂無序的數據進行篩選、分析、解讀,讓讀者“見所未見”,和讀者一起發現數據背后的真相。這需要人性化的眼界,也需要智能化的技術。詞云只是朵朵白云中的一朵,而已。