本刊記者|陳旭管 編輯整理
大數據看兩會
——百分點數據新聞的探索
本刊記者|陳旭管 編輯整理
編者按:今年“兩會”期間,民生、互聯網、文化、創業、環保、人工智能等熱門議題廣受關注。兩會新聞滾動刷屏,哪個話題被提及最多?如何從中讀懂中國未來?大數據有奇招!
數據新聞報道分為四個環節:對原始數據的收集,對數據的分析和過濾,將數據可視化,形成具體的新聞報道。在數據收集方面,百分點通過輿情系統,全面覆蓋網媒,及時抓取信息,準確分析語義,配合輿情分析模塊,深度理解群眾對熱點的討論態度。其中網絡輿情數據抓取方法如下:
監測方法:相關的新聞、論壇、貼吧、微博、微信歷史數據在限定的時間段內進行爬取;通過文本分詞、數據預處理,利用tfidf模型計算每個詞語的權重,形成詞語的熱度;對相關信息進行聚類或分類并判斷其正面、中性或負面情感。

監測周期:過去半年。
統計指標:聲量(關注度)、話題熱度、話題情感等。
最后形成數據可視化報告,分析兩會熱詞和群眾討論的聲量走向。

從2016年起,百分點公司支撐新華社有關部門關于“兩會”大數據新聞報道的需求,依托百分點公司的輿情系統和文本分析系統,為新華社有關部門提供穩定、可靠的大數據技術支撐,開展“大數據看兩會”系列專題建設。系列報道及可視化產品在新華社“兩微一端”平臺落地。
在2017年新華社與百分點合作的“大數據看兩會”新聞報道中,主要盤點了2014至2017年兩會熱點話題,并針對以下維度做了分析:
①歷年兩會期間的話題關注榜; ②歷年男性、女性、不同年齡、不同職業群體的關注點,以及所屬地域劃分;③歷年兩會期間點贊(瀏覽)數最多的報道,被哪些群體熱議?
2017年兩會,百分點公司還與人民日報中央廚房、中國日報等媒體合作推出專題。
百分點輿情系統監測于2017年3月1日至9日對新華網、人民網、網易、新浪網、今日頭條、搜狐網、新浪微博等全網數據,進行分析解讀,通過解讀發現如下輿情趨勢:
①發展是根本,也是兩會最重要的話題。

②北京新浪微博用戶討論兩會的參與度再創新高,達24.1%,較2016年上升約12%。廣東、上海、山東、江蘇仍是兩會討論的活躍地區。

③分析各地區人群對兩會熱點關注的差異。





黨和國家領導人參加團組審議和討論的情況,是外界重點關注的話題。在與中國日報合作的兩會專題中,百分點公司首先根據相關議題關鍵字進行數據收集,其次通過運用模型算法,文本分析系統識別非結構化文本,還針對領導人參加團組會議的輿情進行情感分析,話題和口碑檢測等業務。
百分點公司與人民日報社、新華社、中國日報等央媒的合作主要包括兩會前收集數據,預測熱點話題,到通過輿情系統、模型算法、文本分析系統支撐兩會專題報道。從這些合作中可以看出數據新聞已經成為媒體行業的迫切需求,也是媒體轉型發展的趨勢。對媒體機構而言,大數據技術已經滲透到新聞報道的各個環節,包括:挖掘新聞熱點;追蹤事件提升新聞報道質量;利用數據可視化表達創新新聞報道形態;實施精準用戶畫像;量化建立媒體平臺的傳播力指標并評估傳播效果;利用分布式計算、機器學習等多種手段,分析用戶使用特點和規律等等。