姜 恒,郭淑霞
(北京市市政工程設計研究總院有限公司,北京 100082)
詞頻統計(Word Frequency Count)是一種詞匯分析研究方法,通過統計一定長度的語言材料中每個詞出現的次數,分析統計結果,以便描繪詞匯規律。信息可視化(Information Visualization)是將抽象數據用可視的形式表示出來,以利于分析數據、發現規律(或信息)和制定決策。隨著大數據技術的迅速發展,這些統計分析方法得到了廣泛的應用。如研制一套微博熱詞發現和分析系統,提供從微博數據中發現熱詞、情感分類等功能,以及綜合評價人們用自然語言描述同一路段道路通行狀況時該路段的交通擁堵程度。以交通領域項目信息為研究對象,進行數據采集、數據清洗、數據分析和數據可視化,希望了解國內交通領域項目近年來主要的關注領域、重點發展方向等。
國內近年交通規劃類項目最佳來源是招投標信息。我國2000年就開始實施的《中華人民共和國招標投標法》規定,采用公開招標方式的,應當通過國家指定的報刊、信息網絡或者其他媒介發布招標公告。原國家發展計劃委于2000年印發《招標公告發布暫行辦法》(國家發展計劃委第4號令),依法確定中國日報、中國經濟導報、中國建設報、中國采購與招標網(“三報一網”)為發布招標公告的媒介。2017年底,國家發展改革委印發《招標公告和公示信息發布管理辦法》(國家發展改革委第10號令),依法確定招標項目應當發布在“中國招標投標公共服務平臺”或者項目所在地省級電子招標投標公共服務平臺上,并且規定,“中國招標投標公共服務平臺”應當匯總公開全國招標公告和公示信息。這些媒體和網站積累了大量的項目信息,數據非常權威。
通過對比數據獲取難度、數量和質量,本文最終選擇了招標投標公共服務平臺作為數據源。
觀察獲得的數據,發現只有“項目名稱”和“所屬地區”二個字段具有分析價值,“項目名稱”內容都比較長,包含了過多的信息,屬于非結構化文本,如果能對每個項目名稱進行交通行業項目類型、領域的提取細分,形成一個標準的結構化數據庫,那么這次分析的結果會比較理想。但是這樣做需要投入較多的人工去整理數據庫,而且整理后的數據庫可能以后也不會復用,價值較低。
所以本文嘗試使用自然語言處理,通過中文分詞以后,進行詞頻統計,來挖掘出有價值的信息。
本文使用Python語言,采用selenium+chrome的方式、以“交通規劃”為關鍵詞采集了2個月、10 050條數據。
采集到的數據有二個問題,一是存在大量“交通規劃”不相關數據;二是數據存在重復現象,主要原因是招投標不同階段發布信息,以及匯總其他平臺信息產生的。清洗后數據剩下4 653條。保留“項目名稱”和“所屬地區”字段,刪除其他字段后進行分析。
對中文文本進行分詞是一個自然語言處理的基礎性工作,國內已經開發出很多中文分詞工具,本文使用了結巴分詞,其算法主要有三點。
(1)基于前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG)。
(2)采用了動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合。
(3)對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。
分詞工具提供了停用詞和自定義詞庫功能。本文用“停用詞”功能把不關注的詞剔除詞頻統計,如“重點”、“地區”等,以及沒有意義的單字詞“導”、“則”等,使用自定義詞庫功能加入專業名詞,如“綜合交通規劃”和“導則”等。在分析中,本文通過梳理部分招投標項目信息,定義了100個自定義詞。通過應用分詞工具的這兩個功能,本文得到和交通相關的詞語的詞頻統計。部分結果見表1。

表1 詞頻統計部分結果
數據可視化,是關于數據視覺表現形式的科學技術研究。數據可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。詞頻分析最常用的可視化方法是詞云圖,詞云圖對文本中出現頻率較高的“關鍵詞”予以視覺上的突出,形成“關鍵詞云層”或“關鍵詞渲染”,從而過濾掉大量的文本信息,使瀏覽者只要一眼掃過文本就可以領略文本的主旨。本文采用Wordcloud實現詞云圖。效果見圖1。

圖1 詞頻統計結果的矩形詞云圖
詞云圖還可以通過背景圖片定義形狀,使可視化效果更加生動。效果見圖2。

圖2 詞頻統計結果的馬形詞云圖
數據分析是核心,可視化只是表象,但是可視化是最終面對受眾的環節,直接影響到受眾對分析成果的認知和接受程度,所以非常有必要重視可視化的工作。
結合數據和圖表,大致可以看出交通領域關注的熱點。我們可以做出如下結論:在交通這個行業,“交通”、“規劃”、“道路”、“設計”是主流,“街道”、“綠化”是人民群眾對美好生活的向往,“軌道交通”的熱潮方興未艾,伴著大數據的浪潮,“信息”(化)越來越受到重視,“戶戶通”改善農村交通條件,讓偏遠地區的農民走出來,與外面的世界對接,經過多年的快速發展,我們國家開始從增量轉向存量發展,關注“公交”、設施“升級”、道路“硬化”,這些提質增效的項目,但是仍然能看出來,“開發區”依然是我們建設發展的重要手段。