近年來,隨著互聯網、計算機的飛速發展和技術進步以及人工智能軟硬件技術的發展和廣泛應用,數據作為記錄各種人類活動的一種重要資源而呈現出爆發式增長,而從海量的、非結構化的數據中獲取、處理、分析、挖掘其中有價值的信息成為國際國內政界、學界以及企業界關注的焦點問題。國務院在2015年印發的《促進大數據發展行動綱要》,成為首次從國家層面的信息化發展戰略角度把數據認定為國家的基礎性戰略資源,由此,數字化治理方式也成為提升政府治理能力的新途徑。
實證經濟學需要數據作為基礎,數據也是經濟指標形成的背后因素,在宏觀經濟研究、政策制定、經濟理論驗證、企業應對市場發展、個人做出經濟決策等各領域均有重要作用[1]。目前,大數據在經濟學和金融學領域中應用較為廣泛,拓寬了經濟和金融領域的實證研究,既能夠為經典研究問題提供新的視角,又可以用于研究最新的熱點問題。在經濟學研究領域中,文本大數據主要用于度量經濟以及相關政策等的不確定性、基于文本的行業動態分類、測度并預測商業周期,以及量化媒體的政治傾向和新聞需求等問題。此外,在金融學研究領域中,文本大數據主要用于度量投資者和媒體的關注度、不同市場參與主體的情緒或語調以及分析投資者出現的意見分歧等指標。
2016年生態環境部(原環境保護部)印發《生態環境大數據建設總體方案》,可以說是正式從政府層面開啟了“互聯網+生態環境”戰略,這個戰略對推動政府環境治理創新有著積極的作用。因此,大數據逐步成為環境治理的重要戰略資源和政府提升環境治理能力的重要手段,發展數字經濟也成為可持續發展的重要方向,同時,對于推動加快生態文明建設進程和生態環境治理能力現代化具有跨時代的重要意義。大數據中蘊含著重要的價值信息,文本大數據作為大數據的重要組成部分,是人類知識的主要載體。[2]非結構化的文本大數據作為一種新的數據源,也是最重要的信息載體之一,往往帶有明顯的領域特征和獨特的語言模式,也常常包含大量的專業詞匯,能夠為環境治理問題提供有效的信息和獨特的分析視角。例如,文本大數據可以用于測度環境政策的不確定性、量化媒體關注度以及輿論導向、不同環境治理主體的情緒對相應問題解決方式的影響、基于新聞的隱含波動因素等。
文本作為語言的視覺形式是人類最重要的交流工具,基于文本的信息隱藏算法具有很高的實用價值,文本的一個明顯特點是高度凝練,信息冗余少。[3]大數據中蘊含著重要的價值信息,文本大數據作為大數據的重要組成部分,是人類知識的主要載體。傳統的數據收集往往借助于紙質媒介,體量較小,數據獲取成本高,獲取時間相對滯后;而通過互聯網媒介進行文本數據收集和處理,不僅成本大幅降低,數據的可得性大幅增加,數據的體量也呈現幾何級數增長的特征。同時,隨著網絡平臺發布信息普及度的提高,除了傳統的政府職能部門和相關機構發布信息之外,微博、微信公眾號、朋友圈、論壇帖子等新媒體形式也逐漸成為數據來源的重要渠道,文本大數據的發布主體從單一向多樣化進行轉變,頻率變得更高。通過互聯網平臺積累起來的數據,就存儲在網絡空間中,文本信息即刻在網絡中留下痕跡,通過一定的方法和技術進行提取,信息獲取更加及時,數據獲取的成本也相對降低。通過利用互聯網大數據信息,可以獲取接近全體的樣本信息,海量的樣本量支持下,避免了由于信息不全面導致的錯覺以及判斷失誤,未來還將開拓更為豐富的數據源,如政府工作報告、規劃、書籍、檔案等。
文本信息挖掘的過程就是從海量的、非結構化的文本數據中獲取有價值的信息的過程。數據挖掘中的一個重要研究方向就是文本信息挖掘,目前文本信息挖掘技術在政府、企業以及各行各業都有廣泛的應用,通過文本信息挖掘的結果可以對政府、企業等決策的制定提供數據依據。[4]對信息的高度抽象提煉得到的就是文本數據,正是由于海量文本數據信息的存在,獲取、處理和分析文本大數據方面仍然存在一些問題,其中最重要的是從海量的文本數據中提取出所需要的核心信息并且保證信息的準確性和有效性,同時考察其對相應問題的解釋或預測能力。從技術層面來說,提取文本數據信息需要綜合考慮多種因素,這些因素既包含文本數據的來源、所處的語言環境、文本內容的長短、句式結構,也包含需提取信息的特征等,同時也要考慮信息提取的成本和收益。在綜合條件允許的情況下,可以采用相對復雜的統計學習和深度學習相結合的信息提取方法來提高信息提取的準確性,優化人機合作成為解決困難的重要方式。使用復雜方法時還需要保證這些方法的透明性和可復制性。最后還要注意的一個問題是,關鍵技術中的數據結構化轉換和文本數據信息提取,這兩個重要步驟的執行順序需要根據具體問題來分析決定,有時可能需要經過多次嘗試才能找到最優的決策方案。
現有環境領域主要有兩大類文本相關分析的問題,第一大類是對文本顯示的公民積極或消極情緒、輿論或者文件語調正負等進行區分的聚類問題,第二大類是度量相關群體情緒、輿論走向不確定性、社會恐慌程度、公民意見分歧程度等和其所對應的回歸問題。
因為情緒的變化可能會導致問題處理的結果不同,度量情緒并預測風險是文本大數據在環境治理領域的重要應用方向,典型的例子是鄰避效應。通常用“語調”來表示“情緒”,語調的不同表示了情緒的正面和負面、樂觀和悲觀、積極和消極等。根據情緒的主題可以對文本情緒的研究對象進行不同分類,主要包括媒體語調(媒體新聞)、管理層語調(當事公司管理層討論與分析、環評報告以及其他公開披露的信息文件)、公民情緒(微信轉發評論、微博熱搜、網絡論壇發帖)等。
度量媒體情緒的媒體新聞報道內容中包含的樂觀與悲觀情緒。通常來看,媒體負面語氣能夠解釋鄰避問題的風險和解決方案,但正面語氣卻沒有解釋能力。
管理層的信息披露往往能反映管理層的決策和意圖,信息公開不全面、甚至相關信息空白,環評報告獨立性存疑,相當于利益集團放大了鄰避效應,無助于問題的解決。
文本大數據挖掘技術的出現為度量公民情緒提供了新的數據源。第一個原因是,公民越來越傾向于選擇在微博、微信公眾號、網絡論壇上發布相關的評論或者做出相關搜索,這些文本數據能直接反映出公眾對類似鄰避事件的看法、對當前狀態的解讀和預期以及與自身決策相關的信息。第二個原因是,這些數據獲得性高且覆蓋群體范圍廣,滿足了從不同頻率、不同層面研究情緒與鄰避風險關系的需求。
傳統的數據指標和環境問題治理之間的關系不穩定,且只能反映部分信息,相對于傳統數據來說,文本數據覆蓋的領域更加廣泛、文本信息獲取主體更多、并且新聞內容可能與當前和未來狀態有更高相關性。利用文本數據度量公民關注的環境問題采用的主要指標有搜索指數、閱讀頻率數據和論壇發帖量等。媒體作為重要的信息制造者和傳播者,其關注和傾向一方面可以影響普通公民對環境問題治理的關注,另一方面也可以影響輿論信息的傳播效率和傳播模式。
媒體對環境政策的變動和未來趨勢可能產生很重要的影響,比較典型的例子是“PM2.5”、“霧霾”等關鍵詞在一段時間內在媒體中頻繁出現,推動了PM2.5的數據公開以及《大氣污染防治行動計劃》等一系列治理大氣污染改善空氣質量政策措施的出臺與實施。相比而言,傳統的自上而下的政策頒布實施時間跨度較長,而主流新聞媒體的新聞文本、網絡搜索短時間內同一關鍵詞頻繁出現,對新的環境政策的實施具有明顯的促進作用。
統籌規劃,協同推進文本數據資源整合,建設現代化高技術的數據中心,加強內部共享和動態更新;整合信息平臺,逐漸形成統一的互聯網文本數據平臺,實現信息的有效共享和開放交換;建立文本數據正負面清單,完善健全文本數據開放制度和機制,提高各政府部門和社會機構的文本數據開放熱情。
加強文本大數據處理和分析的技術創新、建立一體化的大數據平臺和完善的數據管理體系,通過對文本大數據的高效采集、有效整合,加強對政府數據的共享開放和社會數據的挖掘應用,提升環境問題決策能力,提高風險防范水平,進一步深化環境治理的精準性和有效性。
熟練掌握文本大數據需要跨學科領域的人才,專業的研究人員不僅需要對政治、經濟、金融、心理學、環境治理等領域有較為深入的認知和研究,同時還應掌握文本挖掘技術等較為豐富的知識基礎,了解不同算法的優缺點和典型特征,因此對高素質的跨學科復合型人才的需求量會大量增加,科研機構和高校等可根據自身學科優勢對此類跨學科復合型的研究人才進行培養。