王芷筠,常杪*,周黎,郭培坤,谷美楓
1.清華大學環境學院 2.攀枝花市生態環境局環境信息與技術評估服務中心
自1989年《中華人民共和國環境保護法》出臺以來,我國已制定并發布上百項國家級環境法律法規及數以萬計的各級環境保護政策。這些法律法規與政策構成了我國環境保護政策法規體系,是政府及企事業單位環境管理人員處理各項環保工作的基本依據與行為準則,也是環境管理研究的重點對象。
然而,在政策應用方面,我國鮮有能全面覆蓋各級環境政策且不斷更新的政策法規庫來作為管理實踐的依據。在政策研究方面,傳統的內容分析法也受限于人工編碼的巨大工作量,其覆蓋的政策文本量通常較小且局限于特定主題。如許陽等[1]抽樣選取161項與海洋環境保護相關的政策分析其整體演變趨勢;楊志軍等[2]基于中央政府發布的43個環境治理政策文本探討我國政府在環境治理工具選擇上的特征與偏好;Liao[3]以231項環境政策為研究對象,分析我國環境政策工具在環境創新方面的特征。隨著我國環境政策法規的不斷細化與政策數量的快速增加,純人工分析方法的局限性日益凸顯。因此,通過文本挖掘等計算機技術輔助開展環境政策的信息提取、內容分析以及智能化管理應用具有重要意義。
將文本挖掘技術應用于基于英文語料的環境類文本分析已有較為成熟的實踐。如Rivera等[4]運用文本挖掘技術從新聞中提取特定地區的可持續發展指標;Boussalis等[5]對超過16 000份與氣候變化相關的文本進行主題提取和計算。然而,由于中英文文本在單詞詞表和句法結構的巨大差異,基于英文語料的研究方法和成果難以直接套用至中文語料。
目前,針對中文語料的文本挖掘研究通常依賴于開源的中文分詞工具。近年來,已經有研究人員嘗試將這些工具應用于環境政策的文本分析。研究者通過對政策文本進行詞頻統計與計算,獲取環境政策的焦點變遷、時空分度、價值維度等多角度信息。如徐一方等[6]應用中國科學院研發的ICTCLAS漢語分詞系統,對上海、重慶、天津3市的環境政策與江蘇、浙江、上海的水污染政策進行了詞頻計算與價值分析;張卉等[7]采用Jieba中文分詞包,對住房和城鄉建設部信息公開網站中,涉及“綠色改造”和“美麗鄉村”相關的政府文件進行分詞,其計算結果反映出政府村鎮建設工作重點從農村基建向人居環境保護的轉變趨勢。
上述政策分析研究相比于傳統的內容分析法擴大了研究文本的體量,使得研究結論具有更高的可信度。然而,由于現有分詞工具缺少環境類專業詞庫,政策文本分詞的準確度有待提升。考慮到政策文本的精準分詞是將非結構化的政策內容轉變為計算機可處理的有效數據信息的必要條件,不完善的分詞結果局限了文本挖掘技術在環境政策分析與管理中的深度應用:如在政策分析方面,現有研究所覆蓋的文本量相對于環境政策總量仍相對較小,且難以捕捉基礎詞庫中缺失的環境領域新興概念;在政策智能化管理與應用方面,專業詞庫的缺失也限制了自動分類、關鍵詞提取、文本摘要等文本挖掘技術的應用效果。
為改善文本分詞效果,筆者以各省、自治區生態環境廳及各直轄市生態環境局政府網站公開的環境政策為語料基礎,通過新詞發現算法與人工補充修正,構建了環境管理領域專業詞典,并以生態環境部信息公開文件為例,驗證了添加專業詞典對環境政策文本分詞、關鍵詞提取以及自動分類等文本挖掘算法的改善效果。
本研究旨在通過構建環境管理領域的專業詞典,改善文本挖掘技術在環境政策分析與智能化管理中的應用效果。因此,全面獲取我國現有環境政策,構建環境政策法規庫是研究分析的基礎。
經Python爬蟲程序爬取、文本批量去重以及人工篩查3個環節,共獲取生態環境部網站發布的8 543條環境政策法規文本,以及各省(區、市)生態環境廳(局)官網發布的26 279條環境政策法規文本。文本類型包括地方性法規、規章、規范性文件,環境標準,環保規劃,政策解讀及其他生態環境保護相關的信息公開文件等。從各地區政府網站爬取得到的政策數量見圖1,其發布年份分布見圖2。

圖1 由各省、自治區及直轄市生態環境廳(局)官網獲取的環境政策法規數量Fig.1 Number of environmental policies and regulations obtained from the official websites of China’s provincial departments (bureaus) of ecology and environment

圖2 各年份發布環境政策法規的數量Fig.2 Number of environmental policies and regulations issued every year
考慮到各省(區、市)環境政策公開的內容范圍、完整度及系統性均存在較大差異,將以省(區、市)級環境政策作為構建專業詞典的語料庫,以生態環境部網站發布的環境政策作為應用驗證的對象。
專業詞庫構建可采用基于人工和基于計算機算法的2類方法。由于人工構建詞庫存在主觀性強,工作量大,難以全面覆蓋各類專業詞匯等問題,而純計算機方法則難以保證構建所得詞庫的專業性,本研究將以新詞發現算法為主要方法,輔助人工判斷和補充完善,構建適用于環境管理與政策分析的專業詞庫。詞庫構建流程如圖3所示。

圖3 環境管理專業詞庫構建流程Fig.3 Process of developing environmental management lexicon
中文詞匯可根據是否已收錄至現有分詞工具的基礎詞典分為已登錄詞和未登錄詞。其中,未登錄詞又稱新詞,其存在是影響分詞準確度、限制文本挖掘技術應用的主要因素[8]。例如,現有分詞工具詞典中不含有“固廢”“再生水”等常見的環境專業詞匯,政策文本分詞在遇到上述專業詞匯時就容易出現錯誤,進行詞頻統計、關鍵詞提取、政策分類等時也難以捕捉相應詞匯所涵蓋的信息,進而影響了基于統計的環境政策分析效果。因此,發現新詞并應用于相應的專業領域是文本挖掘預處理的必要環節。
主流的新詞發現方法可分為基于統計和基于規則2種類型[8]。前者通常綜合考慮詞語內部互信息與邊界信息熵[9],并根據不同的基礎語料,結合邏輯回歸模型[10]、Trie樹[11]等計算規則或計算方法優化新詞發現的效率與結果。后者則依賴于人工構建詞性與語義規則,一般應用于特定專業領域的新詞發現。
2.1.1內部互信息篩選
點間互信息(pointwise mutual information,PMI)反映相鄰字或詞之間的緊密程度。其計算公式如下:
(1)
式中:x、y為相鄰的字串;xy為x和y組合而成的詞;p(x)、p(y)、p(xy)分別為x、y、xy在語料全文中出現的概率。PMI越高,說明相鄰字串的共現頻率的緊密程度越高,x、y二者越可能構成一個固定詞匯。
對于較長的詞匯,詞串內部應處處緊密。如PMI(源,解析)與PMI(源解,析)均超過閾值時,才能認為“源解析”是一個固定詞匯。因此在互信息計算的基礎上,引申出詞語內部凝固程度的概念:對于二元詞串AB,其凝固度即為PMI(A,B);對于三元詞串ABC,其凝固度為min[PMI(A,BC),PMI(AB,C)];對于四元詞串ABCD,其凝固度為min[PMI(A,BCD),PMI(AB,CD),PMI(ABC,D)];以此類推。
為保證計算效率,環境政策文本的內部凝固度計算參考了Github開源程序[12]。通過比對不同閾值的篩選效果,最終確定篩選規則為:對字串長度為N的詞串,其凝固度需大于等于N-1。該閾值在盡可能保留有效詞串的前提下,控制了無意義詞串的數量。
2.1.2邊界信息熵篩選
互信息反映了詞串內部的緊密程度,而邊界信息熵則用于評判詞串是否有豐富的左右搭配。左、右信息熵計算公式如下:
(2)
(3)
式中:Hl(x)與Hr(x)分別為詞串x的左、右信息熵;sl與sr分別為詞串x的左鄰字集合和右鄰字集合;p(wlx|x)為詞串x出現時其左鄰字為wl的條件概率;p(xwr|x)為詞串x出現時其右鄰字為wr的條件概率。
詞串左、右信息熵越高,說明其左右相鄰字越不確定,該詞串越可能成為一個獨立的詞匯。研究在凝固度篩選得到詞串集合的基礎上,進行邊界信息熵計算,以校驗詞串是否獨立于其兩側文本。
2.1.3規則篩選
由于互信息與信息熵選用的閾值均優先保證了詞庫的完整性,因此篩選得到的結果含有較多的無效詞匯。基于以下2條語義相關規則對無效詞匯進行處理:1)剔除含有停用詞的詞匯結構。停用詞指在文本中頻繁出現,但本身不具有實際意義的字或詞[13],如“的”“這”“與”等停用詞,其對應的剔除詞匯包括“的決定”“這一系列”“運行與維護”等。2)詞頻篩選。專業詞庫所包含的詞匯應該具有一定的政策分析意義,因此,本研究的環境管理專業詞庫僅保留在語料庫中出現次數大于等于5次的詞匯。
由于上述新詞發現方法均依賴于詞串出現的頻率,而環境標準中出現的術語與指標通常具有專業性強、使用頻次低的特征,因此采用人工提取的方式,以匯總得到的2 195條環境標準為依據,對常見環境指標和術語進行補充。
此外,經上述篩選得到的詞庫仍包含個別無意義詞匯以及一些從文本分詞角度來看不必要保留的多詞元組合詞匯,如“采用國際標準”“提供司法保障”等,也需采用人工篩查的方式進行剔除。
經上述計算與分析,得到18 633個環境政策文本常見詞匯。以常用的自動分詞工具,即Python編程語言Jieba分詞組件的自帶詞庫為對照,在所得環境管理專業詞匯中,10 166個詞匯為未登錄的新詞,占總詞庫的54.6%,其主要類型與舉例見表1。

表1 環境專業未登錄詞主要類型及舉例
由于文本挖掘的計算分析中,需要將專業詞庫與分詞工具自帶詞典整合,來作為分詞計算依據,因此領域詞典構建的重點在于補充的未登錄詞是否全面且具有實用意義。由表1可知,基于新詞發現算法與人工篩選補充得到的Jieba未登錄詞整體上呈現出較為明顯的專業特征,全面覆蓋環境管理的各個角度,且能體現出相對新穎和熱門的環境管理概念。
此外,通過計算與篩選得到的8 467個已登錄詞中,多數詞匯為日常生活中常見的基礎詞,如“小型”“奧運會”“人身安全”等,這些詞匯出現于環境政策文本中,但專業特征不明顯;也有少數詞匯呈相對明顯的環境專業特征,如“亂砍濫伐”“高污染”“水土流失”等等。
以生態環境部官網發布的環境政策法規文件為分析對象,結合中文分詞工具,對專業詞庫在環境政策法規文本信息提取與智能化管理方面的應用進行了以下實證。
常見的中文分詞工具包括Jieba、ICTCLAS、LTP、THULAC等[14]。這些工具均可通過Python編程語言加載使用。其中,Jieba分詞工具包含多種分詞模式,可滿足語句精準切分、詞串全面掃描、長詞二次切分等多樣化的研究需求;且經少量文本測試,Jieba分詞工具對環境管理類用戶自定義詞典適配效果最佳。因此,本研究選用Jieba分詞工具精確分詞模式對環境政策法規文本進行切分。
3.2.1分詞結果舉例
以生態環境部辦公廳2020年發布的環辦水體函〔2020〕52號第二條[15]中部分內容為例,在未添加環境管理專業詞典時,分詞結果如下:地方/生態環境/部門/要/督促/城鎮/污水/處理廠/切實加強/消毒/工作/,/結合實際/,/采取/投加/消毒劑/或/臭氧/、/紫外線/消毒/等/措施/,/確保/出水/糞/大腸菌群/數/指標/達到/《/城鎮/污水/處理廠/污染物/排放/標準/》/(/GB/18918/—/2002/)/要求/。
添加新詞后,上述語段分詞結果如下:地方/生態環境/部門/要/督促/城鎮污水處理廠/切實加強/消毒/工作/,/結合實際/,/采取/投加/消毒劑/或/臭氧/、/紫外線/消毒/等/措施/,/確保/出水/糞大腸菌群數/指標/達到/《/城鎮污水處理廠/污染物排放標準/》/(/GB/18918/—/2002/)/要求/。
可以看出,添加新詞后的分詞結果保留了更為緊密的詞串概念,如“城鎮污水處理廠”,且減少了原有分詞存在的錯誤,如原分詞結果將“糞大腸菌群數”切分為3個詞串。分詞效果的改善有利于文本數據處理與分析時更精準地提取信息單元。
3.2.2分詞效果評判
評判文本分詞效果的指標包括召回率(recall rate,R),準確率(precision rate,P),以及結合二者的綜合評價值(F)。其中,R為算法正確識別的詞數與實際詞數的比值,%;P為算法正確識別的詞數與分詞得到的總詞數的比值,%;F為準確率和召回率的調和平均值[16],%。F的計算公式如下:
F=2PR(P+R)
(4)
以隨機選取的50條政策文本為測試對象,比對人工分詞結果,得到未添加專業詞庫的分詞效果與添加專業詞庫分詞效果見表2。由表2可見,添加專業詞庫后,文本分詞效果有明顯的改善。

表2 文本分詞效果比較
政策文本分詞詞頻統計常用于分析政策熱點問題。結合原始文本的時間與空間信息,還可用于探究政策的發展演變趨勢與時空分布特征。
分別使用Jieba原有詞典與補充專業詞庫后的優化詞典對生態環境部信息公開的政策文件進行分詞與詞頻統計,統計新增專業詞匯最高頻的前20項及其出現頻次見表3,對2種方法下計算得到的前100項高頻詞根據詞頻數繪制詞云見圖4。

表3 新增詞典高頻詞前20項及其詞頻

圖4 原有詞典分詞與優化詞典分詞詞頻統計前100項高頻詞Fig.4 Top 100 high-frequency words based on original dictionary and optimized dictionary
相較于Jieba原始詞庫的計算結果,新增詞庫后所得分詞統計結果呈現出更為多樣的專業概念。同時,由于新增專業詞庫包含相對新穎和熱門的專業詞匯,詞頻計算結果也能更好地支撐各類環境政策的演變趨勢分析與地域性特征探究。
關鍵詞提取是文本挖掘技術應用的重要領域之一,也是文本摘要、文本檢索等技術的應用基礎[17]。基于文本關鍵詞提取的詞頻統計與共現性計算常用于環境類文本的計量分析、聚類與可視化[18-19]。與詞頻分析類似,現有研究多受限于人工提取關鍵詞的較大工作量或人工設計關鍵詞的主觀性,研究過程與結論可通過結合關鍵詞自動提取技術進行優化。
全面且有效的詞庫是準確提取關鍵詞的基礎。采用改進的TF-IDF算法,在過濾停用詞的基礎上,對生態環境部發布的政策文本進行關鍵詞提取,并比對了添加詞庫前后的提取效果。
3.4.1改進的TF-IDF算法
TF-IDF算法是無監督文本關鍵詞提取的經典算法之一[20]。TF(term frequency)指詞串在全文中出現的總詞頻。IDF(inverse document frequency)指逆文檔頻率,用于詞頻加權,如果一個詞串在某些文本中出現頻率高,而在其他文本中出現頻率低,則認為該詞串具有較好的類別區分能力,應具有更高的權重。改進的TF-IDF算法將TF優化為詞串在全文中出現的次數占比,以避免長文本造成TF過高的情況[21]。改進的TF-IDF的wdt計算公式如下:
式中:mdt為詞串t在文本d中出現的頻次;Md為文本d的總詞數;N指用于關鍵詞提取的全部文本總數;nt指詞串出現的文本總數。計算結果越大,說明該詞串在所出現的文本中越重要。
3.4.2關鍵詞提取效果對比
以生態環境部2020年發布的政策文本為研究對象,對每個政策文本提取5個關鍵詞,依加權計算得到的詞串重要性排序。相對于未添加專業詞庫的情景,添加專業詞庫后,多數政策文本的關鍵詞提取結果得到優化,能更充分地體現原文核心內容,且符合人工判斷的預期。關鍵詞提取結果舉例見表4。

表4 關鍵詞提取效果對比(舉例)
由于環境政策法規文本數量的不斷增加,人工進行文本分類與整理的難度也明顯上升。因此,文研究自動分類是文本挖掘技術在環境政策智能化管理方面的重要應用之一。
選取生態環境部發布的2 275項政策法規文本,根據其針對的環境要素分為水環境、大氣環境、土壤環境、聲環境、海洋環境、自然與生態環境、固體廢物、核與輻射、氣候變化、綜合類、其他共11個類別。其中,綜合類指涵蓋多種環境要素的政策文本,如政策法規同時涉及水環境與土壤環境問題。其他類指不明確涉及特定環境要素的政策文本,如“環境保護模范城市”“部門預算”等相關政策。各類政策數量見圖5。

圖5 政策法規人工分類結果Fig. 5 Result of manual policy classification
對上述人工分類結果,隨機選取其中80%的政策文本作為訓練集,將另外20%的政策法規文本作為測試集,采用TF-IDF加權方法將分詞后的政策法規文本轉化為向量,并分別選用3種常見的機器學習模型,即貝葉斯模型、邏輯回歸模型以及支持向量機模型[21]進行自動分類測試,將自動分類結果與人工分類結果進行比對,計算自動分類正確率,結果如表5所示。
上述分類模型在處理具有不同語言特征的語料時,其效果存在差異。計算結果表明,無論是否添加詞庫,支持向量機模型對環境政策法規文本的自動分類效果都為最優,因此實際應用中建議使用支持向量機模型進行自動分類處理。使用該模型時,新增詞庫有助于分類正確率的提升,自動分類錯誤的政策法規數量從22下降到17,分類誤判數量相對降低了22.7%。

表5 測試集自動分類正確率
為改善政策文本分詞效果,促進文本挖掘技術在環境政策分析與智能化管理的應用,通過新詞發現算法與人工補充修正構建得到環境管理專業詞庫。詞庫構建方法可用于領域專業詞匯的持續更新,以滿足隨環境政策法規文本增加而不斷發展的政策分析和智能化管理需求。在詞庫構建的基礎上,通過詞頻統計、分詞效果比對、關鍵詞提取、文本自動分類等應用實踐,驗證了詞庫的實用價值。