張 睿,趙志杰,,韓 凌,李曉亮
(1.北京大學環境與能源學院,廣東深圳 518055;2.北京大學環境科學與工程學院,北京 100871;3.生態環境部環境規劃院,北京 100012)
產品是經濟活動的核心,也是包括營銷、服務關系在內的各種經濟關系的載體。公眾對產品的環境健康風險認知感受,不僅影響著消費行為與產品的市場表現,也為環境管理帶來新的途徑和手段。充分披露環境信息能有效發揮這種基于公眾的產品環境管理,為引導公眾形成環境友好型消費提供支持,協調在環保管理中企業、政府和公眾的關系,有利于社會的良性治理。
國內外基于產品的環境管理手段自20 世紀80年代以來不斷涌現,當前已經形成較為成熟的體系。生產者拓展責任制通過使產品制造者對產品的整個生命周期負責,以降低產品的環境影響[1]。可持續發展則強調產品在全生命周期對環境的影響,包括產品碳足跡和水足跡等,將控制范圍從產品延伸到了生產過程[2]。
在互聯網時代,輿情具有緊急性,容易形成強大的公眾影響力[3]。產品的網絡輿情通常表現為網絡口碑[4]。作為提供產品相關信息的重要途徑,網絡口碑具有煽動性和多樣性。隨著公眾日益成為推動環境保護的重要力量[5],帶有一定環境與健康特性的網絡輿情在產品銷售和企業形象塑造中愈來愈發揮重要作用[6],并對更加廣泛的人群產生影響[7]。產品輿情環境形象評估模型利用自然語言處理技術分析產品的網絡口碑,能較為清晰地反映出公眾對相關產品的環境健康認知感受,不僅為企業提供更直觀的消費者體驗,同時也為政府部門提供了環境管理與決策依據,進而有助于從源頭改善產品在全生命周期中的環境污染問題。
產品輿情環境形象評估模型是利用產品在互聯網上的傳播大數據,分析信息發出者對產品在環境和健康方面的情感傾向特征。首先需要收集被評估產品的有關信息,然后篩選出屬于環境健康方面的信息,再進一步對信息所反映的環境健康維度和情感傾向進行分類。這些篩選和分類工作采用有監督的機器學習模型來完成。
產品對人體健康的影響通常包括對心血管系統、神經系統、生殖系統、消化系統和內分泌系統的影響[8];對環境的影響,如陶偉鋒[9]、王賓[10]的研究顯示,包括破壞生物多樣性及損害相關生物健康、固體廢棄物污染、水污染、氣體污染、粉塵污染、噪聲污染、土壤污染、燃爆風險等。目前,對于“產品輿情環境形象”尚未有明確的定義,本研究中的產品輿情環境形象是指公眾對產品在環境和健康方面的感知,是產品從生產、消費、使用到處理的全生命周期內產生的環境影響和健康風險,在社會新聞媒介、科學研究以及公眾輿論等各方面所呈現出來的形象,是社會各界或者一般公眾對該產品造成的環境和健康影響的整體認知和主觀感受。
公眾對產品的環境形象認知可以分為健康影響、環境污染、環境風險和情感傾向4 個方面。其中,健康影響主要是產品對自身健康風險方面的感受;環境污染是產品在污染物排放以及對各環境要素影響方面的感受;環境風險是對產品產生的不確定性環境影響和資源消耗方面的感受;情感傾向是指公眾對不同產品在消費過程中所產生的環境和健康效應的情感態度。依據化學品對人體健康的影響特征,將產品健康風險感受分為急性毒性、慢性毒性、致畸致癌、成癮致敏、產品有效5 個方面;環境風險感受分為揮發性、降解性、易燃易爆、生物有害性和回收性5 個方面;環境污染感受分為大氣污染、水污染、土壤污染和固體廢棄物污染(以下簡稱“固廢污染”)4 個方面;情感傾向分為非常負面、負面、無明顯傾向、正面和非常正面5 個方面。具體見圖1。分析評估流程主要包括構建評估框架、人工標注語料、訓練優選模型、爬取輿情信息以及應用模型開展環境形象評估。

圖1 產品輿情環境形象評估框架
2.3.1 卷積 神經網絡在自然語言方面的應用
深度學習在傳統的自然語言處理領域取得了很多突破性的進展[11],如Collobert 等[12]研究的詞性標注、Vinyals 等[13]的語法分析、Socher 等[14]的情感分析和Zeng 等的關系分類[15]等。2006 年,Hinton[16]提出人工神經網絡可以更加深刻地刻畫樣本數據特征,對于文本分類任務更有利。2010 年,Mikolov 等[17-18]將循環 神經網絡(RNN)用于語言模型建模,在2013 年又提出連續詞袋(CBOW)和Skip-gram 模型。相較于RNN 和CBOW,卷積神經網絡(CNN)堆疊起來的卷積層可以很方便地模擬語言層次的變化[11],從而大幅提高語言處理的精度。CNN 進行文本分類的第一步是將文本向量化,即利用詞向量映射為句子矩陣,隨后卷積層對句子矩陣進行卷積操作,提取局部特征,下一階段對所得的局部特征進行池化,利用最大特征代替整個局部特征[19]。其后,借鑒楊善良[20]、李洋等[19]的做法,將池化后的特征通過全連接層進行組合,連接整體特征向量和待分類別,通過權重學習特征向量和待分類別之間的非線性關系輸出一個組合向量,最后將組合向量輸入softmax 分類器進行分類。在自然語言的表示問題中,CNN 模型采用的是獨熱表示(one hot representation)方法:每個詞表示為1 個向量,由1 個1 和數個0 組成;向量的維度是詞表的數量。
2.3.2 卷積神經網絡的結構
模型采用CNN 算法對語料監督分類,主要包括輸入層、卷積層、池化層和全連接層。卷積層是構建卷積神經網絡的核心層,內部包含多個卷積核,主要功能是對輸入數據進行特征提取;這一層包含大量參數和權重,產生網絡中大部分的計算量。池化層的作用是逐漸降低數據的空間尺寸,減少網絡中參數的數量從而有效控制過擬合[21]。全連接層則具有兩層,主要作用是利用之前模塊提取到的特征對測試語料進行分類,是卷積神經網絡中的分類器。卷積層和池化層一般會取若干個,并采用交替的設置方式。卷積層中輸出特征圖的每個神經元與其輸入進行局部鏈接,并通過對應的鏈接權值與局部輸入進行加權求和再加上偏置值,得到該神經元輸出值[22]。借鑒Goodfellow 等[23]的研究,得到卷積神經網絡公式如下:

式(1)(2)中:L為Z向量集內部的某一向量;表示第層的卷積輸入與輸出,即特征量;k代表特征量的卷積層層數;f代表卷積層卷積核大小;代表卷積層的卷積步長;代表 卷積層的填充層數;b代表誤差值;為向量的坐標表示。
CNN 的局部鏈接、權值共享及池化操作等特性,可以有效降低網絡的復雜度,減少訓練參數的數目,使得模型易于訓練和優化[24]。參考趙京勝等[25]的做法,采用分類模型測評常用的指標,包括精確率(P值)、召回率(R值)、均方差值(F1)等;同時,借鑒Zhang 等[26]的研究,構建如圖2 所示的CNN結構。其中,Sentence matrix 為該句的向量,region sizes 為該向量的區域范圍,feature maps 為向量的特征圖譜;Convolution、active function、max pooling、softmax function 分別代表對應層計算時參照的卷積函數、激活函數、最大池化函數、正則化函數。

圖2 卷積神經網絡結構
3.1.1 訓練語料的獲取與篩選
訓練語料來源于知乎網站,以環境健康相關 特性為關鍵詞檢索,包括“毒性”“污染”“環境影響”“垃圾”“廢氣”“廢水”“土壤污染”“揮發”“廢物回收”“降解”“燃爆風險”“生物有害性”“上癮”“過敏”“新生兒畸形”“有效”“好用”等;搜索非環境健康語料的關鍵詞包括“金融”“股票”“教育”“體育”“綜藝”“明星八卦”“情感生活”“汽車資訊”“游戲”“星座”“品酒”“釀造”“酒吧”等。檢索時間為2020 年11 月月底。選擇3 名環境方面專業人士分別標注語料,同一語料兩人及以上標注意見相同為標準語料,共選出12 702 條環境健康相關語料和6 112 條非環境健康相關語料。為減少模型訓練時間,提高運行效率,隨機取出1/2的語料作為訓練語料。

表1 語料庫訓練語料規模特征 單位:條
3.1.2 數據處理與模型訓練流程
數據預處理主要是對輿情數據的文本格式和輸出輸入形式進行修整。首先清洗網頁臟數據,然后將語料轉換為UTF-8 格式。輿情評估模型的訓練過程分為以下3 步:
第一步,設置第1 個分類模型用于語料的判別。通過人工篩分環境健康相關以及非環境健康相關語料進行第一階段的模型訓練,得到模型的兩類輸出方式,屬于環境健康相關的語料進入下一階段循環,屬于非環境健康相關語料則退出循環。
第二步,設置第2 個分類模型用于情感極性的劃分。將帶有不同情感極性的語料用于模型訓練,得到的模型用于劃分語料所具有的情感極性特征。
第三步,設置第3 個分類模型用于環境健康相關語料的進一步細分。通過設定16 種特性(生物有害、固廢、土壤污染、大氣污染、水污染、可降解、可回收、易燃易爆、可揮發、致畸、致癌、成癮、急性毒性、慢性毒性、過敏、有效)用于對環境健康相關語料的進一步細分,判定該產品具有哪些方面的環境健康風險。
環境輿情分析模型由3 種分類模型組成,分別是:環境輿情判斷模型、環境情感分類模型和環境健康分類模型。單一類別的模型依據訓練語料數量差異進一步細分為不同的單個模型,最終選取精度最高的單個模型作為該類別的使用模型。
3.2.1 環境健康輿情判定模型
設置輿情判定模型時,按照訓練語料分配情況進行兩次模型訓練,分配依據包括語料數量和語料性質。通過對兩個模型的精確率等指標進行綜合評估(見表2),發現僅按照特性相關語料進行訓練的模型具有一定過擬合現象,而在特性語料中混入部分產品相關語料的模型具有較高的P值、R值和F1值,能夠較為準確地定位產品輿情中是否包含環境健康成分的語料,從而用于下一批次的語料劃分。

表2 環境健康輿情判定模型精確性評估
3.2.2 環境情感傾向模型
情感分析是通過計算技術對文本的主客觀性、觀點、情緒的挖掘與分析,對文本情感傾向作出判斷[27]。與人的喜怒哀樂情感不同,本研究將產品環境情感傾向分為正面、中性和負面,并將正面和負面情感按照不同的程度進一步細分,最終確定5類傾向性,為:-3、-1、0、+1、+3。其中,傾向為-3的語料象征環境污染嚴重或安全事故;傾向為-1 的語料象征環境風險或健康隱患;傾向為0 的語料為各類政府工作展望或對某地、某物環境形象進行客觀評價,通常不帶有明顯情感傾向或情感極性正負相抵;傾向為+1 的語料象征積極的環境輿情,通常為介紹某種環境有益的產品或管理方式;傾向為+3的語料表現為環境有顯著改善的輿情。環境情感傾向模型一共迭代45 次,模型自測準確率為100%。對980 條關于酒精的語料進行模型測試,結果見表3。

表3 酒精產品的環境情感傾向模型訓練結果單位:條
3.2.3 健康和環境維度分類模型
通過綜合分類、常規分類和多標簽分類3 種方式,對選定為環境健康相關的語料進行分類。其中,綜合分類將16 種維度都編入一個模型,不區分環境相關還是健康相關;常規分類首先以健康風險和環境影響作為分類基礎,訓練出健康模型和環境模型,對測試語料進行環境健康分流后再進行細分類;多標簽分類按照單條語料包含的產品環境健康特性進行“是”與“否”的分類,不進行環境風險與健康風險的區分。共設置16 個模型,具有多種特性的語料會有多個標簽。以上3 種分類方式具有相同的情感極性評估標準,每一類模型都按照語料精度的不同設置兩個模型,低精度模型相比于高精度模型每種特性增加100 條帶有相關關鍵詞但屬于非環境健康相關的語料(見圖3)。

圖3 健康和環境維度分類模型對比分析
結果表明,在訓練語料質量較高的情況下,高精度分類模型的精確度普遍高于低精度分類模型,說明以上3 種模型的分類效果都要好于語料質量較差的模型。因此,將綜合分類模型作為主要的輿情環境健康分類器對產品相關語料進行測試。
本研究以我國原環境保護部(現生態環境部)發布的《環境保護綜合名錄(2017 版)》為參考,以產品的輿論熱點程度作為篩選依據,共確定8 個行業的33 種輕工業產品作為研究對象(以下簡稱“樣本”),產品所屬行業類別如下:酒精制造、初級形態塑料及合成樹脂制造、其他電池制造、化妝品制造、化學農藥制造、食品添加劑制造、化學藥品原料藥制造、染料制造。其中,酒精制造、其他電池制造、化學農藥制造、化學藥品原料藥制造和染料制造包含在“雙高”(即高風險、高污染)名錄;化妝品制造、食品添加劑制造、初級形態塑料及合成樹脂制造等行業的產品屬于輿論熱點產品。為增強語料可靠性,避免廣告和不具有實際內容的輿情,測試語料的主要來源于知乎網站中相關產品問題下點贊數最多的評論,共計25 645 條(含無用語料),如表4 所示。檢索時間為2021 年1 月月底。

表4 樣本輕工業類“雙高”產品類目與相關輿情數量單位:條

表4(續)
將不同特性的語料進行歸類,健康風險所包括的語料細分類為:“急性毒性”“慢性毒性”“上癮”“過敏”“致癌致畸”“有效性”;環境污染包括的語料細分類有:“大氣污染”“固廢污染”“水污染”“土壤污染”;環境風險的語料細分類有:“揮發”“回收”“降解”“易燃易爆”“生物有害性”。具體如圖4 所示。

圖4 樣本輕工業類產品環境形象分布特征
(1)從產品來看,相較于其他行業,化學藥品原料藥制造行業和化妝品制造業具有較高的輿情環境健康風險(見圖5)。藥品制造行業所選定的5種產品中,健康風險和環境風險占比最高的是咖啡因,主要影響特征是上癮和生物有害性。化妝品制造業所選定的7 種產品中,健康風險占比最高的是凡士林,主要影響特征是過敏;環境風險占比最高的是角鯊烯,主要影響特征是生物有害性。

圖5 樣本輕工業類產品環境健康風險分布
(2)從行業來看,環境風險最高的3 個行業包括化妝品制造、化學藥品原料藥制造、初級形態塑料及合成樹脂制造;健康風險最高的3 個行業包括化妝品制造、化學藥品原料藥制造、染料制造;環境污染最高的3 個行業包括化學藥品原料藥制造、染料制造、化學農藥制造。
(3)從特性關注程度來看,公眾較為關注的產品環境健康風險為有效性、生物有害性和致畸,與這3 種特性相對應的輿情熱度最高的產品分別為煙酰胺、凡士林、水楊酸;咖啡因、煙酰胺、毒死蜱;氯霉素、咖啡因、水楊酸。
利用環境情感模型運行33 種產品的輿情語料,結果如圖6 所示。其中,正向占比、中性占比、負向占比代表包含正面、中性、負向情感極性的輿情語料數量與產品總體輿情數量的比值。整體來看,產品輿情以正向情緒占主導,中性和負面情緒占比較低。正向輿情占比較高的產品多為電池類,包括鋰電池、鉻鎳電池和環丙沙星;中性情感占比較高的產品多為食品添加劑,包括乳酸鏈球菌素、山梨酸和凡士林;負向輿情占比較高的產品多為藥品類,包括84 消毒液、咖啡因和凡士林。產品情感傾向受到輿情數量影響,輿情數量較少的產品正向和中性情感比例較高,輿情數量較多的產品負向情緒比例較高。

圖6 樣本輕工業類產品情感傾向分布
(1)產品受眾。樣本產品的輿情傾向以正向情緒為主導,但受眾較廣的產品具有更高的討論熱度,更高的熱度能產生更多元化的輿情。如化妝品、藥品等屬于消費者群體廣泛的產品,相關輿情數目龐大,由于消費者個體體質等因素的差異性,這3 類情緒傾向占比會趨于均衡;而農藥、電池、添加劑等屬于受眾相對較少的產品,相關輿情以業內人士評論或環境事故新聞為主,因而多為極端正向或負向情緒,情感傾向占比更趨于極端化。
(2)主流產品的影響。某一類中具有代表性產品的輿情形象通常會左右公眾對于整個產業的認知,主流產品的品質會影響公眾對這個行業的信任程度。如2008 年的中國奶制品污染事件,使得國產奶粉環境健康形象受到損害,造成公眾對國產奶粉的恐慌及抵制,轉而消費國外奶粉,造成國內奶粉商的巨額虧損。
(3)媒體宣傳。在信息化時代,產品的網絡評論會形成產品的輿情形象,如果受到媒體的刻意宣傳引導,一方面會引發公眾對某類產品的積極消費或是抵制,另一方面會使這類產品的消費者產生更多主觀評價,大量帶有環境健康影響信息的網絡評論會逐漸形成產品新的環境健康輿情形象。
(1)產品的環境情感形象與產品關注熱度相關,相關產品關注度高,所產生的輿情較為多元化,其輿情環境形象整體趨于中性,如化妝品制造和化學藥品原料藥制造等行業的產品;關注度較低的產品輿情較少,輿情情緒占比更趨于極端正面或負面。
(2)在眾多特性中,公眾較為關注的環境健康風險包括產品的有效性、致畸性和生物有害性;環境風險感受較高的產品有咖啡因、氯霉素、煙酰胺和毒死蜱。
(3)產品環境形象的維度劃分、訓練語料的人工標注和分類模型的選擇是影響結果的重要因素。