文/王敏燁 梁宏毅 夏 里 劉萬里(.中國科學技術大學管理學院;.廣汽本田汽車有限公司)
在當前激烈的汽車市場競爭中,產品質量的穩定性和卓越表現是企業獲得市場競爭優勢的重要因素之一。汽車產品質量問題不僅會對司乘人員造成人身安全風險,也會對汽車制造企業和整個汽車產業鏈造成重要影響。產品召回是涉事汽車制造企業消除或者化解質量問題的通用應對策略,但在目前的召回管理過程中,汽車缺陷問題的判別還存在檢驗過程時間長等問題,這也造成了汽車產品召回過程中企業響應時間長、召回措施不夠徹底等現象。
隨著社會信息化水平的不斷提高,社交媒體平臺如微博、短視頻平臺等快速發展,消費者可以通過多渠道在線發表信息,投訴產品缺陷和企業態度,或表達潛在購買意愿,并進行二次或多次擴散,從而形成召回輿情數據。產品價值最終是由市場來檢驗的,海量的網絡輿情數據作為信息來源之一,可以及時反映市場對汽車召回事件的態度,在一定程度上反映了汽車產品在市場上的生存能力,對企業的市場戰略、產品設計和品牌形象等方面具有非常重要的作用。通過分析社交媒體平臺、新聞報道等多種數據來源,企業可以了解到消費者對于品牌和產品的關注度、滿意度、投訴反饋等信息,及時發現潛在問題和產品質量風險,調整市場策略和產品設計。
為此,本文以互聯網數據及科技資源數據挖掘為基礎,運用情感傾向性分析技術和狄利克雷分配(LDA)主題模型算法,建立市場質量表現綜合評價模型,為汽車行業相關企業提供針對性的產品和市場建議,發揮大數據對企業業務的賦能作用。該方法是基于數據驅動的產品綜合評價模型,能夠解決產品評價要素單一且難以量化的問題。
社交媒體的興起徹底改變了消費者分享觀點的方式,每一位消費者都可以通過社交媒體自由便捷地表達自己的感受和體驗。因此,消費者發布的社交媒體數據成為全面了解產品的關鍵信息來源之一。在競爭分析中,社交媒體數據提供了豐富的產品及競爭對手的信息,能夠幫助企業做出正確的管理決策。當前,學術界已針對消費者對于各種產品功能的情感傾向性,包括競爭對手生產的類似產品等做了較為深入的研究,特別是利用在線評論,基于情感分析和模糊集理論的方法對各類產品進行排名。除競爭分析外,挖掘客戶需求并據此改進產品設計也引起了相關學者的關注。目前已能夠通過文本分析等技術,估計某些句子屬于特定特征的概率,以挖掘需要改進的工程特征。另外,社交媒體數據在服務質量分析、票房預測、缺陷或事故預測等領域也顯現出重大價值。
自然語言處理是計算機科學領域與人工智能領域中的一個重要方向,其可以將文本或語音形式的自然人類語言轉換為結構化格式,以幫助計算機理解人類語言。
情感傾向性分析是指從文本數據中挖掘用戶態度相關信息。國內外學者常用的情感傾向性分析方法有兩種,一是機器學習方法,二是基于情感詞典的方法。與機器學習方法相比,基于情感詞典的方法在處理在線社交媒體數據時更簡單快捷。
主題建模技術是指通過無監督學習對語料庫的潛在語義結構進行聚類的統計模型,常用的是LDA 方法。LDA 是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構,當涉及語言歧義和噪聲數據時,適應能力更強。
為了更好地評估汽車市場質量表現,本文提出了一個由情感傾向性分析和主題建模組成的研究框架。其中,情感傾向性分析是指基于情感值的計算來判斷文本數據的情感傾向的過程,本文采用基于詞典的情感傾向性分析方法,該方法資源消耗少且時間效率高。在主題建模的過程中,考慮到輿情數據主要源自社交媒體平臺,往往具有體量大、內容雜的特點,本文使用LDA 模型挖掘輿情數據中潛在的主題和關鍵信息。
評價模型主要包括四個步驟:
(1)從抖音、微博、各大新聞網站等來源收集2001年6 月7 日至2022 年12 月26 日期間與某品牌汽車召回相關的文本信息。
(2)對收集的原始信息進行人工去噪、數據清洗、分詞。
(3)基于詞典的情感計算方法得到文本的情感值。
(4)根據情感值計算結果,將文本數據分為消極數據(情感值小于0)和非消極數據(情感值大于或等于0),通過基于LDA 模型的主題建模,提取輿情數據的主要主題。
本文共獲得2706 條原始文本數據。按照人工數據清洗標準對數據進行進一步篩選:第一,刪除不相關的數據,包括廣告、娛樂新聞等一些包含關鍵詞但實際上無關的數據,主要涉及來源于抖音和微博的數據;第二,從數據中刪除圖像、表情符號和視頻鏈接等非結構化的文本信息;第三,刪除數據結尾可能出現的不完整句子,以免后續分析出現歧義和非必要誤差;第四,刪除無法由代碼實現清洗的無意義句子、短語的數據,如社交平臺數據常涉及的較明顯的亂碼和外文等。經過篩選,共獲得2035 條去噪聲文本數據,其中各個來源的具體數據體量如表1 所示。

表1 原始數據及去噪聲數據的數量統計表
最后,需要對去噪聲文本數據做進一步處理,包括數據清洗和分詞。通過Python 3.9.13 中的Re 模塊進行數據清理,從預處理后數據中繼續刪除無用的信息,包括標點符號、用戶名等。獲得較為干凈的數據之后,由于計算機不能直接識別非結構化數據,因此要對文本數據進行情感傾向性分類只能通過先識別數據中的一個個詞語,故需要對文本數據進行分詞。
基于詞典(語義傾向)的情感傾向性分析方法是遍歷分詞文本,根據構建的情感詞典分別與分詞文本進行匹配,判斷文本數據的情感傾向性。若通過分別統計和比較正面情感詞和負面情感詞的個數,以判斷文本數據的情感極性,則稱為情感詞典二分類。為了更好地量化情感傾向,本文使用更細化的情感詞典法,情感傾向由三類詞共同決定,即情感詞(表示積極或消極情緒的詞,如羨慕、偏愛、不安、差)、程度詞(表示加強或削弱態度詞強度的詞,如輕微、非常、大多數)和否定詞(表示扭轉態度詞情感極性的詞,如不、沒有、無)。本文采用知網Hownet 情感詞典等現有詞典,并根據收集的輿情數據添加了汽車召回領域的特有情感詞匯,最后獲得了包含8087 個積極詞匯和12131 個消極詞匯的情感詞詞典,包含211 個詞匯的程度詞詞典和包含69 個詞匯的否定詞詞典。
為了計算每條文本數據的情感值,需要對三類詞進行賦值,分別將積極情感詞、消極情感詞和否定性詞匯賦值為1、-1 和-1,如表2 所示。按照知網情感詞典,程度詞詞典將含有的程度詞分為insufficiently(欠、不)、ish(稍、一點點)、more(更多、更)、very(很、非常)、over(過多、多分、多)和most(最高)六個情感程度詞典,并相應地賦值為0.25、0.5、1.25、1.5、1.75 和2.0。

表2 情感值的計算規則和示例
LDA 模型的基本思路是:在一篇文檔中可能包含多個主題,意味著一個主題會在多個文檔中出現,但出現在每篇文檔的概率有所差別。而對每個主題來說,會包含多個關鍵詞,同一個關鍵詞也會在多個主題中出現,但出現在每個主題的概率有所差別。因此主題模型認為,主題是以一定的概率選擇了文檔,二者之間應當對應一個概率分布;同理,關鍵詞也是以一定的概率選擇了某個主題,此二者之間也應當對應一個概率分布。
本文LDA 主題建模是通過調用Python 的自然語言處理庫Genism 實現的。首先,根據百度停用詞表、哈爾濱工業大學停用詞表、四川大學機器智能實驗室停用詞表三種常用的停用詞表,對預處理后的輿情數據進行去無意義詞的再處理。其中,為了避免有價值的情感信息被刪除,根據研究對象對三個停用詞表進行結合并修改。其次,根據分詞結果構建語料庫,形成稀疏向量,其中本文使用了Jieba 分詞精確模式,即試圖將句子最精確地切開,該方法最適合文本分析。然后,對模型進行訓練,在適當的迭代次數下,保證LDA模型收斂而又不過于擬合,最后根據主題一致性的計算確定最優主題數。
根據上文構造的情感詞典和情感值計算規則,對抖音、微博、新聞的數據分別進行情感傾向性分析,結果統計如表3 所示。

表3 情感傾向性分析結果統計
由表3 可知,有效分析數據中約60%來自微博,新浪微博作為我國的主流社交媒體平臺之一,2022 年9 月其月活躍用戶達到5.84 億,平均日活躍用戶為2.53 億。而據抖音發布的數據,截至2022 年9 月其月活躍用戶高達7.06 億(不包含抖音極速版)。僅從月活躍用戶數量來看,抖音的熱度高于微博,但從研究輿情的角度來說,抖音作為一個以短視頻為主的平臺,用戶群體年齡相對年輕,視頻內容多為娛樂趣味性質的,而微博則是以文本內容為主的社交媒體平臺,除圖片、視頻外,還可以發布純文本內容,更加多樣化,用戶群體年齡跨度也相對更廣。因此,在收集到的輿情數據數量上,兩者呈現出較大差異。此外,新聞平臺的數據往往具有措辭客觀、篇幅較長、風格嚴肅的特點,根據觀察,本文收集到的新聞類正文數據主要集中在媒體對于企業發布召回公告的解說與剖析上,而非客戶群體自發性地對汽車質量表現的評價,因此在數據的數量上并不突出。
另外,從輿情數據的情感傾向性來看,抖音、微博、新聞數據皆呈現出消極情感數據多于非消極情感數據的特點。其中,抖音的兩類情感傾向數據數量相當,而微博和新聞則是消極情感數據占比較大,遠超非消極情感數據??紤]到輿情分析往往是為了更好地改善產品性能,從而提高企業利潤,應重點關注消極情感數據,挖掘潛在原因。
此外,本文將各平臺的數據按年為單位統計發文量,并計算平均情感值,如圖1 所示。抖音和微博的2001 年至2017 年期間的數據缺失,而新聞平臺的發文量也較少,年發文量不超過20 條。2018 年至2022年期間,新聞平臺在2018 年達到發文量峰值,而抖音和微博的發文量分別呈現出穩定增長和先增后減的趨勢。就平均情感值而言,所有輿情數據的平均值皆小于0,即為消極情緒,其中新聞數據的平均情感值波動較大,其絕對值遠大于其他兩個平臺,這是因為新聞數據篇幅長、內容詳盡,對于汽車故障的表述更細致,從而涉及了更多的消極情感詞。2018 年至2022年期間,三個平臺的平均情感值變化趨勢大致相似,在2020 年達到局部谷值。

圖1 2001—2022 年各平臺發文量和平均情感值趨勢圖
根據圖1 中折線變化趨勢,本文對幾個特別的點進行了數據溯源。在2006 年,新聞平臺報告內容主要集中在某企業根據《缺陷汽車產品召回管理規定》分別于2006 年6 月和2006 年10 月向國家質檢總局遞交召回報告,短短四個月內就對旗下主力車型實施了兩次召回,涉及車輛數量較大,引發了各方新聞媒體的廣泛關注。2014 年下半年,某車企因供應商導致的輔助安全系統故障召回部分車型,同時因相關缺陷事故陷入輿論風波。
2019 年,部分車型再次因輔助安全系統故障被召回,前半年,該事件在微博引起了熱烈討論,而后半年微博的討論轉為驅動系統兩大故障事件。與此同時,新聞平臺全年都集中于多起驅動系統故障召回事件,抖音的討論更集中,主要是圍繞某一具體車型的某一驅動系統故障。
2020 年,新聞報道大部分是關于某汽車企業宣布召回發動機燃油供給系統故障車輛,召回數量多,車型涵蓋范圍廣。此次召回事件過程中,除發動機燃油供給系統故障外,抖音部分用戶還集中討論了某車型因汽車行駛系統故障而被內部召回,以及軟件問題引發的召回。而微博則對于前述輔助安全系統故障全年討論熱度不減,持續發酵。
本文分別以抖音、微博、新聞的消極情感數據及非消極情感數據為輸入,運用LDA 主題模型進行潛在主題的挖掘。以抖音的消極數據為例,其主題數與一致性得分之間的關系如圖2 所示。由圖2 可見,當主題數為5 時,模型一致性得分最高,主題內各詞語的相似性最高。

圖2 主題數目與一致性得分之間的關系
從LDA 主題建模的結果詞表中可以看出,就消極情感數據而言,微博消極情感數據涉及的主題內容最集中,新聞次之,抖音的消極情感數據主題內容較豐富。微博近年來關于召回事件的討論主要是圍繞輔助安全系統故障展開的,涉及日本、美國、中國等多個國家。而新聞消極情感數據除了輔助安全系統故障之外,還涉及了部分關于驅動系統故障的討論。抖音平臺關于輔助安全系統故障的討論熱度較低,并未在LDA 主題建模結果中體現,用戶對于熱門車型的各類驅動系統故障包括發動機燃油供給系統故障等進行了熱烈討論。此外,從抖音詞表中可以看出,相關車型的銷量因“回爐”受到影響。
就非消極情感數據而言,抖音、微博和新聞的關注點也各有側重。其中,從詞表中可以明顯觀察到抖音的輿情數據提及了較多具體的車型名稱,主要是將多個品牌旗下SUV 車型進行對比,或將同一汽車企業旗下的各個車型進行比較。用戶往往特別關注其質量、駕駛舒適度、油耗等區別,多以汽車知識分享、選購信息求助為目的。與抖音不同,微博的非消極情感數據多次出現某具體車型,主要為對于企業對該車型召回計劃的討論,表達公眾對企業就汽車質量問題提供的解決方案的認可。類似地,新聞非消極情感數據的討論內容較為集中,多次提到另一具體車型,媒體報道了在召回事件的影響下中國市場銷量的變化、企業的應對方案及消費者對此的態度。2018 年,某企業因驅動系統故障問題,一系列熱銷車型接連被召回,搭載同一驅動系統零部件的新款車型難免讓人望而卻步,但緊要關頭,相關企業推出了另一全新混動車型,搭載全新升級的驅動系統零部件,讓消費者減少了對于該品牌汽車驅動系統問題的擔憂,因此反響較好。
大數據時代,網絡輿情信息作為重要的數據來源,其數據量及價值已經在各行各業有所體現,基于互聯網大數據的社會新生態系統正在逐步形成。作為研究汽車召回缺陷的輔助信息來源,輿情數據可以客觀地反映出汽車市場質量表現及消費者對品牌的態度。本文旨在通過自然語言處理方法,基于用戶評價的語料庫建立汽車產品綜合評價模型。首先,運用情感傾向性分析技術快速準確地識別輿情文本數據中蘊含的用戶情緒,按照情感傾向對本文數據進行分類,并從時間維度對發文量、平均情感值進行分析,挖掘用戶情緒波動背后的原因。其次,進一步挖掘不同平臺來源的輿情數據潛在的主題信息,重點比較各平臺用戶關注點之間的差異,為企業的產品升級、品牌公關等提供建議。研究的具體總結和建議如下:
(1)本文構建的模型有效識別出了汽車缺陷相關事件中熱度較高、波及范圍較廣的若干事件,情感傾向性分析結果和LDA 主題建模挖掘的信息具有一定程度上的統一性、對應性,無不相關的噪聲信息輸出,驗證了本文數據收集及預處理的有效性,說明了所構建模型的可靠性。
(2)為了針對性地制定應對策略,企業自身首先需要客觀評估召回事件對品牌形象、銷售業績等方面的影響;其次要及時關注輿情動態,建立公開透明機制,快速回應用戶關切,對虛假、惡意信息進行澄清,并對確實存在的問題給出實際的解決方案,以避免輿情進一步升級。如果召回事件引起了大范圍的不良輿情,需要做好危機公關,對不同程度的危機事件做出分級別的危機管理計劃,在保證客觀真實的前提下,積極回應媒體和用戶的質疑,盡可能地減輕事件對品牌的負面影響。最后,作為企業,提高產品質量是防范類似召回事件的最佳方式,汽車企業應該加強對產品質量的管控,建立完善的品質管理體系,加強與供應商的合作與溝通,持續提升產品質量。尤其是要確保在汽車產品升級后不再出現類似問題,同一原因的零部件故障導致多年來多次同樣的汽車故障及召回會引發消費者強烈不滿情緒,從而導致社交媒體對相關事件的討論熱度不減,消費者對品牌的信任度大打折扣,同時也導致了潛在消費者的流失。
(3)輿情數據具有多源性的特點。通過本文的研究發現,各平臺的用戶群體、運作機制的不同會導致其輿情動態的差異性。針對不同的平臺,企業應采取不同的應對措施。針對新聞媒體平臺,可以采用傳統的公關和媒體關系管理方式,及時向公眾傳遞企業的動態和信息;針對社交媒體平臺,可以加強社交媒體管理,建立專門的社交媒體管理團隊,官方賬號應快速回應用戶的投訴和反饋,及時處理問題,同時結合熱點話題推出相關的互動營銷活動。進一步細分以短視頻為主和以圖文為主的兩大類國內主流社交媒體平臺,以短視頻為主要形式的社交媒體平臺注重用戶對視頻內容的短時間瀏覽和快速判斷,其內容通常會受到算法的推薦和分發。因此,汽車企業可以在此類平臺上制作一些有趣、生動、易于理解的短視頻,直觀地展示召回事件的處理進展和解決方案,并通過互動形式吸引用戶的關注和參與,增加用戶的信任和滿意度。此外,企業還可以在此類平臺上開展互動營銷活動,例如開展汽車知識分享、車型對比等,如本文LDA 主題建模結果所示,現下已有部分賬號自發地將多個品牌的相似車型進行比較,企業可以考慮適當的自媒體關系管理方式,增加品牌宣傳。相對于以短視頻為主要形式的社交媒體平臺,以圖文為主的社交媒體平臺更注重用戶的互動和分享,用戶更注重內容的深度和質量、品牌的公信力和透明度。因此,企業可以在此類社交媒體平臺上發布一些詳細的召回事件說明和處理進展,及時回應用戶的質疑和問題,加強品牌的公信力和透明度,避免輿情進一步升級。