基于大語言模型的投訴數據挖掘技術研究

2025-07-17 00:00:00吳瑕裴晨蕊張璐恒

互聯網周刊 2025年12期

引言

在信息爆炸的時代，數據的規模、復雜性和增長速度都達到了前所未有的水平。近年來，大語言模型展現出強大的對世界知識掌握和對語言的理解能力。國家各部門陸續發布政策，促進人工智能的發展。例如，工業和信息化部發布的《國家人工智能產業綜合標準化體系建設指南（2024版）》1聚焦產業標準化建設；全國網絡安全標準化技術委員會2024年發布的《人工智能安全治理框架》1.0版，將鼓勵創新作為首要任務，提出了一系列科學合理的治理原則[2]。

本文以通用消費領域數據為基點，深人挖掘公眾在社交網絡媒體渠道發布的投訴意見。借助LLM強大的分析手段，深入挖掘用戶需求，捕捉關鍵信息，從而提高企業決策能力、優化業務流程。團隊成員曾在創新數據摘要領域分別進行詞云分析和潛在狄利克雷分布（latentdirichletallocation，LDA）主題模型研究3，具備實踐經驗。

1.研究思路

本文結合計算機科學、數據科學、人工智能等領域的理論與實踐，搭建一個高效的數據分析線路。針對投訴數據具有文本量大、語義復雜、情感多元等特點，以及傳統數據挖掘技術在處理此類數據時存在的效率低、語義理解偏差等問題，提出將大語言模型（LLM）引入投訴數據挖掘領域的設想。通過分析大語言模型在自然語言處理方面的優勢，論證其應用于投訴數據挖掘的可行性。

2.基于大語言模型的投訴數據挖掘流程

數據挖掘流程如圖1所示。首先是數據收集，為了保證數據多樣性及隱私性，多采自公開數據及網絡平臺。其次是數據預處理，此過程包括識別并糾正錯誤的、不完整的、不準確的、不相關的數據，確保數據的質量和準確性。來自多平臺的投訴數據也需要進行歸一化處理，且脫敏。

再次是模型選擇，對中文文本識別，優先從國內主流模型中選取。最后是推理分析，采用抽樣檢測方法進行結果驗證，得到模型數據分析效果。

2.1數據收集

獲取優質可信賴的數據是進行深入分析和改進服務的關鍵，所收集的數據內容通常圍繞特定主題，如產品質量、售后服務、物流問題、價格爭議等，包括投訴內容、時間、地點、產品/服務信息、客戶信息等。

2.2數據預處理

首先，對數據收集階段獲取到的數據進行綜合分析，篩選出真實有效的投訴信息，如剔除缺少投訴編號、與內容無關、無實質性建議、字段缺失較多等的數據，以免影響后續最終結果。對于有效范圍內的數據，須聚焦于有效核心信息提取，涵蓋投訴時間、處理時長、情感傾向等關鍵點。

其次，對數據進行清洗。第一，因收集到的數據格式有差異，需要將其轉換為統一的格式（如JSON、CSV），便于后續處理。若識別的是大規模數據集中的近似重復項，可采用局部敏感哈希（LSH）算法識別并刪除重復的投訴記錄，確保數據唯一性。第二，處理缺失值，對于缺失的字段，本研究采用fillnaO均值/中位數填充法，根據樣本之間相似性及變化趨勢填補缺失值。第三，噪聲過濾，用正則表達式去除無意義的字符。第四，敏感信息過濾，樣本數據中包含用戶隱私信息，使用特定詞元進行替換處理。

最后，進行數據分類。先將數據按投訴來源（快遞物流、電商平臺、金融服務、其他）進行分類，在大類下，再劃分為產品質量、服務態度、物流問題等子類。

2.3模型處理結果

隨著大語言模型迅速發展，其語言理解和生成能力大幅提升，在上下游任務處理能力上表現卓越。目前在基于Transformer架構的先進深度學習模型中，LLM具備強大的自然語言生成、分析、推理能力，不需要大量的人工標記和模型訓練，就可以進行文本分類、情感分析、主題挖掘等。

在處理客戶投訴反映產品質量或服務的問題時，必須深入了解客戶實質需求及期望，掌握訴求特征[4]。本文通過設計優化提示詞工程（promptengineering）進行微調，引導模型生成準確、有針對性且滿足期望的分析結果。提示詞（prompt）結構采用“指令 + 輸人數據 + 背景 + 輸出要求”的形式，指令即明確告訴模型需要執行什么任務或回答什么問題，如簡述、解釋、翻譯、總結等；輸入數據提供模型需要處理或分析的具體數據，一般為文本、數字、代碼等；背景是與任務相關的信息，以便模型能更好地理解需求；輸出要求為期望模型產生的格式或結構，可以幫助生成更符合用戶的輸出。

在情感分析方面，本文建立三級情感標簽體系：負面（投訴/不滿）、中性（事實陳述）、正面（問題解決/認可），將投訴文本與情感傾向對應，幫助識別高風險投訴，確保模型評估的準確性。利用Embedding技術，將高維文本數據映射到低維詞向量、句向量[5]。這些向量表征包含文本的語義信息，并且能夠捕捉到詞語和句子之間的語義相似性[。構建情感詞典，將文本中的詞語與情感詞典中的詞語進行匹配映射，同時結合上下文、語義角色，從而初步推理出文本總體情感傾向[7]。

在主題挖掘方面，需要從數據中提取有用的信息和知識，幫助企業識別潛在客戶和市場趨勢，從而優化產品和服務，使決策過程更為高效。主題模型常用技術有潛在狄利克雷分布（LDA）、概率潛在語義分析（probabilisticlatentsemanticanalysis，PLSA）。以LDA為例，其作為一種無監督的三層貝葉斯概率模型，包含詞、主題和文檔三個層次[8]。其基本假設是每篇文檔是由多個主題構成的，而每個主題則是一組特定詞匯的概率分布[。這種詞袋模型通過對大量文檔的學習，可以自動發現潛在主題結構，廣泛應用于文本分類、信息檢索等領域。在深度學習領域，卷積神經網絡（convolutional neural networks，CNN）可以用來進行文本主題挖掘，利用卷積核自動提取文本中的局部特征，通過池化操作實現特征降維，能夠捕捉文本中的關鍵短語和句子結構，從而應用于文本主題分類任務[10]。

3.基于大語言模型的投訴數據挖掘實踐

3.1投訴數據挖掘過程及結果

首先，為驗證基于大語言模型的投訴數據挖掘技術的有效性，本文選取黑貓投訴等公開網絡平臺的投訴數據，這些平臺數據向全網公開，類型多樣，數量眾多，其中包含消費者各類投訴，涵蓋商品質量、服務態度、售后保障等多方面，共計2000條。選取的數據中，電商平臺占比 30% 、快遞物流占比 30% 、金融服務占比 30% 、其他占比 10% ，如圖2所示。

其次，對2000條投訴數據進行預處理，部分脫敏數據樣本如表1所示。

再次，對預處理后的1926條有效投訴數據進行分析，識別出來的投訴情緒中負面占比 72% ，表達了客戶對于商品及

D-高山-投訴數據挖掘技術研究

服務的強烈不滿，而中性、正面情緒分別為 18% 、 10% 。具體呈現如圖3所示。

最后，對投訴數據進行主題挖掘。通過對1926條有效投訴數據進行大模型分析，挖掘出的主題詞云圖如圖4所示。

3.2投訴數據挖掘結果的應用

基于大語言模型的消費投訴數據挖掘結果，可在多個方面實現價值轉化，實現“變訴為寶”。企業通過情感分析識別投訴文本，正面情緒可發現服務亮點、優化服務體驗，而負面情緒可幫助快速定位服務短板、重塑企業形象。

例如，京東智聯云技術團隊結合自身的技術優勢，快速研發并上線“生命通道”，實現全平臺自動識別用戶極端負面情緒。2020年初，一位用戶在京東購買藥品在線咨詢時觸發了智能情感客服的預警，緣由是內容含有極端情緒化的因素，預警觸發了危機專員的介入，結合該用戶購買的藥品劑量，推斷其存在輕生傾向，通過危機專員妥善處理，避免了悲劇的發生[11]。

4.結語

本文研究充分利用大語言模型對上下文的學習能力，構建消費者投訴處理挖掘流程，包括數據收集、預處理、模型選擇、結果分析。從消費者的投訴數據中，對數據進行分類，識別投訴情緒、挖掘主題詞，從而幫助客戶解決問題。未來研究可進一步探索大語言模型在不同行業投訴數據挖掘中的應用，以及如何結合更多新技術進一步優化該技術。

參考文獻：

[1]工業和信息化部中央網絡安全和信息化委員會辦公室國家發展和改革委員會國家標準化管理委員會關于印發國家人工智能產業綜合標準化體系建設指南（2024版）的通知（工信部聯科[2024]113號）[EB/OL].（2024-07-02）[2025-05-05].https：//www.miit.gov.cn/jgsj/kjs/wjfb/art/2024/art_0b6ff6228d0a47cc9519dd76c7a02ef2.html.

[2]全國網絡安全標準化技術委員會.《人工智能安全治理框架》1.0版[EB/OL].（2024-09-09）[2025-05-05].https：//www.cac.gov.cn/2024-09/09/c_1727567886199789.htm.

[3]王野夫，裴晨蕊，張璐恒.基于LDA模型的創新數據主題挖掘探索高技術（服務業）與制造業交互路徑[J].軟件，2024，45（2）：40-43.

[4]張蕊，張麗紅，吳登群.客戶投訴處理精準分析與定位研究[J].技術研究，2024，6（17）：58-60.

[5]李晁銘，劉盼，蘇康友，等.基于大語言模型與特征融合的大學生情感分析[]電子元器件與信息技術，2024，7（17）：55-58.

[6]洪沛，戴勝林，仇國慶，等.大模型深度數據挖掘—文本摘要生成與商機智能識別研究[J].數字通信世界，2024.9（15）：43-47.

[7]郭麗.基于概率推斷性語言模型的大數據流分析框架研究：應用于近乎實時的情感分析[J].九江學報（自然科學版），2024，3（145）：85-89.

[8]孫秋鳳.基于改進LDA模型與情感分析的微博評論分析[J].黑龍江科學，2025，16（1）：69-75.

[9]張小婉.基于LDA主題模型及情感分析的電商直播熱點主題分析[].現代信息科技，2024，8（21）：88-101.

[10]解勉，陳剛，余曉晗.基于大語言模型的論文檢索與分析方法研究[].計算機技術與發展.2024，34（12）：118-124.

[11]量子位.京東智能情感客服挽救一名學生生命，“可信賴的AI”用溫暖前行[EB/OL].（2020-06-15）[2025- 05-23].https：//mp.weixin.qq.com/s/ wo6MEw58BZKSIvwOymZ52w.

作者簡介：吳瑕，碩士研究生，wuxia@sptc.edu.cn，研究方向：人工智能、職業教育。

基金項目：四川郵電職業技術學院2024年度校級科研項目課題基于VUE框架和大語言模型的投訴數據可視化及挖掘研究（編號：YDXJKY202429）。