談立
摘要:人工智能領域中的語義分析技術近年來發展迅猛,已經在自動駕駛、影像識別等多個領域取得了突破性進展。我們開創性地將語義分析技術應用于滿意度測評研究,以汽車4S店服務質量作為樣品樣本進行研究,經過數據采集與預處理、語義分析、分析和統計三個階段,在水軍過濾、主題發現、知識圖譜搭建、文本細粒度分析等關鍵環節應用TML語義分析技術,快速地分析出汽車4S店服務行業中消費者關注的重點,驗證了語義分析技術在滿意度測評領域應用的可行性,為滿意度測評的前期行業分析提供了一種新的思路。
關鍵詞:語義分析技術 滿意度測評 4S店 知識圖譜
Abstract: Semantic analysis technology in the artificial intelligence field has developed rapidly in recent years, and has made breakthroughs in many fields such as autonomous driving and image recognition. We apply semantic analysis techniques in satisfaction measurement studies, using the 4S shop service quality as a sample.
Through three stages of data collection and pretreatment, semantic analysis, analysis and statistics, HTML semantic analysis technology is applied in the key links of hydraulic filtering, subject discovery, knowledge map construction and text fine granularity analysis, it analyzes the focus of consumers concerned in the service industry of 4s shop quickly, validates the feasibility of the application of semantic analysis in the field of satisfaction evaluation the measurement. It provides a new idea for the early industrial analysis of satisfaction evaluation.
Key words: semantic analysis technology, satisfaction evaluation, 4S shop, knowledge map
語義分析(Semantic Analysis)是人工智能的一個分支,是自然語言處理技術的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科。人工智能中的語義分析技術,特別是深度學習技術近年來發展迅猛,已經在圍棋對弈、自動駕駛、影像識別、語音識別等多個領域取得了突破性進展。我們開創性地將語義分析技術應用于滿意度測評研究,經過半年的探索,這一研究現在已經取得初步的成果。現將我們研究的思路和具體做法做一個分享,希望能對中國人工智能技術的應用場景拓展提供有益的經驗,同時推動滿意度測評技術的發展。
1 研究背景
2016年初,武漢市標準化研究院開始涉足滿意度測評領域,前期主要涉及各級政府、職能部門的服務質量測評。從2017年開始,測評的領域逐步擴展到服務業領域。隨著業務的拓展,我們面臨一個重要挑戰是:如何在有限的時間里面深入了解特定目標行業的痛點。畢竟服務業細分領域眾多,不可能對每個領域都有深入的研究,而沒有深入的研究,就不可能拿出高質量的滿意度測評問卷,進而嚴重影響測評質量。直接通過互聯網搜索相關信息,會發現有價值的信息散落在浩如煙海的大數據之中,收集整理的工作量十分巨大,同時還受到大量水軍數據的干擾。因此,能不能通過人工智能技術來輔助滿意度測評,是我們思考的重點問題。帶著這個需求,我們接觸了多家人工智能領域公司,最終選擇南京網感至查科技公司作為合作單位,同時雙方商定本次合作的研究樣本為汽車4S店服務質量。在本次合作中,我們應用語義分析技術對網上汽車4S店服務質量口碑數據進行數據挖掘,并進行正負面情感、投訴問題類別等多維度分析歸類。通過這樣的一種手段,快速地了解在為汽車4S店服務行業中消費者關注的重點,為開展該行業的消費者滿意度調查提供重要參考。
2 技術路徑
2.1 數據采集與預處理
第一階段是數據采集與預處理階段。根據需求,運用爬蟲技術從主流媒體、社交平臺、汽車專業論壇等渠道全面深入地搜集4S店行業信息、用戶評論。為避免大量的垃圾數據,嚴格控制采集的范圍,聚焦關注主體,重點采集所有4S店相關的認證用戶,認證用戶的問題及回答,同時需要過濾宣傳貼等無效數據。
下面以知乎為例,簡要說明數據采集的過程(見圖1)。
1)選定范圍:知乎有專欄和話題,此類評論和主題具有可信度高、內容深入、真實性高的特點,是我們采集的重點。首先從所有有關“4S店”、4S店別稱(汽車維修、代理店、四兒子店等)的知乎問題為入口,深度采集問題回答者,以及回答者信息。
2)采集元數據:從回答的評論進行二級采集,收集有關4S店關注用戶的元數據,再以元數據為中心,廣泛采集關注的問題及回答。
3)采集權重賦值:定制每個平臺的采集信息來源的權重,以此作為信息預處理的一個基礎,在知乎平臺,專欄>話題>定制搜索,相同內容下以權重作為過濾條件,提升采集的質量和準確度。
4)數據過濾:收集完數據,過濾非關注主題的問題、評論、回答,去除重復評論、與主題無關的評論。
5)獲取數據:采集策略和過濾策略搭建完成后,進行分布式爬蟲獲取數據,同時為避免觸發社交平臺的反爬策略,我們進行模擬用戶爬蟲策略,盡可能避免出現臟數據的可能。
前四個階段,可以被稱為預處理階段,其中數據過濾的工作量最大,涉及的情況也最為復雜,其中高效地進行水軍貼的過濾是后續工作的基石,也是整個工作的難點和亮點。
如圖2所示,針對內容水軍過濾我們主要采用了三個策略:
1)關鍵詞過濾。定義好廣告詞庫,通過水軍關鍵詞匹配,簡單過濾低端水軍、刷好評等的評論,將大量重復的水軍貼、無用貼進行過濾。
2)文本規則過濾。深入分析水軍文本所具備的特點,對此類特點進行特征化、規則化,如:重復使用大量無實義的形容詞、語言多具有重復部分等,先對文本進行依存句法分析,再根據依存句法分析結果,用總結的水軍規則進行識別、過濾。先對文本進行分詞,再使用句法分析算法,最后使用規則引擎過濾水軍文本。
3)機器學習過濾。這里應用到了網感至查公司的核心技術(TML),TML是擁有自主知識產權的編程語言,可以用來提升計算機系統對復雜的語言表述的理解能力。 由于中文表述的復雜性,只從句法和詞性上的分析是不夠的。TML充分發揮了其在自然語言處理上的技術優勢,以及對來自不同來源內容的深入了解,結合規則和詞性過濾,使用貝葉斯分類算法從信息特征、用戶行為、多角度、多方式進行全面的信息過濾,數據清洗,保障最終分析結果的高精度。
經過兩個多月的數據挖掘和預處理,獲取了本次研究的基礎數據,數據的基本情況如下:共采集評論50余萬條,相關帖子22783篇,知乎用戶54389名,微博認證4S店用戶1000名。其中微博和知乎用戶可信度高,回復內容豐富,內容信息量大。是本次采集的重點,所占的比例也最大。按數據量來統計:知乎占比40%、微博占比45%,汽車之家占比5%,其他新聞媒體占比10%。
2.2 基于TML的語義分析
在獲取了大量的原始數據后,還需要對數據進行深入分析,從中提煉出消費者真正關注的重點。由于獲取的數據都來自互聯網上的帖子,是非結構化數據,如何了解發帖人的本意并對其進行分類,這就需要再次用到基于TML的語義分析技術。
2.2.1 基于人工智能下的主題發現
首先需要從海量的數據中智能分析出100個主題,使用機器學習主題發現模型,利用TML技術在自然語言領域的技術積累,智能發現用戶評論的焦點,用戶所關注的方面。
基于條件隨機的實體發現,結合LDA主題模型和CRF算法,TML能夠通過數據訓練,迭代出用戶發表的主要主題。同時可以解決冷啟動問題,使用規則引擎大范圍提升標注性能,使用標注后的詞序列充分訓練模型,讓機器學會實體識別前后的文本規則,例如,當文本中出現了百家姓、機構名稱時,模型能夠提取出命名實體的精度達到90%以上。經過訓練后,精度還能實現較大提升。
通過改進訓練方法,來優化主題發現。具體步驟為:
1)選取初始訓練主題數量值,得到初始模型,計算各主題之間的相似度。
2)減少設定主題數量的值,重新訓練得到模型,再次計算主題之間的相似度。
3)重復第二步直至得到最優的主題數量。將主題初始值設置為30,通過主題模型訓練出30個主題,使用文本相似度計算,合并相似的文本,將得到新的主題數量。重新更改算法模型主題數量,將訓練得到的主題,進一步進行相似度計算、同義詞計算,重復迭代,最后我們得到一組30個的文本主題名詞,通過對名詞進行初步校驗,得到一個簡單的詞云圖。文本主題包括:電話預約、試駕服務、接待服務、提車時間、維修保養價格等。
2.2.2 專家校驗
主題與主題之間是具有關聯關系的,使用主題發現可以基本確認用戶所發表的主要對象,但實體對象之間的關系,與行業有著很高的聯系,實際應用中不能直接根據技術所提取的主題,直接進行主題下的數據訓練,文本挖掘。因此,我們邀請了汽車4S行業專家,利用專家對4S店的深入了解,使用專業詞匯修正網絡用戶隨意表達的主題,同時將主題進行類別劃分。通過對機器自動識別的30個4S店主題進行校驗,列出主題之間的關聯關系,將生成的主題與實際領域信息進行合并與分離,建立具有層級關聯的知識體系。最終將主題歸納成13個大類:售前服務、費用解釋、售前配件、提車環節、新車核對、承諾兌現、新車掛牌、新車貸款、售后保養、霸王條款、售后維修、投訴處理、保險等。同時將各個主題細分至大類下,完善整個類別關系。
2.2.3 基于TML的4S店知識圖譜搭建、文本細粒度分析
關于4S店服務,網絡上的表達各式各樣,既有正規語言,也有大量網絡用語。網絡用語日新月異,如果沒有可迭代、可持續發展的知識圖譜技術,就無法勝任當前大數據環境下的語義分析。4S店、四兒子店、汽車、奔馳、機動車輛等這些詞匯都是人類可快速識別并進行歸類分析的,但計算機處理需要進行實體識別、關系關聯、文本分類等一系列處理,尤其是文本的邏輯推理是技術的關鍵。例如,人類一看到“SUV”這幾個字母,即可推導出背后的汽車,甚至是汽車的廠商、產地、價格范圍等。同樣,如何讓計算機也能擁有此等處理能力才是關鍵,所以TML知識圖譜在此充當推理的邏輯基礎,擁有完備的領域知識圖譜才能讓機器有更高的推理精度,更準確地實體識別,文本分類。
TML的誕生就是為了解決目前從海量數據中提煉、發掘信息存在的難題,同時深入企業、客戶業務,將人類復雜語言表達成文字,解析成計算機可統計、可識別的語料。通過學習人類關聯事物的思維模式,將文本中抽取的概念,用龐大的知識體系建立網絡狀聯系,讓枯燥的文本之間,搭建成相互依存的關聯關系。
例如,用TML技術來分析“我喜歡這輛SUV”這句話,可以提煉出文本中的概念要素“我”“SUV”,同時利用網絡狀的知識圖譜體系,可以讓計算機理解和關聯到SUV→汽車,我和SUV汽車之間提取情感傾向:“喜歡”。
知識圖譜的搭建是整個文本處理的關鍵,有了知識圖譜關系,將得到文本背后的關聯,文本之間不再只是文字上的差異而是擁有了聯系,讓機器擁有了實際生活中人類的知識體系。4S店服務構成較為復雜,傳統的文本匹配挖掘算法無法很好地解決關系實體發現,每一個主題之間都擁有復雜的內在關系,如何分析出用戶的評論到底屬于哪一個細分領域是技術關鍵。具體來說就是利用TML技術,提取出每一條評論的具體實際意義,再運用TML知識圖譜,將分析提取出概念背后的關聯關系,根據網絡狀的實體關系圖,推理出網絡用戶隨意性的文字下所代表的準確含義。
以13個服務分類為基礎搭建4S店知識圖譜,利用TML規則引擎快速訓練和迭代出初步的知識體系,再利用機器學習算法深化知識圖譜結構。4S店行業知識圖譜搭建完成后,接著進行評論的文本結構化處理、文本細粒度分類處理。將抓取并處理后的評論,使用TML引擎進行處理,TML引擎會根據定義的13種大類、27小類進行評論的分類。同時,TML引擎會匹配出該類別下的關鍵實體,匹配分析出實體關系,并通過計算機存儲技術,將分析后的結構化數據結果存儲下來。
至此,整個數據處理流程結束。最后將結構化的數據進行統計運算,統計每個類別下評論所占的比例,由此推測出該主題在4S店服務中的熱度。統計每個大類別中小類別的具體數據,由此推測出小類出現的熱度。
2.3 數據統計和分析
2.3.1 4S店各服務環節用戶關注占比分析
我們對用戶在4S店的服務環節的關注度,共計13個服務類別進行了統計分析。這13個環節類別包括了4S店的整個服務流程,包括:售前服務、費用解釋、售前配件、提車環節、新車核對、承諾兌現、新車掛牌、新車貸款、售后保養、霸王條款、售后維修、投訴處理和保險等。針對這13個類別選出最受關注服務前5類、較受關注的4類、關注度較低的4類。
4S店每環節服務所受關注占比分析結果,如圖3所示。
圖3 4S服務環節用戶關注占比
最受消費者關注的服務前5類分別是:售前服務占33.67%、售后保養17.71%、新車核對占15.05%、提車環節占10.13%、售后維修占6.65% ;其次,比較受消費者關注的服務環節的4類分別是:投訴處理5.06%、車輛保險4.82%、費用解釋3.26%、售前配件2.24%。
整體服務類別受關注的占比結果反映了從看車、選車、購車到售后保養、售后維修等整個與4S店往來過程中,消費者最在意的是哪些環節、最關注的是哪些服務或品質。
2.3.2 4S店最受關注服務的關注點分析
在所有的服務環節中一共設置分析了27個相關關注點。分別是:接待服務、預約咨詢服務、產品介紹服務、試駕服務、講價態度、售前服務費用解釋說明、維修保養費用解釋說明、配件價值、原廠配件供應、提車時間拖延、合同上提車日期缺失、提車加價、口頭承諾兌現、新車質量及相關證件核對問題、上牌困難、強制保險、保險理賠、新車貸款及利息、保養里程提前、保養服務項目、維修保養價格、維修等待時間、維修一次修復率、維修質量預期、維修偷換零件、售后霸王條款、投訴處理態度等。
通過對每個服務環節進行熱點分析,所有的關注熱點占比排列結果如圖4所示。
通過以上的數據,我們還可以對每個環節中消費者具體關注點的關注度進行數據分析。由于篇幅所限,僅選取一個關注點做示例。
售前服務環節在4S店服務流程中占比33.67%,位居最受關注第1名。此環節中,消費者比較關注的具體服務內容包括門店的接待服務、電話預約咨詢、產品介紹服務、車輛試駕服務、講價還價的態度這五個關注點。我們通過采集的數據做了分析統計,可以得出每一個關注點在售前服務這一環節所占的比重。
分析結果顯示,在售前服務環節,門店的接待服務比例90.7%,所占比重最大,消費者買車或看車時進店的第一印象尤為重要;其次是試駕服務所占比例4.37%,試駕是對這輛車最直觀的感受,消費者對試駕的良好體驗也比較看重;然后是產品的介紹服務所占比例2.40%,大多數消費者都很在意是否得到銷售員熱情的服務,而較懂車的消費者不僅要求服務人員的態度,而且對產品介紹的專業度也很在意;最后是講價的態度所占比例1.77%,部分消費者在意與銷售員講價或咨詢買車優惠時其表現的態度,這讓消費者感覺是否受到對方的尊重;也有極少數的消費者會在電話預約咨詢時在意服務的質量問題,在售前服務環節中占0.72%。
3 總結與展望
通過對4S店消費者信息進行挖掘和處理,我們清楚地了解到消費者在接受4S店服務全流程中的主要關注點,可以對關注度實現量化分析。這是以往的技術手段無法達到的效果。給滿意度調查問卷的編制提供了非常有價值的數據。
這類工作在大數據行業中屬于典型的用戶輿情發現,通過對海量的網上用戶評論的深度分析,洞察用戶對行業的不滿和建議,通過語義分析技術對互聯網信息的整合分析,消除行業與消費者之間的信息鴻溝。對于專業的滿意度調查公司來說,也是快速了解行業的重要輔助手段。
TML技術在整個數據洞察過程中,充分體現了其優勢。能夠實現對消費者不同關注點的定量分析,對于準確把握消費者的實際關注點,具有極為重要的參考價值。
對本次人工智能進行的分類結果進行核查,準確性達到了95%左右,我們的結論是現有的人工智能技術在用戶輿情發現方面,已經具備了實用的價值,其準確性已經達到了較高的水平,完全滿足滿意度調查工作的需要。
另外一方面,知識圖譜的建立和數據的訓練相對成本較高,整個工作的周期仍然較長,如果想要在滿意度調查中大面積推廣該項技術,下一步還應不斷完善數據過濾及文本分析技術,對重要的行業提前建立行業的知識圖譜,確保行業應用的效率。構建云服務平臺,共享知識圖譜,共享訓練成果,其服務效率將大幅提高,成本也會逐步降低。在可以預見的將來,人工智能技術將成為滿意度測評領域的重要技術手段,并應用于質量研究的更多領域。
參考文獻
[1] 李佳靜, 李曉明, 孟濤. TML:一種通用高效的文本挖掘語言[J]. 計算機研究與發展, 2015, 52(3):553-560.
[2] 車海燕, 馮鐵, 張家晨,等. 面向中文自然語言文檔的自動知識抽取方法[J]. 計算機研究與發展, 2013, 50(4):834-842.