摘要:隨著汽車在網聯化、智能化的發展,以及大數據、云計算技術的興起,汽車故障診斷技術在過去幾年得到迅猛的發展,大數據和人工智能的診斷方法研究和應用是當前國內外學者和企業關注的熱點之一。基于此,介紹了維修數據處理模型、語言處理模型在汽車故障診斷中的應用,闡述了汽車故障診斷知識圖譜的構建方法,描述了知識抽取、知識融合、知識學習、知識推理的過程,也介紹了一種基于知識圖譜模型的汽車故障智能診斷方法。
關鍵詞:故障診斷;知識圖譜;機器學習
中圖分類號:U469" 收稿日期:2024-11-20
DOI:1019999/jcnki1004-0226202502025
1 前言
隨著中國經濟持續穩定高速發展,我國汽車產業實現了飛速發展,2023年我國汽車整體銷量突破3 000萬輛,汽車產銷總量連續15年穩居全球第一。截至2024年6月底,全國機動車保有量達44億輛[1],汽車已經走進千家萬戶。
隨著中國汽車保有量持續不斷的增長,汽車后市場的規模也在不斷擴大。2023年我國汽車后市場維保行業產值達12萬億元,未來幾年,傳統燃油汽車老齡化以及新能源汽車的快速發展,將促使維保市場規模持續擴大[2]。汽車運行在各種路況條件和工況下,故障的發生無法避免,車輛故障對用戶出行和圍繞車輛進行的商業生產帶來嚴重的影響,因此開展汽車故障智能診斷技術的研究,提供高效、精準的診斷與維修服務是保障汽車安全運行的重要前提,如何高效、精準的診斷也是各大汽車廠商持續研究的課題。
大數據和人工智能的診斷方法研究和應用是當前國內外學者和企業關注的熱點之一,但是投入實踐應用的成果不多。一方面是故障維修數據的封閉性,各汽車廠商的售后故障和維修數據都僅在各自封閉的系統且拒絕對外開放;另一方面是故障診斷的延續性,各汽車廠商的售后故障診斷和維修具備一套完整的、基于故障樹的診斷系統。因此,將維保大數據與人工智能融合的故障診斷系統的應用是未來的重要研究方向。
2 汽車售后維修數據處理方法
汽車售后維修數據類型多、數據量大、數據結構復雜。例如,福特汽車開發的售后維修技術出版物就包含維修手冊、電路圖、診斷手冊等,在售后的維修過程中還會產生技術服務公告(TSB)、產品問題報告(PCR)、索賠單、維修單、維修案例等數據,如此多的數據堆積,必須要找到有效的數據處理方法,才能將這些數據應用到汽車故障診斷中。
以全順車型PDF版本維修手冊為例進行了分析,該手冊包含6種數據格式:文本、圖片、表格、癥狀表、精確測試、故障代碼表(DTC),這些數據對應的應用場景不一樣,因此解析的時候將6種數據格式進行區分并保存,為了保持和原始pdf文件一樣的目錄結構,按照目錄結構進行數據解析,數據的解析采用第三方包PP-StructureV2進行總體解析,OCR識別采用PaddleOCR進行識別,然后進行數據的組合,具體的流程見圖1。
PP-PicoDet模型是目標檢測模型,整體的網絡架構圖見圖2。
ES Block是百度自研的輕量級網絡ESNet,它是根據 ShuffleNet V2進行的改進。CSP-PAN每一層輸入的網絡結構是CSP的結構,CSP是YOLOV4的創新點,它能夠增強CNN學習的能力,移除了計算瓶頸,降低顯存的使用。
PP-StructureV2包含兩個子系統:布局信息提取和關鍵信息提取。PP-StructureV2輸出結果類型:
{‘type’:text、title、figure、table;‘bbox’:[xx,xx,xx,xx],‘res’:;‘img_idx’:}
結構化數據處理方案則相對簡單,基于13B-LLM大模型的工單數據(維修案例、維修工單、索賠單等結構化數據)自動抽取歸類技術,對現有的技術資料進行抽取,生成標簽和歸類,形成維修數據處理模型,具體的解析流程見圖3。
13B-LLM大模型是一款基于Transformer架構的先進自然語言處理模型,擁有130億參數,在此基礎上通過深入學習汽車維修領域的專業知識,能夠準確理解案例中的癥狀、故障原因和維修方法等汽車維修內容。根據品質報告單、質量索賠單、維修案例這三種數據通過13B模型在內容及標題中提取每個單據的故障現象、檢測方法、維修措施及肇事配件,根據大模型的語義理解,將故障現象歸為不同的現象主題類型。
3 自然語言處理在汽車故障診斷的應用
基于BGE-BERT模型的語義消歧技術,在BGE模型基礎上,對BGE的詞庫進行擴展,增加車輛專有名詞庫,然后搜集車輛售后維修行業的數據,進行tokenizer層的學習,對車輛領域的專有中文及對應的別名叫法進行向量的映射。映射到高維空間的向量,相當于把文本的語義進行細顆粒的切分,每一個維度都代表不同的語義信息,可以把不同維度的語義信息進行語義轉化,進行語義消歧;并且針對同一個詞在不同的地方,代表不同的語義信息,模型在學習的時候會結合上下文的信息進行語義的區分,在BGE的tokenizer層,相同的詞語在不同的話術里面是不同的token值,代表了不同的語義信息。
基于BGE及向量數據庫的相似度計算技術,采用BGE(Bidirectional Graph Embedding)算法將故障現象映射到1 024維度的高斯空間,每種故障現象可以細分為1 024細維度的信息,針對同一種故障現象的不同表述方式,進行向量相似度匹配,實現語義理解;同時將故障現象向量數據與歷史維修資料內向量數據進行相似度匹配計算,實現故障診斷方案的精準推送。
4 知識圖譜模型在汽車故障診斷的應用
a.知識抽取方法的研究。從各種數據源中自動抽取實體、關系和屬性等知識,包括命名實體識別、關系抽取、屬性抽取等技術。
b.知識融合方法的研究。將從不同數據源抽取到的知識進行整合,解決知識的重復、沖突和不一致等問題,包括實體對齊、屬性融合、關系融合等。
c.知識表示學習,將知識圖譜中的實體和關系映射到低維向量空間中,以便于計算機進行處理和計算,同時也能夠更好地捕捉實體和關系之間的語義信息。
d.知識推理的研究。根據已有的知識推導出新的知識,包括基于規則的推理、基于統計的推理、基于深度學習的推理等,能夠豐富知識圖譜的內容,提高知識圖譜的完整性和應用價值。
將維修數據處理模型、語言處理模型應用到故障診斷中,通過知識抽取、知識融合、知識學習、知識推理,建立故障知識圖譜,從而建立基于知識圖譜模型的汽車故障智能診斷方法,智能診斷流程見圖4。
將結構化數據與非結構化數據,通過數據處理、知識抽取、知識融合、語言處理(語義消歧)、知識學習等步驟自動構建故障診斷知識圖譜。依托故障知識圖譜,用戶在和機器問答過程中,機器根據故障知識圖譜中的關聯關系,引導用戶逐步排查從而來解決問題。
參考文獻:
[1]編輯部公安部:全國新能源汽車保有量達2 472萬輛,占比718%[J]汽車與配件,2024(13):48
[2]2023年中國汽車后市場維保行業調查報告[J]汽車維修與保養,2024(2):58-61
作者簡介:
魏艷飛,男,1984年生,工程師,研究方向為汽車服務工程、汽車檢測和維修技術、汽車營銷與策劃。