基于維修日志的飛機設備故障原因判別方法?

2019-06-11 07:39:52王銳光楊海燕

軟件學報 2019年5期

王銳光,吳際,劉超,楊海燕

(北京航空航天大學計算機學院,北京 100191)

眾所周知,許多安全關鍵系統變得規模化、復雜化和高度耦合化,如航空發動機、汽車車輛、化學系統、電力系統、風能轉換系統和工業電子設備等等.所以,對可能存在工藝異常和設備故障的系統,其可靠性和安全性的要求越來越高.簡單的異常可能會損壞部分功能,從而造成經濟損失甚至巨大的人員傷亡,故盡可能早地檢測和識別潛在異常并實施容錯操作以最小化性能降級和避免危險情況是至關重要的.隨著航空業的飛速發展,航空公司的飛行安全需求不斷提高,但飛機結構愈加復雜,同一故障可能由多種因素引起,設備之間關聯的多變性,使得維修人員難以通過傳統的基于故障診斷規則[1]和基于專家系統的故障診斷方式[2]得到準確的結論,更先進的監控手段和故障診斷技術應逐漸應用到復雜系統中.

1 引言

故障診斷的目標是提供關于故障更加詳盡的描述信息,包括但不限于故障檢測、故障原因判斷、故障定位及故障恢復等[3].一旦檢測到故障,維修人員就需要根據經驗判斷故障原因,從而提出故障修復方案.故障原因是故障診斷的首要目標,確定故障原因之后才能進行相應的故障排除措施,及時地避免更大的經濟損失和傷亡.

由于飛機等系統的結構、性質和先驗知識難以在短期內獲得,基于知識和基于模型的故障診斷難以進行下去.而使用基于數據驅動的故障診斷方法不需要完整的系統模型,只要求可靠的定量或定性數據,這使得該類故障診斷方法變得切實可行.許多學者已經提出幾種性能較好的基于數據的故障診斷方法,如:文獻[4]首先利用自助重采樣方法對原始樣本進行處理,基于不同樣本的自助子集分別去訓練不同的神經網絡,最后對所有網絡的診斷結果進行綜合,從而提高了故障診斷的可靠性;文獻[5]在配電系統的故障診斷中利用主成分分析法對訓練樣本進行降維,然后利用支持向量機和神經網絡方法實現故障分類,達到了較好的分類精度;文獻[6]研究了以復雜工業過程為重點的故障分類問題,為了進行多故障分類,研究了基本的支持向量機以及主成分分析方法,實驗表明:標準主成分分析法仍然有令人滿意的結果,而且計算量較少.

近年來,航空維修企業已經有相當規模的維修經驗數據積累,大部分企業將該類維修經驗用于專家系統的構建中[7].航空維修企業的數據包括非結構化數據和結構化數據兩種,其中:結構化數據容易直接用于計算和分析;而非結構化數據可以用于分析,也可以通過自然語言處理等方法轉換為結構化數據.Chiu C等人[8]提出了基于案例推理的方法,使用歷史非結構化維修案例數據,并采用遺傳算法增強相似性函數性能的方法來檢索相似案例,達到了較好的效果.李青等人[9]開發了基于案例推理和分詞替換的故障診斷系統,通過標準詞典的詞條替換,將人為描述轉換為更標準的格式,使語義類似的案例達到更高的相似度.文獻[10]采用主題模型對高鐵車載設備故障文本信息進行特征提取,基于貝葉斯網絡對故障進行分類,達到了較好的診斷準確性.文獻[11]中,針對汽車領域在故障診斷期間形成的大量文本數據,提出一種基于本體的文本挖掘技術的知識發現方法,使用診斷本體來發現最佳的實踐經驗以用來修復知識,該方法在現實工業中的基于 Web的分布式架構中成功應用.文獻[12]中,針對鐵路維修部門的故障文本數據,提出了基于雙層特征提取的文本挖掘方法,在語法層次上使用基于卡方統計的特征選擇來解決樣本不均衡問題,之后,在語義層次上使用基于Dirichlet分配的特征選擇,以將數據降維至低維主題空間,并通過鐵路公司收集的鐵路維護數據驗證了其性能.Zhao等人[13]提出了一種基于文本挖掘技術的鐵路車載設備故障診斷方法.該方法使用主題模型從維修記錄中提取故障特征,同時采用貝葉斯網絡調整故障診斷的不確定性和復雜性,最后,充分利用專家知識和數據以推導出合適的貝葉斯網絡結構.該方法通過武廣高速鐵路信號系統的實際數據驗證了正確性.

在文本特征提取方面,傳統的方式一般有詞袋模型(bag of words,簡稱BOW)或向量空間模型(vector space model).除此之外,在特征權重方面,主要是經典的 TF-IDF[14]以及其他擴展方法.詞袋模型的最大問題是維度和稀疏性很高,詞與詞之間相互獨立,忽視了上下文關系,因此需要特征選擇、降維等方法降低維度,通過特征權重增加稠密性.而向量空間模型雖然克服了詞袋模型在高緯度上的缺點,但訓練該類模型需要龐大的語料才能很好地反映詞與詞之間的上下文關系.本文首先提出一種迭代式的故障診斷基本過程,通過不斷積累維修日志,提高故障診斷的準確度;其次,在傳統文本特征提取技術的基礎上,基于領域內信息,提出一種基于卷積神經網絡的字符級文本特征提取方法,在樣本量較少的情況下,取得了較好的效果;最后,使用隨機森林模型結合其他故障特征判別飛機設備故障原因,從而達到了較好的故障原因分類精度.

本文第2節介紹隨機森林模型的理論基礎.第3節介紹基于維修日志的故障診斷基本過程.第4節提出基于卷積神經網絡的小樣本字符級文本特征提取方法.第 5節設計實驗驗證隨機森林算法的優越性,說明本文方案的有效性.第6節對本文工作進行總結并提出后續研究方向.

2 隨機森林

隨機森林(random forest,簡稱RF)[15]是基于多決策樹的Bagging類集成學習算法,通過自助(bootstrap)重采樣技術且并行訓練多個基分類器來降低學習算法的方差,從而得到良好的分類性能.隨機森林算法在故障分類領域中應用較多[16-18],原因主要有:參數數量較少,不需要大量的調參工作;由于 Bagging的集成思想,所以不必擔心過擬合現象的發生;對缺失值較多的數據能夠很好地適用;能通過訓練得到特征的重要程度;作為樹結構,對多分類任務有良好的適應性;對于文本等高維數據具有良好的處理能力等.由于飛機維修日志經過結構化以后維度較高、且缺失值較多,所以采用隨機森林算法作為主要的故障原因判別方法.

隨機森林由所有決策樹經過投票決定每個輸入樣本X的類別.每棵決策樹{h(x,θi),i=1,2,…,k}依賴于θi,且θi是獨立同分布的隨機向量.而生成每棵決策樹時的隨機性,使得整體的泛化誤差既依賴于單棵樹的分類性能,也依賴于各決策樹之間的相關關系.隨機森林算法主要分為決策樹的生成和隨機森林投票兩個步驟.

2.1 決策樹生成

決策樹分類是一種從雜亂無章的數據集中學習出樹狀表示形式的分類規則的方法.隨機森林使用 CART分類樹作為基決策樹,使用自助重采樣技術生成每一棵決策樹分類器.單棵決策樹的生成過程如下描述[19].

1)對原始訓練集,使用有放回抽樣的方式隨機抽取訓練樣本,每個訓練集大小約為原始訓練集的2/3.

2)為每個bootstrap訓練集建立CART決策樹,一共產生nt棵決策樹,從而構成一片“森林”.

3)隨機選擇數據集中的特征.假設訓練數據集中有M個特征,從中隨機選擇m(m

其中,p(j|t)表示樣本點在節點t處屬于j類的概率.基尼指數越大,表明在節點t處的樣本數據越均勻,所含信息就越少.

4)每棵決策樹都最大可能地進行生長而不進行剪枝.

每棵決策樹由節點和有向邊組成,節點有兩種類型:內部節點表示一個特征或屬性,葉節點表示一個類別.圖1展示了決策樹的結構,其中,A1,A2是內部節點,表示特征或屬性;C1～C3是葉節點,表示類別.

Fig.1 Decision tree structure圖1 決策樹的結構

2.2 隨機森林投票

隨機森林在面對分類問題時,一般采取的是簡單投票法.測試數據輸入到每個基決策樹中進行分類,最終的類別由各個基決策樹的分類情況決定,取分類得票數最多的那一類作為最終結果.即對于測試數據X,每棵決策樹預測該數據的類別為C,則隨機森林的投票決策公式如下:

其中,nt表示基決策樹的總數,I(*)表示示性函數,表示類別C在樹si上的分類結果,表示葉節點個數.

3 基于維修日志的故障診斷基本過程

基于維修日志的故障診斷的核心思想是:通過機器學習方法,利用飛機歷史維修經驗,為新的故障診斷提供依據和參考.診斷過程如圖2所示,包括故障數據轉換、故障原因判斷、故障原因修正和故障案例添加等步驟.

1)故障數據轉換:由于故障案例包含故障現象、故障位置等均為維修人員用自然語言書寫的文字記錄,無法直接計算,故采用詞頻-逆文本頻率、獨熱編碼等方法將非結構化的文本轉化為結構化數據,形成待預測故障.

2)故障原因判斷:通過隨機森林等機器學習模型對測試故障樣本的故障原因進行診斷,并顯示給維修人員作為故障診斷的參考依據.

3)故障原因修正:通過專家的經驗對測試故障樣本的故障原因進行修正,對預測錯誤的故障原因進行修正,形成正確的故障原因,以作為新的數據訓練故障診斷模型,提高預測的準確率.

4)故障案例添加:將修正的故障樣本添加到已有的故障庫中,每隔一定時間,迭代地訓練新的故障庫,以提高故障診斷模型的預測準確率.

Fig.2 Fault diagnosis process based on maintenance log圖2 基于維修日志的故障診斷過程

4 文本特征提取方法

航空維修數據一般為模塊化的非結構化的文字記錄,維修人員觀察飛機設備的故障現象等故障信息之后,用專門的測試設備對疑似故障部件進行測試,根據維修經驗進行故障診斷并記錄在故障數據庫中.本文采用的航空維修數據是針對波音737-300近7年的故障診斷記錄,該數據來自于某合作單位,數據的樣例見表1.

Table 1 Maintenance log of Boeing 737-300表1 波音737-300維修日志

該維修數據的維修機型均為波音 737-300,一共統計了 3架飛機的維修情況,但只有 1架飛機擁有 2010年～2016年近 7年的維修數據,另外兩架只包含部分年份的維修數據.在數據庫中,維修人員記錄故障現象、故障失常碼、故障件位置、故障所屬系統、工作時次和故障原因.其中,故障現象為故障發生時維修人員看到的故障情況,并通過文字記錄的形式存入到數據庫中.由于維修人員的更替,這種文字記錄形式不統一,不同的維修人員對同一故障現象的記錄可能會有差異.故障失常碼為故障發生時對故障表現的簡要總結,包括工作不正常、燈不亮、不指示、噪音大等.故障件位置是故障發生時故障設備所處飛機的位置,有前機身、前設備艙、機翼、客艙等等.系統表示了該種故障現象發生在飛機的哪種系統中,如自動駕駛設備、電氣裝置、信號系統等等.工作時次表示了故障部件已經工作的時長,以小時為單位.故障原因為本文方法預測的目標,主要包括傳感器故障、燈組件故障、電路故障、電門故障、機件內部故障等11個故障原因.

4.1 基于卷積神經網絡的文本特征提取方法

故障現象作為維修人員觀察故障特征的主要記錄手段,揭示了故障表現與故障原因的內在關系.但維修記錄中的文字描述缺乏統一的描述規范,同一故障現象的描述方式可能有所不同.并且由于維修人員不斷更換,文字記錄的方式往往伴隨著隨機性.設計一種能夠從自然語言文本中提取核心特征的方法,是做故障診斷任務之前的關鍵.文獻[20]在預訓練的詞向量上直接使用一個簡單的卷積網絡用于句子級別的分類任務中,并在4種領域問題如情感分析、問題分類等做了驗證,證明卷積神經網絡能夠較好地提取文本的特征.文獻[21]使用英文字符為單位的卷積網絡實現文本分類,在與傳統模型和深度學習模型進行比較實驗的過程中,表明了字符級卷積網絡可以獲得具有競爭力的結果,但該種方法的缺陷在于需要大量的語料庫的支持才能獲得較好的效果.文獻[22]在語義匹配領域中提出了一種不需要先驗知識的卷積神經網絡模型,通過使用卷積來代表兩個句子的層次結構并捕獲豐富的匹配模式,可以應用于不同性質和不同語言的匹配任務中,通過實驗證明了對各種匹配任務的有效性及相對于其他模型的優越性.故本文采用卷積神經網絡對該類文本進行結構化轉換.

卷積神經網絡主要結構如圖3所示,該結構將“故障原因”作為目標進行訓練,以字向量為輸入方式,最終通過全連接層間接得到故障現象中維度固定的文本向量.下面主要講解神經網絡各層的作用.

Fig.3 Convolutional neural network structure圖3 卷積神經網絡結構

1. 統計故障現象中出現過的所有文字并建立詞匯表.故障現象中包含大量航空領域中的領域故障詞,將詞匯表中的文字依出現次數進行排序,并為每個文字分配一個序號,出現次數更多的文字,其排序更為靠前(添加特殊字符〈UNK〉作為未出現在該詞匯表中的字).為排序在前nvocab_size位的詞匯建立大小為nvocab_size×nembed_dim的詞匯表,并隨機初始化我們的輸入——字向量.其中,nembed_dim為字向量的維度.

2. 由于故障現象描述中文字的數量不一致,為了保持統一,選擇一個合適的大小nseq_length作為該句中需要提取的字向量個數,從而構建句子向量矩陣.如果句子中的字數較少,則補全為空;如果句子中的字數較多,直接截斷前nseq_length個字.

3. 選擇一維卷積核提取句子特征,核大小為nkernel_size,選擇nkernel_nums個卷積核構建卷積層,對句子向量矩陣做卷積運算.卷積運算是將核權重與窗口大小為的字向量相乘,并得到新的特征,計算公式如下:

4. 使用最大池化層提取每行的最大值作為該卷積核提取出來的特征,形成nkernel_nums大小的池化層,并與全連接層相連,其中,使用 dropout隨機失活等正則化方式防止過擬合.該全連接層代表著整個句子經過卷積核的特征提取后的向量表示.

5. 將全連接層與softmax層相連,softmax層的維度為故障原因類別個數,將屬于某一類的故障原因的索引設置為1,其他設置為0.

6. 輸入故障現象和故障原因,訓練整個神經網絡,得到更能反映領域知識的文本向量.

在采用合適的正則化策略與激活函數之后,該類方法能夠在全連接層提取故障現象中最能反映故障原因的文本特征,從而將該特征作為故障現象的文本特征與其他領域特征進行拼接,得到合適的結構化文本.該類方法不僅可以提取到表示層次較深的文本特征,而且可以降低文本表示的維度,得到緊湊稠密的文本表示.

4.2 基于獨熱編碼的文本轉換方法

獨熱編碼(one-hot encoding)又稱為一位有效編碼,它使用N位向量表達N個詞是否出現,第i個位置為1表示第i個詞在文本中出現.從計算機體系結構角度來看,其實對N個不變狀態采用N位寄存器來保存,每個寄存器只保存1種狀態,并且在任意時刻只有1個寄存器有對應的狀態.

其他特征取值范圍固定,所以采用獨熱編碼的方式將每一行的相應特征轉換為向量的格式用于計算.如故障件位置包括后機身、機翼、客艙、起落架艙等 7個位置,加上記錄為空的字段,轉換為獨熱編碼即為 8維向量.將故障失常碼、故障件位置、系統這3個特征均做獨熱編碼處理.

“工作時次”表示設備到故障為止的正常運行的小時數,原數據為浮點數格式,為了防止過擬合,將其分為10個子范圍,并采用獨熱編碼轉換為向量的格式用于計算.

4.3 基于隨機森林的故障診斷步驟

圖4展示了基于維修日志數據的基于隨機森林算法的故障診斷過程.

Fig.4 Fault diagnosis process based on random forest圖4 基于隨機森林的故障診斷流程

整個過程的步驟如下.

1)獲取經過文本處理后的原始故障樣本訓練集(xi,yi)N×M,xi表示第i個故障樣本的特征向量,yi表示該故障樣本的真實故障原因,N表示故障樣本數,M表示特征數.

2)將原始故障樣本訓練集分為nt個自助訓練集,根據上述的隨機森林構建方法構建nt棵基決策樹.

3)將測試故障樣本輸入到構建的隨機森林模型中,每棵基決策樹分別判斷該故障樣本的故障原因.

4)利用投票法綜合考慮所有基決策樹的分類結果,由公式(3)得出該故障樣本的故障原因.

5 實驗設計與結果

5.1 數據集

實驗的數據集來自于真實的波音737-300飛機維修日志,該數據集記錄了近7年的故障診斷記錄,包括飛機編號、故障發現日期、故障現象、系統、工作時次、故障失常碼和故障原因等信息.其中,飛機編號在本實驗中沒有作用,與故障原因關系不大,故在實驗中刪除該列.故障發現日期將作為故障樣本訓練的基準,迭代地訓練診斷模型.原始數據集中,故障原因中有些記錄為冗余信息,有些記錄不夠明確,僅僅通過原始故障原因無法有效完成故障診斷模型的建立,因此通過對故障原因類別的梳理,對其記錄中的主要信息提取整理,最終得到處理后的故障原因,見表2.數據集共有故障樣本1 272個,而故障原因作為預測的目標,其樣本數分布見表3.

Table 2 Partial aircraft failure raw data表2 部分飛機故障原始數據

Table 3 Number of samples for each failure reason表3 各故障原因樣本數

5.2 卷積神經網絡參數調整

卷積神經網絡雖然能夠較好地提取領域內的字向量特征,但與其他文本特征提取方法相比,模型的復雜程度更高,需要調節的參數也變得更多.本文中采用的參數調節方式主要使用訓練集中的故障現象去盡可能得到最佳的故障原因預測精度,參數調節過程中定義的參數搜索域見表4.

Table 4 Convolutional neural network parameter search domain表4 卷積神經網絡參數搜索域

參數調節過程的評價指標為準確率,經過若干次隨機搜索,取達到最高準確率的超參數作為模型的超參數來使用,并使用該模型得到的故障現象文本表示與其他領域特征結合并用于隨機森林模型中.

5.3 評價指標與模型參數

分類問題中常用的評價指標是準確率和召回率,除此之外,本文還采用了F1值作為綜合考慮準確率和召回率的評價指標.上述指標均是數值越大,表示模型效果越好.

為了讓隨機森林算法在該數據集上達到最好的效果,需要調整算法的超參數使其更適合該類數據.隨機森林算法主要包括兩個參數:隨機選擇的特征數m和基決策樹數目nt.

隨機選擇的特征數m為每棵樹的節點在進行分裂時需要考慮的特征數量,它是隨機森林算法中對準確率預測比較重要的參數.調整m的取值,隨機森林的性能會隨之變化.本文通過實驗來確定最佳的特征數m:首先固定基決策樹個數nt為100,調整m的取值,觀察隨機森林在該數據集上的F1值變化,選擇F1值最大時的m值作為本文實驗中m的取值.圖5展示了隨機森林與不同m值之間的關系,由于數據維度較高,故m值代表取原始特征數的比例,取值范圍為0.1～1.0.由圖5可知,當m值為0.1時效果最好.

隨機森林是由許多基決策樹組成,基決策樹的數量與隨機森林的預測性能有較大的關系.基決策樹數量足夠多,隨機森林才能達到更高的誤差上界.但若基決策樹數量過多,隨機森林的訓練時間也會變長且容易造成過擬合,在測試數據集上表現不佳.本文通過實驗確定最佳的nt,首先固定m值為0.1,選擇不同的nt在數據集上進行訓練,調整nt的取值觀察隨機森林在該數據集上的F1值變化,選擇F1值最大時的nt值作為本文實驗的取值.圖6展示了隨機森林與不同nt值之間的關系,取值范圍nt=[20,50,100,150,200,300,500,750,1000].由圖6可知,當nt為500時效果最好.

Fig.5 F1 value corresponding to differentmvalues圖5 不同m值對應的F1值

Fig.6 F1 value corresponding to differentntvalues圖6 不同nt值對應的F1值

5.4 實驗結果分析

文本的實驗分為 3部分:第 1部分使用上述討論的超參數對故障訓練樣本進行迭代式地學習,將次年的故障樣本作為測試集,逐年添加故障樣本,觀察隨機森林模型在測試集上的預測能力;第 2部分將隨機森林模型與其他機器學習算法在該數據集上作對比,觀察隨機森林相比于其他算法的優越性;第 3部分對比不同的文本特征提取方式在同一模型下對模型準確程度的影響.

首先,觀察隨機森林模型在迭代式地學習中獲得的提升幅度.把故障數據逐年遞增式地輸入到超參數已定的隨機森林算法中,測試集選擇次年的數據,比如2010年～2012年的數據作為訓練集,則2013年的故障樣本便作為測試集,觀察平均準確率、平均召回率和平均F1值的變化.最終的實驗結果見表5.

Table 5 Iterative training classification result表5 迭代訓練的分類結果

由表5中我們可以明顯觀察到,隨著故障樣本迭代式地增多,3個模型評價指標都隨之增長,在故障年份為2010年～2015年時,3個模型評價指標均為最高,達到了82%左右.由此可以證明,隨著故障庫中故障樣本的增加,模型的預測能力確實有了顯著的提高.

現把2010年～2015年的故障數據全部輸入到超參數已定的隨機森林算法中,預測2016年的故障樣本的故障原因,觀察各個故障原因在該算法下的分類性能.最終的實驗結果見表6.

Table 6 Random forest classification result表6 隨機森林分類結果

在表6中我們觀察到,在準確率方面,電路故障最低,其他故障的預測準確率都在70%以上,其中,計算機故障和設備燒蝕故障的分類準確率最高,都超過了 90%;在召回率方面,設備老化最低,沒有超過 70%,而電阻故障和設備燒蝕故障的召回率均超過了90%;F1值在一定程度上反映了學習器在準確率和召回率上取得雙高的比例,電路故障、燈組件故障和設備老化故障的F1值最低,沒有超過80%,F1值最大的為設備燒蝕故障,達到了93%.可以看到,在對維修日志數據的分類預測問題上,隨機森林有較好的分類效果.

在不同模型的對比實驗方面,我們采用邏輯回歸、樸素貝葉斯、決策樹、支持向量機和k近鄰算法與隨機森林算法進行對比.其中,邏輯回歸使用“l2”正則化,樸素貝葉斯使用多項式模型,決策樹使用CART決策樹,支持向量機核函數使用高斯核函數,k近鄰的距離度量方式選擇歐氏距離.經過參數調整以后,各個模型的最佳實驗結果見表7.

Table 7 Comparative experimental results of different algorithms表7 不同算法的對比實驗結果

由表7可知,其他5種算法的預測性能均沒有隨機森林強,其中,k近鄰的效果最差.這是因為除了字特征可能具有可以衡量的距離以外,其他特征并不具有明顯的距離概念,并且在高維數據下采用歐式距離可能達不到很好的度量效果.而邏輯回歸和樸素貝葉斯的效果都低于 70%,在該類數據上的效果比較差.決策樹的效果要稍好一些,可能是因為決策樹模型與傳統上專家在進行故障診斷時所依據的故障樹規則比較相似,所以達到了比較好的效果.而支持向量機在面對小樣本集時也能發揮其良好泛化性能的特點.隨機森林結合了決策樹模型的優點,同時通過Bagging集成的方式降低了算法的泛化誤差,獲得了最優的效果.

最后比較不同文本特征提取方式對模型性能的影響,分別采用直接獨熱編碼的詞袋模型、TF-IDF、基于維基百科語料訓練的分布式詞向量、基于故障現象小樣本語料訓練的分布式詞向量和本文提出的字向量特征,并使用同一參數的隨機森林模型進行預測,觀察效果.實驗結果見表8.從結果中可以看到,直接使用詞袋模型的獨熱編碼方式由于無法提取文本特征的上下文特征和領域特征,效果最差;而 TF-IDF,Word2Vec+維基百科語料的準確度比較接近;而 Word2Vec+故障現象語料的準確度也較差,這是因為故障現象語料較少,直接使用上下文關系預測詞向量的方式效果較差;而采用卷積神經網絡提取基于字符級的字向量特征的方法比其他方法在總體性能上更好,平均各項指標比 Word2Vec+維基百科語料要高 0.03,從而可以說明采用卷積神經網絡的文本特征提取方式對文本特征提取更加充分,更能反映與故障原因的關系.

Table 8 Comparative experimental results of different text features表8 不同文本特征的對比實驗結果

6 結論

針對目前維修日志數據無法充分利用的問題,本文首先提出一種迭代式的故障診斷基本過程,然后提出一種基于卷積神經網絡對非結構化文本使用字向量提取文本特征的方法,最后使用隨機森林算法對長期積累下來的飛機故障日志數據建立故障原因分類器,并通過實驗驗證了文本特征提取方式和隨機森林算法的有效性.并且如果后續有更多的故障日志數據作為支撐,可直接使用本文闡述的故障診斷過程,通過迭代的方式不斷地提高故障診斷模型的預測精度,幫助維修人員盡快確定故障原因,節省維修人員的時間成本.但是隨著維修日志的不斷增多,維修日志語料庫也在不斷增多,有必要繼續比較本文提出的文本特征提取方式與基于上下文關系的文本特征提取方式的優劣.同時,有必要解決樣本量較少且樣本不均衡等問題,這是我們下一步的研究方向.