王家海 郝保偉


摘要:本文介紹一種應用于工業領域數據挖掘的方法論,它提出了傳統數據挖掘方法CRISP-DM需要在工業情境下關注的內容,同時舉例說明深度學習在工業時序數據分類方面的應用并指出其發展方向及意義。
關鍵詞:數據挖掘方法;時序數據分類;深度學習
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2019)11-0052-02
0 引言
時序數據是指一系列的數據點按照時間順序進行排列或編號,通常情況下,這些數據點按照等時間間隔進行選取。時序數據的分類問題是數據挖掘中最重要的問題之一[1]。隨著對工業設備狀態監控、設備健康管理的需要以及傳感器技術的發展,產生了龐大的數據量。從獲得的數據發掘出有價值的信息或規律,并利用這些信息和規律進行分析和預測,這是時序數據進行數據挖掘的任務和意義。
1 CRISP-DM數據挖掘方法論
作為目前最為廣泛使用的數據挖掘方法論,跨行業數據挖掘標準流程(cross-industry standard process for data mining,CRISP-DM)包含了六個階段,如圖1所示,表1是各階段包含的內容。
2 DMME(Data Mining Methodology in Engineering)數據挖掘方法論
為了適應工業領域的應用,考慮工業情境下數據獲取、處理以及其他特定的工程問題,Steffen Huber等人[3]提出了DMME(DM-Methodology in Engineering)方法作為CRISP-DM的拓展,DMME包含的過程如圖2所示。相比CRISP-DM,該方法論多了技術理解、技術實現和技術落實過程,三個過程包含的具體內容如表2所示。技術理解過程將業務目標轉化為技術目標并設計實驗方案,技術實現步驟對實驗方案進行測試和選擇,技術落實步驟將生產過程的實時數據傳遞給評估過的模型。該方法能夠很好地指導工業應用的開發工作,例如生產過程優化、機械設備零部件的監控以及預知性維護(predictive maintenance)。
3 基于深度學習的時序數據分類
數據挖掘任務可分為兩大類,分別是預測任務和描述任務,常見的有聚類分析、預測建模、關聯分析和異常檢測[4]。機器學習是數據挖掘的一個重要手段。傳統機器學習通過訓練樣本,嘗試對未來數據行為或趨勢進行預測。相關算法包括邏輯回歸、隱馬爾科夫方法、支持向量機、K近鄰方法、貝葉斯方法以及決策樹方法等。用于數據挖掘一般步驟如圖3所示,其中數據預處理、特征提取和特征轉換合稱特征處理,合理的特征處理便于分類器的設計,有利于提高準確性。傳統機器學習的預測所用的特征主要依靠人為設定。
深度學習是建立深層結構模型的學習方法,它將原始的數據特征通過多步的特征轉換得到一種特征表示,并進一步輸入到預測函數得到最終結果[5]-[6],是一種端到端的學習方法,其數據挖掘流程如圖4所示。所謂端到端學習是指在學習過程中不進行分模塊或分階段進行訓練,直接優化任務的總體目標。在端到端學習中,一般不需要明確地給出不同模塊或階段的功能,中間過程不需要人為干預。典型的深度學習算法包括深度置信網絡、卷積神經網絡、受限玻爾茲曼機和循環神經網絡等。對于時序數據分類問題,最新的研究方向主要有多層感知機(multilayer perceptron,MLP)和卷積神經網絡(convolutional neural network,CNN)等。
卷積神經網絡一般是由卷積層、匯聚層和全連接層交叉堆疊而成的前饋神經網絡,使用反向傳播算法進行訓練。卷積神經網絡主要使用在圖像和視頻分析的各種任務上,并逐漸被運用到時序數據分類問題。如圖5所示。
4 結語
本文對比了兩種數據挖掘方法論(CRISP-DM方法和DMME方法),提出數據挖掘在工業領域實際應用所需要特別關注的內容。同時對比了兩類基于機器學習的數據挖掘方法(傳統機器學習方法和深度學習方法),指出傳統的機器學習方法的不足,而深度學習的端到端的特性,避免了特征工程的繁瑣工作。上述內容對生產企業進行數據挖掘軟件的開發工作具有一定的指導作用。
參考文獻
[1] Yang Q,Wu X.10 challenging problems in data mining research[J].International Journal of Information Technology & Decision Making,2006,05(04):597-604.
[2] Wirth R,Hipp J.CRISP-DM:Towards a standard process model for data mining[C]//the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining,2000.
[3] Steffen H,Hajo W,et al.DMME:Data mining methodology for engineering applications a holistic extension to the CRISP-DM model[J].Procedia CIRP,2019,79:403-408.
[4] PANG-NINGTAN,MICHAELSTEINBACH,VIPINKUMAR.數據挖掘導論:完整版[M].人民郵電出版社,2011.
[5] 邱錫鵬.神經網絡與深度學習[EB/OL].[2019-11-06].https://nndl.github.io/.
[6] Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436.