吳雪峰 馬 路
(哈爾濱理工大學機械動力工程學院 黑龍江 哈爾濱 150080)
數據挖掘技術及在制造業的應用
吳雪峰 馬 路
(哈爾濱理工大學機械動力工程學院 黑龍江 哈爾濱 150080)
隨著信息化時代的發展,各行各業催生了大量的數據,為了能更好地提供決策支持,數據挖掘技術應運而生。在詳細分析了中國制造業現狀的情況下,中國政府發布了《中國制造2025》,將制造業列為國家重點發展支持項目。數據挖掘技術作為現代先進制造技術之一,在現代制造業中將具有獨特的優勢。首先介紹數據挖掘的基本概念、挖掘過程及數據挖掘的經典算法,然后重點介紹數據挖掘在制造業的應用,最后指出了數據挖掘的發展趨勢。
數據挖掘 制造業 發展趨勢
隨著信息化時代的到來,各行各業迅速發展,積存了海量的數據信息。而在這些海量的、雜亂無章的數據里往往隱含著大量的對人們有用的信息。如何從海量的數據中快速的獲得有效的數據并為決策提供支持成為當務之急,而依據傳統的數據處理方法顯然已無法滿足所需,數據挖掘技術應運而生。數據挖掘作為一個新興的多學科交叉應用領域,正在各行各業的決策支持活動中扮演著越來越重要的角色[1]。
尤其在制造業,我國已經是世界上第一制造大國,制造業在我國國民經濟中處于支柱產業。最近幾年,制造業越來越受到國家領導人的重視,2015年5月中國政府發布了《中國制造2025》,將制造業推向高速發展行列,旨在2025年進入制造強國行列,這已經成為我國新時期經濟發展的重中之重。隨著大數據產業飛速發展為社會關系變革的一個主要推動力[2],而制造業以數字化、網絡化、智能化為核心技術,成為“中國制造2025”的制高點、突破口和主攻方向,這將產生大量數據,更需要大數據技術的支持,因此數據挖掘技術在制造業方面將具有獨特的優勢。本文結合目前數據挖掘技術在制造業的應用,闡述了數據挖掘技術的理論支撐及算法,并結合現狀指出了其發展趨勢[3-5]。
數據挖掘簡單講就是從大量的數據中挖掘或抽取出對人類有用的知識。對數據挖掘概念的定義有很多版本,總的來說,數據挖掘就是從大型數據庫的數據中提取隱含的、事先未知的、有效的、新穎的、潛在應用的知識和信息,提取的知識表示為概念(Concepts)、規則(Rules)、規律(Regularities)等形式,這種定義把數據挖掘的對象定義為數據庫或數據倉庫。也有一些文獻把數據挖掘稱為知識發現(Knowledge Discovery)、知識抽取(Knowledge Extraction)、數據考古學(Data Archaeology)、數據捕撈(Data Dredging)、智能數據分析(Intelligent Data Analysis)等[6]。
數據挖掘的對象是非常廣泛的,主要是面向關系數據庫、數據倉庫、文本(文本是非結構化或半結構化數據)、多媒體數據(主要包括圖像、音頻、視頻數據)、Web數據以及復雜類型的數據(主要包括空間數據庫和時間序列數據庫)等。數據挖掘是一個跨學科領域,其主要涉及的學科領域如圖1所示。

圖1 數據挖掘涉及學科領域
數據挖掘任務就是從數據集中發現模式[7],按功能模式主要分為描述性挖掘和預測性挖掘兩大類,其中描述性挖掘的重點是發現有趣的模式來描述數據,刻畫數據的一般特征;預測性挖掘是在當前和歷史數據的基礎上進行預測推斷,側重于預測模型的行為。目前往往根據模式實際應用,將數據挖掘的主要任務分為數據總結、概念描述、分類、聚類、關聯分析、偏差分析等。數據總結就是對現有數據進行濃縮,給出它一個概念性的表述;分類就是找出一個類別的概念描述,并用這種描述來構造模型,一般用規則或決策樹表示,具體是利用訓練數據集通過一定的算法而求得分類規則;聚類和分類不同,聚類是將數據庫中的對象聚成多個類,同一類的對象相似度盡可能大,不同類的對象相似度盡可能小,較為常見的用于度量對象相似度的方法有距離、密度等;關聯分析是發現數據關聯性,數據關聯是數據庫中存在的一類重要的可被發現的知識,一般用支持度和可信度來度量關聯規則的相關性,關聯分為簡單關聯、時序關聯和因果關聯;偏差分析用于數據庫中一些數據的異常記錄,從數據庫中檢測這些偏差意義重大,偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。
數據挖掘主要有數據準備、數據挖掘以及對挖掘結果的評估與表示[8]三階段組成。如圖2所示。

圖2 數據挖掘的三階段過程模型
數據準備是整個數據挖掘過程中非常重要的一個階段,我們在從各個數據源中對數據進行整合時,數據中往往存在很多噪聲、冗余,數據的好壞直接影響挖掘模型的可靠性及決策的正確性。此階段主要包括數據的選擇、數據預處理和數據變換等。
數據挖掘是整個數據挖掘過程中最關鍵的一個階段,如何從眾多算法中選擇合適目標的算法是最重要的一環。此階段主要是根據數據挖掘的目標選擇相應的算法,對數據進行分析挖掘出相應的模式模型。
模型評估即需對數據挖掘過程進行一次全面回顧,從而決定是否存在重要的因素或任務由于某些原因而被忽視;模型表示即可視化,使模型能夠友好地呈現給用戶。由于第二階段挖掘的模式模型并不一定具有實際意義或者不是目標用戶希望得到的模型。因此要對數據進行解釋和評估。這一階段也很重要,要以用戶希望的、易于理解的、可視的模式模型呈現給目標用戶。
數據挖掘的方法眾多,主要包括遺傳算法、神經網絡方法、決策樹算法、關聯分析、粗糙集方法、模糊集方法、統計分析方法、覆蓋正例排斥反例方法、可視化技術等,下面針對幾種主要的技術方法進行簡要描述。
遺傳算法GA(Genetic Algorithm)是近年來迅速發展起來的一種全新的隨機搜索與優化算法[9],它是模擬自然界生物進化過程與機制求解問題的一類自組織與自適應的人工智能技術[10]。它是在自然選擇和遺傳理論的基礎上,將大自然生物進化過程中適者生存不適者淘汰規則與群體內部染色體的隨機信息交換機制相結合的搜索算法,主要有編碼機制、參數控制、適應度函數、遺傳算子四部分組成。其主要過程如圖3所示。

圖3 遺傳算法基本過程
遺傳算法具有自組織、自適應、智能性、隱含的并行性等特點,廣泛應用于函數優化、組合優化、生產調度、遺傳編程、機器學習、智能控制、圖像處理、機器人、人工生命、數據挖掘等領域。秦國經等[11]提出了一種基于遺傳算法尋優的PID控制,他是以誤差絕對值時間積分性能指標為參數,并結合遺傳算法的全局搜索能力實現對全局最優解的尋優,解決了PID控制器參數整定難的問題。冷亮等[12]提出了一種基于遺傳算法來解決路徑誘導系統問題的方法,他是通過對遺傳算法中的一些參數和細節進行改進來實現全局尋優。
雖然遺傳算法得到了廣泛應用,但遺傳算法自身也存在著很多缺點,如容易產生早熟收斂、收斂速度慢,以及局部尋優能力較差等。因此針對遺傳算法的特點如何結合其他算法的尋優思想對遺傳算法進行改進需進一步深入研究。
人工神經網絡(Artificial Neural Networks)是指能夠模仿人腦神經元聯接結構特征并且進行分布式并行信息處理的數學模型[13]。人工神經網絡能以任意精度逼近非線性函數映射關系,具有較強的容錯能力,具有自學習、自適應、并行處理等特點。其中使用較為廣泛的是BP神經網絡和多層前饋式神經網絡。其基本流程圖如圖4所示。

圖4 BP神經網絡流程圖
神經網絡廣泛應用于自動控制、組合優化、模式識別、圖像處理、機器人控制等領域。朱堅民等[14]提出了一種基于神經網絡反饋補償控制、PID控制和神經網絡辨識器的磁懸浮球位置控制結構,解決了磁懸浮球位置控制精度不高的問題。謝寶劍[15]提出了一個動態生長的卷積神經網絡并采用主動的樣本學習方法構造訓練集進行圖像分類,提高了分類算法效率,識別效果更加明顯。
目前,神經網絡已經被應用到許多方面,發展前景廣闊,但還存在著很多問題,如神經網絡的穩定性、收斂性的分析以及單一神經網絡分析無法達到理想效果、多種算法如何進行有效結合等都需要進一步深入研究。
數據挖掘意義下的關聯分析通常是指關聯規則挖掘[16]。它是通過對當前數據分析,找出數據間的密切聯系。主要根據用戶預先設定的支持度閾值和置信度閾值,對當前數據找出滿足這兩個閾值的關聯規則,滿足最小支持度和最小置信度要求的關聯規則即為強關聯規則。目前最為典型的關聯規則挖掘算法是Aprior算法。最典型的應用就是市場購物籃問題,還廣泛應用于銀行、金融數據分析、零售業、生物醫學、DNA數據分析、推薦系統等方面。汪雪鋒等[17]提出了一種將時間序列和關聯分析相結合的方法,并將其應用于數控系統技術中,和整體關聯分析相比較,更加凸顯出基于時間序列的關聯分析的優越性,深度揭示了技術領域的動態變化。周劍波等[18]提出將粒子群優化算法和灰色關聯分析相結合即二次改進的灰色關聯分析,并應用于航空發動機氣路部件的故障診斷中,結構簡單、計算量小、速度快、效果更顯著。
目前,關聯分析方法還存在很多不足,如何使關聯規則算法體系標準化、模塊化,如何對一些非結構化數據進行有效處理以及如何將關聯規則與其他的決策方法結合都值得進一步深入研究。
決策樹學習[19]是應用最廣的歸納推理算法之一,是一種逼近離散函數值的方法。它是在分析和歸納信息理論基礎上,采用樹結構,從根節點到葉節點逐層劃分,決策樹的根節點包含樣本的信息量最大,葉節點是樣本的類別值。目前應用最為廣泛的是ID3算法和C4.5算法。決策樹算法具有分類精度高、模型可讀性強、對噪聲數據具有很好的健壯性等優點,廣泛應用于各個領域。李定啟等[20]為進一步提高煤層工作面突出預測的準確率,提出了基于決策樹ID3改進算法的煤層工作面煤與瓦斯突出預測方法,結果該模型預測的準確率顯著提高。杜英麗[21]利用Fayyad技術,根據Fayyad邊界點判別定理,對C4.5算法中的連續性離散化過程進行了改進,并與原C4.5算法在客戶分類中進行比較,結果表明,改進的C4.5算法分類準確率更高、計算速度更高。
目前,數據挖掘已進入大數據時代,決策樹方法的效率以及對復雜數據的適應亟待提高。
粗糙集理論是一種刻畫不完全、不確定、不精確的數學工具,能夠有效地分析和處理不確定、不精確、不完整信息,從中發現隱含的知識,揭示潛在的規律。由波蘭華沙理工大學Pawlak教授于1982年首次提出,在人工智能、模式識別、數據挖掘和智能決策等領域得到了廣泛應用,粗糙集理論的核心問題是屬性約簡[22]。Chen[23]等利用從決策信息決策表中抽取少量樣本,而這些樣本所包含的知識量與整個樣本基本相同,并以此樣本進行屬性約簡,有效地節約了計算時間,提高了求解屬性子集的效率。
目前,粗糙集理論雖然得到了廣泛的應用,在處理不確定信息方面具有不可替代的優越性,但還存在著某些不足之處,如缺乏對噪聲數據的適應能力,不確定性概念的邊緣刻畫過于簡單等都需要進一步深入研究。
可視化數據挖掘是數據挖掘中的一個重要組成部分,是計算機和用戶之間進行信息溝通的重要渠道。它將數據庫中潛在的、有用的信息以直觀的、易于理解的方式呈現給用戶,便于用戶正確的決策。可視化數據挖掘過程可分為數據可視化、數據挖掘過程可視化、數據挖掘結果可視化、交互式可視化數據挖掘四類。楊振艦[24]通過改進機器學習算法、空間和非空間的聚類算法并結合挖掘算法的相關可視化技術,研制了一套支持可視化數據挖掘的城市地下空間GIS原型系統。
目前,數據挖掘已進入大數據時代,可視化需求更加迫切,而可視化技術運用于數據挖掘一般是作為表達工具,在人機交互和用戶自主性方面仍需加強,因此,如何將可視化技術和數據挖掘技術有效結合需進一步研究。
數據挖掘幾乎涉及各個領域,本文主要對數據挖掘在制造業領域的應用進行詳細介紹。
和其他領域相比較,數據挖掘技術在制造業的應用,其技術特性更加明顯[25]。在制造業總的來說主要應用數據挖掘技術來進行機器零件故障診斷、資源優化、生產工藝過程分析、車間調度、客戶關系管理、決策支持系統等。本文主要介紹數據挖掘技術在制造業這幾個領域中的應用。
設備的正常運轉是保證產品質量和企業經濟效益的根本所在,一旦設備出現故障需及時查找出故障所在的位置并維修才能保證企業經濟損失降到最低,因此,故障診斷對一個企業來說至關重要。
張洪瑾[26]針對掘進機液壓系統故障,提出了一種將模糊理論與BP神經網絡相結合的故障診斷方法,并應用VC++與Matlab實現了故障診斷軟件。焦朋沙[27]針對不同故障因素在故障診斷過程中具有不同的影響作用,提出了一種矩陣加權關聯規則算法,利用故障因素權值來提高故障診斷的準確率,通過對剪切連接的改進降低了候選項集的生成規模,從而提高了故障診斷的效率。王飛[28]在已有的決策樹方法的基礎上提出了基于變精度粗糙集的決策樹結構改進算法,提高了分類精度和噪聲數據抑制能力,并運用到煤廠機械設備中,得到了較好的效果。薛詠舒[29]從大型旋轉設備數據出發,結合Apriori算法并采用BS結構開發了用于旋轉設備振動故障診斷的狀態監測系統,在實際生產應用中取得了很好的效果。Wang[30]等針對機械設備的異常,提出了應用黎曼流行和協方差矩陣分布的可視化進行檢測,并將其應用到風力渦輪機齒輪箱的故障檢測中,得到了較好的效果。Jiao[31]等根據最小二乘法支持向量機并結合模擬退火算法,提出了一種黑洞粒子群-模擬退火算法,在分類速度和精度以及極值問題上都得到很大的改善,并將其運用到風機齒輪箱的故障診斷中,得到了較好的效果。
資源優化的目的是改變工作的起始和完成時間,利用工作的機動時間(總時間差),使資源需要進行優化。
Sugimura[32]應用數據挖掘方法對透平機械進行了相關的優化研究,并取得了較好的效果。Gertosio[33]等使用線性回歸分析方法,對汽車引擎測試參數和性能之間的關系進行了分析,并確定了他們之間的密切關系,將其投入到了生產應用中,大大節省了測試時間。李鐵剛[34]等主要是通過影響因素分析和分類分析算法并結合關聯發現的規則提出了針對結構件數控編程的切削參數選擇和優化方法,并取得了很好的效果。王書易[35]等根據物流云理念并應用到車輛配送路徑中,研發了一套基于數據挖掘的云計算車輛路徑優化系統,具有一定的實用價值。張巍[36]采用了支持向量機與遺傳算法相結合來實現鍋爐燃燒優化,以支持向量機鍋爐燃燒模型為基礎,采用遺傳算法對所建模型優化,獲得燃燒優化調整方式,對我國電廠具有一定的實用價值。
一個完整的生產工藝過程是指將各種胚料或半成品通過一定的設備、按照一定的加工順序,最終使之成為成品的方法與過程。因此生產工藝過程的每一個流程都至關重要,分析過程中的某一環節對整個生產來說具有重要的意義。
Sun[37]等采用神經網絡技術對檢測系統中的刀具狀態進行識別,采用支持向量機方法分別調整每個刀具磨損狀態的識別能力。對刀具后刀面磨損有效地進行識別。胡潔[38]主要是通過聚類算法、回歸預測方法并結合相關報警規則提出了一種能夠實現設備狀態檢測預警的方法。該方法能夠為企業一些重要設備實時的給出其狀態預測與診斷結果,具有非常好的實用價值。李海林[39]等為了有效地檢測發動機試車實驗中性能參數發生異常,提出了一種基于時間序列數據挖掘的發動機故障檢測方法,該方法能夠有效地對發動機性能參數進行故障分析,且具有較好的魯棒性。
對于現代的工業企業,生產環節及協作關系復雜,車間情況變化快,某一環節出現問題,往往會波及整個生產體系。因此,加強了解和掌握車間調度工作非常重要。
于藝浩[40]通過決策樹的數據挖掘方法設計了車間實時調度系統,實現了有效的車間生產調度和生產過程管理,提高了生產過程的可視性和可控性。Ozturk[41]等采用基于數據挖掘技術的回歸樹方法去估算制造交貨時間。Wang[42]等已經開發了利用決策樹和BP神經網絡的混合知識發現模型,根據噪聲信息和預測規則的性能,確定了基于生產數據的合適的調度規則。Shahzad[43]等針對作業生產車間中的動態調度問題,提出了一種基于數據挖掘的調度策略框架結構,此框架通過決策樹算法進行逼近學習而實現最優調度計劃方案。Karimi[44]等針對柔性車間的調度問題,提出了一種基于知識模塊的變鄰域搜索優化方法,知識模塊和變鄰域搜索優化算法之間的交互反饋,從而使算法更加高效。Guldogan[45]將一種基于知識的專家系統與遺傳算法相結合用于解決生產調度過程中的機器選擇和操作分配問題,并用于木材切割機中,取得了較好的效果。
客戶關系管理是一個數據挖掘被廣泛用于預測客戶行為的領域。能夠使企業更有效地為客戶提供滿意、周到的服務,提高客戶的滿意度、忠誠度等。
Tseng[46]等提出了一種數據挖掘方法,它是基于一種由對于特征選擇來說是新的粗糙集算法和為了更精確預測的多類SVM方法組成的混合方法。此技術已經應用在一個供應商選擇的案例研究中,預測一個視頻游戲系統的首選供應商。Buddhakulsomsiri[47]等開發了一種新的關聯規則生成算法來提取知識(以規則的形式),然后可以被用來識別特定保修問題的根源,并開發來自于汽車保修數據的有用結論。這方面的知識以IF-THEN關聯規則的形式提出,其中,規則的IF部分含有產品的特征屬性和THEN部分包括相關的勞動法的問題。Chen[48]等應用關聯規則挖掘得到的規則,適用于客戶需求模式直接來自于訂單數據庫。對于訂單數據庫中經常由某些產品項組成的客戶訂單的某些系列,通過應用關聯函數功能可以被引導。
正確的決策對一個企業甚至國家都至關重要,而決策支持系統能夠為決策者提供所需的數據、信息、背景材料來幫助決策者識別目標和明確決策問題,提供多種方案模型,并評價各種方案的選擇,為必要的正確決策提供支持。
朱付保[49]等綜合運用粗糙集和決策樹數據挖掘算法建立了數據處理模型,實現了對電力設備工作狀態的快速、高效診斷,并根據其工作狀態提供決策支持。Zhou[50]開發了基于智能預測和設備故障檢測的框架的一個媒介,并且因此也支持裝備故障預測與診斷。數據挖掘被用于智能預測引擎,這是該系統的關鍵部件。Kusiak[51]提出了一種基于數據挖掘的強大的報警系統結構,它被用于預測水化學故障的傳入故障。Shao[52]等提出了一種基于數據挖掘的體系結構,在配置設計中發現基于客戶群的配置規則。基于先驗算法的關聯規則挖掘被用來獲得產品規格和配置選擇簇之間的關聯規則。
通過本節敘述可知,數據挖掘技術已經應用于制造領域的各個方面,而目前網絡技術的發展已經邁進了大數據時代,大數據時代的到來不僅使數據的更新速度加快,還使得數據的規模和復雜性都出現爆炸性增長。制造業中的數據挖掘也面臨著很多挑戰,如何更加有效地對大規模數據進行分析、如何保證數據分析的效率和分析結果的準確性、如何管理大規模數據以及數據隱私的保護等,都是我們今后需要關注和急需解決的問題。因此,我們應在現有算法的基礎上不斷創新,具體問題具體分析,將數據挖掘功能和數據挖掘技術結合起來,使數據挖掘技術更好的服務于我們。
數據挖掘語言標準化:語言若能夠得到廣泛的應用,標準化必不可少。數據挖掘語言經過標準化必能提高多個數據挖掘系統和功能之間的互操作,有利于系統化的開發和設計。
Web挖掘:隨著信息化迅速發展,Web現在已經成為信息傳遞的主要渠道,Web數據庫和數據庫在當前信息處理系統中成為主流,Web挖掘會成為未來數據挖掘的主要發展趨勢之一。
可視化:可視化是數據挖掘一直需要亟待解決的問題。可視化技術是連接模型與目標用戶的樞紐,能很好地進行人機交互。
數據挖掘和隱私保護:隨著數據挖掘的迅速發展,個人隱私與信息安全問題日益成為人們關注的話題。數據挖掘使用不當就有可能涉及到人們敏感的信息,如何在不暴露用戶隱私的前提下進行數據挖掘,也就成為人們非常感興趣的話題[53]。
數據挖掘與物聯網、云計算和大數據[54]:物聯網、云計算和大數據都是新一代信息技術的主要組成部分,也是信息化時代的重要發展階段,如何實現將物聯網、云計算、大數據和數據挖掘緊密聯系起來具有深遠的意義,將會產生巨大的價值。
復雜的數據[55]:隨著信息化時代的發展,數據挖掘的對象越來越多,不僅是一些簡單的數據分析,還包括一些圖像、音頻、視頻數據、Web數據甚至是空間數據庫和時間序列數據庫等,導致數據復雜化,依靠傳統的數據挖掘方法很難達到理想的效果。如何對這些復雜的數據進行更加有效地挖掘具有巨大的價值。
多種數據挖掘方法結合:單一的數據挖掘算法有時不能達到令人滿意的效果,其優劣特性明顯。而根據算法的優缺點進行多種算法的結合使用往往能達到令人滿意的效果,例如遺傳算法與神經網絡結合往往能達到令人滿意的預測效果。
本文對數據挖掘過程中的相關技術和理論進行了比較全面的概述,闡述了數據挖掘在制造業各領域的應用,并指出了其不足和發展趨勢。總之,隨著信息化時代的到來,各行各業迅速發展,數據挖掘自然而然成為一種強大的應用工具,成為人們決策支持的重要輔助工具。制造業更應與時俱進,使數據挖掘在制造業能夠真正意義上發揮作用[56]。
[1] 王夢雪.數據挖掘綜述[J].軟件刊,2013,12(10):135-137.
[2] 付長軍,喬宏章.大數據產業發展現狀研究[J].無線電通信技術,2016,42(4):1-4,28.
[3] 賀正楚,潘紅玉.德國“工業4.0”與“中國制造2025”[J].長沙理工大學學報(社會科學版),2015,30(3):103-110.
[4] 周濟.智能制造——“中國制造2025”的主攻方向[J].中國機械工程,2015,26(17):2273-2284.
[5] 郭朝先,王宏霞.中國制造業發展與“中國制造2025”規劃[J].經濟研究參考,2015(31):3-13.
[6] 包洋.面向制造業的數據挖掘技術研究與應用[D].上海:東華大學,2006.
[7] 李秋丹.數據挖掘相關算法的研究與平臺實現[D].遼寧:大連理工大學,2004.
[8] 丁秀玲.數據挖掘算法和研究方向[J].辦公自動化,2014(16):33-34,56.
[9] 吉根林.遺傳算法研究綜述[J].計算機應用與軟件,2004,21(2):69-73.
[10] 鄭立平,郝忠孝.遺傳算法理論綜述[J].計算機工程與應用,2003(21):50-53,96.
[11] 秦國經,任慶昌.基于遺傳算法尋優的PID控制與仿真[J].中國西部科技,2011,10(11):12-13,09.
[12] 冷亮,杜慶東.基于遺傳算法解決車輛最優路徑誘導問題[J].信息通信,2012(2):14-15.
[13] 王雅軒,頊聰.數據挖掘技術的綜述[J].電子技術與軟件工程,2015(8):204-205.
[14] 朱堅民,沈正強,李孝茹,等.基于神經網絡反饋補償控制的磁懸浮球位置控制[J].儀器儀表學報,2014,35(5):976-986.
[15] 謝寶劍.基于卷積神經網絡的圖像分類方法研究[D].安徽:合肥工業大學,2015.
[16] 錢圣華,許謙,陳蘭.基于關聯分析的數據挖掘方法及其實證研究[J].甘肅聯合大學學報(自然科學版),2011,25(2):23-25.
[17] 汪雪鋒,趙晨曉,衡曉帆,等.基于時間序列的關聯分析在技術監測中的應用研究[J].情報雜志,2013,32(4):10-15.
[18] 周劍波,魯峰,黃金泉.基于灰色關聯分析的航空發動機氣路部件故障診斷[J].推進技術,2011,32(1):140-145.
[19] 付紅偉,張愛華,張志強,等.決策樹算法在數據挖掘中的研究與應用[J].應用技術,2008(7):133-135.
[20] 李定啟,程遠平.基于決策樹ID3改進算法的煤與瓦斯突出預測[J].煤炭學報,2011,36(4):619-622.
[21] 杜英麗.決策樹C4.5算法在客戶分類中的應用研究[J].制造業自動化,2014,36(11):23-25,50.
[22] 丁浩,丁世飛,胡立花.基于粗糙集的屬性約簡研究進展[J].計算機工程與科學,2010,32(6):92-94,117.
[23] Chen D G,Zhao S Y,Zhang L,et al.Sample pair selection for attribute reduction with rough set[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(11):2080-2093.
[24] 楊振艦.可視化數據挖掘技術在城市地下空間GIS中的應用研究[D].河北:河北工業大學,2012.
[25] 梁凡.關于數據挖掘技術及其應用的分析[J].電子技術與軟件工程,2015(22):200-200.
[26] 張洪瑾.基于模糊神經網絡的掘進機液壓系統故障診斷研究[D].南京:南京理工大學,2013.
[27] 焦朋沙.基于矩陣加權關聯規則的設備故障智能診斷研究[D].河北:燕山大學,2012.
[28] 王飛.決策樹算法在機械設備故障診斷系統中的應用[D].武漢:華中科技大學,2013.
[29] 薛詠舒.基于數據挖掘的旋轉設備振動故障診斷應用[D].吉林:吉林大學,2013.
[30] Wang S,Sun X,Li C.Wind turbine gearbox fault diagnosis method based on riem annian manifold[J].Mathematical Problems in Engineering,2014,16(4):835-892.
[31] Jiao bin,Xu Zhixiang.Parameters optimization of LSSVM and application in fault diagnosis of wind power gearbox[J].Control Enggineering of China,2012,19(4):681-686.
[32] Sugimura K.Design Optimization and Knowledge Mining for Turbo machinery[D].Tohoku University,Sendai,2009.
[33] Gertosio C,Dussauchoy A.Knowledge discovery from industrial databases[J].Journal of Intelligent Manufacturing,2004,15(1):29-37.
[34] 李鐵剛,范智廣,王宛山.基于數據挖掘的切削參數優化[J].組合機床與自動化加工技術,2012(1):36-38,46.
[35] 王書易,王欽若,劉尚武.基于數據挖掘的云計算車輛路徑優化系統[J].電子世界,2016(6):118,121.
[36] 張巍.電廠設備運行優化中數據挖掘的應用[D].河北:河北科技大學,2012.
[37] Sun J,Hong G S,Rahman M,et al.Improved performance evaluation of tool condition identification by manufacturing loss consideration[J].International Journal of Production Research,2005,43(6):1185-1204.
[38] 胡潔.數據挖掘在設備狀態檢測中的應用研究[D].南京:南京大學,2011.
[39] 李海林,郭崇慧,楊麗彬.基于時間序列數據挖掘的故障檢測方法[J].數據采集與處理,2016(4):782-790.
[40] 于藝浩.基于數據的車間實時調度系統的研究與開發[D].遼寧:沈陽工業大學,2013.
[41] Ozturk A,Kayaligil S,Ozdemirel N E.Manufacturing Lead time estimation using data mining[J].European Journal of Operational Research,2006,173(2):683-700.
[42] Wang K J,Chen J C,Lin Y S.A hybrid knowledge discovery model using decision tree and neural network for selecting dispatching rules of a semiconductor final testing factory[J].Production Planning & Control,2005,16(16):665-680.
[43] Shahzad A,Mebarki N.Discovering dispatching rules for job shop scheduling problem through data mining[C]//8th International Conference of Modeling and Simulation-MOSIM,2010:10-12.
[44] Karimi H,Rahmati S H A,Zandieh M.An efficient knowledge-based algorithm for the flexible job shop scheduling problem[J].Knowledge-Based Systems,2012,36:236-244.
[45] Guldogan E U.An integrated approach to machine selection and operation allocation problem[J].The International Journal of Advanced Manufacturing Technology,2011,55(5-8):797-805.
[46] Tseng T L,Huang C C,Jiang F,et al.Applying a hybrid data-mining approach to prediction problems:a case of preferred suppliers prediction[J].International Journal of Production Research,2006,44(14):2935-2954.
[47] Siradeghyan Y.Association rule-generation algorithm for mining automotive warranty data[J].International Journal of Production Research,2006,44(14):2749-2770.
[48] Chen M C,Wu H P.An association-based clustering approach to order batching considering customer demand patterns[J].Omega,2005,33(4):333-343.
[49] 朱付保,霍曉齊,徐顯景.基于數據挖掘的電力設備狀態診斷系統建模[J].中原工學院學報,2015,26(3):85-89.
[50] Zhou J,Li X,Andernroomer A J R,et al.Intelligent prediction monitoring system for predictive maintenance in manufacturing[C]//Conference of IEEE Industrial Electronics Society.IEEE,2005:6.
[51] Kusiak A,Shah S.Data-mining-based system for prediction of water chemistry faults[J].IEEE Transactions on Industrial Electronics,2006,53(2):593-603.
[52] Shao X Y,Wang Z H,Li P G,et al.Integrating data mining and rough set for customer group-based discovery of product configuration rules[J].International Journal of Production Research,2010,44(14):2789-2811.
[53] 錢萍,吳蒙.同態加密隱私保護數據挖掘方法綜述[J].計算機應用研究,2011,28(5):1614-1617,1622.
[54] 任冷.數據挖掘應用研究前沿和發展趨勢[J].科技與創新,2016(16):7-8.
[55] 史尤昭.數據挖掘技術研究與應用[J].軟件,2015,36(11):38-42.
[56] 李濤,曾春秋,周武柏,等.大數據時代的數據挖掘——從應用的角度看大數據挖掘[J].大數據,2015,1(4):57-80.
DATAMININGTECHNOLOGYANDITSAPPLICATIONINMANUFACTURINGINDUSTRY
Wu Xuefeng Ma Lu
(SchoolofMechanicalandPowerEngineering,HarbinUniversityofScienceandTechnology,Harbin150080,Heilongjiang,China)
With the development of the information age, all walks of life have spawned a large number of data. In order to provide better decision support, data mining technology emerges as the times require. “Made in China 2025” was issued by the Chinese government based on detailed analyses of current manufacturing situations of China, and manufacturing industry is regarded as a key project of national development and support. As one of the modern advanced manufacturing technology, data milling technology possesses unique superiority in manufacturing industry. This paper firstly introduced the basic concept of data mining, mining process and classical algorithmic of data mining. Secondly, it emphatically introduced applications of data mining in manufacturing. Finally, the development trend of data mining was pointed out.
Data mining Manufacturing Development trend
TP205
A
10.3969/j.issn.1000-386x.2017.10.012
2017-03-12。國家自然科學基金項目(51575144)。吳雪峰,副教授,主研領域:智能制造。馬路,碩士生。