劉永文 吳全恩
中圖分類號:TP311.13文獻標識碼:A文章編號:1673-0992(2009)05-050-02
摘要在對復雜流程制造業生產過程的數據特點進行充分分析的基礎上,緊密結合流程制造業綜合自動化的應用需求,給出了流程制造業數據挖掘的體系框架,分析了流程制造業數據挖掘中的關鍵問題。
關鍵詞:數據挖掘;流程制造業;海量數據
近年來,數據挖掘技術已經在商業、金融、管理、工業等眾多領域廣泛應用并取得了重大進展,但大都僅限于企業的商業信息,在企業的生產過程中應用的還比較少。
目前,在復雜流程制造業生產過程中,由于各種先進工藝和工程技術的廣泛采用,產生和積累了大量的各種類型的歷史數據和當前生產的實時動態數據,這些海量生產數據又包含用于生產和管理的大量的有價值的信息和知識。一方面,為了避免產品的設計知識數據重用率低,無法有效地實現產品配置設計和變形設計,延長了產品的設計周期;另一方面,為了能夠為過程監測、診斷、能效分析、先進控制、優化和調度、管理等各層次提供決策支持,使得流程制造業綜合自動化系統性能達到最優。這就需要一種高效可靠的分析工具,把隱藏在海量數據中的有用的深層次的知識和信息挖掘出來,提取這些數據的整體特征、關聯及對其發展趨勢的預測等,以幫助決策者提出問題、發現問題、分析問題和解決問題。基于流程制造業的生產特點和數據性質以及所面臨的問題,數據挖掘技術是解決流程制造業產生的海量信息數據處理的關鍵技術之一,并且數據挖掘技術也是目前國內外研究的一個熱點。
本文從流程制造業的生產數據的特點及分析需求出發,建立了一般流程制造業數據挖掘的體系結構,并分析了流程制造業數據挖掘中的關鍵問題,總結了數據挖掘方法在流程制造業領域的數據應用技術方向。
一、數據挖掘概念
數據挖掘是近年來隨著人工智能和數據庫技術的發展而出現的一門新興技術。它的發展速度很快,加之它是多學科綜合的產物,目前還沒有一個標準的定義,簡單地說,數據挖掘就是從大量的已知數據中找出隱藏的、可信的、未知的、有用的信息,探索數據中隱藏的規律用來預測未來,其中數據可以放在數據庫、數據倉庫或其他信息庫中。數據挖掘工具能夠從企業數以百萬筆的歷史數據中提取有用的信息,為企業的生產與經營提供決策依據。
數據挖掘過程由以下步驟組成:
1.挖掘主題——明確挖掘的要求、內容及目標;
2.數據預處理——包括數據清理、數據歸約、數據集成與變換、離散化與概念提升等;
3.挖掘算法選擇——包括類的選擇、算法選擇及算法軟件選擇;
4.構造數據挖掘(軟件、硬件)平臺;
5.結果展示及評價。
以上步驟是一個反復迭代的過程,最終目的是在數據中獲得有用的知識。在實踐中,數據挖掘的兩個基本目標往往是預測和描述。預測涉及到使用數據集中的一些變量或域來預測其他我們所關心變量的求知或未來的值;另一方面,描述關注的則是找出描述可由人類解釋的數據模式。因此,數據挖掘活動可分成預測性數據挖掘和描述性數據挖掘。數據挖掘方法大致可分為關聯(Apriori算法)、分類(決策樹算法、粗糙集、人工神經網絡等)、聚類(層次、遺傳算法、劃分法等)三種。 簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。
二、流程制造業數據特點
制造業(Manufacturing Industry)是指經物理變化或化學變化后成為了新的產品,不論是動力機械制造,還是手工制作;也不論產品是批發銷售,還是零售,均視為制造。制造業按其產品制造工藝過程特點總體上可概括為離散型制造業和流程制造業兩種。典型的離散型制造行業包括電腦、汽車及工業用品制造等行業;典型的流程制造行業包括化工,食品飲料,制藥,化妝品等以配方為基礎的行業。
流程制造業是工程學科的一個重要研究領域,系統非常復雜,成品一旦生產出來,就不能再提取它,回到它的原始成分。流程制造業整個流程生產過程是一個動態的過程,產出量、物料特性、甚至物料加工路線受到原材料成分波動、操作、加工溫度壓力、設備等等波動的影響,并且不可預知。流程制造業制造過程是連續、在線的,所以說更加強調生產過程的跟蹤和調整,主要靠實時的跟蹤、控制糾偏。基于流程制造業的生產特點,流程制造業數據尤其是實際生產過程中的數據非常復雜,現在的流程制造業生產過程都采用了計算機控制系統定時采集系統的變量和設備狀態,以供顯示、控制之用,日積月累產生大量的冗余數據;同時又由于離散決策變量和連續決策變量同時存在,各種變量的值是在不斷變化的,數據類型也是多樣的,系統中既包括連續過程變量,也包括離散過程變量,使得這些它們之間有較強的耦合及非線性;許多變量的變化快慢各異,采集信號的頻率不同,導致時間上的不同步,在數據記錄上也可能丟失數據,造成數據的不完整;流程制造業系統環境復雜,電、磁、噪聲干擾較強,加之系統的不確定性,導致數據受污染。簡言之,流程制造業數據具有不確定性、動態性、不完整性、多時標性(部分不同變量采用不同的采樣周期)和數據類型多樣性、多模態性,非線性、強耦合性和交錯性等特點,致使全流程的模擬、診斷、決策與優化變得極為困難,而數據挖掘技術對這些問題提供了一定的解決方案。
三、流程制造業數據挖掘的體系結構
流程制造業數據挖掘體系結構的確定是流程制造業數據挖掘項目成功的基礎,依據流程制造業數據的特點以及數據挖掘技術的要求,構建流程制造業數據挖掘的總體框架。如圖1所示:

圖1 流程制造業數據挖掘體系結構
1.數據預處理
流程制造業生產過程中產生的海量數據一般是不完整的、含噪聲的和不一致的,數據預處理技術(數據采樣、數據清理、數據轉換等)可以檢測數據異常,改進數據質量,從而有助于提高其后的挖掘過程的精度和性能。
2.數據歸約
流程制造業生產過程中產生的海量數據經過預處理后,數據質量有了很大的提高,在此基礎上構造數據倉庫和OLAP,數據倉庫中的數據集非常大,對海量數據進行復雜的數據分析和挖掘將需要相當長的時間,通過數據歸約技術可以將數據集中不相關、弱相關或冗余的屬性或刪除,并能保持原數據的完整性,對歸約后的數據集進行挖掘將更有效,并產生相同(幾乎相同)的分析結果。
3.挖掘方法選擇器
方法選擇專家系統及知識庫根據不同的挖掘要求選擇最有效的挖掘算法或幾種算法的序列組合,并且不斷地更新知識庫,用選擇的方法去執行挖掘任務。目前系統常用的挖掘方法有統計分析方法、決策樹、人工神經網絡、基因算法、粗糙集等。
4.評估界面 執行數據挖掘任務得到的結果往往是一些抽象的模型或數據,因此,系統提供了一種解釋機制,以一種直覺的方式來表現數據挖掘的結果,比如用文字、圖表和報表等多種可視化手段,幫助分析決策人員具體地了解所挖掘的結果。
四、流程制造業數據挖掘的關鍵問題
1.數據的質量和數量
流程制造業數據挖掘的最根本問題在于數據的數量和質量。一方面,數據量越充足,越能保證獲取的數據的連續性,從而易發現系統的一般性規律;另一方面,數據的準確性和可靠性也是一切建模和分析是否有效的關鍵。因此,要盡可能完備地搜集與所研究問題相關的信息資料,包括公開發布和未公開發布的數據資料,然后從眾多的資料中把有用的部分挑選出來。挑選數據資料時應按照相關性、可靠性、最新性等原則進行。然后挑選出符合一定標準的資料,加以深入研究。然而收集數據資料并不容易,尤其是在我國當前的情況下,各層次的資料往往不夠完整,真實性也有存在很大的問題,再加上涉及到數據的保密性問題,所以無形中就增加了數據搜集的難度,從而數據的數量和質量也就難以保證。
2.數據倉庫的建立
從數據挖掘的定義可以看出,數據挖掘包含一系列旨在從數據庫中發現有用而未發現的模式的技術,如果將其與數據倉庫緊密聯系在一起,將獲得意外的成功。傳統的觀點認為,數據挖掘技術扎根于計算科學和數學,不需要也不得益于數據倉庫。這種觀點并不正確。成功的數據挖掘的關鍵之一就是通過訪問正確、完整和集成的數據,然后再進行深層次的分析,尋求有益的信息,而這些正是數據倉庫所能夠提供的。數據倉庫不僅是集成數據的一種方式,而且數據倉庫的聯機分析功能(OLAP)還為數據挖掘提供了一個極佳的操作平臺。如果數據倉庫與數據挖掘能夠實現有效的聯結.這將給數據挖掘帶來各種便利和功能。
數據倉庫為數掘挖掘提供了更廣闊的活動空間。數據倉庫完成數據的收集、集成、存儲、管理等工作、數據挖掘面對的是經初步加工的數據,使得數據挖掘能更專注于知識的發現。又由于數據倉庫所具有的新特點,對數據挖掘技術提出了更高的要求。另一方面,數據挖掘為數據倉庫提供了更好的決策支持,同時促進了數據倉庫技術的發展。因此,數據挖掘和數據倉庫技術要充分發揮潛力。就必須結合起來。
3.數據挖掘方法的選擇與應用
目前數據挖掘方法很多,面對各層次不同的海量數據,應如何選擇和應用其方法,是數據挖掘的另一關鍵問題。不同的人對同樣的數據進行挖掘,可能產生不同的結果,甚至差異很大。因此,合理選擇分析方法很重要。數據挖掘常用的算法包括:統計分析、關聯規則、聚類分析、決策樹、神經網絡、遺傳算法、模糊集等,每種方法都有所側重,應全面了解每種方法的基本原理與優劣之處,選擇與要解決問題類型相匹配的數據挖掘方法。比如,神經網絡、規則歸納方法、決策樹學習、遺傳算法等適用于分類問題;硬均值聚類、模糊均值聚類、神經網絡等適用于聚類;回歸分析、時間序列、神經網絡等適用于預測。實際應用時,還要確定數據挖掘方法是直接應用還是建模嵌入的開發應用。
數據挖掘模型是數據挖掘算法的實際應用,在流程制造業領域進行數據挖掘必須針對流程制造業生產過程中產生的數據特點及特定的挖掘目標,選擇各層次數據的合適數據挖掘算法。
4.結果的解釋及評價
數據挖掘的結果是不確定的。因此,需要和專業知識相結合才能對其做出解釋,并在此基礎上評價模型的合理性,以提供科學的決策支持信息。
評價模型的合理性,即看模型是否準確反映數據的真實意義,是否有實際意義和實用價值。評價的方法之一是直接使用原來建立模型的樣板數據來進行檢驗;另一種辦法是另外找一批數據,已知這些數據是反映客觀實際的規律性的;再有一種辦法就是在實際運行的環境中取出新鮮數據進行檢驗。
需要強調的是,要想真正做好數據挖掘,數據挖掘工具只是其中的一個方面。流程制造業數據挖掘的成功要求對流程制造業領域有深刻的了解,理解流程制造業要素數據的屬性,了解數據采集的過程,同時還需要對流程制造業生產過程有足夠的數據分析經驗。
五、結束語
數據挖掘在企業中的應用目前主要集中在市場推廣方面。如客戶特征、購物關聯分析及客戶關系管理,這方面技術相對來說已經比較成熟,很好地解決了企業的許多商業信息問題,但應用于工業制造生產流程還處于理論研究和初步實踐階段,起步較晚,并且實際成功應用的事例也較少,基于此,數據挖掘技術更能顯現出它巨大的發展潛力,根據流程制造業的數據特點,量身定制合適的數據挖掘工具,為流程制造業提供決策依據,解決流程制造業存在的不同程度的問題。
參考文獻:
[1] Jiawei Han,Micheline Kanmber. Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers,2001
[2] 朱群雄,麻德賢.過程工業中數據挖掘技術的應用.計算機與應用化學[J].2004
[3] 孟永勝.裝備制造業產品制造數據集成管理研究與應用 [博士學位論文].大連:大連理工大學,2006
[4] 余軍合.面向全生命周期虛擬產品模型的研究與應用 [博士學位論文].杭州:浙江大學,2002
[5] 羅印升、李人厚、梅時春. 復雜工業過程中數據挖掘模型研究.信息與控制[J].2003
[6] 王建良,杜元勝,徐建良. 面向離散制造業數據挖掘技術研究與應用.微計算機信息[J]. 2007