陳梅 CHEN Mei
(烏魯木齊職業(yè)大學(xué)信息工程學(xué)院,烏魯木齊 830002)
(Information and Technology College of Urumqi Vocational University,Urumqi 830002,China)
隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)及計(jì)算機(jī)技術(shù)的發(fā)展,在生產(chǎn)過(guò)程自動(dòng)化系統(tǒng)各種數(shù)據(jù)庫(kù)中收集和存儲(chǔ)了大量數(shù)據(jù),而今年來(lái)得到國(guó)內(nèi)外極大重視和研究的數(shù)據(jù)挖掘技術(shù)主要運(yùn)用數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)的基礎(chǔ),結(jié)合人工智能、計(jì)算智能、模式識(shí)別等先進(jìn)技術(shù)從大量數(shù)據(jù)中挖掘和發(fā)現(xiàn)有價(jià)值和隱含的知識(shí)[3]。對(duì)于復(fù)雜的工業(yè)生產(chǎn)過(guò)程,在實(shí)現(xiàn)了基礎(chǔ)自動(dòng)化以后,為了增產(chǎn)降耗,提高產(chǎn)品質(zhì)量,需要研究生產(chǎn)過(guò)程的先進(jìn)控制。本文主要介紹數(shù)據(jù)挖掘技術(shù)的原理和方法以及在生產(chǎn)過(guò)程中如何運(yùn)用數(shù)據(jù)挖掘技術(shù)進(jìn)行質(zhì)量控制的應(yīng)用。
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘知識(shí)。Fayyad給出的定義是:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)中識(shí)別出有效的、新穎的、潛在有用的、以及最終可理解的模式的高級(jí)過(guò)程[6]。數(shù)據(jù)挖掘的任務(wù)是利用各種技術(shù)在“數(shù)據(jù)礦山”中找到蘊(yùn)藏的“知識(shí)金礦”,揭示數(shù)據(jù)中隱含的知識(shí)模式,幫助人們進(jìn)行決策。
根據(jù)挖掘的任務(wù)不同,數(shù)據(jù)挖掘可以分為分類或預(yù)測(cè)模型發(fā)現(xiàn)、回歸、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系(模型)發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等。根據(jù)挖掘?qū)ο蟛煌瑪?shù)據(jù)挖掘可分為關(guān)系數(shù)據(jù)庫(kù)挖掘、面向?qū)ο髷?shù)據(jù)庫(kù)挖掘、空間數(shù)據(jù)庫(kù)挖掘、時(shí)態(tài)數(shù)據(jù)庫(kù)挖掘、文本數(shù)據(jù)庫(kù)挖掘等。根據(jù)數(shù)據(jù)挖掘的方法不同,數(shù)據(jù)挖掘又可分為機(jī)器學(xué)習(xí)、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法等。
數(shù)據(jù)挖掘的過(guò)程是一個(gè)從已知數(shù)據(jù)集合中發(fā)現(xiàn)各種模型、規(guī)則、關(guān)聯(lián)的過(guò)程,并且這個(gè)過(guò)程是一個(gè)反復(fù)迭代的復(fù)雜過(guò)程[5]。在數(shù)據(jù)挖掘的過(guò)程中,必須對(duì)每個(gè)步驟及其任務(wù)進(jìn)行精心的策劃和深思熟慮的安排,才能保證挖掘出的知識(shí)符合需求。典型的數(shù)據(jù)挖掘過(guò)程包括以下幾個(gè)步驟:
①數(shù)據(jù)的選擇:最初為數(shù)據(jù)挖掘準(zhǔn)備的所有原始數(shù)據(jù)集通常較大,而且一般都是雜亂無(wú)章的,因此必須從原始數(shù)據(jù)中選擇適當(dāng)?shù)臉颖尽?shù)據(jù)選擇的目的就是從數(shù)據(jù)集中根據(jù)用戶的需要提取有意義的數(shù)據(jù),確定數(shù)據(jù)挖掘的操作對(duì)象。
②數(shù)據(jù)的預(yù)處理:其目的是剔除數(shù)據(jù)中的失真值或者誤記錄,這是數(shù)據(jù)挖掘中最為關(guān)鍵的步驟之一,其處理結(jié)果將對(duì)數(shù)據(jù)挖掘的結(jié)果產(chǎn)生重大影響[4]。數(shù)據(jù)預(yù)處理的主要任務(wù)是把數(shù)據(jù)組織成一種標(biāo)準(zhǔn)的形式,使其能被數(shù)據(jù)挖掘工具和其他計(jì)算機(jī)工具進(jìn)行處理、準(zhǔn)備數(shù)據(jù)集,使之能得到最佳的數(shù)據(jù)挖掘效果。
③數(shù)據(jù)的轉(zhuǎn)換:主要是為了消減數(shù)據(jù)的維數(shù)或降維,降低數(shù)據(jù)處理的難度和復(fù)雜度,及找出數(shù)據(jù)當(dāng)中有意義的特征,以減少數(shù)據(jù)挖掘時(shí)要考慮的特征或變量的個(gè)數(shù)。
④數(shù)據(jù)挖掘:首先根據(jù)對(duì)問(wèn)題的定義明確挖掘的任務(wù)或目的,如分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、預(yù)測(cè)模型建立等,然后根據(jù)任務(wù)決定采用何種算法。選擇算法時(shí)應(yīng)考慮兩個(gè)因素:一是不同的數(shù)據(jù)有不同的特點(diǎn),因此需要采用與之相關(guān)的算法來(lái)實(shí)現(xiàn);二是用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求。
⑤模型評(píng)估:數(shù)據(jù)挖掘階段發(fā)現(xiàn)出的模式,經(jīng)過(guò)評(píng)估,可能存在冗余或無(wú)關(guān)的模式,此時(shí)需要將其剔除;也可能模式不能滿足實(shí)際的要求,這時(shí)需要退回到前一階段,如重新選擇數(shù)據(jù)、采用新的數(shù)據(jù)轉(zhuǎn)換方法或設(shè)定新的參數(shù)等,甚至有時(shí)需要重新選擇算法。
由此可見(jiàn),整個(gè)數(shù)據(jù)挖掘的過(guò)程是一個(gè)不斷反饋的過(guò)程。例如,用戶在挖掘的過(guò)程中發(fā)現(xiàn)所選擇的數(shù)據(jù)不合適,或者采用的挖掘技術(shù)得不到期望的結(jié)果,此時(shí)用戶需要重復(fù)之前的過(guò)程,甚至從第一步重新開(kāi)始。
目前對(duì)于數(shù)據(jù)挖掘技術(shù)的應(yīng)用和研究主要在以下兩方面:
①在數(shù)據(jù)挖掘技術(shù)自身領(lǐng)域中,對(duì)現(xiàn)有的典型的數(shù)據(jù)挖掘算法進(jìn)行優(yōu)化和改進(jìn),以及對(duì)挖掘方法的改進(jìn)、挖掘語(yǔ)言標(biāo)注化等方面的研究。
②利用現(xiàn)有的工具軟件如SAS,SPSS climentine,wake,R,statistica等結(jié)合其他開(kāi)發(fā)軟件,對(duì)實(shí)際應(yīng)用環(huán)境如醫(yī)療、金融、教育及電信等領(lǐng)域中的積累數(shù)據(jù)進(jìn)行知識(shí)挖掘,找尋潛在規(guī)律,為后續(xù)工作提供數(shù)據(jù)支持和依據(jù)。數(shù)據(jù)挖掘技術(shù)在不斷的向各個(gè)應(yīng)用領(lǐng)域進(jìn)行延伸,尤其是生產(chǎn)質(zhì)量控制領(lǐng)域。生產(chǎn)過(guò)程質(zhì)量控制是一個(gè)非常復(fù)雜的動(dòng)態(tài)過(guò)程,是利用生產(chǎn)過(guò)程的動(dòng)態(tài)信息進(jìn)行質(zhì)量預(yù)測(cè)和質(zhì)量控制,要解決的問(wèn)題主要包括被控變量的選擇、控制器參數(shù)的調(diào)整、系統(tǒng)建模、系統(tǒng)的關(guān)聯(lián)問(wèn)題及過(guò)程優(yōu)化等問(wèn)題[1]。因其實(shí)時(shí)性和較高的準(zhǔn)確性,可預(yù)估質(zhì)量問(wèn)題,進(jìn)而降低企業(yè)生產(chǎn)成本和經(jīng)濟(jì)損失。生產(chǎn)過(guò)程質(zhì)量的基礎(chǔ)是對(duì)生產(chǎn)過(guò)程的質(zhì)量預(yù)測(cè)。只有對(duì)產(chǎn)品質(zhì)量參數(shù)進(jìn)行預(yù)先估計(jì),才能在產(chǎn)品質(zhì)量出現(xiàn)問(wèn)題前調(diào)整生產(chǎn)過(guò)程,繼而達(dá)到提高產(chǎn)品質(zhì)量的目的。通過(guò)以各種決定產(chǎn)品質(zhì)量的變量為輸入,以產(chǎn)品各質(zhì)量指標(biāo)為輸出,引入數(shù)據(jù)挖掘技術(shù)建立生產(chǎn)過(guò)程的質(zhì)量模型。
這里以某擠塑產(chǎn)品生產(chǎn)為例,因生產(chǎn)過(guò)程中生產(chǎn)線不同點(diǎn)加熱溫度的高低,直接影響擠出成型產(chǎn)品質(zhì)量,為實(shí)現(xiàn)良好的質(zhì)量控制,介紹在生產(chǎn)過(guò)程中如何使用數(shù)據(jù)挖掘中的預(yù)測(cè)技術(shù)實(shí)現(xiàn)對(duì)產(chǎn)品擠出時(shí)刻溫度的預(yù)測(cè),為生產(chǎn)線溫度調(diào)控提供數(shù)據(jù)支持和依據(jù),進(jìn)一步實(shí)現(xiàn)質(zhì)量控制。當(dāng)將數(shù)據(jù)挖掘方法用于建立擠塑產(chǎn)品生產(chǎn)過(guò)程的溫度預(yù)測(cè)模型時(shí),因傳感器對(duì)生產(chǎn)過(guò)程不斷采樣,獲得的生產(chǎn)歷史數(shù)據(jù)通常都是時(shí)間序列,即歷史數(shù)據(jù)是和時(shí)間相關(guān)的一系列值。這里我們采用動(dòng)態(tài)數(shù)據(jù)挖掘的方法,主要目標(biāo)有兩個(gè):1)通過(guò)對(duì)擠塑產(chǎn)品生產(chǎn)過(guò)程歷史記錄的數(shù)據(jù)挖掘,建立產(chǎn)品擠出溫度預(yù)測(cè)模型,并運(yùn)用于生產(chǎn)過(guò)程,進(jìn)行實(shí)時(shí)溫度預(yù)測(cè);2)利用對(duì)歷史數(shù)據(jù)的挖掘,分析加熱參數(shù)對(duì)產(chǎn)品擠出溫度的影響,找出隱藏的加熱規(guī)律,為更好的實(shí)現(xiàn)產(chǎn)品生產(chǎn)過(guò)程的質(zhì)量控制提供決策支持。
3.1 數(shù)據(jù)的選擇、預(yù)處理與轉(zhuǎn)換 在實(shí)際生產(chǎn)中,產(chǎn)品在t1時(shí)刻的擠出溫度y與t1-Δt時(shí)刻的生產(chǎn)線的中間點(diǎn)溫度x1、推進(jìn)速度x2及加熱設(shè)備的加熱功率x3有著非常密切的關(guān)系。這里將產(chǎn)品擠出溫度y定為輸出變量,其余參數(shù)定為輸入變量。
實(shí)例中選取了最長(zhǎng)時(shí)間序列采樣數(shù)據(jù)7500個(gè),對(duì)原始數(shù)據(jù)進(jìn)行去除無(wú)效值、數(shù)據(jù)平滑等預(yù)處理,將5000個(gè)數(shù)據(jù)作為訓(xùn)練集,1000個(gè)數(shù)據(jù)作為測(cè)試集。為了更直接的得到輸入變量對(duì)輸出變量的影響度,將推進(jìn)速度和加熱功率進(jìn)行無(wú)量綱化處理,數(shù)據(jù)均在0-1之間,處理后的數(shù)據(jù)如表1所示:

表1 預(yù)處理及轉(zhuǎn)換后數(shù)據(jù)表
3.2 數(shù)據(jù)挖掘 多元線性回歸是數(shù)據(jù)挖掘技術(shù)中進(jìn)行預(yù)測(cè)挖掘的主要方法之一,其涉及多個(gè)預(yù)測(cè)變量,它允許響應(yīng)變量Y用描述元組X的n個(gè)預(yù)測(cè)變量或?qū)傩訟1,A2,…,An的線性函數(shù)建模。
如今受新媒體和人們生活方式改變的影響,訂閱報(bào)紙的客戶數(shù)量逐年下降,一些文藝性、娛樂(lè)性的報(bào)刊群體也在逐漸減小,發(fā)行量連年急劇下滑,人民日?qǐng)?bào)印刷廠也不例外地受到這一趨勢(shì)的沖擊。楊興華認(rèn)為,報(bào)業(yè)印量下滑是大勢(shì)所趨,但人民日?qǐng)?bào)印刷廠在這樣的大趨勢(shì)中依然能夠保持相對(duì)穩(wěn)定的態(tài)勢(shì),實(shí)屬不易。

預(yù)測(cè)模型為:Y=Xβ
其中Y=(y1,y2,…,yn)T
式中Y——預(yù)測(cè)對(duì)象的歷史觀測(cè)向量;
X——影響因素的歷史觀測(cè)矩陣,是收集到的p個(gè)y的影響因素的n次觀測(cè)值;
B——系數(shù)向量。
應(yīng)用中,數(shù)據(jù)采集和挖掘過(guò)程如圖2所示,在上位機(jī)中以Labview為運(yùn)行平臺(tái),數(shù)據(jù)庫(kù)采用Access數(shù)據(jù)庫(kù),結(jié)合Matlab軟件實(shí)施挖掘,調(diào)用函數(shù)regress(y,x),得到系數(shù)β=[-7.85951.5742-0.344640.00042534],則溫度預(yù)測(cè)方程如下:Y=-7.8595+1.5742x1-0.34464x2+0.0004x3(2)

圖1 數(shù)據(jù)采集、挖掘過(guò)程
3.3 模型評(píng)估 相關(guān)系數(shù)為R2=0.8985,表明回歸方程效果良好。經(jīng)計(jì)算得到F=4307.6,F(xiàn)取4307.6的概率p=0.0000,這表明該回歸方程合理。
將公式(2)引入到測(cè)試集中進(jìn)行預(yù)測(cè)檢驗(yàn),其結(jié)果如表2所示。

表2 溫度預(yù)測(cè)檢驗(yàn)表
由表2可看出,預(yù)測(cè)溫度與實(shí)測(cè)溫度的偏差都在0.5以內(nèi),達(dá)到較好的預(yù)測(cè)效果。此外,在預(yù)測(cè)方程(2)中將速度變量和加熱功率變量的系數(shù)相比較,可知速度的變化對(duì)擠出溫度影響幅度相對(duì)較大,加熱功率的變化對(duì)擠出溫度影響幅度相對(duì)較小,為擠塑產(chǎn)品生產(chǎn)中擠出溫度的控制提供了理論依據(jù),進(jìn)而為更好提高生產(chǎn)質(zhì)量提供保證。
數(shù)據(jù)挖掘技術(shù)能從大量生產(chǎn)數(shù)據(jù)中挖掘和學(xué)習(xí)有價(jià)值和隱含的知識(shí),因而在生產(chǎn)過(guò)程質(zhì)量控制系統(tǒng)中具有很大的應(yīng)用前景。本文簡(jiǎn)要介紹了數(shù)據(jù)挖掘的概念及挖掘過(guò)程,以擠塑產(chǎn)品生產(chǎn)過(guò)程中溫度的多元回歸預(yù)測(cè)挖掘?yàn)槔榻B了數(shù)據(jù)挖掘技術(shù)在生產(chǎn)過(guò)程質(zhì)量控制的應(yīng)用,其他的挖掘方法如何應(yīng)用于實(shí)際生產(chǎn)中還有待于進(jìn)一步研究。
[1]萬(wàn)維漢.工業(yè)生產(chǎn)的產(chǎn)品質(zhì)量控制以及應(yīng)用[J].系統(tǒng)仿真學(xué)報(bào),2001,13(8):153-155.
[2]舒正渝.淺談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].中國(guó)西部科技,2010,202(09):38-39.
[3]郭立偉,高雷,陳丹.數(shù)據(jù)挖掘技術(shù)在冷連軋機(jī)板形控制系統(tǒng)中的應(yīng)用研究[J].冶金自動(dòng)化,2012,02:96-100.
[4]胡燕,何臘梅.數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術(shù)在轉(zhuǎn)爐終點(diǎn)控制中的應(yīng)用[J].鋼鐵技術(shù),2010,5:7-9.
[5]高立鵑,劉云,趙玲.雙向數(shù)據(jù)挖掘的反饋預(yù)測(cè)分析[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào),2011,12(5):81-85.
[6]武書彥,李咚.數(shù)據(jù)挖掘技術(shù)的探索性研究[J].制造業(yè)自動(dòng)化,2011,33(1):102-105.