邢鵬程,曾獻輝
(1.東華大學 信息科學與技術學院,上海201620;2.數字化紡織服裝技術教育部工程研究中心,上海201620)
基于改進Apriori算法的紡紗生產質量預測研究
邢鵬程1,2,曾獻輝1,2
(1.東華大學 信息科學與技術學院,上海201620;2.數字化紡織服裝技術教育部工程研究中心,上海201620)
隨著工業大數據時代的到來,紡織企業正加速向智能制造進行產業轉型升級。以提高紡織品質量預測準確度為研究目標,在基于關聯規則Apriori算法及引入興趣度的I_Apriori算法的紡紗生產質量預測模型基礎上,針對Apriori算法效率低、時間復雜度大、不精確的缺點,提出了一種基于遺傳算法的全局優化策略,對Apriori算法進行了改進和優化。通過對紡紗廠現場數據的試驗和分析,對Apriori算法、I_Apriori算法和優化算法效果進行了對比,結果顯示優化算法的處理效率更高、規則挖掘更準確,對預測效果有顯著提升。
紡紗生產;質量預測;Apriori算法;遺傳算法
質量預測作為一種質量控制的高級手段,是紡織生產中重要的環節之一,準確的紡織質量預測可以大幅度地降低成本、提高生產效率。傳統的質量預測方式主要是憑借技術人員的經驗來判斷配棉方案的可行性,缺乏對產品質量和原棉性能指標之間關系的細致研究,因此經常會出現產品指標要求不符合、產品質量波動、成本增高等問題,浪費了很多寶貴的時間和資源[1]。
近年來,我國有關部門和紡織企業加大了對紡織品質量預測的重視和研究,國家經貿委和科技部都設立了相關項目資助該方面的工作[2]。目前智能化質量預測系統多采用人工神經網絡技術來實現分類、回歸與預測預報等,例如提出了神經網絡預測模型,預測紗線質量指標[3]。
隨著智能質量預測控制研究的不斷深入,許多優秀的智能算法被提出來應用于紡織領域,Apriori智能算法對企業的質量預測和生產決策產生了良好的效果[4],但在實際應用中,尤其在處理大數據的情況下,Apriori算法仍有很多缺陷:(1)掃描頻繁項集時會產生大量的候選項集,并且在剪枝過程中需要計算出每個候選項集的所有子集并判斷它們是否是頻繁的,因此算法的時間復雜度過大,同時候選項子集的重復組合增加了計算時間;(2)在計算候選項集的支持度時,需要多次重新遍歷數據庫。基于紡織企業的海量數據規模,Apriori算法的處理效率會大大降低,系統的I/O負載也會增大;(3)僅通過設置支持度和置信度來尋找關聯規則并不能保證數據的完整挖掘[5],最終得到的一些強關聯規則會與實際情況不符,無法滿足紡織企業智能制造的技術要求。
針對Apriori算法的不足,本文提出了一種基于遺傳算法的全局優化算法,在優化了修剪頻繁策略的基礎上,引入遺傳算法來避免窮舉搜索和搜索過程中的局部最優解,對全局的搜索過程進行了優化。將傳統的Apriori算法、引入興趣度的I_Apriori算法以及全局優化算法應用到紡織大數據中并進行了對比,試驗顯示了改進算法在大數據處理上的優越性,提高了效率的同時有效地提取了最有價值的關聯規則。
Apriori算法的原理是利用頻繁項集性質的先驗知識,通過逐層搜索的迭代方式,來基于k項集搜索k+1項集直至窮盡數據集中的所有頻繁項集[6],再根據置信度閾值從頻繁項集中產生關聯規則。Apriori算法計算頻繁項集可分為兩步:連接和剪枝。
1.1.1連接
通過頻繁k-項集Lk與自身進行連接來產生候選(k+1)-項集Ck+1。連接規則如下:
頻繁k-項集Lk的任意兩個子集la、lb可以連接的條件是:若它們的前k-1項相同,則可連接。即
(la[1]=lb[1])∧(la[2]=lb[2])∧…∧(la[k-1]=lb[k-1])
則la、lb連接產生的結果是:
la[1]la[2]…la[k-1]la[k]lb[k]
1.1.2剪枝
剪枝主要分為兩個部分:
(1)依據Apriori“任一頻繁項集的所有非空子集也必須是頻繁的”的性質,對候選k-項集Ck的所有項集進行掃描求出它們的(k-1)-項子集,并判斷這些子集是否是頻繁的;
(2)掃描數據庫,求出候選k-項集Ck的每個候選項集的支持度,并與支持度閾值進行比較,刪除小于支持度閾值的項集,得到最終的頻繁k-項集Lk。
I_Apriori算法是針對Apriori算法容易忽視規則負相關性的缺點而產生的,例如某條強關聯規則A?B滿足可信度閾值,但其負相關規則置信度同樣也很大,導致此問題的原因可能是項集間存在負相關的抑制作用,或者項集之間相互獨立,因此此規則是相互矛盾的,是錯誤的。基于上述問題,提出一個興趣度模型:

此興趣度的范圍是[-1,1],即當interest(A?B)>0時,A對B是促進作用,且當興趣度越接近1,則A和B的關聯性越強;當interest(A?B)<0時,A對B是抑制作用,且當興趣度越接近-1,則ˉA和B的關聯性越強,可以看出A?B規則的負關聯規則ˉA?B并沒有被忽視,所以此規則是相互矛盾的,可刪除此規則;當interest(A?B)=0時,A與B獨立不相關。
I_Apriori算法有效地去除錯誤的強關聯規則,但和Apriori算法一樣,在尋找頻繁項集時仍要對數據庫進行規模較大的遍歷,同時也無法避免大量的候選項子集的重復組合。本文針對上述缺點提出了基于遺傳算法的全局優化算法。
此算法主要從兩個方面進行優化:一是在執行連接剪枝步驟之前對頻繁項集進行修剪,以減少候選項集數目,提高效率;二是引入遺傳算法對尋找頻繁項集的搜索過程進行全局優化。
在生成頻繁k-項集后,利用Apriori算法的性質2,來簡化執行連接剪枝步驟所要用的項集數量,從而減少了連接產生候選(k+1)-項集的過程中重復組合的數量級,優化了執行時間,預計采用改進后的Apriori算法可以使掃描次數減少一半[7]。
性質2為某元素要成為頻繁k-項集的一元素,該元素在頻繁k-項集中的出現次數必須不小于k次,否則包含此元素的項集不能產生候選(k+1)-項集[8]。
Apriori算法的核心問題是如何找到頻繁項集,利用遺傳算法對此全局搜索過程進行全局優化,可以大幅度地提高Apriori算法的效率。
根據實際問題,先對紡織生產中的數據進行編碼,例如,影響棉紗線單強的因素有嘜頭、技等、回潮率等物理屬性,由于設備采集的此類數據類型屬于非布爾型數據,且每個屬性的取值是連續的、不固定的,因此需要根據歷史數據和實際情況對屬性取值劃分為區間,并將這些區間定義為“值1”、“值2”,…,“值n”。如表1所示。
利用適應度函數來評價個體的優劣,并決定此個體是否可以進入下一代,因此定義適應度函數是算法的關鍵。衡量項集是否頻繁的依據是此項集的支持度,因此根據支持度來定義適應度函數。
一般來說適應度函數定義為:

其中,Supp(X)代表當前項集X的支持度,Min Supp代表最小支持度閾值。
但由于算法目的是尋找單強屬性最好的關聯規則,所以我們更需要單強屬性較大的規則;同時,對于單強屬性很低的關聯規則同樣有價值,因為我們可以通過此規則知道造成單強屬性低的因素,從而避免它。因此,在公式(2)的基礎上,通過設定單強屬性的權值來重新定義適應度函數:

其中,Supp(X1,X2,…,Xn-1)是除單強屬性其他所有屬性組合的支持度,W1~6是單強屬性的權值,其中單強屬性數據設置為6個區間,單強屬性越高或者越低的權值越大,單強屬性趨于中間值的權值最低,如表2所示。

表1 棉線物理屬性的數據區間編碼表

表2 單強屬性區間及權值分配表
根據適應度函數的大小,進行選擇、交叉、變異的遺傳操作,產生下一代規則;經過反復迭代以后,直到滿足終止條件,得到一組規則;最后利用置信度和興趣度對產生的所有規則進行篩選和提取。流程如圖1所示。

圖1 優化算法的運作流程
以紡紗生產中對紡織產品的質量預測為研究目標,根據紡織工藝特點,確立了可通過棉纖維各項性能指標來定量地預測成紗質量[9]。通過Apriori算法、I_Apriori算法以及基于遺傳算法的全局優化算法對棉纖維性能數據的試驗和仿真,分析3種算法的預測性能,從而得出優化算法的優越性。
試驗使用的是浙江某棉紡企業提供的現場數據,共1 500條數據組成了棉紡紗線單強試驗訓練樣本,該組數據是在轉杯紡快速紡紗系統中普梳18.2 tex紗線所取得[9],其中截取的部分數據如圖2所示。

圖2 棉紡紗線單強實驗數據
通過測試樣本來檢驗3個算法的預測性能。測試規則如下:試驗遵循單一變量原則,在相同支持度和置信度條件下,分別通過3種算法得到了單強數據的預測值,并與真實值一同記錄下來。其中,每組試驗的測試樣本是從數據庫中隨機選取5條數據(每條數據由嘜頭、技等、回潮率等12項組成),共做10組試驗。
將每次的試驗結果做成橫坐標為真實值、縱坐標為預測值的散點圖上,如圖3所示,其中圖中的斜線表示真實值和預測值絕對相等的軌跡。

圖3 測試結果
對10組試驗結果進行單因素方差分析,從數學的角度分析不同的算法是否對預測效果產生了顯著影響。利用均方差計算公式:

即預測值和真實值之差的算術平均數的平方根,它可以反應某算法得出的預測值距離真實值的離散度,是表示預測精確度的重要指標。
通過10組試驗的測試分析,最后得到的結果是:Apriori算法的均方差為3.131,I_Apriori算法的均方差為2.862,基于遺傳算法的優化算法均方差為1.11。因此可以看出,本文提出的全局優化算法在準確度上大大優于傳統的Apriori算法和I_Apriori算法,傳統的Apriori算法并不能滿足實際生產需要,它的預測值離散度太大,不能很好地預測紡紗品的質量;I_Apriori算法在一定程度上修正了傳統算法,其預測值的均方差降低,但預測效果仍然差強人意;對比Apriori算法和I_Apriori算法,全局優化算法的預測效果得到了顯著的提升,預測結果較為理想,因此其性能遠優于傳統算法。
在紡織智能制造中常用的兩種關聯規則數據挖掘算法Apriori算法和I_Apriori算法,針對它們的不足提出了一種基于遺傳算法的全局優化Apriori算法,并通過對棉紡質量數據的試驗對比分析,證明此算法有效地彌補了Apriori算法的不足。
未來通過對算法的進一步完善可應用到大數據上,由于紡織企業數據庫規模較大,因此掃描和比較時間的縮減將會更加明顯,大幅度的優化了算法的效率,滿足了紡織企業的生產要求。
[1] 吳軍輝.紡織加工質量預測技術的研究與應用[D].上海:東華大學,2009.
[2] 王侃楓.基于計算智能的精梳毛紗質量預測[D].上海:東華大學,2009.
[3] 孫海蘭.紗線質量分析與預測[D].蘇州:蘇州大學,2004.
[4] 王達明.基于云計算與醫療大數據的Apriori算法的優化研究[D].北京:北京郵電大學,2015.
[5] 徐章艷,劉美玲,張師超,等.Apriori算法的三種優化方法[J].計算機工程與應用,2004,6(36):190-193.
[6] 陳 東.基于Apriori算法的大數據相關性分析研究[D].北京:中國地質大學(北京),2016.
[7] 歐陽桃紅.一種基于遺傳算法的關聯規則改進算法[J].杭州電子科技大學學報(自然科學版),2015,9(5):79-81.
[8] 肖冬榮,楊 磊.基于遺傳算法的關聯規則數據挖掘[J].通信技術,2010,1(43):205-207.
[9] 李利強.支持精益生產的數據挖掘技術的研究與應用[D].上海:東華大學,2010.
Spinning Production Quality Prediction based on Improved Apriori Algorithm
XING Peng-cheng1,2,ZENG Xian-hui1,2
(1.School of Information Science and Technology,Donghua University,Shanghai 201620,China;2.Education Engineering Center of Digital Textile Technology,Shanghai 201620,China)
With the advent of the era of industrial big data,textile enterprises are accelerating transformation and upgrading to intelligent manufacturing industry.With quality prediction as the research object,intelligent textile quality prediction model based on the association rules Aproiori algorithm and I_Apriori algorithm with interest degree was presented.At the same time,aiming at the shortcomings of poor efficiency,large complexity of time and imprecise,a global optimization strategy based on genetic algorithm was proposed,and Apriori algorithm was improved and optimized.Through the experiment and analysis,the Apriori algorithm,I_Apriori algorithm and optimization algorithm were compared.The results showed that the improved algorithm was more high efficiency and precise in dealing with big data,the prediction effect had been improved significantly.
spinning production;quality prediction;Aproiori algorithm;genetic algorithm
TS104.1
A
1673-0356(2017)12-0019-04
2017-09-19
邢鵬程(1993-),男,碩士研究生,主要研究方向為數據庫應用技術、大數據分析,E-mail:491472180@qq.com。