基于分布式并行分層極限學習機的大數據多模式質量預測

2022-06-24 10:10:02胡安明

計算機應用與軟件 2022年4期

胡安明

(廣州理工學院廣東廣州 510540)

0 引言

在現代工業過程中，對關鍵性能指標如工業過程變量、生產質量變量，以及經濟指標等進行監控預測對生產效率、經濟成本等具有重大的意義[1]。但是上述關鍵性能指標需要在智能制造和智能工廠中進行測量，成本很高，并且要在極端的工作環境中進行[2]。如何實現經濟可靠且可行的質量預測成為了領域內的研究熱點[3-4]。

數據驅動的預測模型是基于其他易于測量的過程變量來估計難以測量的質量變量，從而為那些昂貴的物理傳感器提供可靠且經濟的解決方案[5]。在數據驅動的建模方法中，極限學習機以及深度學習方法因為其非線性逼近能力較強得到了廣泛的應用[6-8]。但是，大多數深度學習方法都是通過反傳算法進行訓練，這意味著需要對整個模型的所有隱藏參數進行迭代微調。因此，深度學習架構的訓練過程總是很耗時，且解決無特征監督學習問題難度較大[9]。

由于計算機網絡通信技術飛速發展，云計算、5G通信和分布式系統等新技術已得到越來越多的利用，因此大量的過程數據已被收集并推動現代行業邁向大數據時代[10]。傳統的數據驅動建模方法通常通過迭代所有數據點來學習模型參數，而數據集的數量變得越來越大，因此傳統方法不再適合這種情況[11]。此外，過程數據的來源、種類較為多樣，所以傳統的處理方式已不適用。因此集成式的數據驅動建模方法都存在處理速度慢、效率低和內存不足等缺點[12]。

綜上所述，提出一種基于分布式并行分層極限學習機的大數據多模式質量預測模型，為改善原始ELM收斂速度慢、分類時間長、無法實現無監督學習等問題，提出dp-ELM和dp-HELM。另外，為解決大規模數據建模，利用Map-Reduce框架、分布式并行K均值、貝葉斯模型融合技術充分利用了分布式計算資源，將沉重的計算負擔轉化為并行的小規模處理，實現了分布式系統大數據條件下的多模式質量預測。

1 理論方法

1.1 分層極限學習機

(1)

訓練樣本為X和Y。假設此處形成了一個包含了h個隱藏層的多層網絡。如前文所述，HELM網絡包括多層ELM-AE的無監督特征提取與有監督的ELM回歸。主要步驟分為兩步，第一步把相關的訓練樣本轉移到ELM-AE的h-1層，從而獲得深層網絡的特征；第二步把特征隨機映射至網絡的最后一層，從而進行原始ELM的最終預測Y。參數Wi(i=1,2,…,h)表示第i-1和第i個隱藏層之間的權重系數，γ代表最后一個ELM層的輸出權重。

每個隱藏層輸出可通過式(2)得到：

Hi=g(WiHi-1)

(2)

式中：Hi表示第i個隱藏層的輸出；Hi-1表示第i-1個隱藏層的輸出。然后把自動編碼器Bi(i=1,2，…,h-1)的輸出權重作為HELM隱藏層的權重，從而無須微調就可以確定當前層的參數。HELM通過兼容ELM的學習效率與AE的深層網絡，從而獲得了良好的預測能力。

1.2 Map-Reduce框架

Map-Reduce是一個編程平臺，用于對分布式計算節點集群中的大量數據進行建模和分析。計算節點包含一個主節點(名稱節點)和幾個從節點(數據節點)。主節點實現控制，從節點進行計算。同時，作為Map-Reduce基礎的Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)提供了涉及大型數據集應用程序所需的高效可靠的分布式數據存儲[13]。Apache Hadoop項目是Google用Java編寫Map-Reduce的最廣泛使用的開源實現，可實現可靠、可擴展的分布式計算。其中最關鍵的為兩個函數：Map和Reduce。映射是一個轉換步驟，其中并行處理各個輸入記錄。Reduce是一個匯總步驟，其中所有關聯記錄都由單個實體一起處理。在處理兩個函數過程中，數據結構均統一為組織形式。作為說明，基于Map-Reduce的分布式計算如圖1所示。

圖1 基于Map-Reduce的分布式并行計算流程

最初，數據塊存儲在從節點上，等待逐行傳輸到Map功能。對于每個數據，在Map函數末尾的中間計算結果是不同的。它將生成帶有新定義的鍵的中間對的列表。對于Map和Reduce函數，鍵的含義不同，它們是根據算法程序定義的。通常Reduce函數的輸出是模型的參數。

2 分布式并行ELM和HELM

2.1 HDFS上的數據分區

分割高維數據時，HDFS數據塊應遵循三個原則[14]：

(1) 一個塊的大小不能大于HDFS中的默認塊大小。在Hadoop中，規定塊必須大于16 MB，小于64 MB。

(2) 塊的大小應差不多。從屬節點從不同的局部集中學習局部模型，塊的大小決定了計算時間的長短，因此，大小必須差不多。

(3) 減少準備時間。Map-Reduce計算時間分為兩部分：準備時間和計算時間。在準備期間，主節點將任務分配給從屬節點，并將算法復制到這些節點。在計算期間，每個計算節點將執行局部模型學習任務。如果子任務過多，則準備時間勢必會增長。所以，必須減少子任務的個數。

2.2 Map-Reduce上的HELM

為了將HELM部署在Hadoop Map-Reduce平臺上，應把dp-ELM加入Map和Reduce階段。第i個隱藏層要獲取隱藏層權重Wi和輸出隱藏層Hi有兩個步驟：

步驟2隱藏層Hi的輸出由式(2)計算，其將會被作為下一個隱藏層(Xi+1=Hi)的輸入。該計算是通過Map和Reduce部署的，Map任務使用Wi映射輸入，Reduce任務通過式(1)激活隱藏層。

這兩個步驟都包含Map-Reduce，同時解決了ELM-AE的隱藏層權重。當隱藏層的數量大于一個時，兩個Map-Reduce形成一個循環，以獲取每個隱藏層的參數，直到最后一個隱藏層。但是，第一個Map-Reduce和其余之間存在細微的差別，即第一個Map-Reduce的Map任務中需要對輸入數據進行歸一化處理。之后的Map-Reduce則無須進行歸一化處理。一旦獲得了最后一個隱藏層的輸出，它將調用原始的ELM Map-Reduce來解決輸出權重γ。此外，dp-HELM的時間復雜度取決于隱藏層的數量。

3 多模式過程質量預測

3.1 整體設計

在實際的工業生產過程中，收集的數據通常包含幾種過程模式。為了適應控制和監視需求，應該通過高級算法完全學習多模式的功能。實踐表明，傳統的單一全局建模方法無法詳細描述過程，通常采用“劃分和規則”策略分別構建局部模型，然后將其集成以形成全局模型[15]。多模式過程質量預測如圖2所示。可以看出，關鍵過程之一是從數據集中識別過程模式。通常，使用聚類算法，例如，K均值、高斯混合模型對具有不同數據特征的模式進行劃分[16-18]。在建立局部模型之后，使用貝葉斯融合，并通過測試樣本與不同模式之間的相似性確定集成模型的權重。

圖2 多模式過程質量預測的流程

3.2 dp-K-means劃分處理模式

本文采用K-means聚類算法來區分不同的處理模式，其中最相似的樣本將被收集在一起。K均值是遍歷類型的方法，通過計算每個樣本與聚類中心之間的歐幾里得距離實現聚類[16]，相應的計算步驟如下：

步驟1隨機選擇K個聚類中心：μ1,μ2,…,μK。

步驟2計算各個樣本(總數為n)所屬的聚類：

(3)

步驟3更新各集群的中心:

(4)

步驟4重復步驟2和步驟3，直到收斂為止。

可見，當聚類中心發生變化時，式(3)中所有樣本的歐幾里得距離都需要計算。但是該方法計算量過大，處理效率較為低下，所以考慮引入分布式計算的思想，構造Map-Reduce框架下的分布式并行K均值(dp-K-means)算法。相應的算法過程如圖3所示。

圖3 劃分過程K均值算法流程

其中，Map函數通過步驟2的計算方法對樣本進行區分。而在Reduce函數中則是更新聚類中心。通過判定聚類中心是否改變，執行下一步。如果改變了，則循環下一個Map-Reduce循環。若未改變，那么進入下一階段得到結果。

3.3 多模式過程的分布式和并行建模

當劃分完成時，將獲得具有不同模式的K個數據塊。利用Map-Reduce計算出用于后續建模過程的每種模式的均值和標準差，其中Map階段用于數據加載，而Reduce階段用作計算均值和標準差的總和。在Reduce任務期間會計算每種模式的樣本數。

3.3.1dp-ELM用于多模式處理

為了建立多模式過程的預測模型，利用dp-ELM可以為多模式過程提供更高的處理效率。可以看出，輸入數據被劃分為“模式”，然后在所有局部數據集上同時進行計算均值和標準差以進行歸一化。隨后，對于K個訓練路徑，ELM算法分別通過Map和Reduce任務部署在分布式和并行計算集群上。最后，在完成所有Reduce任務后獲得輸出權重(γ1,γ2,…,γK)，這意味著建立了所有局部ELM模型。由于建模過程在Map-Reduce循環中并行處理，這極大地提高了具有大規模數據集的多模式過程的建模效率。

3.3.2dp-HELM用于多模式進程

由于HELM的深層網絡結構將通過進一步精確的模型使預測性能受益，因此dp-HELM模型也用于多模過程。首先將數據集劃分為K個模式。利用每種模式的數據，計算均值和標準差，以進行后續建模。然后引入dp-HELM來學習深度SLFNN的參數。如前文所述，隱藏層的參數是通過Map-Reduce循環訓練的。獲取隱藏層輸出和權重的兩個步驟被分解為使用Map-Reduce進行ELM-AE的求解，并獲得了第k模式中第r隱藏層的權重Wki以及通過Wki和式(1)把隱藏層的輸入映射到輸出。得到各個隱藏層權重之后，再進行dp-ELM計算相應的輸出權重。

dp-HELM的K個訓練路徑是并行處理的，并且應該事先給出隱藏層的數量和每一層的神經元。雖然由于訓練循環導致處理效率下降，但是HELM針對多模式的處理使得準確度更高。

3.3.3在線預測的模型融合

為引入各個局部模型的預測優點，采用貝葉斯融合方法對各個局部模型進行融合，從而實現在線質量預測。

在線融合的步驟為：

步驟1通過下式計算測試樣本Xt到K個處理模式聚類中心的距離：

(5)

步驟2通過貝葉斯定理將距離轉換為歸一化權重：

(6)

式中：πk代表第k種模式的樣本數。

步驟3標準化測試樣本并將其替換為局部模型以獲得輸出預測：

(7)

(8)

作為說明，圖4給出了用于在線輸出預測的模型融合的流程。

圖4 在線輸出預測的模型融合流程

4 案例研究：預脫碳裝置中殘留的CO2含量估算

預脫碳裝置是源自真實氨合成工藝的關鍵生產裝置。預脫碳裝置的功能是最大程度地消除原始工藝氣體中的二氧化碳(CO2)。主要反應在CO2吸收塔中進行，當工藝氣體通過時，CO2將被胺液吸收。因此，第一個也是最重要的步驟是測量設備出口處的殘留CO2含量，將其作為生產的關鍵質量變量[19]。在實際過程中，殘留的二氧化碳含量是通過昂貴的在線過程分析儀測量的。

收集了110 000行的20個過程變量和質量變量的樣本。作為準備，建立了具有4個計算節點的計算集群。在工作中，Apache Hadoop v2.6平臺被用作Map-Reduce框架的實現形式。Map和Reduce任務是在Hadoop的集成開發環境中編程的。

為了驗證所提出的分布式和并行建模方法的可行性，將前100 000條線作為訓練樣本，將后10 000條樣本作為測試樣本。第一步根據劃分原理將訓練數據分為4個塊，每個塊均有25 000行變量。第二步把四個數據塊的數據上載至HDFS中。然后將Map和Reduce功能編程為dp-ELM。第三步訓練dp-ELM模型并將其用于預測測試樣本的輸出。為了穩定地確定模型參數以及隱藏神經元的數量，通過5倍交叉法確定各個參數。平均均方根誤差(RMSE)被用作選擇模型參數的評估標準。當隱藏神經元的數量等于15時，通過dp-ELM可獲得最佳的CO2含量預測性能，如圖5所示。此外，dp-HELM也部署在計算群集上。將dp-HELM的步驟1和步驟2通過代碼反映在Map-Reduce循環中。定義ELM-AE的隱藏層神經元數目為15。隱藏層數為3。最后，獲得了10 000個測試樣本的dp-HELM預測結果如圖6所示。模型的性能通過RMSE指數進行評估。對于訓練過程，使用模型擬合RMSE來檢查模型是否可以很好地描述數據，其計算式為：

(9)

(10)

圖5 dp-ELM單一模式預測CO2含量

圖6 dp-HELM單一模式預測CO2含量

表1 單一模式比較各種算法的預測性能

此外，作為測試該方法優越性的另一種工具，利用統計比較算法(STAC)平臺來對比dp-HELM算法和其他算法之間的差異。對于每種方法，進行30次建模和預測操作，然后獲得每種方法的RMSE值。利用這些RMSE值，進行了F測試和非參數Wilcoxon測試，以驗證提出的HELM的出色RMSE性能。測試在dp-HELM和每種比較方法之間進行。假設dp-HELM方法的均方根誤差等于比較方法的均方根誤差，則將原假設(H0)設置為0.05。結果列于表2。p值表示支持H0假設的概率。它說明了兩種情況是否相同。當p值小于0.05時，H0假設被拒絕。這意味著dp-HELM的均方根誤差與所比較的方法顯著不同。在表2中，SVR、DBN、SDAE-NN、基本ELM的結果均拒絕了H0假設，這意味著dp-HELM的均方根誤差與比較方法相比有顯著差異。由于基本的HELM和dp-HELM在理論上是相同的算法，因此它們的RMSE在統計上沒有差異。總體而言，由于dp-HELM的RMSE值最小，因此所提出的dp-HELM在比較方法中擁有最佳的預測性能。

表2 單一模式的RMSE差異的統計檢驗

已知數據是在很長的時間跨度內收集的，過程變量將會極大地反映二氧化碳含量的變化，相關CO2變化曲線如圖7所示。可以看出CO2吸收水平主要集中于3個水平，說明主要考慮3種不同的模式。

圖7 CO2吸收水平變化過程

首先利用dp-K-means方法對數據進行分類處理，然后，利用dp-ELM將6種模式的數據塊合并到并行建模過程中。完成所有Map和Reduce任務后，得到6個局部模型。根據5倍交叉驗證的確定，將6個局部模型的隱藏神經元數統一為15個。然后融合模型進行在線預測，結果如圖8所示，相應的預測精度比圖5更高。再將dp-HELM用于多模式過程建模，設置與圖6相同的參數進行在線預測，預測結果如圖9所示。明顯可以看出單個模型可以進一步提高預測精度。并且預測誤差幾乎接近于0。此外，具有多模型的dp-ELM和dp-HELM預測結果的RMSE計算并顯示在表3中。同時，這兩種方法在訓練時的訓練時間表中還列出了計算集群。可以看出，由于引入了dp-K-means方法，上述兩種方法既保證了較低的RMSE，同時大幅減少了訓練時間。因此可以得出結論，由于局部模型在其相應的模式下僅注重預測精度，因此多模型方法的預測結果更為良好。另外，具有深層網絡的HELM比基本ELM能夠更加充分地挖掘數據之間隱藏的聯系，具有更高的預測精度。此外，還采用了兩種基于BP的深度學習方法以及多模型策略。訓練和預測性能列于表3。可以看出，dp-HELM的預測結果最接近實際值，多模DBN和多模SDAE-NN的預測精度比表1有所提高，但是，其RMSE仍比多模式dp-HELM大，并且訓練時間明顯較長，進一步驗證了深度網絡引入的效果。再分析分布式并行算法的影響，相應的預測結果如表3所示。雖然基本ELM和HELM的預測精度與dp-ELM和dp-HELM相差無幾，但是其訓練時間卻大大增加，說明分布式并行算法能夠大幅度的提高算法的計算效率。與單模型類似，在多模式dp-HELM和每種多模式算法之間進行統計檢驗。結果列在表4中。可以看出，提出的多模式dp-HELM的RMSE值與比較方法相比有較大提升，但是其計算時間相比于單一模式要長。

圖8 dp-ELM的多模型預測CO2含量

圖9 dp-HELM的多模型預測CO2含量

表3 預測算法的預測性能指標

表4 多模型RMSE差異的統計檢驗

5 結語

針對分布式系統質量預測中的大數據處理問題，提出一種基于dp-HELM的大數據多模式質量預測模型，通過CO2含量預測對該方法驗證可得如下結論：

(1) 多模式融合計算相較于單一模式預測能夠較大地提升預測精度，但是計算時間會比單一模式長。

(2) 分布式并行算法的引入能夠極大地提升大數據條件下的計算效率，并且能夠滿足較高的精度要求；而分層極限學習機相對于基本極限學習機而言，能夠進一步提升預測精度，但是會適當增加計算時間。

(3) 所提出的多模式混合dp-ELM與dp-HELM雖各有優點，但是兩種方法均能夠在分布式系統大數據條件下實現對過程質量進行精確且快速的預測，并且具備較強的實際工業應用價值。