李成棟李銀萍周長庚
(1.山東建筑大學 信息與電氣工程學院,山東 濟南250101;2.山東省智能建筑技術重點實驗室,山東 濟南250101)
1965年,ZADEH[1]提出了“模糊集合”的概念,模糊系統理論開始發展。1973年,ZADEH[2]建立了研究模糊控制的基礎理論。1974年,MAMDANI[3]將模糊理論應用于鍋爐和蒸汽機的控制,此后模糊理論持續發展。模糊系統在建模等領域得到了廣泛應用,基于模糊規則的模糊模型具有可解釋、可嵌入經驗知識等獨特的優勢。經典模糊模型是基于一型模糊集合的,稱之為一型模糊模型。盡管一型模糊模型已經應用于很多領域,但其在處理不確定性時仍有一定的局限性。因此,為了更好地處理這一問題,學者們提出了二型模糊的概念[4-6]。相對于一型模糊集合,二型模糊集合的隸屬度由精確值轉變為模糊集合,具有更高的自由度,能更好地處理不確定性問題。基于二型模糊集合的二型模糊模型具有更少的規則,但能夠獲得更佳的性能,已經應用于多個領域。
目前,在該研究領域,已經提出了多種優化方法以實現二型模糊模型的構建。李軍等[7]提出了一種基于二型非單值區間二型模糊邏輯系統的多步預測方法,利用反向傳播(Back Propagation,BP)算法優化參數,提高了模型的預測精度。陳陽等[8]利用量子粒子群算法優化二型模糊邏輯系統的參數,提高了系統的穩定性。王丹等[9]利用反向傳播和最小二乘法分別調整前、后件參數,得到了預測精度較高的二型模糊系統。佃松宜等[10]針對區間二型模糊中規則參數難以設定的問題,提出了改進量子粒子群算法優化模糊集參數,提高了模型的性能。鄭高等[11]采用BP算法調整輸入以及規則前、后件參數,提高了模型的預測精度。王為國等[12]利用人類學習算法優化模型參數,提高了模型的控制性能。袁順杰等[13]提出了一種基于自組織特征映射的二型模糊模型,提高了模型的預測精度。趙鳳等[14]利用粒子群優化算法對區間二型模糊模型優化,改善了原模型容易陷入局部最優的問題。李軍等[15]利用主成分分析與二型模糊系統相結合的方法解決規則“爆炸”問題,并利用反向傳播算法和奇異值分解提高計算效率。MELIN等[16]探討了一種基于遺傳算法的神經網絡集成模糊響應集結優化結構,可用于時間序列預測。上述已有二型模糊模型訓練方法側重于預測性能的表現,但二型模糊模型輸入輸出關系較一型模糊模型更為復雜,且具有相對較多的待定參數,從而使得模型計算復雜性上升,模型學習時間變長,在一定程度上影響了二型模糊模型的應用范圍。因此,在其設計過程中,除了要考慮系統的性能,二型模糊模型構建過程中的訓練時間問題也是不可回避的。
針對上述問題,文章提出了一種基于分布式集成方法的區間二型模糊模型設計策略,采用分布式集成策略得到區間二型模糊模型,并通過最小二乘法優化區間二型模糊模型后件參數,降低模型訓練的難度。文章以風力發電和地鐵人流量預測為例,通過與自適應模糊系統(Adaptive Network-based Fuzzy Inference System,ANFIS)、反向傳播神經網絡(Back Propagation Neural Network,BPNN)以及基于差分進化的區間二型模糊模型(Type-2 Fuzzy Model-Differential Evolution,T2FM-DE)對比,驗證了該方法的優越性和有效性。
論域X上的一型模糊集A可以由在[0,1]上的隸屬度函數μA來刻畫,由式(1)表示為

式中μA(x)為x的隸屬度,μA(x)∈[0,1]。
論域X上的二型模糊集合A~可由式(2)[17]表示為

式中(x)為x的模糊隸屬度函數;Jx為主隸屬度;fx(u)為次隸屬度。當fx(u)=1時,為區間二型模糊集合。后續提到的二型模糊主要指區間二型模糊。
文章所用到的一型模糊集合為三角形一型模糊集合,如圖1(a)所示;采用的二型模糊集合為梯形區間二型模糊集合,如圖1(b)所示。區間二型模糊集合的所有主隸屬度值并組成的二維區域(圖1(b)中的陰影部分)稱為不確定覆蓋域(Footprint of Uncertainty,FOU),其上、下兩條邊界分別為上隸屬度函數(Upper Membership Function,UMF)和下隸屬度函數(Lower Membership Function,LMF)。

圖1 模糊集合圖
區間二型模糊集合的隸屬度(x)可以由其上隸屬度函數和下隸屬度函數來刻畫,其表達式由式(3)表示為

二型模糊模型的結構如圖2所示。其結構與一型模糊模型的結構十分類似,不同之處在于輸出處理環節。對于一型模糊模型而言,其輸出環節僅有一個解模糊器,但二型模糊模型的輸出環節除解模糊器之外還有一個降型器。

圖2 二型模糊模型結構圖
假定有q個輸入變量,對第s個輸入變量xs而言,其輸入論域可以劃分為ms個二型模糊集合,,從而完備規則庫共有條模糊規則,其中的第(i1i2…iq)條規則由式(4)表示為

對二型模糊模型,給定輸入x=(x1,x2,…,xq)后,通過單點值模糊器和二型模糊推理過程可得到規則(i1i2…iq)的區間激活強度由式(5)表示為

式中和分別為二型模糊集合的下隸屬度函數及上隸屬度函數。
采用由BIGLARBEGIAN等[18]提出的方法降型及解模糊后得到二型模糊模型的精確輸出值y,由式(6)表示為

式中α≥0,β≥0且α+β=1,通常α和β均設定為0.5。
基于分布式集成方法的區間二型模糊模型設計整體框架如圖3所示。

圖3 基于分布式集成的區間二型模糊模型構建框架圖
該方法的具體實現流程為
(1)將訓練數據集X劃分為P個訓練數據子集,其中P個訓練數據子集的大小近似相等;
(2)針對P個訓練數據子集,利用ANFIS方法分別構建一型模糊模型,得到P個一型模糊模型;
(3)集成P個一型模糊模型,得到初始區間二型模糊模型;
(4)利用最小二乘法對區間二型模糊模型的參數進行優化,得到最終的模型。
針對每一個數據子集,訓練得到相對應的一型模糊模型。以第p個訓練數據子集為例。
(1)確定其第s個輸入變量xs的論域范圍根據第p個訓練數據子集,其上、下界的計算公式分別由式(7)和(8)表示為

(2)對該論域進行一型模糊劃分。利用三角形一型模糊集合劃分輸入變量xs的論域,具體劃分結果如圖4所示,其中為的中心點。

圖4 輸入變量xs在第p個模型中的一型模糊劃分圖
在該一型模糊劃分中,輸入變量xs的模糊劃分數為ms,其第is,p三角形一型模糊集合的隸屬函數由式(9)表示為

(3)可以構造出針對第p個數據子集的一型模糊模型的完備模糊規則庫,由式(10)表示為

式中q為輸入變量個數;is,p=1,2,…,ms;p=1,2,…,P;s=1,2,…,q。規則庫共有條模糊規則。
(4)將該模糊規則庫中的模糊規則作為初始規則,利用ANFIS方法對這些規則進行優化,從而針對劃分的P個訓練數據子集構造出相對應的P個一型模糊模型。
將所得到的P個一型模糊模型進行集成,構造初始區間二型模糊模型。在一型和區間二型模糊模型中都采用完備規則庫,為實現集成的目標,只需要將一型模糊劃分集成為區間二型模糊劃分,將一型模糊規則中的后件集成為相對應的區間二型模糊規則后件。
一型模糊劃分的集成主要涉及相對應模糊集合的集成。文章所給出的集成策略如圖5所示。在該策略中,提取P個一型模糊模型中的P個三角形一型模糊集合,將P個三角形一型模糊集合進行集成,得到梯形區間二型模糊集合。

圖5 一型模糊集合的集成圖
從而可以得到初始區間二型模糊模型的規則庫由式(11)表示為

式中q為輸入變量個數;為規則(i1,…,iq)后件的區間權重,由P個一型模糊模型的規則后件集成得到,其計算式分別由(12)和(13)表示為

通過分布式集成方法得到了初始的區間二型模糊模型,為進一步強化該模型的性能,需要對其參數進行優化處理。主要考慮區間二型模糊規則后件參數的優化問題,將采用最小二乘方法實現這些參數的學習。
根據式(6),區間二型模糊模型的輸入輸出關系的向量形式可由式(14)表示為

式中f(x)為模糊規則激活向量;w為區間權重參數向量,分別由式(15)和(16)表示為


通過訓練得到的區間二型模糊規則的區間權重向量w使得預測值和真實值的偏差最小,由式(18)表示為

式中Z為激活度矩陣;y為輸出向量,Z和y的計算由式(19)和(20)表示為

該優化問題為最小二乘問題,從而可以得到區間二型模糊規則的區間權重向量w的最小二乘估計,由式(21)表示為

為驗證所給出方法的有效性及優勢,將其應用于風力發電預測和地鐵人流量預測問題中,并與經典一型模糊模型(自適應模糊推理系統ANFIS)、經典神經網絡模型(反向傳播神經網絡BPNN)以及基于差分進化的區間二型模糊模型(T2FM-DE)進行對比。
利用對稱平均絕對百分率誤差ESMAPE以及均方百分比誤差EMSPE來衡量各預測模型的預測精度,其具體計算公式由式(22)和(23)表示為

式中yk為第k個實際數據;為第k個預測數據;K為數據的個數。
同時,為了證明所提模型提高了學習速度,也給出了4個模型的所用訓練時間作為對比指標,通過訓練時間的長短來說明模型學習速度的快慢。
實驗所選的風力發電數據來源于公共數據集。所選數據集每隔15 min采集一次風力發電數據,共包含10 000個數據點,選取前8 000個數據進行訓練,后2 000個數據進行測試。
實驗過程中,劃分前8 000個數據,得到數據個數相同的5個訓練數據子集,進行一型模糊訓練,集成得到初始區間二型模糊模型,利用最小二乘法優化區間二型模糊后件參數。
對比模型的實驗參數設置:在ANFIS模型中,迭代次數為100次,每個輸入的模糊集個數為3;在BPNN模型中,迭代次數為10 000次;在T2FM-DE中,迭代次數為100次。最后得到的區間二型模糊模型的預測結果如圖6所示。實際值與預測值散點圖如圖7所示,擬合曲線表達式為y=0.9911x+5.4089。
由圖6可知,所提模型在風電預測方面效果較好,預測值和實際值的波動曲線相差較小。觀察圖7中實際值與預測值的散點圖可以看出兩者的誤差較小,說明模型的預測精度較好。

圖6 風力發電實驗預測結果圖

圖7 風力發電實際值與預測值散點圖
模型性能指標對比結果見表1。

表1 不同預測模型之間的指標對比表
由表1的對比數據來看,在預測精度方面,所提出的區間二型模糊模型的預測精度與ANFIS、BPNN和T2FM-DE模型相近。但在訓練時間上,所提模型的訓練時間要遠小于其他3個模型,比ANFIS、BPNN、T2FM-DE模型分別快約17、40和2 000倍,驗證了分布式集成方法的有效性。
實驗所選的地鐵人流量數據來源于網站:https://data.buenosaires.gob.ar/dataset? tags=transporte&_tags_limit=0,采集地址為阿根廷首都布宜諾斯艾利斯地鐵E號線,伯多Boedo車站。所選數據的采集時間為2018年3月1日至7月31日,采集間隔時間為15 min。所選數據集共包含14 000個數據點,選擇前10 000個數據進行訓練,后4 000個數據進行測試。
實驗過程中,對前10 000個數據進行劃分,得到數據個數相同的10個訓練數據子集,進行一型模糊訓練,集成得到初始區間二型模糊模型,并利用最小二乘法優化區間二型模糊后件參數。
對比模型的實驗參數設置:在ANFIS模型中,迭代次數為100次,每個輸入的模糊集個數為4;在BPNN模型中,迭代次數為10 000次;在T2FM-DE中,迭代次數為100次。得到的區間二型模糊模型的預測結果如圖8所示,實際值與預測值散點圖如圖9所示,擬合曲線表達式為y=0.9105x+4.8339。模型性能指標對比結果見表2。
由圖8可知,區間二型模糊模型在地鐵人流量預測中表現良好,且從圖9中實際值與預測值的分布可以觀察到,除個別數據點外,其他數據誤差較小,說明模型的預測精度較好。根據表2可知,所提模型與ANFIS、BPNN以及T2FM-DE模型的預測結果相近。但是,在訓練時間上要明顯快于其他3個模型,僅需0.9204 s,比ANFIS模型約快68倍,比BPNN模型約快13倍,比T2FM-DE模型約快1 156倍。由此可知,所提方法在保證預測性能的前提下,能夠有效地提高了學習速度。

圖8 地鐵人流量預測結果圖

圖9 地鐵人流量實際值與預測值散點圖

表2 不同預測模型之間的指標對比表
為加快區間二型模糊模型的訓練速度,改善預測效果,文章提出了一種基于分布式集成方法的區間二型模糊模型設計策略。通過實驗對比得出以下結論:
(1)建立的模型與ANFIS、BPNN和T2FM-DE等3種模型相比,各模型在風力發電預測實驗中測試的ESMAPE和EMSPE分別為3.09%、3.98%、5.48%、3.58%和0.21%、0.26%、0.35%、0.23%;在地鐵人流量預測實驗中測試的ESMAPE和EMSPE分別為13.03%、19.78%、15.81%、11.14%和1.54%、1.54%、2.83%、0.93%。由此可以看出,所提模型的預測與其他3種的精度相近。
(2)在風力發電和地鐵人流量預測中,所提模型、ANFIS、BPNN以及T2FM-DE模型的訓練時間分別為0.6708、11.4037、25.7246、1 448.9600 s和0.9204、62.2756、12.1236、1 063.8330 s,所提模型分別比其他3類模型約快17、38、2 160倍和68、13、1 156倍。表明采用分布式并行訓練機制及最小二乘法進行參數優化能夠顯著地加快二型模糊模型的學習速度。