裴佳佳 劉媛華
(上海理工大學管理學院 上海 200093)
近幾十年來,我國的灰霾現象日趨嚴重。根據衛星觀測,我國約30%的國土面積、近8億人口正遭受霧霾的危害,對人們身心健康、交通安全、工農業生產、生態系統、網絡輿論等方面造成了極大的危害[1~3]。我國建立諸多氣象站、環境監測中心,遙感技術也應用到了霧霾研究中,為我們提供了數據支持。在前人研究的基礎上[4~5],本文建立了霧霾分類預測模型,為各地區霧霾預測提供更精確的信息、理論和技術支持。
由于霧霾及其影響因子之間呈現較強的非線性關系,神經網絡有著極強的非線性映射特性、自學習能力以及并行分布處理能力,能夠更好地反映霧霾數據非線性這一特征。D Mishra[6]等建立了神經網絡與模糊邏輯回歸結合的預測模型,對印度地區的PM2.5濃度進行預測,實驗結果證明該組合預測模型比人工神經網絡和多元線性回歸模型預測都要好。模糊神經網絡作為神經網絡中的一種,融合了神經網絡的學習機制和模糊系統的語言推理能力等優點,故本文應用模糊神經網絡模型對霧霾進行分類預測。
在已有的研究中,主要從以下幾個方面對粒子群算法進行改進:1)基于參數和學習策略的改進。劉楊[7]等系統的介紹和分析比較了動態調整慣性權重的四種方法,結果表明選擇合適的方法對求解單峰和多峰函數至關重要;2)與其他智能優化算法結合。Nguyen等[8]提出了一種遺傳算子優化PSO的連續型特征選擇算法,該算法提高了PSO的搜索能力,但受群落初始分布影響較大,不利于搜尋到全局優化解;梁靜等[9]針對大規模問題的高維特性提出了動態隨機分組的協同進化粒子群算法,證明了該算法的有效性以及高性能;3)與經典理論,例如灰色理論、信息論、混沌理論等;4)形式結構的改變。并行計算和二分制等。但粒子群算法對于初始種群的位置敏感性強,以上研究均未考慮這一特性,且在優化精度、算法收斂性上都有待提高。本文采用佳點集理論生成均勻的粒子群算法初始種群,然后用改進的粒子群算法結合模糊神經網絡建立預測模型對霧霾等級進行預測。
華羅庚等提出佳點集理論(Good Point Set,GPS),理論性質優越,體現在采用佳點集方法取的點的偏差小于隨機選取的點,其基本原理和結構如下[12]:設GS是s維歐式空間中的單位立方體,且r∈GS。若,1≤k≤n},其偏差滿 足φ(n)=C(r,ε)nε-1,其中C(r,ε)是和r,ε(ε是任意的正數)有關的常數,則稱Pn(k)為佳點集,r為佳點。令{rk=,1≤k≤s}(其中ρ是滿足(ρ-3)/2≥s的最小素數),表示小數部分。
佳點集相關定理如下:
定理1給定Pn(i)(1≤i≤n)具有偏差Φ(n),f∈Bt(t維囿變函數類),則

其中V(f)為f的全偏差。
定理2若f(x)滿足

使用給定的n個點上的函數值構成任何加權和以近似計算函數f(x)在GS上的積分,誤差不大于Ο(n-1)。
定理3假設x1,x2,…,xn為Dt上的均勻分布,即Pn={x1,x2,…,xn},Pn的偏差

成立的概率為1。
由定理1和定理2可知,使用佳點集理論近似積分,樣本的誤差只與樣本n有關,而與空間維數m無關,因此佳點集理論為高維近似計算提供良好的理論基礎。由定理3可知,使用佳點集選取點的偏差為Ο(nn-1),而隨機選取點的偏差為,這證明佳點集理論生成點優于隨機生成點。這是佳點集方法具有優越性的理論基礎,也是本文方法具有更好穩定性的理論基礎。張玲等[11]利用佳點集的理論和方法改進遺傳算法中的交叉操作,提出了佳點集遺傳算法,理論和實驗方面證明算法性能的優越性。本文借鑒佳點集理論構造解空間中的佳點,將其作為初始種群。
本文選用T-S模糊神經網絡來建立模型。T-S模糊系統是一種自適應能力很強的模糊系統,該模型不僅能自動更新,而且能不斷修正模糊子集的隸屬函數。T-S模糊系統用如下的“if-then”規則形式來定義,在規則為Ri的情況下,模糊推理如下:

假設對于輸入量x=[x1,x2,…,xk],首先根據模糊規則計算各輸入變量xj的隸屬度:

將各隸屬度進行模糊計算,采用模糊算子為連乘算子:

根據模糊計算結果計算模糊模型的輸出值yi:

T-S模型的模糊神經網絡不僅訓練時間短,而且訓練結果穩定[14]。T-S模糊神經網絡分為輸入層、模糊化層、模糊規則計算層和輸出層四層。輸入層與輸入向量xi連接,節點數與輸入向量的維數相同。模糊化層采用隸屬度函數(4)對輸入值進行模糊化得到模糊隸屬度值μ。模糊規則計算層采用模糊連乘公式(5)計算得到ω。輸出層采用公式(6)計算模糊神經網絡的輸出。
本文的模型不僅著重于粒子的多樣性和全局搜索能力;同時也對收斂性和學習能力、學習速度進行了改進。具體體現為佳點集理論初始化種群、多種群多策略進化(加入收斂因子和線性慣性權重)、多子種群分布式協同進化(共享最優位置信息)三方面。
3.1.1 佳點集理論初始化種群
在經典粒子群算法中,初始粒子群是隨機產生的,有很大的不確定性,容易因分布不均勻致使算法陷入局部最優,影響算法的收斂性。為解決這一問題,需最大限度增加種群的多樣性,使初始種群更好地表征解空間特征。本文借鑒佳點集理論均勻設計初始粒子種群,以增加初始種群的多樣性[15]。
圖1和圖2分別是隨機方法和佳點集的指數生成方法生成的二維初始粒子分布圖,粒子個數均為400。
對比圖1和圖2,隨機方法產生的初始種群分布相對雜亂,不均勻且有重疊的點,佳點集理論生成的初始種群更均勻,沒有重疊點,具有較好的多樣性。由佳點集理論定理1和定理2可知,佳點的構造與空間維數無關,適合求解高維問題。而且每次取點時,所得佳點的分布效果是一樣,具有良好的穩定性。綜上,選用佳點集方法生成協同進化粒子群算法的初始粒子群。

圖1 隨機法生成二維種群

圖2 佳點集法生成二維種群
3.1.2 多策略的進化方式(策略協同)
衡量優化算法的一個重要方面就是能夠較好地平衡算法的全局和局部搜索能力,在初始階段,著重全局搜索,隨著搜索運行,逐漸偏向于局部搜索。為此,本文引入了多策略進化的方法,即群體中的不同子種群按照不同進化模式(速度和位置更新方程)來調節自身的運動,使得群體中一部分子種群著重于全局搜索,而其他子種群著重于局部搜索,以平衡算法的全局和局部搜索能力。
目前,除了標準PSO模型外,還有其他一些改進的模型[16]。
1)認知模型:

2)社會模型:

3)Barebones模型:

4)廣泛學習模型:

本文對原有模型[16]進行兩點改進:一是每迭代一次,各子種群從五種PSO模型中隨機選擇一個作為自身進化模式。以此拓展了在迭代中不斷縮小的種群搜索空間,使粒子能夠跳出先前搜索到的最優值位置,在更大的空間中開展搜索,同時保持了種群多樣性,提高算法尋找最優值的可能性。
二是收斂性。為了粒子群的全局搜索能力與局部搜索能力較好的平衡,加入非線性收斂因子α和線性慣性權重w,以增加算法的計算速度,更快找到最優解,具體公式如下[17]。

其中,e為自然對數的底數;t為當前迭代次數;T為最大迭代次數。初始階段α衰減程度降低,以便算法全局尋優;后期提升α的衰減程度,提高算法局部尋優能力。wmax為最大慣性權重,wmin為最小慣性權重。標準測試函數說明w從0.9減少到0.4時能極大地改善PSO算法的性能[18]。
3.1.3 種群間協同策略
種群協同是實現協同進化最主要的方式。在協作方式上,本文算法基于種群間相互評價的評價環節協同[19]。在協同架構上屬于多種群分布式協同[20~21]。不同的子種群可采用不同的操作、策略、參數以實現進化。
本文模型中,將粒子種群隨機劃分為五個子種群,每個子種群代表解空間的一個子空間。每次迭代過程中,五個子種群從五種進化策略中隨機選取一種進化,五個子種群并行開展進化;一次迭代過程結束后,比較五個子種群的適應度值,將五個子種群中全局最優位置的位置記錄下來[22];而其他子種群均向全局最優學習,使其余子種群以最便利的方式學習到最優位置,以此來有效提高算法的搜索效率。
IMPMSPSO-FNN的基本思想是運用多種群協同進化粒子群算法(IMPMSPSO)對模糊神經網絡(FNN)初始權值和閾值進行優化,獲取其最優值,使模糊神經網絡(FNN)的分類準確率達到最優。

圖3 IMPMSPSO-FNN分類模型流程圖
IMPMSPSO-FNN分類模型大致步驟如下。
Step 1確定FNN結構和粒子維數:根據需解決問題的特征,確定FNN結構。將FNN初始權值和閾值作為一個整體映射到IMPMSPSO的初始粒子群,每個粒子的維數為FNN權值、閾值個數之和。根據實際應用,本模型粒子維數D=345;
Step 2初始化:隨機初始化IMPMSPSO相關參數:種群個數N=100,最大慣性權重wmax=0.6,最小慣性權重wmin=0.4,學習因子c1=c2=2.05,迭代次數M=10;
Step 3生成適應度函數:運用佳點集理論產生IMPMSPSO初始粒子群,并將其映射到FNN作為其初始權值和閾值,通過式(1)~(6)訓練和測試FNN,并對學習率進行改進,取其每一類分類準確率平方和的負值作為適應度函數;
Step 4全局最優位置和各子群最優位置:將初始粒子群隨機分為五個子種群,求其適應度值,比較得出全局最優位置和各自種群最優位置;
Step 5位置和速度更新迭代:五個子種群從五個進化策略(式(7~10))中隨機選取一種進化,并加入收斂因子和線性慣性權重,式(11)和式(12);
Step 6各子種群協同進化:一次迭代完成后,選取全局最優位置,將其位置信息共享給其他子種群;
Step 7判斷是否達到最大迭代次數,若未達到,返回Step 5,繼續操作;若已達到,將所得權值和閾值賦給FNN,得出最終結果,算法結束。
本文選取Sphere、Rastrigin、Ackley三個標準函數進行測試。對比算法選取經典粒子群算法(PSO)、多種群多策略協同粒子群(MPMSPSO)以及本文改進的MPMSPSO(IMPMSPSO),三個測試函數如下所示。


本文三種算法均設置種群個數N=100,粒子維數D=30,最大迭代次數M=100,分別運算三個測試函數,為消除隨機性對結果的影響,取15次結果的平均值作為最終結果。運算結果如表1所示。三個函數尋優收斂曲線如圖4~圖6所示。

圖4 Sphere函數尋優收斂曲線

圖6 Ackley函數尋優收斂曲線

表1 三種測試函數的測試結果
為了更直觀地反映三個算法的尋優性能,以下三個圖給出了Sphere、Rastrigin、Ackley三個函數的尋優收斂曲線。

圖5 Ratrigin函數尋優收斂曲線
從表1可以看出,本文中提出的IMPMSPSO算法較其他兩種算法最接近于目標函數全局最優值。就計算精度上,最大值、最小值、平均值均優于PSO算法和MPMSPSO算法;在算法穩定性上,三個測試函數的計算結果,IMPMSPSO算法對應測試函數的方差總體上是最小的;在收斂速度上,如圖4~圖6所示,IMPMSPSO算法尋優曲線能夠以更快的速度尋找到最優解。綜上所述,IMPMSPSO算法不僅能夠提高搜索精度和收斂速度,而且求得的結果也更加穩定。
本文霧霾樣本數據集選取上海市2015年1月1日至2018年10月31日共1381個樣本集,(其中2017年9月26日至2017年10月14日 的數 據 缺失)。其中各污染物濃度值每日數據根據均為上海環境監測中心當日每小時數據求平均的結果;其余氣象數據從美國NOAA網站[23]獲得。空氣質量等級劃分均按國家標準。
該數據集包含天氣屬性有12個,分別為日期、PM2.5濃度、PM10濃度、Ο3濃度、SΟ2濃度、NΟ2濃度、CO濃度、氣溫、露點、濕度等。經過初步數據整理,獲取的數據集為1381行(數據數),11列(氣象數據屬性)。本文使用前一天的霧霾屬性數據對第二日的霧霾情況進行分類預測。歷史氣象數據中存在缺失值,本文運用分段三次樣條插值法來填補缺失值,通過調用Matlab中的fillnissing函數對數據進行預處理。本文數據集五個等級包含的數據量如表2所示。

表2 數據集各等級數據量及占比
由于本文數據集中2017年9月26日至2017年10月14日的數據缺失,故令2015年1月1日 至2017年9月26日的數據共999條作為訓練數據;2017年10月14日至2018年10月31日共382條數據為測試集。
為了證明本文模型的有效性,引入其他四種模型進行比較:1)經典BP神經網絡模型;2)一般T-S模糊神經網絡模型;3)IMPMSPSO優化的BP神經網絡模型;4)MPMSPSO優化的FNN模型。
根據實際應用,確定本模型中FNN的網絡結構為11-15-5,學習率xite=0.05,最大迭代次數M=10。其他模型參數設置相同。本文IMPMSPSO-TSFNN模型對測試集的分類結果如圖7所示。

圖7 IMPMSPSO-FNN分類結果
運用四種模型分別對霧霾進行分類,為了消除隨機性,選取5次運行結果的平均值作為最終結果。分類結果如表3所示。
從表3可知,單一的運用BP神經網絡和FNN神經網絡預測,各等級預測精度不足,且分類結果不穩定,參差不齊;IMPMSPSO-BP模型相較于BP神經網絡,各等級的預測精度均有所提高,說明IMPMSPSO算 法 的 有 效 性;MPMSPSO-FNN和IMPMSPSO-FNN模型相較于其他三種模型來說,各等級預測精度最好,且各等級之間較均勻且穩定,說明加入改進慣性權重和收斂因子的IMPMSPSO-FNN模型更具有優越性。這兩種模型在預測精度上比較接近,為了比較兩種模型,選取計算中兩種模型最優適應度值近似時的適應度優化曲線圖,如圖8和圖9所示。

圖8 IMPMSPSO-FNN模型適應度優化曲線圖

圖9 MPMSPSO-FNN模型適應度優化曲線圖

表3 霧霾五個等級分類準確率對比
本文提出了佳點集理論結合多種群多策略協同進化算法改進的粒子群算法(IMPMSPSO),并用IMPMSPSO對模糊神經網絡的初始權值和閾值進行優化,建立了IMPMSPSO-FNN分類預測模型。應用本文模型對上海市霧霾進行預測分類,結果表明,相較于傳統的BP神經網絡分類模型、FNN神經網絡分類模型,IMPMSPSO-FNN分類預測模型具有較高的預測精度和收斂性。但是在本模型中,多種群多策略協同進化粒子群算法太過注重開發種群多樣性的和全局搜索能力,對全局搜索能力和局部搜索能力的平衡開發不足,在最優解的求解速度上還有待提高。在以后的研究中,應當注重提高模型的求解速度。