李干蓉,楊曉武
(1.銅仁職業(yè)技術(shù)學(xué)院 工學(xué)院,貴州 銅仁 554300;2.貴州理工學(xué)院 人工智能與電氣工程學(xué)院貴州省人工智能和智能控制特色重點實驗室,貴州 貴陽 550003)
隨著我國科技的快速發(fā)展,城市建設(shè)布局和質(zhì)量也得到了極大的改善,人們的生活水平得到極大的提高,滿足了多層次,多方位以及個性化的生活需求,同時也帶來嚴(yán)重的環(huán)境污染和生態(tài)平衡受到破壞等實際問題[1],較為典型的就是霧霾,其出現(xiàn)頻率和覆蓋范圍與屬地的工業(yè)生產(chǎn)過程中釋放的各類垃圾量呈正相關(guān)關(guān)系,且具有不易被消除和跨區(qū)域傳播的特征,對屬地及其鄰域的生產(chǎn)生活造成顯示的影響,直接制約了我國經(jīng)濟(jì)持續(xù)快速的發(fā)展[2]。
要實現(xiàn)有效治污,須有多方主導(dǎo),構(gòu)建跨域協(xié)同防控環(huán)境質(zhì)量模型機(jī)制,府際協(xié)同防控模式是環(huán)境保護(hù)的核心策略[3]。政府在監(jiān)管企業(yè)生產(chǎn)排污過程中主要有兩個重要的功能:①最大化現(xiàn)有利用社會資源,最小化企業(yè)排污舉措,調(diào)整企業(yè)結(jié)構(gòu),滿足整個社會發(fā)展需求;②揭示和研究環(huán)境污染問題的內(nèi)在演化行為,利用博弈論相關(guān)方法,解決制約環(huán)境質(zhì)量提升的內(nèi)外部約束和各類關(guān)聯(lián)性問題造成各種社會沖突關(guān)系,尋求一種高效合理的沖突消解機(jī)制,從而達(dá)到構(gòu)建一類基于政府,企業(yè)和社會團(tuán)體之間的健康,具有魯棒性的環(huán)境質(zhì)量模型[4],為局部環(huán)境質(zhì)量演變行為做出合理的分析,為經(jīng)濟(jì)社會快速發(fā)展和改善人民生活質(zhì)量保駕護(hù)航[5]。
現(xiàn)有兩類環(huán)境質(zhì)量污染分析方法:①靜態(tài)法,考慮了僅僅基于企業(yè)排污速度的大氣環(huán)境污染的破壞程度,忽略前期排放累計污染量的影響;②動態(tài)法,該方法結(jié)合多種關(guān)聯(lián)因素,比如物種變化,二氧化碳和海洋捕殺等,不僅考慮當(dāng)前的的企業(yè)排污行為,也結(jié)合了前期污染物積累對環(huán)境的破壞演變過程[6]。采用靜態(tài)環(huán)境質(zhì)量污染分析方法不利于分析環(huán)境質(zhì)量演變行為,可操作不強(qiáng).因此,采用動態(tài)環(huán)境質(zhì)量污染分析方法最大化社會利益,為經(jīng)濟(jì)快速健康發(fā)展保駕護(hù)航。根據(jù)納什均衡策略和環(huán)境質(zhì)量各項指標(biāo)要求[7],在可變環(huán)境前提下,分析和預(yù)測區(qū)域經(jīng)濟(jì)發(fā)展的的動力學(xué)行為[8]。當(dāng)前,國內(nèi)外對環(huán)境污染問題取得了豐碩的成果,但是利用博弈論來研究環(huán)境污染問題取得的結(jié)果還相對較少,該問題值得進(jìn)一步的研究和探討。多數(shù)現(xiàn)有文獻(xiàn)結(jié)果主要對動態(tài)演化模型的存在性和可行性進(jìn)行了探討,沒有給出相應(yīng)地控制策略,基于此,本文針對環(huán)境控制污染問題,利用博弈論和控制論相關(guān)知識,利用模糊控制技術(shù)對污染物的類別和對環(huán)境影響程度進(jìn)行定義和劃分,提出了一種魯棒自適應(yīng)環(huán)境質(zhì)量演化控制模型策略。
考慮政府環(huán)境監(jiān)管部門與生產(chǎn)排污企業(yè)個體之間存在如下非對稱博弈關(guān)系,即政府環(huán)境監(jiān)管部門有兩個選擇:檢查和不檢查。由于政府進(jìn)行不定期抽樣檢查,為方便分析,用概率P=[pi],pi∈[0,1](i=1,…,n) 來表示,可以表示有限時間內(nèi)的檢查頻率和檢查天數(shù)等。pi越大表示某一時間段內(nèi)檢查的力度越大,即當(dāng)pi=1時,檢查力度達(dá)到峰值;反之亦然。假設(shè)政府環(huán)境監(jiān)管部門對企業(yè)Ai(i=1,…,n) 的排污檢查成本為C=[ci],ci∈(0,cimax)萬元,其中ci為某一正常數(shù);企業(yè)在單位時間內(nèi)超標(biāo)排污造成的社會平均利益損失G=[gi],gi∈(0,gimax)萬元,當(dāng)gi大于最大允許值gimax時,政府可以采用熔斷機(jī)制,勒令企業(yè)整頓,停止生產(chǎn)。假設(shè)企業(yè)單位時間內(nèi)污染排放監(jiān)控措施費用為M=[mi],mi∈(0,mimax)。政府檢查過程中,如發(fā)現(xiàn)企業(yè)排污超標(biāo),則對企業(yè)進(jìn)行罰款,用Q=[qi],qi∈(0,qimax]來表示。如罰款qi高于最大允許范圍,即qi>qimax,表明企業(yè)排污已經(jīng)超出了國家環(huán)保部門制定的標(biāo)準(zhǔn),政府直接勒令企業(yè)整頓,或停止生產(chǎn),且政府對超標(biāo)污染處理費用為K。單個排污企業(yè)有兩種選擇:①排污預(yù)處理;②超標(biāo)排污,企業(yè)治污控制策略為Φ=[δi],δi=max(0,tanh(bit)) 概率采取超標(biāo)排污的行為,其中bi為某一常數(shù),表示企業(yè)Ai污染超標(biāo)程度,用來表示刻畫付出代價的力度,且超標(biāo)排污獲益為Y,由此看出該策略是一種非線性控制策略,具有一定的冗余度,企業(yè)可以在資金,材料等約束方面實時做出調(diào)整,選擇可行的控污力度,可以提高治污效率[9],有效節(jié)約企業(yè)治污成本。假若企業(yè)單位時間內(nèi)平均產(chǎn)量為W=[w1,…,wn]T,其中,上標(biāo)T表示轉(zhuǎn)置,產(chǎn)品的造價成本為H=[h1,…,hn]T以及預(yù)處理損失費用用為X=[x1,…,xn]T,單個產(chǎn)品在市場同類產(chǎn)品中的競爭價格為E=[e1,…,en]T。則企業(yè)的平均收益為f=WTE-WTH-X。企業(yè)預(yù)處理排放被抽查時,會獲得政府給予環(huán)保獎勵補(bǔ)貼L。有了上述理論準(zhǔn)備,根據(jù)模糊控制理論,下面給出政府環(huán)境監(jiān)管部門與排污企業(yè)的四種可能存在規(guī)則[10]:
(1) 如政府環(huán)境監(jiān)管部門“不檢查”1-P,排污企業(yè)“預(yù)處理排放”1-Φ,則收益情況分別為:-M和f-X。
(2)如政府環(huán)境監(jiān)管部門“不檢查”1-P,排污企業(yè)“超標(biāo)排放控制策略”Φ,則收益情況分別為:-M-K和f+Y。
(3) 如政府環(huán)境監(jiān)管部門“檢查”P,排污企業(yè)“預(yù)處理排放”1-Φ,則收益情況分別為:-M-C-L和f+L-X。
(4) 如政府環(huán)境監(jiān)管部門“檢查”P,排污企業(yè)“超標(biāo)排放控制策略”Φ,則收益情況分別為:Q-M-C和f-Q。
政府與排污企業(yè)的博弈策略選擇關(guān)系如下:根據(jù)式(1)和(2),在政府不檢查的情況下,企業(yè)采用排污方式來獲取短期最大化利益,即f+Y>f-X;根據(jù)式(3)和(4),在政府檢查的情況下,企業(yè)一般采用預(yù)處理排放方式來獲取短期最大化利益,即f+L-X>f-Q;如企業(yè)采取“預(yù)處理排放”1-Φ控制策略,則政府采取不檢查的方式,-M>-M-C-L;如企業(yè)采取“超標(biāo)排放控制策略”Φ,則政府采取檢查的方式,即Q-M-C>-M-K。顯然上述控制策略的選擇過程是雙方隨著時間的變化而選擇的控制策略,是一種典型的博弈論策略。
經(jīng)過上述討論,政府采取的管控組合行為策略為[1-PP],類似地,企業(yè)的排污控制組合行為策略為[1-ΦΦ],因此,在不同交互控制策略作用下,政府和企業(yè)的期望效用函數(shù)分別為[11]:
V1=(1-P)[(1-Φ)(-M)+Φ(-M-K)]
+P[(1-Φ)(-M-C-L)+Φ(Q-M-C)]
(1)
V2=(1-Φ)[(1-P)(f-X)+P(f+L)]L
+Φ[(1-P)(f+Y)+P(f-Q)]
(2)
從式(1)和(2)看出,由于效用函數(shù)V1和V2包含可變參數(shù)為P和Φ,且P和Φ都是受限被控狀態(tài),用概率來描述。因此,要同時最大化效用函數(shù),在受約束條件下,需獲取以參數(shù)為P和Φ構(gòu)成的V1和V2變化趨勢。利用凸優(yōu)化控制技術(shù),期望效用函數(shù)的時變演化行為用函數(shù)的梯度來刻畫,定義如下:

+(1-Φ)(-M-C-L)+Φ(Q-M-C)
=(1-Φ)(-C-L)+Φ(Q+K-C)
=Φ(Q+K+L)-C-L
(3)

+(1-P)(f+Y)+P(f-Q)
=(1-P)(X+Y)+P(-Q-L)
=P(-X-Y-Q-L)+X+Y
(4)
公式(3)和(4)分別描述了政府和排污企業(yè)在選擇相應(yīng)策略的時間變化過程,其受控參數(shù)被約束在一個緊湊集合中,用概率來描述,用于表征政府和排污企業(yè)選擇優(yōu)化策略的意愿強(qiáng)度的屬性。
根據(jù)最大化利益原則,在內(nèi)外部環(huán)境和治理成本等現(xiàn)實約束下,政府和企業(yè)在博弈過程中分別采取相應(yīng)地監(jiān)控策略。根據(jù)多目標(biāo)優(yōu)化函數(shù)的一階條件,即:
(5)
(6)
下面給出期望收益的對應(yīng)的理想控制策略數(shù)學(xué)表達(dá)式:
(7)
(8)
因此,根據(jù)式(7)和(8)可知,函數(shù)(5)和(6)的平衡穩(wěn)定點為(Φd,Pd)。根據(jù)概率的基本特性,從式(7)中可知,Q+K≥C,從而保證采取控制策略的有效性。
考慮的模型主要包括以下幾個主要模塊:①政府環(huán)境抽樣檢查模塊包括對排污企業(yè)中的被抽查樣本和不被抽查樣本,被抽查排污企業(yè)的取消和未被抽查企業(yè)被抽查等;②環(huán)保處理費用子模塊,包括檢查成本和對預(yù)處理企業(yè)的獎勵;③企業(yè)排污治理子模塊,包括企業(yè)超標(biāo)排污和被檢查后采取治污行為及其增長率;④其他不確定因素,為便于分析,其表達(dá)式將在后續(xù)內(nèi)容中給出。
根據(jù)上述分析,下面給出了系統(tǒng)動力學(xué)模型
(13)
其中,
a1=Q+K+L,b1=C+L,
a2=X+Y+Q+L,b2=X+Y
(14)
上述各個參數(shù)的物理意義已經(jīng)在2.1節(jié)中給出,因此,a1,a2,b1,b2均為正常數(shù);δ1(t,x1,x2)和δ2(t,x1,x2)分別表示外界不確定性對策略變化的影響,是典型非線性函數(shù),滿足信號有界性。注意,當(dāng)在某一時間段內(nèi),無干擾信號時,即δ1(t,x1,x2)=0,δ2(t,x1,x2)=0,系統(tǒng)(13)退化為由(3)和(4)組成的動態(tài)系統(tǒng),并且是一個線性系統(tǒng),其穩(wěn)定點概率為(b1/a1,b2/a2)。
本部分主要考慮兩種種比較典型的不同尺度約束條件下,對環(huán)境質(zhì)量演化行為模型性能進(jìn)行分析。
根據(jù)優(yōu)化理論中的極值條件和(13)可得:
(15)
式(13)為外界不確定性干擾下的動態(tài)系統(tǒng)平衡點,或稱為納什平衡點。在實際過程中,由于外界干擾δ1(t,x1,x2)和δ2(t,x1,x2)是未知,其信息無法獲得,因此上述期望系統(tǒng)平衡點不會被鎮(zhèn)定,為解決干擾問題,下面針對干擾δ1(t,x1,x2)和δ2(t,x1,x2)做出如下假設(shè)。
假設(shè)1.假設(shè)干擾信號δ1(t,x1,x2)和δ2(t,x1,x2)滿足下面條件:
(16)
接著,對不同干擾類型δ1(t,x1,x2)和δ2(t,x1,x2),可分為兩種情形進(jìn)行討論:
(1)當(dāng)δ1(t,x1,x2)和δ2(t,x1,x2)均為一致連續(xù)可微函數(shù),且有l(wèi)imt→∞δ1(t,x1,x2)=0和limt→∞δ2(t,x1,x2)=0時,則:
(17)
說明政府環(huán)境監(jiān)管部門和排污企業(yè)選擇的策略可以抵御一定的外界干擾風(fēng)險能力。
(2)當(dāng)δ1(t,x1,x2)和δ2(t,x1,x2)為其它有界連續(xù)干擾函數(shù)時,則很難獲取系統(tǒng)的平衡點,意味著當(dāng)前政府選擇的策略沒有抵御外界干擾的能力,造成環(huán)境質(zhì)量的不平穩(wěn)。
博弈的雙方重新引入新的輔助魯棒控制策略設(shè)計如下:
(18)
其中,ε1和ε2表示一階濾波器,起到平滑函數(shù)的作用,具有漸進(jìn)穩(wěn)定收斂特性,其收斂速度可以自由選擇。式(18)是基于高頻域的魯棒控制算法,可以消除外界不確定性對系統(tǒng)的影響;魯棒控制策略同時也包含了環(huán)境自適應(yīng)學(xué)習(xí)的能力。
由于樣本采集和治污過程發(fā)生信息收集處理滯后等問題,導(dǎo)致控制維度增加,可能延緩抽樣速率和加速超污排放速率,可能形成奇異動態(tài)系統(tǒng),造成系統(tǒng)振蕩,反作用于策略選擇過程。因此,時滯系統(tǒng)動態(tài)方程為
(19)
其中,η1和η2為合適的正常數(shù),τ1和τ2為時滯常數(shù)。因此,系統(tǒng)(19)的未來演化行為不僅與當(dāng)前的狀態(tài)有關(guān),而且還與前時段的狀態(tài)有關(guān),因此加劇了系統(tǒng)的振蕩行為。上述結(jié)果表明,博弈中的政府環(huán)境監(jiān)管部門和排污企業(yè)雙方在策略選擇過程中,由于信息收集,監(jiān)測過程中發(fā)生滯后行為[12],導(dǎo)致未來一段時間內(nèi)不能獲取期望的收益函數(shù),容易造成監(jiān)管混亂等問題。
為揭示環(huán)境系統(tǒng)的強(qiáng)非線性動態(tài)性和高度的復(fù)雜性行為,建立了基于博弈論的收益函數(shù),利用凸優(yōu)化函數(shù)的梯度下降法,構(gòu)建了一種基于概率特征的大氣環(huán)境污染質(zhì)量非線性動態(tài)系統(tǒng)演化模型,揭示了系統(tǒng)的內(nèi)在演化性能。分別考慮了外界不確定性干擾和信息交互延遲下,系統(tǒng)狀態(tài)的演化過程,分析表明即使很小的不確定性干擾,也會讓系統(tǒng)在演化的過程中偏離理想的穩(wěn)態(tài)值,為此,通過附加一個魯棒控制策略,可以鎮(zhèn)定系統(tǒng)。建議針對信息處理延誤問題,如果時延大小在合適范圍內(nèi),系統(tǒng)仍然可以漸進(jìn)收斂到穩(wěn)態(tài)點。