彭少明,張春生
(1.黃河勘測(cè)規(guī)劃設(shè)計(jì)有限公司,河南鄭州 450003;2.中國(guó)水利水電科學(xué)研究院水資源研究所,北京 100044)
案例推理(case-based reasoning,CBR)是一種基于知識(shí)的問(wèn)題求解和學(xué)習(xí)方法,通過(guò)重用以前相似問(wèn)題的方案信息來(lái)解決新問(wèn)題。CBR通過(guò)舊案例的檢索、重用、匹配,再現(xiàn)案例決策,實(shí)現(xiàn)對(duì)新問(wèn)題的求解,是一種有別于傳統(tǒng)人工智能的新技術(shù)。CBR將定量分析與定性分析相結(jié)合,具有動(dòng)態(tài)知識(shí)庫(kù)和增量學(xué)習(xí)的特點(diǎn),可以克服當(dāng)前專(zhuān)家系統(tǒng)所面臨的難題。
由于傳統(tǒng)的人工智能面臨知識(shí)獲取的局限,基于數(shù)據(jù)挖掘和分析的計(jì)算智能成為新的研究熱點(diǎn)[1]。Aamodt等[2]提出了CBR四階段循環(huán),即案例的檢索、復(fù)用、修正、保存;Gilboa等[3]將案例表示為問(wèn)題描述、解描述、效果描述的三元組;Aha等[4]通過(guò)案例工程確定案例所必須包含的信息,并從數(shù)據(jù)中提取信息;Anders[5]提出了基于概率案例的PEBM模型,采用概率傳播技術(shù)評(píng)估和檢索案例。進(jìn)入21世紀(jì),隨著計(jì)算機(jī)技術(shù)的快速升級(jí),CBR已被廣泛應(yīng)用到故障診斷、商業(yè)管理、智能決策、知識(shí)提取等領(lǐng)域[2-8]。當(dāng)前CBR研究主要集中在案例的索引及檢索技術(shù)、案例修正規(guī)則的獲取方法、案例庫(kù)維護(hù)技術(shù)及其性能評(píng)價(jià)、CBR與其他方法的集成等方面[9-11]。
相似性技術(shù)是一種用于分析存在于自然界和社會(huì)科學(xué)中隱含信息的技術(shù),用來(lái)探求和解決真實(shí)世界中復(fù)雜問(wèn)題的工具。與以往的人工智能不同,CBR將過(guò)去處理過(guò)的問(wèn)題描述成由問(wèn)題特征集和解決方案組成的案例,并存儲(chǔ)在案例庫(kù)中,當(dāng)出現(xiàn)新的問(wèn)題時(shí),系統(tǒng)從案例庫(kù)中檢索出與新問(wèn)題最相近的案例,將舊案例的解決方案作為新案例的解決方案。基于CBR的流域水資源調(diào)配原理見(jiàn)圖1。
在復(fù)雜水資源系統(tǒng)中,一些水文現(xiàn)象通常具有周期性特征,即一些水文要素在一定的時(shí)段內(nèi)會(huì)重復(fù)出現(xiàn),基于這一特征將CBR引入水資源調(diào)配之中。利用新舊案例要素之間的相似性,從案例庫(kù)中篩選出相似案例,重用決策信息,可避免多目標(biāo)優(yōu)化的“維數(shù)災(zāi)”問(wèn)題,實(shí)現(xiàn)水資源的優(yōu)化調(diào)配。

圖1 基于CBR的流域水資源調(diào)配原理
基于CBR的流域水資源調(diào)配采用定性與定量相結(jié)合的方法,首先根據(jù)河流主要斷面來(lái)水信息確定搜索方向,檢索出潛在的案例組,然后根據(jù)相似度大小得出最匹配的方案,其調(diào)配過(guò)程主要分為以下5個(gè)步驟。
第1步引入水文要素關(guān)系指示系數(shù)來(lái)歸納各個(gè)區(qū)間的水文特征,通過(guò)歸納水文要素的關(guān)系定性指示信息,開(kāi)展定向檢索。將流域劃分為K個(gè)子區(qū)間,在搜索樹(shù)的末端尋找各子區(qū)間水文要素關(guān)系指示系數(shù)完全一致的方案,即為潛在的案例組。
第2步推理匹配。對(duì)決策問(wèn)題的 n個(gè)屬性項(xiàng)計(jì)算潛在案例組與決策問(wèn)題的相似度。
第3步案例精選。系統(tǒng)按相似度降序排列潛在案例組,選擇相似度最大的案例為精確案例,并保留這個(gè)案例。
第4步參數(shù)調(diào)整。若決策者不滿意這個(gè)案例,系統(tǒng)將啟動(dòng)交互決策界面修改決策參數(shù),重復(fù)第1~3步。
第5步系統(tǒng)存儲(chǔ)第3步或第4步中選擇的案例。
通過(guò)上述5個(gè)步驟歸納檢索出潛在的案例組,再通過(guò)相似度確定精確案例,若該精確案例專(zhuān)家評(píng)價(jià)滿意,即成為最合適的案例,并更新水資源調(diào)配案例庫(kù)。
選擇合適的檢索和定位方法可以提高CBR系統(tǒng)的檢索速度和匹配精度。考慮到黃河流域水資源調(diào)配具有多目標(biāo)、多屬性、高維度的復(fù)雜特征,CBR采用K-D樹(shù)[12-17]檢索算法和相似度匹配方法。檢索過(guò)程中每選定一個(gè)檢索方向可以看成是進(jìn)行一次統(tǒng)計(jì)推斷,首先判斷較粗粒度空間中哪個(gè)部分最可能包含目標(biāo),然后在被選出的較細(xì)粒度空間上進(jìn)一步判斷被選出的較細(xì)粒度空間中哪個(gè)細(xì)粒度空間最有可能包含目標(biāo),這樣逐層下降直到所有空間均包含搜索信息,確定出潛在案例組,然后計(jì)算相似度,尋找出精確案例。
CBR搜索結(jié)構(gòu)設(shè)計(jì)采用K-D樹(shù)建立多維索引,K-D樹(shù)是一種K維空間點(diǎn)二叉索引樹(shù)[14],具有數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單、存取效率高等優(yōu)點(diǎn),是一種適用于高維數(shù)據(jù)結(jié)構(gòu)的快速搜索結(jié)構(gòu)。K-D樹(shù)內(nèi)部節(jié)點(diǎn)與某一空間維xi(1≤i≤K)對(duì)應(yīng),且每個(gè)內(nèi)部節(jié)點(diǎn)都用1個(gè)正交于其空間維xi的超平面xi=c(c為常數(shù))將該節(jié)點(diǎn)所表示的K維空間分成兩部分,這些超平面在K個(gè)方向上交替出現(xiàn),并且每個(gè)超平面至少包括1個(gè)點(diǎn)數(shù)據(jù)。K-D樹(shù)將數(shù)據(jù)分散存儲(chǔ)在每個(gè)節(jié)點(diǎn)上,K-D樹(shù)算法中,每個(gè)節(jié)點(diǎn)是1個(gè)二選結(jié)構(gòu),2個(gè)子節(jié)點(diǎn)代表將空間劃分為2個(gè)子區(qū)。K-D樹(shù)的內(nèi)部節(jié)點(diǎn)有1個(gè)相關(guān)聯(lián)的屬性 a和一個(gè)值V,它將數(shù)據(jù)點(diǎn)分成2個(gè)部分:a的取值小于V的部分和a的取值大于或等于V的部分。由于所有維的屬性在層間循環(huán),所以樹(shù)的不同層上的屬性是不同的。為獲得塊模式,對(duì)K-D樹(shù)結(jié)構(gòu)進(jìn)行以下2處修改:①內(nèi)部節(jié)點(diǎn)只有1個(gè)屬性,該屬性的每個(gè)值確定地指向左、右分支;②子節(jié)點(diǎn)是塊,塊空間中存放著盡可能多的記錄。
按照黃河流域主要斷面(花園口、三門(mén)峽、河口鎮(zhèn)、蘭州、龍羊峽)將流域分為6層(級(jí)),5個(gè)斷面分別對(duì)應(yīng)于K-D樹(shù)的5個(gè)節(jié)點(diǎn),而5個(gè)流域區(qū)間則設(shè)計(jì)為K-D樹(shù)的5級(jí)子系。圖2為系統(tǒng)搜索的K-D樹(shù)路徑結(jié)構(gòu)設(shè)計(jì)。

圖2 基于CBR的黃河流域水資源調(diào)配系統(tǒng)K-D樹(shù)路徑結(jié)構(gòu)設(shè)計(jì)
K-D樹(shù)定性搜索的方向是根據(jù)每一層級(jí)的來(lái)水特征進(jìn)行判別,按照主要斷面的水文信息(包括河道來(lái)水量和降水量)與多年平均水量(由斷面來(lái)水和區(qū)間降水量綜合確定)的關(guān)系將區(qū)間的水文年份定性分為多水年和少水年。
K-D樹(shù)的案例檢索規(guī)則是:首先采取歸納法抽取各節(jié)點(diǎn)來(lái)水量和降水量信息,按照水文要素的特征劃分為不同水文年份,為決定檢索分支方向提供依據(jù);采用歸納法搜索,逐層遞進(jìn),沿決策樹(shù)越過(guò)節(jié)點(diǎn)的路徑取各節(jié)點(diǎn)所包含信息的交集,在決策樹(shù)的末端定位識(shí)別出與決策方案各區(qū)間水文年份均相同的潛在案例組。
基于CBR的黃河流域水資源調(diào)配方法從決策方案的降雨、徑流預(yù)測(cè)入手,根據(jù)關(guān)鍵水文要素的相似程度,按照案例推理法則選擇相似度最大(最接近)的案例為目標(biāo)案例。案例相似度是水文要素(降雨量、徑流量)的貼近程度。
a.計(jì)算變量屬性偏離度。對(duì)于數(shù)字型優(yōu)化變量,采用偏離度作為屬性差別的度量,設(shè)新案例的數(shù)字型優(yōu)化變量的屬性值為Aj,與其相對(duì)應(yīng)的舊案例的數(shù)字型優(yōu)化變量為,其屬性值為 A*j,定義新案例中與的偏離度為

可以得到

b.計(jì)算案例的相似度。采用案例相似度判斷2個(gè)案例之間綜合水文要素的趨同或差異程度。設(shè)由m個(gè)屬性組成的案例,其相似度可以定義為偏離度的集成,表達(dá)式如下:

式中:sim(i,m)為舊案例 i與目標(biāo)案例m的相似度;ωj為各屬性的權(quán)重。
為了利用相似度中包含的信息,將獲取的相似度按從大到小的順序排序,相似度最大的案例即為精確案例。
為了保證推理的質(zhì)量,精確案例必須滿足屬性偏離度和案例相似度的臨界閾值約束,即

式中:D0和λ0分別為目標(biāo)案例屬性偏離度和相似度閾值,其值由專(zhuān)家確定。
同時(shí)滿足相似度最大和臨界閾值約束的案例為優(yōu)選案例。若不存在同時(shí)滿足相似度最大和臨界閾值約束的案例則修改參數(shù),重復(fù)執(zhí)行檢索過(guò)程直至得到?jīng)Q策者滿意的目標(biāo)方案。
系統(tǒng)在接收到水文預(yù)報(bào)數(shù)據(jù)后,分析水文信息,對(duì)來(lái)水年份定性辨識(shí)歸類(lèi),確定K-D樹(shù)結(jié)構(gòu)的搜索方向。基于CBR的黃河流域水資源調(diào)配系統(tǒng)K-D樹(shù)設(shè)計(jì)為6個(gè)層級(jí)(含流域級(jí)),對(duì)6個(gè)層級(jí)水文要素進(jìn)行辨識(shí),確定搜索方向。根據(jù)K-D樹(shù)結(jié)構(gòu),每個(gè)層級(jí)節(jié)點(diǎn)設(shè)有多水及少水2個(gè)方向,通過(guò)6層級(jí)的定性推理識(shí)別,確定1組與決策信息完全相同的案例。表1為基于CBR的黃河流域水資源調(diào)配定性搜索結(jié)果,表中V1~V6為流域K-D樹(shù)自下而上的6個(gè)層級(jí),A1和A2分別為斷面來(lái)水量及降水量。系統(tǒng)通過(guò)專(zhuān)家信息對(duì)決策方案進(jìn)行定性辨識(shí),例如對(duì)四級(jí)子系(蘭州以上)進(jìn)行水文要素辨識(shí),若判斷結(jié)果為少水年,則向右側(cè)分支搜索(圖2)。決策方案的6個(gè)層級(jí)屬性定性表達(dá)值為(多水,多水,少水,少水,少水,少水)。系統(tǒng)接收水文信息后通過(guò)K-D樹(shù)搜索快速定位一組具有“龍羊峽、蘭州兩斷面多水,河口鎮(zhèn)、三門(mén)峽、花園口及全流域少水”特征的潛在案例。
系統(tǒng)完成搜索后,鎖定了一組潛在案例,案例組的表達(dá)包括案例編號(hào)及6個(gè)層級(jí)的定性值。CBR的目標(biāo)是搜索與決策信息相似度最大的案例,即精確案例,根據(jù)專(zhuān)家信息得出目標(biāo)案例屬性偏離度和相似度閾值為D0<5%和λ0>0.95。
采用式(2)~(4)計(jì)算潛在案例組所有案例與目標(biāo)案例的相似度,并按照相似度大小進(jìn)行排序。選擇相似度最大的案例作為精確案例,其水文特征及各屬性偏離度見(jiàn)表2,案例編號(hào)為BC99,sim(i,m)=0.976>0.95,各屬性偏離度均小于5%。流域水資源調(diào)配成果見(jiàn)表3。將水資源調(diào)配結(jié)果與國(guó)務(wù)院1987年頒布的黃河可供水量分配方案(簡(jiǎn)稱(chēng)“87分水方案”,“87分水方案”根據(jù)黃河來(lái)水量進(jìn)行折扣分配)進(jìn)行對(duì)比,可以看出農(nóng)業(yè)灌溉用水量減少,發(fā)達(dá)地區(qū)用水量得到有效保障,體現(xiàn)了高效用水的原則。

表1 基于CBR的黃河流域水資源調(diào)配定性搜索結(jié)果

表2 精確案例的水文特征及各屬性偏離度

表3 基于案例推理的黃河流域水資源調(diào)配結(jié)果 億m3
系統(tǒng)鎖定的精確案例將由專(zhuān)家從經(jīng)濟(jì)效益、社會(huì)效益和生態(tài)環(huán)境效益3個(gè)方面進(jìn)行綜合評(píng)價(jià),評(píng)價(jià)滿意的方案方可作為最終推薦方案。首先分析生態(tài)效益,6個(gè)斷面的下泄水量(203.12億m3,296.41億m3,192.92億m3,272.51億m3,299.15億m3,206.85億m3)滿足生態(tài)環(huán)境需水量(140億m3,160億m3,197億m3,205億m3,200億m3,200億m3)要求,流域生態(tài)環(huán)境需水可得到滿足;其次分析經(jīng)濟(jì)效益,與黃河流域長(zhǎng)期實(shí)行的“87分水方案”比較,寧夏、陜西、內(nèi)蒙古及山東等新興工業(yè)區(qū)用水適度增加,而青海、甘肅及山西由于長(zhǎng)期用水量不足,分配水量適度減少,這樣既可保證能源化工產(chǎn)業(yè)區(qū)的用水需求,又可刺激農(nóng)業(yè)節(jié)水發(fā)展,支持經(jīng)濟(jì)社會(huì)的快速發(fā)展;最后分析社會(huì)效益,青海、甘肅、寧夏、內(nèi)蒙古的民生用水得到了保障。因此,綜合評(píng)價(jià)該精確案例為滿意方案,推薦實(shí)施。
將專(zhuān)家智慧和人工智能技術(shù)相結(jié)合,引入水文要素的相似度作為推理檢索指標(biāo),針對(duì)水文過(guò)程的周期性和相似特征,建立基于CBR的黃河流域水資源調(diào)配決策模型,通過(guò)水文要素的檢索與匹配,再現(xiàn)案例決策,避免了人為因素的干擾。與以往傳統(tǒng)的水資源調(diào)配決策相比,具備以下優(yōu)點(diǎn):①水量調(diào)度快捷、高效,據(jù)檢測(cè)基于CBR完成一個(gè)案例調(diào)度決策的時(shí)間在3min以內(nèi),而傳統(tǒng)的調(diào)配、會(huì)商決策均在數(shù)天以上;②保障決策方案有效,方案庫(kù)中存儲(chǔ)的方案均為已實(shí)施或?qū)<彝扑]實(shí)施的方案,可行性已在實(shí)踐中得到檢驗(yàn);③推薦的案例為優(yōu)化方案,通過(guò)搜索與匹配環(huán)節(jié)的篩選,使目標(biāo)案例與推薦案例的水文要素高度接近(相似度95%以上),且經(jīng)過(guò)了專(zhuān)家的綜合評(píng)價(jià),因此可保證推薦案例為優(yōu)化方案。
[1]姜麗紅.智能化預(yù)測(cè)支持系統(tǒng)(IFSS)的理論與方法的研究[D].天津:天津大學(xué),1996.
[2]AAMODT A,PLAZA E.Case-based reasoning:foundational issue,methodological variation,and system approaches[J].AI Communications,1994,7(1):39-59.
[3]GILBOA I,SCHMEIDLER D.Case-based decision theory[J].Quarterly Journal of Economics,1995,110:605-639.
[4]AHA D,BRESLOW L.Refining conversational case libraries[C]Proc of Second International Conference on Case-Based Reasoning.Berlin:Springer Verlag,1997:267-278.
[5]ANDERS F M R.A probabilistic exemplar based model[D].Salford:Oniversity of Salford,1998.
[6]田喜平,趙紅丹.基于案例推理的重復(fù)談判研究[J].新鄉(xiāng)學(xué)院學(xué)報(bào):自然科學(xué)版,2010,27(1):9079-9080.
[7]鄭國(guó)寧,馬力.基于案例推理技術(shù)在故障案例中的應(yīng)用[J].電腦知識(shí)與技術(shù),2010,6(32):50.
[8]梁昌勇,顧東曉.面向不確定多屬性決策問(wèn)題的范例檢索算法研究[J].中國(guó)管理科學(xué),2009,17(1):131-137.
[9]李鋒剛.基于案例推理的優(yōu)化型智能決策技術(shù)的研究[J].淮北煤炭師范學(xué)院學(xué)報(bào),2006,27(2):58-61.
[10]楊瑾,尤建新,蔡依平.基于案例推理的供應(yīng)商選擇決策支持系統(tǒng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2006,3(6):17-28.
[11]蔡芝蔚.基于知識(shí)密集型的CBR構(gòu)件檢索方法研究與實(shí)現(xiàn)[J].牡丹江教育學(xué)院學(xué)報(bào),2009,26(9):37-39.
[12]高煒,梁立.基于貼近度的本體概念屬性相似度計(jì)算[J].長(zhǎng)春大學(xué)學(xué)報(bào),2009,19(8):12-14.
[13]吳涵,楊克儉.基于K-D樹(shù)的多維索引在數(shù)據(jù)庫(kù)中的運(yùn)用[J].自動(dòng)化技術(shù)與應(yīng)用,2007,26(9):37-39.
[14]邱永紅,曾永年,鄒濱.K-D樹(shù):一種多維空間數(shù)據(jù)索引結(jié)構(gòu)[J].自動(dòng)化技術(shù)與應(yīng)用,2009,45(8):29-31.
[15]朱明.案例推理的數(shù)據(jù)挖掘算法搜索策略研究[J].光盤(pán)技術(shù),2010,31(3):10-11.
[16]張松達(dá),蘇飛,夏夢(mèng)河.考慮水質(zhì)的水資源配置模型及其解法[J].河海大學(xué)學(xué)報(bào):自然科學(xué)版,2010,38(6):620-624.
[17]龔曉燕,王強(qiáng)民,陳金水.水雨情信息空間分布技術(shù)的研究與實(shí)現(xiàn)[J].河海大學(xué)常州分校學(xué)報(bào),2006,20(2):26-28.