胥新政,強 毅,傅華棟
(1.機械科學研究總院集團有限公司,北京 100044;2.中國合格評定國家認可中心,北京 100062)
大數據時代,如何有效處理龐雜的不確定性信息從而獲得規律性認知是人們所面臨的一大難題。“不確定性”是指我們對事物“不能完全確信”的狀態,一般包括固有不確定性和認知不確定性。前者源于事物固有的隨機性,后者源于人們所掌握知識和信息的局限性[1]。其中,認知不確定性作為一種特定的不確定性,在各個學科領域已引起足夠重視。因此,需要采用新方法新思路來定性、定量地分析各個環境系統的不確定性。
貝葉斯(Bayes)方法是以概率論為基礎的一種統計學方法,與傳統統計學理論的最大不同在于貝葉斯理論將所有參數作為隨機變量,并根據專家經驗賦予其先驗分布,以使參數估計更可靠[2]。近年來,該方法已被成功地引用到各個學科領域處理不確定性信息。鑒于此,本文系統地闡述了貝葉斯方法的基本思想、應用和展望。
貝葉斯方法是聯系先驗知識和后驗知識的橋梁。它以貝葉斯公式、貝葉斯統計推斷及貝葉斯網絡為基礎,使用先驗概率和樣本信息得出后驗概率,主要用于處理不確定性信息中的隨機信息。
貝葉斯定理描述了條件概率及其逆概率的關系,公式如下:

其中,P(A)為事件 A 的先驗概率,P(A|B)為在事件 B條件下事件A的后驗概率,P(A|B)/P(B)為事件A發生對事件B的支持程度,即似然函數。
貝葉斯統計推斷的基本過程如圖1所示[3]:首先通過實驗獲得樣本信息 X1、X2、X3……Xn,估計先驗分布 π(θ)反映先驗信息,同時構建似然函數 L(θ|X1、X2…、Xn)反映樣本信息;再結合貝葉斯定理得到待估計量的后驗概率分布 h(θ|X1、X2…、Xn);最后利用后驗分布得到預報概率分布。公式如下:


圖1 貝葉斯統計推斷的基本過程Fig.1 The primary process of the bayesian method for statistical inference
(1)貝葉斯網絡概念與組成。貝葉斯網絡是貝葉斯方法的擴展,又稱貝葉斯信度網絡(BBN),是以圖形化的方式表達不確定性信息的概率模型,能直觀地表達系統內各元素之間的相互影響關系[4]。貝葉斯網絡的組成:一是有向無環圖(DAG),由代表變量節點及連接這些節點有向邊構成;二是變量之間因果影響強度的條件概率表(CPT)。其中,節點代表隨機變量,節點間的有向邊代表節點間的互相關系(由父節點指向其子節點);條件概率表達關系強度,沒有父節點的用先驗概率表達。
(2)貝葉斯網絡的構建。首先,確定目標領域的變量集,即貝葉斯網絡的節點集。目標問題應被變量集中所有的特征變量完全描述,并確定每個變量的狀態和取值范圍;其次,根據變量之間的概率依賴關系或先驗依賴關系確定網絡結構。對具備大量專家知識的問題領域,根據專家對變量之間存在因果依賴關系的認知,連接自變量與因變量。最后,估計參數,計算每個節點的概率分布。概率分布包括根節點的先驗概率分布和中間節點的條件概率分布。
(3)基于貝葉斯網絡的推理。貝葉斯網絡的推理是指在給定一組證據變量概率值的條件下,計算一組查詢變量的概率分布,包括精確推理和近似推理。即對原始數據進行數據挖掘,找出符合原始數據的定性網絡圖關系,然后根據各節點之間的因果關系,利用Bayes公式中條件概率的計算方法,計算出所感興趣的查詢節點(query node)發生概率。
(4)基于貝葉斯網絡的學習。貝葉斯網絡學習是指利用樣本數據更新網絡原有參數或結構的先驗分布,即尋找一種最能真實反映數據集中各變量間的依賴關系,并能按某種測度較好地與給定實例數據集擬合。給定離散變量集{X1、X2、X3……Xn}上的數據樣本 D,學習的目的是找到與D匹配程度最高的貝葉斯網絡。
可見,貝葉斯網絡既能將先驗知識和后驗數據有機結合,也能客觀的表達與處理目標問題,以從不完全、不精確或不確定的知識或信息中做出推理,被認為是表達不確定性問題最有效的模型之一。
貝葉斯方法結合先驗信息和觀測數據下的似然信息得到參數的后驗概率分布。近年來,采用貝葉斯方法耦合輸入不確定性、結構不確定性以及數據不確定性,在評價、模擬及預報的不確定性分析方面取得了系列成果,使得不確定性信息處理理論日臻完善,并在諸多領域廣泛應用。現就其在醫療衛生、氣候地理、信息技術和經濟管理等領域的應用闡述如下:
貝葉斯方法在醫療衛生領域的應用主要表現在貝葉斯網絡的應用。它通過對疾病案例建立貝葉斯網絡,編碼各種癥狀與疾病之間的因果關系,計算病人患有某種疾病的概率。國外,如TakeHeart II系統是基于貝葉斯網絡的心血管疾病診斷臨床支持決策系統 (Clinical Decision Support System,CDSS),具有良好的人機接口,能夠實時提供決策并做出風險評估[5]。國內,南開大學徐曼等人在不確定性與非平衡性條件下,通過構建考慮穩態與隨機態關聯性的貝葉斯網絡學習模型,研究了基于規則/案例(CBR/RBR)融合推理模式在醫療決策方面的應用。
2.2.1 空間地理知識表達和推理
在定性地理空間知識表達和推理中,存在各種不確定性問題,如位置表達的不精確性、地物的模糊性、空間關系的模糊性及空間陳述的不確定性等。目前,貝葉斯方法越來越廣泛的應用于地理空間數據不確定性的處理。國外,如Aspinall[6]在GlS系統中用貝葉斯方法結合大量的數據集,預測蘇格蘭北部格蘭扁地區紅鹿的分布情況;國內,北京大學鄔倫等人利用貝葉斯定理,建立了根據地理位置描述確定地物分布的概率方法,并研究了定性地理空間知識不確定性表達和推理及其在地理信息檢索中的應用。
2.2.2 氣候預測
環境生態系統模擬和預估的不確定性研究是氣候預測的研究重點。氣候變化模擬的不確定性是影響環境生態系統模擬不確定性的一個重要的因素。中國科學院地理科學與資源研究所何洪林等人結合現有的觀測數據和研究基礎,構建了貝葉斯神經網絡,模擬了站點尺度凈CO2交換量(NEE)的時間動態及環境變量對NEE的影響,并量化了NEE的不確定性。
2.3.1 數據挖掘
隨著數據庫技術的迅速發展和廣泛應用,數據挖掘已經成為數據庫知識發現的重要途徑。由于貝葉斯網絡的預測能力,并且其能夠顯示變量間最直接的關聯關系,貝葉斯網絡已成為大規模數據庫中數據挖掘的重要手段。國外,Sebastian等人用貝葉斯網為慈善機關的客戶建模,較好地預測了捐贈人的特征和希望得到的禮物,幫助慈善機構獲得了最大的效率[7]。國內,慕春棣等人對貝葉斯網學習方法的數學推導進行了分析總結,并介紹了貝葉斯網絡在數據挖掘中的應用[8]。
2.3.2 故障診斷與決策
在故障診斷技術中,所獲得的觀測信息或樣本具有一定的有限性和不確定性。貝葉斯網絡是一種有效的診斷決策模型,具有不確定性問題的表達能力。國外,Nicholson AE等人[9]將動態貝葉斯網絡作為傳感器故障診斷模型,研究了傳感器故障預測和診斷的方法。國內,西北工業大學的傅軍等在柴油機動力裝置的故障診斷中,采用貝葉斯網絡故障診斷模型,提高了故障診斷的精度和速度[10]。
綜上所述,通過建立系統模型,達到輔助決策、特征融合及數據分析等目的是貝葉斯方法的基本應用過程,并以其獨特的綜合先驗知識的增量學習特性和卓越的推理性能被廣泛應用到不同領域中,并取得令人矚目的效果,成為國內外研究的熱點。其中,貝葉斯網絡作為一種基于概率的不確定性推理工具,在醫療診斷、統計決策、專家系統、學習預測等方面得以成功應用,已成為處理不確定性信息的最重要途徑。
人工智能的目的是建立最接近人類認知水平的智能模型,隨著相關理論和技術的日益成熟,其應用領域也不斷擴大,具有廣闊的發展空間。不確定性知識的推理和決策,是人工智能技術中的關鍵環節。貝葉斯方法因具備在不確定環境下知識表示與推理的優勢,已成為人工智能重要的研究熱點之一。目前,基于人工智能的計算機視覺、自然語言處理等技術發展日新月異;未來,貝葉斯方法在人工智能技術中仍具有廣闊的發展空間。但是,貝葉斯方法在機器深度學習及數據挖掘技術方面的研究成果較少,建議加強該方面的應用與研究。