仇計清,李曉華,蘇連青
(1.河北科技大學理學院,河北石家莊 050018;2.河北科技大學黨政辦公室,河北石家莊 050018)
機器學習與知識發現在高校公共突發事件智能預警系統中的應用
仇計清1,李曉華2,蘇連青1
(1.河北科技大學理學院,河北石家莊 050018;2.河北科技大學黨政辦公室,河北石家莊 050018)
機器學習與知識發現能夠幫助人工智能系統對現象或信息之間的因果關系產生更深入的認識,有利于提高智能決策支持系統的工作效率,有利于提高使用者和機器之間的默契程度。就機器學習與知識發現技術應用于高校公共突發事件智能預警系統進行了探討。
機器學習;知識發現;高校公共突發事件;智能預警系統
高校公共突發事件是指在高等學校及其周邊突然發生,造成或者可能造成重大傷亡、重大財產損失,能引發高校內部及社會連鎖反應和嚴重后果,危及高校公共安全,對學校發展、社會穩定產生劇烈負面影響的自然、社會及群體性事件。預警是指在事件發生前進行預先警告,即高校突發公共事件職能部門對將來可能發生的危險進行事先的預報以提請相關當事人的注意。預警機制是指能靈敏、準確地昭示風險前兆,并能及時提供警示的機構、制度、網絡、舉措等構成的預警系統,其作用在于超前反饋、及時布置、防患于未然,從而最大限度地降低由于高校突發公共事件的發生對人民的生命財產造成的損失。高校公共突發事件智能預警系統的構建原則主要是及時、全面、高效和引導,達到及時預防、降低損害、保證安全和促進發展的功能。
預警的實質就是利用科學手段對系統運行的“異常值”進行預見和警示,這種預見和警示的依據就是系統運行過程中的大量輸入數據和系統狀態數據,這些大量乃至海量數據中蘊含了反映系統運行狀態是否正常的信息,智能預警系統就是利用計算機人工智能方法從這些數據中分析和獲取有價值的信息,從而對系統運行的“異常值”進行預見和警示。這些有價值的信息稱為知識,知識的獲取過程稱為知識發現,而機器學習是知識發現的主要手段。目前,國內外已有不少關于智能預測以及智能預警系統方面的研究工作,但大都把研究工作的重點放在所建立系統模型的準確性上。事實上,一個預警模型不但要考慮所提出的預見和警示具有較強的準確性,更應該把預警結果與系統數據相關性的提取和分析作為研究工作的重點。
作為知識發現主要手段的機器學習,其核心是學習。關于學習迄今為止還沒有一個精確的、能被大多數學者公認的定義。究其原因,一是因為進行知識發現問題研究的學者來自各種不同的學科,有著不同的知識背景,對具體問題有著不同的理解。二是因為學習是多側面、多角度、綜合性的心理活動,它與記憶方法、思維習慣、感知行為等多種心理和生理活動都有密切的聯系,人們至今還沒有準確把握學習的生物機理與實現過程。目前在機器學習領域影響較大且具有較大認同的觀點是:學習是系統中的任何改進,這種改進使得系統在重復同樣的工作或進行類似的工作時,能完成得更好[1]。機器學習的研究內容就是如何利用計算機來模擬人的學習行為,使其能自動地通過學習來獲得所需知識和特殊技能,不斷提高實際智能系統的性能,實現智能系統的進一步完善和功能的提升。
機器學習的理論和方法從提出伊始,就被認為是挖掘大量復雜數據的運行模式和數據相關性的有效方法之一。近年來機器學習已開始應用于智能預測和推斷[2-4],顯然利用機器學習方法也可以對動態系統的演化過程進行分析、總結和歸納進而發現知識,所獲得的知識就可以用來預測系統的演化趨勢,由此實現對系統行為的干預和引導。通過機器學習方法所建立的實際動態系統演化模型均可以通過學習,不斷完善系統內部各因素之間的復雜、非線性、強關聯的因果關系。針對智能預警系統,機器學習方法可以通過對系統歷史行為的學習,獲取系統狀態變化規律的知識,進而預示系統演化的趨勢,或者根據對系統狀態的分類學習為決策者提供可靠的系統干預策略。
知識發現就是通過學習從數據集(對于智能預警系統而言,可理解為系統演化過程的大量歷史數據以及系統的各種指標值等)中獲取有價值知識,這些知識一般稱為模式。知識發現的應用范圍非常廣泛,可以是工業、農業、科學、經濟、社會、軍事、商業等領域的動態系統數據,也可以是遙感衛星觀測到的地理和氣象數據,知識發現作為人工智能領域中一種新興數據處理技術和方法得到成功應用,受到了來自不同領域學者的關注[5-6]。
知識發現的常見結果有以下5種。
1)廣義型知識(Generalization) 廣義型知識就是通過對數據微觀特性的概括和抽象,獲得的能夠表征其普遍特性的、高層次的中觀和宏觀知識。
2)分類型知識(Classification &Clustering) 分類型知識是指利用決策樹、統計、神經網絡、粗糙集等分類方法,從半結構化或非結構化的海量數據中,提取出的同類事物共性特征和不同事物差異特征的知識。
3)關聯型知識(Association) 關聯型知識是通過在項集中尋找頻繁項集,進而生成強關聯規則的方法,獲得的反映事件之間依賴或關聯關系的知識。
4)預測型知識(Prediction) 預測型知識是通過利用統計、機器學習和神經網絡等方法,建立各種回歸模型,對具有時間序列特性的歷史及當前數據進行分析計算,預測未來發展趨勢。
5)偏差型知識(Deviation) 偏差型知識是通過對同類事物的聚類分析,根據離群值獲取標準類之外的特例,從而得到差異和極端特例的中微觀特征描述。
知識發現的常用技術方法如下。
1)傳統數理統計方法 利用數理統計知識,對數據集建立各種隨機模型,進行相關性分析、回歸分析、主成分分析和貝葉斯估計等。
2)神經網絡方法 神經網絡方法是通過模擬人腦,利用神經元之間同時相互作用的動態過程來完成信息處理的生物過程,仿照生理神經網絡結構構造一種非線性預測模型,通過使用歷史數據對模型進行訓練,達到模型對某些特殊模式的識別和判斷。
3)決策樹方法 決策樹方法是首先利用歸納算法對訓練樣本集進行處理,生成分類規則和決策樹,然后使用測試數據集校驗修正決策樹,逐步得到較為完善的分類方法。
4)遺傳算法 遺傳算法是一種基于生物進化理論,模擬生物進化的選擇、交叉及變異的迭代過程構造的一種優化計算方法。
5)近鄰算法 近鄰算法是指在決策系統中,當系統需要預測未來情況或進行決策時,系統自動尋找與當前情況相近的案例,從中進行篩選,獲取最佳的相同解決方案。
6)粗糙集方法 粗糙集方法主要用于對智能預警系統中的不完全或不完整信息進行描述和處理,通過發現不準確數據或噪聲數據的內在關聯結構,對其進行分類。
近幾年,已有一些學者把機器學習與知識發現應用于多種智能預警系統中[7-9],筆者重點討論知識發現中的決策樹方法在高校公共突發事件智能決策支持系統中的應用。
決策樹方法是首先利用歸納算法對訓練樣本集進行處理,生成分類規則和決策樹,然后使用測試數據集校驗修正決策樹,逐步得到較為完善的分類方法。決策樹方法首先針對訓練樣本集(稱為數據集的輸入空間或屬性空間),采用自頂而下的遞歸方式:從根節點開始對每個節點依據給定標準選擇一個屬性進行測試,然后按照所選屬性的一切可能值向下建立分枝,由此將訓練樣本進行劃分,直到一個節點上的所有樣本數據都被劃分到同一個類,或者該節點中的樣本數據個數低于給定值時為止,從而構造出一個二叉樹或多叉樹,就稱其為決策樹。本階段結束后,把訓練樣本集劃分為若干互斥的區域,然后對每個區域賦予一個標志來表示該區域內數據的特色屬性。這一階段稱為樹生成(或樹構造)。前面的樹構造過程所得的并不是最簡單、緊湊的決策樹,因為其中部分分枝反映的并不是訓練樣本數據的固有特性,而可能是訓練樣本數據中的噪聲或孤立點,因此需要進行下一階段工作,即樹剪枝過程。樹剪枝過程的意圖就是檢測并去除這些噪聲或孤立點對應的分枝,以提高對未來數據進行分類的準確性。樹剪枝有先剪枝方法、后剪枝方法或兩者相互結合的方法。樹剪枝必須先確定一種剪枝標準,常用的有期望錯誤率最小原則和最小描述長度原則(MDL)。
采用期望錯誤率最小原則來構造決策樹時必須選擇一個誤差指標E(t),作為量化節點t(表示某一屬性)從不同區域中分叉數據(或事件)的性能指標,該指標表示了節點t為噪聲或孤立點的程度。把決策樹中各節點的誤差指標稱為雜質函數,對某一節點,如果給定數據集的數據都屬于同一分類,雜質函數取得最小值0;如果給定數據集的數據均勻分布于所有可能的分類時,雜質函數就達到最大值1。
通常選取熵函數或Gini指標函數作為雜質函數。

樹生成得到的未經過剪枝的決策樹規模通常很大,而且同訓練樣本集有較大偏差。因此,對于測試樣本集,用這種樹往往不能得到期望輸出,而對于訓練樣本集即使能得到期望輸出,但在精度上也并不可靠。在樹剪枝過程中,為得到合適規模的決策樹,使用的方法有多種。其中,最有效的2種方法是基于最小代價復雜性方法和基于最弱子樹收縮原理方法。
高校公共突發事件智能預警系統的核心就是利用先進的信息技術手段,采集、存儲、挖掘、分析高校公共突發事件的有關信息,最終實現對高校公共突發事件的預警決策。機器學習、知識發現為從繁雜的歷史數據中挖掘出事件發生與各種起因的關聯關系提供了方法支持。機器學習和知識發現可以應用于各類高校公共突發事件之中,下面以校園火災事件為例,說明利用決策樹方法進行決策的過程。
根據近年來校園火災事件發生的網上調查數據(見表1),共計8個樣本,考慮了電器使用、燃氣爐使用、電路老化和偶然因素等指標。對火災事件的嚴重程度主要考慮人員傷亡(RYSW)和財產損失(CCSS)2個方面,用RYSW=2人和CCSS=0.5萬元作為分界值,將嚴重程度分為較高和較低2類。利用上述數據,應用決策樹方法進行計算,得到分類結果如表2所示。
從表2可以看出,電器使用、燃氣爐使用對發生重大火災事件的影響非常大,電路老化的影響次之,而與偶然因素基本沒有關系。根據決策樹方法的計算結果,在智能預警系統中,確定影響校園火災事件發生的各因素權重,得出事件發生可能性的量化模型,利用一定的閾值觸發預警系統發出預警。
由于本例采樣數據的容量較小,只重點考慮了人員傷亡及財產損失與各影響因素間的關系,關于事故嚴重程度的描述比較簡單。當然,對于大容量的訓練樣本集,應該事先對數據集進行相應的預處理,比如利用統計方法分析人員傷亡及財產損失與各參數變化的相關關系模型,使對事故嚴重程度的描述進一步科學細化。智能預警系統的目的,就是根據歷史數據,應用各種數據處理方法使系統獲取知識,然后根據當前的某些因素指標值,對突發事件的發生作出預見和警示,進而為應急管理提供決策支持。

表1 校園火災事件網上調查數據Tab.1 Data of institution fire scenes on web

表2 應用決策樹算法對數據進行計算的結果Tab.2 Result after decision tree algorithm processing
隨著高等學校內部管理體制和監測體系的進一步完善,其智能預警系統所積累的數據也會更加龐大,從系統數據庫中利用機器學習方法獲得相應的知識,從而建立高校公共突發事件生成演化規律的知識庫,可以為高校公共突發事件的預防、預警以及應急管理提供技術和方法支撐。
[1] 楊炳儒.知識工程與知識發現[M].北京:冶金工業出版社,2000.
[2] RECKNAGEL F.Applications of machine learning to ecological modeling[J].Ecological Modelling,2001,146(1-3):303-310.
[3] BOBBIN J,RECKNAGEL F.Knowledge discovery for prediction and explanation of blue-green algal dynamics in lakes by evolutionary algorithms[J].Ecological Modelling,2001,146(1-3):253-262.
[4] BOBBIN J,RECKNAGEL F.Inducing explanatory rules for the prediction of algal blooms by genetic algorithms[J].Environment International,2001,27(2-3):237-242.
[5] 李 瑋,沙占友,于健騏,等.數據觸合技術在火災報警系統中的應用研究[J].河北科技大學學報(Journal of Hebei University of Science and Technology),2010,31(2):112-116.
[6] 原建偉.基于內容分析的數據挖掘研究[J].河北工業科技(Hebei Journal of Industrial Science and Technology),2011,28(5):299-302.
[7] 沈 菲,王洪禮,馮劍豐,等.知識發現在赤潮預測預警系統研究中的應用[J].海洋技術(Ocean Technology),2003,22(2):19-22.
[8] 蔡如鈺.基于人工神經網絡的夜光藻密度預測模型[J].中國環境監測(Environmental Monitoring in China),2001,17(3):52-55.
[9] 侯旭東,張 兢.基于模糊神經網絡融合技術的智能火災預警系統[J].重慶工學院學報(自然科學)(Journal of Chongqing Institute of Technology(Natural Science)),2008,22(9):141-144.
Application of machine learning and knowledge discovery in intelligent early warning system of public emergencies in institutions
QIU Ji-qing1,LI Xiao-hua2,SU Lian-qing1
(1.College of Sciences,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China;2.Administration Office,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China)
Machine learning and knowledge discovery help the artificial intelligence system obtain more profound cognition of the causal relationship between phenomena and information,help IDSS(intelligence decision support system)enhance the working efficiency,and help improve the coordination between the users and machines.This paper discusses the application of machine learning and knowledge discovery to the intelligent early warning system of public emergencies in institutions.
machine learning;knowledge discovery;public emergencies in institutions;intelligent early warning system
TP393
A
1008-1542(2012)02-0171-04
2011-11-21;責任編輯:李 穆
國家自然科學基金資助項目(71040012)
仇計清(1956-),男,河北井陘人,教授,博士,主要從事復雜系統預測與優化控制方面的研究。