黃偉+肖厚波
摘要:本文簡述了智能診病系統的發展,簡單介紹了智能診病系統,指出了它的一些局限性,并且介紹了Naive Bayesian算法的原理,提出了以該算法為基礎的改進方案。
關鍵詞:智能診病;人工智能;專家系統;知識庫;推理機;Naive Bayesian算法
中圖分類號:TH165.3 文獻識別碼:A 文章編號:1001-828X(2017)009-0-01
一、智能診病系統的發展
人工智能是現今最尖端的技術之一,近三十年來,人工智能發展迅速,在很多領域都得到了廣泛的應用。專家系統是人工智能重要的一個分支,它通過一個或多個專家提供的專業領域知識,模擬人類專家解決那些需要專業領域知識才能完成的問題。1965年,美國斯坦福大學研制出了DENRAL系統,該系統具有豐富的化學知識,能幫助化學家推斷出分子的結構。DENRAL系統的完成標志著專家系統的誕生。20世紀70年代初, NTERNIST系統在匹茲堡大學問世,這是第一個用于醫療的內科病診斷咨詢系統。同一時期,一款能夠幫助普通內科醫生診治細菌感染性疾病的專家系統MYCIN也在斯坦福大學出世,這兩款專家系統的成功激發了智能診病系統的開發熱潮,國內外都開始往這方面投入大量的人力物力。到21世紀初,智能診病系統已經相對成熟。
二、智能診病系統
智能診病系統以基于規則的方式來構建系統,它主要將系統分為知識庫和推理機兩部分,知識庫中存儲著各種醫學知識的集合,包含從書本中知識,以及醫學專家的知識和經驗,而推理機根據用戶提供的有效信息,來決定所使用的推理規則,通過從知識庫中獲取的相關知識進行推理判斷,從而得出最終的結論。推理分為精確推理和不精確推理,精確推理根據條件和結論之間的必然性,得出的結果是肯定的,不精確推理:在條件不足的情況下,得到的假設不能被完全證實,這個時候為每個假設賦予一個權值來表明這個假設的可信度,通過這些假設進行下一步推理,可能會得到多個不同的結論,以可信度最高的結論作為最終結論。
三、智能診病系統的缺點
難以得到足夠知識和規則填充知識庫,智能診病系統做為基于規則的專家系統,需要以大量知識和醫學專家規則作為基礎,才能夠準確地診斷病人的病情,這就需要大量的醫學專家和知識工程師的參與才能夠實現。
缺乏學習能力,跟一般的基于規則的專家系統一樣,智能診病系統不具備從診病過程中提取經驗進行學習的能力,只會依循本來就存在的規則和知識進行推理判斷,更新知識庫,添加規則些工作仍然需要知識工程師來完成。
Naive Bayesian算法:
Na?ve Bayesian 算法能夠較好地對事物進行分類,具有結構簡單,計算高效等特點,是分類算法中最經典,最有影響力的算法之一。Na?ve Bayesian算法首先需要通過訓練樣本計算出先驗概率,在此基礎上,計算一個待分類的后驗概率。下面是Na?ve Bayesian 算法的定義,對于一個待分類的事物x,設:
1.x有{a1,a2,a3,……an}這樣一個屬性集,每個a都是x的一個特征屬性。
2.有{y1,y2,y3,……ym}這樣一個類別集合,每個y代表一個類別。
3.分別計算P(y1|x),P(y2|x),P(y3|x),…..,P(ym|x)的概率。
4.如果有P(yi|x) >= P(yj|x)(j屬于1~n),則事物x屬于類型yk。
在這里,我們稱P(yi|x)為后驗概率,根據貝葉斯定理,P(yi|x) = P(x|yi)P(yi)/p(x)。
由于對于所有的后驗概率,都需要除以P(x),所以在這里我們可以將P(x)忽略,只求出最大的P(x|yi)P(yi)即可。P(x|yi)P(yi) = P(a1|yi)P(a2|yi)P(a3|yi)…P(an|yi)P(yi),其中P(aj|yi)和P(yi)我們都需要通過樣本數據進行計算:
1.設有樣本集{x1,x2,…xn},每個樣本有一個屬性集a其中包含若干屬性。
2.有{y1,y2,…ym}這樣一個類別集合。
3.P(yi)為樣本中類別yi的個數/樣本總數。
4.P(aj|yi)為樣本中類別yi中含有aj屬性的個數/類別中yi的個數。
通過Naive Bayesian算法對智能診病系統的改進:
由于知識庫中知識量和規則的限制,智能診病系統可能會出現無法準確判斷用戶病情的狀況,通過Na?ve Bayesian算法可以有效地改善這一情況。一個人患病的原因會跟他平時的生活環境,生活習慣還有家族遺傳有很大的關系,由此,我們可以將生活環境,生活習慣和家族遺傳作為特征屬性,建立一個輔助診斷病情的Navie Bayesian分類器。算法的訓練樣本通過記錄每個精確推理確診的患者的生活環境,生活習慣,家族遺傳等屬性信息取得,通過不斷地增加訓練樣本,Navie Bayesian分類器的準確性不斷提升,從而提升智能診斷系統的不精確推理能力。
參考文獻:
[1]Liu H, Motoda H. Feature selection for knowledge discovery and data mining[M].Springer Science&Business Media, 2012.
[2]Pang-Ning Tan, Michael Steinbach, Vipin Kumar.數據挖掘導論(中文版)[M].范明,范宏建,等,譯.北京:人民郵電出版社,2011:139-141.
作者簡介:黃 偉(1981-),男,瑤族,湖南花垣人,講師,主要從事計算機科學研究。
肖厚波(1994-),男,漢族,湖南郴州人,本科在讀,主要從事軟件工程研究。
基金項目:吉首大學科研論文項目,項目編號:JSU-CX-2015- 98。