基于Naive Bayesian算法改進的智能診病系統研究

2017-06-03 22:40:57黃偉肖厚波

現代經濟信息 2017年8期

關鍵詞：人工智能

黃偉+肖厚波

摘要：本文簡述了智能診病系統的發展，簡單介紹了智能診病系統，指出了它的一些局限性，并且介紹了Naive Bayesian算法的原理，提出了以該算法為基礎的改進方案。

關鍵詞：智能診病；人工智能；專家系統；知識庫；推理機；Naive Bayesian算法

中圖分類號：TH165.3 文獻識別碼：A 文章編號：1001-828X（2017）009-0-01

一、智能診病系統的發展

人工智能是現今最尖端的技術之一，近三十年來，人工智能發展迅速，在很多領域都得到了廣泛的應用。專家系統是人工智能重要的一個分支，它通過一個或多個專家提供的專業領域知識，模擬人類專家解決那些需要專業領域知識才能完成的問題。1965年，美國斯坦福大學研制出了DENRAL系統，該系統具有豐富的化學知識，能幫助化學家推斷出分子的結構。DENRAL系統的完成標志著專家系統的誕生。20世紀70年代初， NTERNIST系統在匹茲堡大學問世，這是第一個用于醫療的內科病診斷咨詢系統。同一時期，一款能夠幫助普通內科醫生診治細菌感染性疾病的專家系統MYCIN也在斯坦福大學出世，這兩款專家系統的成功激發了智能診病系統的開發熱潮，國內外都開始往這方面投入大量的人力物力。到21世紀初，智能診病系統已經相對成熟。

二、智能診病系統

智能診病系統以基于規則的方式來構建系統，它主要將系統分為知識庫和推理機兩部分，知識庫中存儲著各種醫學知識的集合，包含從書本中知識，以及醫學專家的知識和經驗，而推理機根據用戶提供的有效信息，來決定所使用的推理規則，通過從知識庫中獲取的相關知識進行推理判斷，從而得出最終的結論。推理分為精確推理和不精確推理，精確推理根據條件和結論之間的必然性，得出的結果是肯定的，不精確推理：在條件不足的情況下，得到的假設不能被完全證實，這個時候為每個假設賦予一個權值來表明這個假設的可信度，通過這些假設進行下一步推理，可能會得到多個不同的結論，以可信度最高的結論作為最終結論。

三、智能診病系統的缺點

難以得到足夠知識和規則填充知識庫，智能診病系統做為基于規則的專家系統，需要以大量知識和醫學專家規則作為基礎，才能夠準確地診斷病人的病情，這就需要大量的醫學專家和知識工程師的參與才能夠實現。

缺乏學習能力，跟一般的基于規則的專家系統一樣，智能診病系統不具備從診病過程中提取經驗進行學習的能力，只會依循本來就存在的規則和知識進行推理判斷，更新知識庫，添加規則些工作仍然需要知識工程師來完成。

Naive Bayesian算法：

Na?ve Bayesian 算法能夠較好地對事物進行分類，具有結構簡單，計算高效等特點，是分類算法中最經典，最有影響力的算法之一。Na?ve Bayesian算法首先需要通過訓練樣本計算出先驗概率，在此基礎上，計算一個待分類的后驗概率。下面是Na?ve Bayesian 算法的定義，對于一個待分類的事物x，設：

1.x有{a1，a2，a3，……an}這樣一個屬性集，每個a都是x的一個特征屬性。

2.有{y1，y2，y3，……ym}這樣一個類別集合，每個y代表一個類別。

3.分別計算P（y1|x），P（y2|x），P（y3|x），…..，P（ym|x）的概率。

4.如果有P（yi|x） >= P（yj|x）（j屬于1～n），則事物x屬于類型yk。

在這里，我們稱P（yi|x）為后驗概率，根據貝葉斯定理，P（yi|x） = P（x|yi）P（yi）/p（x）。

1.設有樣本集{x1，x2，…xn}，每個樣本有一個屬性集a其中包含若干屬性。

2.有{y1，y2，…ym}這樣一個類別集合。

3.P（yi）為樣本中類別yi的個數/樣本總數。

4.P（aj|yi）為樣本中類別yi中含有aj屬性的個數/類別中yi的個數。

通過Naive Bayesian算法對智能診病系統的改進：

由于知識庫中知識量和規則的限制，智能診病系統可能會出現無法準確判斷用戶病情的狀況，通過Na?ve Bayesian算法可以有效地改善這一情況。一個人患病的原因會跟他平時的生活環境，生活習慣還有家族遺傳有很大的關系，由此，我們可以將生活環境，生活習慣和家族遺傳作為特征屬性，建立一個輔助診斷病情的Navie Bayesian分類器。算法的訓練樣本通過記錄每個精確推理確診的患者的生活環境，生活習慣，家族遺傳等屬性信息取得，通過不斷地增加訓練樣本，Navie Bayesian分類器的準確性不斷提升，從而提升智能診斷系統的不精確推理能力。

參考文獻：

[1]Liu H， Motoda H. Feature selection for knowledge discovery and data mining[M].Springer Science&Business Media， 2012.

[2]Pang-Ning Tan， Michael Steinbach， Vipin Kumar.數據挖掘導論（中文版）[M].范明，范宏建，等，譯.北京：人民郵電出版社，2011：139-141.

作者簡介：黃偉（1981-），男，瑤族，湖南花垣人，講師，主要從事計算機科學研究。

肖厚波（1994-），男，漢族，湖南郴州人，本科在讀，主要從事軟件工程研究。

基金項目：吉首大學科研論文項目，項目編號：JSU-CX-2015- 98。