雷雪梅, 謝依彤
(北京科技大學 計算機與通信工程學院,北京 100083)
近年來快節奏的生活方式引發的亞健康人群數激增現象,引起人們對養生學的重視,飲食營養成為突破口,現存的西醫營養學過分注重化學成分(如卡路里、碳水化合物等)對人體的影響,割裂了人體統一和諧的身體系統[1],而中醫營養學從人體整體把握飲食對人的影響,已成為主流. 中醫營養學起源于中醫藥學“藥食同源”,人工流傳記載為主,其中大量營養屬性值存在元素多元化、數據缺失、數據值模糊的問題,規則提取后的知識冗余度高且存在沖突項.
應用粗糙集理論進行規則提取可以從已知的各種不完備的數據信息中快速獲取知識和規律,包括屬性約簡和值約簡兩個步驟. 對這個問題的探索已經存在一些方法,文獻[2]提出了基于加權變精度容差粗糙集模型; 文獻[3]提出了一種基于粗糙集理論的值約簡算法; 文獻[4]提出了改進不可區分關系的值約簡算法; 文獻[5]提出一種基于差異關系的變精度粗糙集知識約簡算法; 文獻[6]等提出了基于廣義優勢決策函數的決策規則獲取方法; 文獻[7]改進了鄰域粗糙集模型,并將其應用到故障診斷規則提取中. 然而在分析現有規則提取的算法及數據特點時發現,算法注重對決策屬性之間的關系提取,對得到矛盾規則不具備良好的處理力能.
因此,引入具有噪聲容忍機制的決策粗糙集模型,使用α-正域約簡啟發式算法約簡屬性,克服無關屬性對決策值的干擾. 在決策表值約簡過程中,引入可覆蓋關系和活躍值等概念,構建待定矩陣和覆蓋矩陣,提出概率覆蓋模型,處理矛盾的知識規則,得到普適性較高的規則.
決策粗糙集[8]引入了Bayes風險決策理論,使其在不確定性知識獲取和數據處理中具有更加可靠的理M論依據和語義解釋[9],是對經典Pawlak粗糙集理論模型缺乏容錯能力的概率拓展.

由此,定義決策粗糙集的下、上近似分別為:



稱屬性子集B為屬性全集C的一個決策粗糙集α-正域約簡[10].

本節將建立基于決策粗糙集的概率覆蓋模型,解決中醫學數據噪聲產生的規則矛盾現象.
原決策表中過多的不重要屬性會影響規則提取的有效性,因此,本文采用決策粗糙集α正域約簡算法[11]對屬性進行約簡. 基于決策粗糙集的屬性約簡引入了決策損失函數確定閾值參數,改進粗糙集零錯誤容忍率的局限性. 調整α的取值對屬性重要度排序,由專家確定最優屬性組合模型,進而確定α取值.
從決策表中得到的規則不一定是完全正確的,原因有二:一是上百年的中醫傳承記載,樣本數據本身可能含有矛盾信息,即條件相同但決策不同; 二是營養數據離散化過程中,由于菜譜中醫屬性值是計算求和所得,忽略各原料之間相互作用,因此屬性程度概念模糊,分類劃分可能導致誤差. 從而歸納得到的知識矛盾性大,準確率低,魯棒性弱,因此,在決策表值約簡過程中,引入可覆蓋關系和活躍值概念,構建覆蓋矩陣.


對表中的一條菜譜記錄xi,去掉其中的一個屬性值缺省集合可以決定決策屬性,說明不重要,兩條菜譜有相似性,可以融合,稱xi、xj為可覆蓋關系如果缺省集合不能決定決策屬性,稱xi和xj為不可覆蓋關系


其中,“*”為xi,xj為覆蓋關系時的值,“?”為待定矩陣中待評價的值,定義矩陣元素標 “?”為活躍值是原決策表S的值.

錯誤覆蓋率:

約簡力度:

支持度:

置信度:

為了獲得有用的規則,需要保留重要的屬性值,刪減非重要的屬性值,直至形成規則,值約簡流程圖如圖1所示.

圖1 值約簡流程圖
對一度覆蓋矩陣去重處理,并記錄每條模糊規則的覆蓋范圍ω,構成二度覆蓋矩陣.
二度覆蓋矩陣中存在矛盾項(即條件屬性相同但決策屬性不同),定義錯誤覆蓋率描述矛盾的兩條規則的覆蓋范圍的差異程度,認為低于所設θ的兩條矛盾規則的較小項為誤差,進行舍棄. 錯誤覆蓋率的設置:選取在決策規則的覆蓋范圍較高且約簡力度較大時的取值,即可以得到覆蓋樣本最多且矛盾項最少的規則,實現提取規則質量最優,得到三度覆蓋矩陣.
得到三度覆蓋矩陣后,仍存在錯誤覆蓋率區分不開的少數沖突規則,使用支持度、置信度進行規則約簡,置信度表示此條件屬性的樣例中滿足此決策條件的比率,支持度表示滿足此規則的樣例數占全部樣本數的百分比,比較沖突規則的支持度、置信度,刪減可信度較低的規則,消除噪聲樣例造成的影響.
概率覆蓋模型融合了決策粗糙集屬性約簡和值約簡算法,概率是指α正域約簡中的α,覆蓋是指控制值約簡中誤差范圍的錯誤覆蓋率θ,對原始矩陣不斷進行精簡覆蓋.



中醫營養學目前還沒有專門的算法分析,而中醫醫藥學有很多研究方法[12]:專家系統、關聯規則、神經網絡、遺傳算法、粗糙集、決策樹,如文獻[13]等將關聯規則應用于中醫肝病處方用藥分析,文獻[2]提出基于加權變精度容差粗糙集模型對中醫處方的研究.西醫營養學現存一些探究方法,文獻[11,14,15]提出了Apriori算法、BP神經網絡對營養元素的數據挖掘.
將本文的算法和模型應用到中醫營養學菜譜分析,以食物“四氣五味”為切入口,應用概率覆蓋模型,挖掘出對養腸胃好的決策規則,從中醫營養學的角度對養腸胃的人群提供指導性建議. 具體應用流程設計如圖2所示.
食物性能與藥物性能一致,包括性味歸經、升浮沉降、補瀉等[16],而中醫營養學的研究側重食物“四氣”對人體的調和作用,所謂“四氣”,即寒、熱、溫、涼四種性質,另有不寒不熱、不溫不涼的飲食,屬于平性. 食物的溫熱寒涼平屬性記載來源于《本草圖經》、《植物名實圖考》、《中國藥植志》、《本草綱目》、《古今醫鑒》等經典古書籍對食物類別的區分記載,整理如表1所示,另收集《錢家鳴教你養腸胃就該這樣吃》[17]中菜譜食材及其重量,對一條菜譜有原料其原料對應的重量mi,所選每一種主要材料的含量均大于10 g,即以10 g為最小計量單位,根據公式:計算菜譜的溫熱寒涼平五個屬性值,如表2部分所示. 對于預防一種類型的疾病來說,這幾種屬性具有某種程度的緊密聯系的特性,在數據分析上具有可挖掘的意義.

圖2 養腸胃菜譜中醫營養分析流程圖

表1 部分原料屬性表

表2 部分原始菜譜信息表
本文研究目的是識別四氣五味的菜譜對腸胃疾病的功能作用,把屬性值極其相似的歸并成一類,在一定程度上保留離散類的分布特征,探究其屬性等級對腸胃疾病的影響力,因此使用K-means聚類算法[18]對決策信息表進行數據離散化,K-means聚類含義表如表3.

表3 聚類含義表
經過K-means離散化處理后的菜譜決策表如表4所示,x1,x2,···,xn表示每條菜譜標號,本文選取菜譜原料的寒、熱、溫、涼、平五種中醫屬性為研究對象,稱為條件屬性集合C={a,b,c,d,e},菜譜是否具有養腸胃功能作為決策屬性D={1,0}.

表4 菜譜決策表
α=1根據定義2,其中正域為以一定的概率(大于閾值)正確分類的屬性對象集,本節探求在何值時,屬性對決策的分類正確率最好.α取值[0,1](取值間隔為0.1),時,為經典粗糙集模型,以公式(1)計算每個屬性的α-正域集合,并由公式(3)計算當前閾值下5個屬性的重要度排序趨勢如圖3所示.

圖3 α閾值分布圖
隨著α的減小,各屬性重要度增加直至頂峰,雖然分類精度允許一定程度的誤差,可以提高含誤差的屬性對決策的正確率,但不能一味降低α值,否則,會使得各個屬性都重要度全部提高,失去屬性約簡的意義,因此α為0.1~0.6時失去分類意義. 當設置α取值接近1時,分類精度幾乎不允許誤差,導致經典粗糙集出現的缺乏容錯能力缺陷,從而舍棄α為0.9、1的取值.
經專家經驗:e屬性代表菜譜的平性特征,不論何種菜譜都具備廣泛的平值屬性,因此平性不具備評價菜譜特性的標準,選用平性重要度最小時的α作為概率覆蓋模型的概率取值,因此最優的溫熱寒涼趨勢為α=0.8,得重要度排序如表5所示.

表5 屬性重要度
分析屬性值在決策表中出現的規律,尋找對決策屬性影響力最大的屬性值,約簡冗余屬性值,舍棄沖突規則. 由公式(8)可知錯誤覆蓋率描述一對沖突矛盾規則覆蓋范圍的差距性,如果一條規則的覆蓋范圍達不到另一條矛盾規則的半數以上,差距過小,不能判定其中的矛盾為誤差所致,因此設置錯誤覆蓋率的取值范圍為[0.5,1],取值間隔為0.1,控制錯誤覆蓋率θ,描繪約簡力度與錯誤覆蓋率的關系,如圖4所示.

圖4 約簡力度與錯誤覆蓋率的關系
為了提取高質量的知識規則,由圖4所示設置概率覆蓋模型的錯誤覆蓋率為0.5,此時所得模型具備最優性能.
由3.3.1節可確定0.8-正域約簡集合R={a,b,c,d},精簡后的菜譜決策表如表6所示.

表6 精簡后的菜譜決策表
使用屬性約簡后的決策表進行值約簡,代入概率覆蓋模型得二度覆蓋矩陣有20條規則,如表7所示,其中含有7對矛盾規則:3和11、4和13、5和12、8和16、10和19、14和17、15和18,矛盾規則占比35%,矛盾規則覆蓋樣例33%,矛盾規則現象較為突出,如果完全舍棄矛盾項,則所得規則少,甚至有可能造成知識斷層,因此在分析菜譜營養成分數據時,需要對矛盾規則進行評估和精簡.
設置膳食屬性錯誤覆蓋率閾值為0.5,按照決策表值約簡的算法步驟,低于錯誤覆蓋率閾值的矛盾規則中的較小項判定為誤差,經公式(8)計算,刪減其中5對錯誤覆蓋率率低于0.5的較小矛盾規則:10、11、12、15、16,約簡后得15條規則的三度覆蓋矩陣,如表8所示.

表7 二度覆蓋矩陣決策表

表8 三度覆蓋矩陣決策表
三度覆蓋矩陣決策表是相對比較精準的決策表,由表8中分析可知,仍存在兩對錯誤覆蓋率難以取舍的矛盾規則4和13、14和17,比較規則4和13支持度和置信度,0.0125>0.0063,0.0183<0.0196,規則4的支持度遠高于規則13,二者的置信度相差不大,因此舍棄規則13. 規則14的置信度和支持度均大于規則17,刪減規則17.
經過概率覆蓋模型及評價指標分析后,終得到13條決策規則. 規則1、2、3、8、9相對其他規則而言具有較高的支持度,在樣本數據中也具有較高的覆蓋范圍,具有較高的可信性. 規則1、2、3,7、18、19、20顯示寒涼性低、溫性高且微熱的菜譜有利于養腸胃,可以暖胃健脾,促進血液循環,益氣補血,安神抗寒,如羊肉蘿卜粥、生姜羊肉粥、土豆燉牛肉等,都屬于溫補的膳食[19]. 由規則4、8、14所得,寒性高的食物會刺激腸胃,胃腸膜黏硬,造成腸胃負擔,不利于腸胃吸收. 規則9顯示過熱的食物損害腸胃,回歸菜譜樣例分析,豆沙炸糕、炸大扁丸子等菜譜不利于腸胃消化吸收. 所得規則揭示了中醫寒熱調和的原理,所以,養腸胃人群要遠離大寒過熱的食物,食用菜譜時也要選擇少寒多溫稍熱的菜譜進行調節[20].
對得到規則質量的評價指標有:矛盾規則對數,提取規則條目,非矛盾規則的覆蓋率. 對比本文提出的概率覆蓋模型、傳統的基于粗糙集的值約簡算法和文獻[2]針對中醫方劑提出的基于加權變精度容差粗糙集模型.本文構建的概率覆蓋模型提取得到較為精簡的規則數,規則中具備較少的矛盾沖突,非矛盾規則的覆蓋率較高,如圖5所示.

圖5 實驗對比圖
另抽取50條除標簽菜譜樣例為測試數據,以文中相同的處理方法進行數據處理,應用本文所得概率覆蓋模型,給菜譜樣例標記決策屬性,對比原標簽,有41條標記正確,正確率達82%,可以給養腸胃人群飲食給予指導.
本文基于決策粗糙集α-正域約簡算法,利用中醫經驗確定屬性重要度的α概率,構建待定矩陣,一度、二度、三度覆蓋矩陣提取決策規則,引入錯誤覆蓋率對值約簡規則提取進行了改進,所得規則與中醫醫學知識相吻合. 實驗結果表明,該模型提取的矛盾規則數量相對較少,得出的中醫營養規則具有可信度,對菜譜是否養腸胃具有辨識度,可用于中醫營養學飲食指導.本文模型還可以應用到政府信訪系統、師生教學評價、植物生長監測等領域,根據不同應用背景控制模型參數,研究矛盾規則的取舍問題.
1 申杰,楊聯河,唐華偉. 對中西醫結合營養學的思忖. 第七屆全國中西醫結合營養學術會議論文資料匯編. 北京,中國. 2016. 24-26.
2 佘侃侃,胡孔法,王珍. 基于加權變精度容差粗糙集模型的屬性約簡及應用研究. 計算機科學,2014,41(S2):351-353.
3 常犁云,王國胤,吳渝. 一種基于Rough Set理論的屬性約簡及規則提取方法. 軟件學報,1999,10(11):1206-1211.
4 楊振峰,郭景峰,常峰. 一種基于粗集的值約簡方法. 計算機工程,2003,29(9):96-97.
5 焦娜. 基于差異關系的變精度粗糙集知識約簡算法研究.計 算 機 科 學,2015,42(5):265-269. [doi:10.11896/j.issn.1002-137X.2015.05.053]
6 韋碧鵬,呂躍進,李金海,等. 不完備不協調序決策系統的屬性約簡與規則提取. 計算機科學,2013,40(S2):160-164.
7 索明亮. 基于粗糙集的故障預測及診斷技術在衛星中的應用[碩士學位論文]. 哈爾濱:哈爾濱工業大學,2013.
8 Yao YY,Wong SKM,Lingras P. A decision-theoretic rough set model. Proceedings of the 5th International Symposium on Methodologies for Intelligent Systems. North-Holland,NY,USA. 1990. 17-24.
9 李華雄,周獻中,李天瑞,等. 決策粗糙集理論及其研究進展. 北京:科學出版社,2011:1-91.
10 Yao YY. Decision-theoretic rough set models. International Conference on Rough Sets and Knowledge Technology.Toronto,Canada. 2007. 1-12.
11 劉盾,姚一豫,李天瑞. 三枝決策粗糙集. 計算機科學,2011,38(1):246-250.
12 張璐,雷雪梅. 基于粒子群優化BP神經網絡的養腸胃菜譜判定. 計算機科學,2016,43(S2):63-66,72.
13 羅悅,溫川飆,嚴小英. 基于專家系統的中醫辨證論治信息表示方法研究. 中國數字醫學,2016,11(7):37-40.
14 寇文心. 智能營養配餐系統及其核心算法的研究[碩士學位論文]. 北京:北京工業大學,2015.
15 張云渡. 數據挖掘技術在營養配餐系統中的應用研究[碩士學位論文]. 北京:北京工業大學,2014.
16 宋京美,吳嘉瑞,姜迪,等. 基于數據挖掘的中醫治療肝病處方用藥規律分析. 中國實驗方劑學雜志,2015,21(22):218-221.
17 錢家鳴. 錢家鳴教你養腸胃就該這樣吃. 北京:中國輕工業出版社,2014.
18 張友海,李鋒剛. Kmeans算法的Spark實現及優化. 西安文理學院學報(自然科學版),2017,20(3):18-20,32.
19 翁維健. 中醫飲食營養學. 上海:上海人民出版社,2008. 1-207.
20 Chapmannovakofski K. Summer is different:What that means for nutrition educators. Journal of Nutrition Education and Behavior,2016,48(7):436. [doi:10.1016/j.jneb.2016.05.010]