湯啟友 趙漾 胡意詩


摘 要:隨著生活節(jié)奏的加快,越來越多的人不同程度得有睡眠質(zhì)量問題。如何根據(jù)匹茲堡睡眠質(zhì)量指數(shù)量表(PSQI)確定自己的大致問題對于普通人來說還比較困難。文章將基于4885條已確診病例進(jìn)行數(shù)據(jù)挖掘,采用樸素貝葉斯分類方法,對常見睡眠質(zhì)量進(jìn)行診斷,已驗證其準(zhǔn)確性。
關(guān)鍵詞:樸素貝葉斯;數(shù)據(jù)挖掘;睡眠診斷;PSQI
每年3月21日被世界睡眠醫(yī)學(xué)協(xié)會定為世界睡眠日,這用來引起人們對睡眠的重要性以及睡眠質(zhì)量的關(guān)注。一天的精神狀態(tài)取決于前一晚的睡眠質(zhì)量,高睡眠質(zhì)量自然保證了人們第二天精力充沛。但據(jù)統(tǒng)計,中國成年人失眠率高達(dá)38.2%,青少年失眠率也在上升。總的來說,如果入睡時間超過30分鐘,就屬于失眠的范疇。長期失眠會使人整天感到疲勞,精力不足、注意力不集中、工作學(xué)習(xí)效率低下。嚴(yán)重的失眠甚至?xí)?dǎo)致神經(jīng)功能紊亂、體內(nèi)各種系統(tǒng)的不平衡等各種問題。
貝葉斯分類方法是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究領(lǐng)域的重要數(shù)據(jù)處理方法之一。樸素貝葉斯分類方法具有簡單、高效、分類效果穩(wěn)定的優(yōu)點,同時還具有堅實的理論基礎(chǔ),因此在實際應(yīng)用中得到廣泛的重視[1]。樸素貝葉斯分類器采用了“屬性條件獨立性假設(shè)”:對已知類別,假設(shè)所有屬性相互獨立。換言之,假設(shè)每個屬性獨立地對分類結(jié)果發(fā)生影響[2]。
PSQI檢測分為七個指標(biāo):睡眠質(zhì)量、入睡時間、睡眠時間、睡眠效率、睡眠障礙、催眠藥物、日間功能障礙。根據(jù)以上七個指標(biāo)可以對睡眠障礙患者、精神障礙患者、普通人等進(jìn)行睡眠質(zhì)量的評估。
1 數(shù)據(jù)來源以及說明
本文對某醫(yī)院原始數(shù)據(jù)進(jìn)行異常樣本的剔除以及樣本數(shù)量不足病癥記錄的剔除,最終得到4885條確診為焦慮、抑郁、睡眠障礙的記錄。每一條記錄的指標(biāo)包括:編號、年齡、性別、來源、確診結(jié)果、睡眠質(zhì)量、入睡時間、睡眠時間、睡眠效率、睡眠障礙、催眠藥物、日間功能障礙。
本文將只對屬于PSQI的七個指標(biāo)進(jìn)行分析,由于這些指標(biāo)均為離散值,且每個指標(biāo)均只有0,1,2,3四種結(jié)果,因此比較利于樸素貝葉斯分類。
2 樸素貝葉斯分類原理介紹
基于貝葉斯定理,且符合屬性條件獨立性假設(shè):
P(c)是“類先驗概率”,表示樣本空間中各類樣本所占的比例;d為屬性數(shù)目,xi為x在第i個屬性上的取值。
由于對所有類別來說P(x)相同,因此基于(2.1)的貝葉斯判定準(zhǔn)則有
令Dc表示訓(xùn)練集D中第c類樣本組成的集合,可以計算出類先驗概率:
對于集散屬性而言,令Dc,xi表示Dc中在第i個屬性上取值為xi的樣本組成的集合,則條件概率P(xi|c)可估計為:
但若某個屬性在訓(xùn)練集中沒有與某個同類同時出現(xiàn)過,則會出現(xiàn)P(xi|c)=0的情況,由于式(2.2)的連乘計算,最后的概率值也為零,因此無論該樣本的其他屬性是什么,結(jié)果必然出錯。為避免其他屬性攜帶的信息被訓(xùn)練集中未出現(xiàn)的屬性值“抹去”,在估計概率值時通常要進(jìn)行“平滑”。本文采用“拉普拉斯修正”,令Ni表示第i個屬性可能取值數(shù),則(2.4)可修正為
3 模型的驗證
從4885條樣本數(shù)據(jù)中隨機(jī)選取100條記錄作為驗證,剩下的4775條進(jìn)行樣本統(tǒng)計。通過MapReduce得到統(tǒng)計結(jié)果,再將統(tǒng)計模型結(jié)合樸素貝葉斯分類原理進(jìn)行編程得出預(yù)測結(jié)果,最后把預(yù)測結(jié)果與實際結(jié)果進(jìn)行比較。
4 結(jié)論
通過預(yù)測結(jié)果與實際結(jié)果的對比,可以發(fā)現(xiàn)該分類方法對于抑郁與睡眠障礙的成功預(yù)測率較高,而對于焦慮的預(yù)測結(jié)果偏低,合計正確率達(dá)到71%,屬于較高水平。造成焦慮預(yù)測成功率偏低的原因可能為原訓(xùn)練樣本中焦慮所占樣本數(shù)過少。隨著將訓(xùn)練樣本擴(kuò)大,該分類方法的成功預(yù)測率還將上升。
參考文獻(xiàn):
[1]阿曼.樸素貝葉斯分類算法的研究與應(yīng)用[D].大連理工大學(xué),2014.
[2]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:150.
作者簡介:湯啟友(1996-),男,漢族,四川資陽人,本科,就讀于成都信息工程大學(xué)軟件工程學(xué)院。