溫佳穎 李佳鑫 馮萬里

摘要:睡眠是人類生活中不可缺少的一部分。那么睡眠質量的好壞會對人體造成多大的影響呢?這便是本文討論的主要問題。本文首先探究了睡眠質量與多項指標之間的相關性,然后以匹茨堡睡眠質量指數作為指標來判斷睡眠質量的好壞,并探討其與兩大類、百余種精神疾病的相互關系。
關鍵詞:匹茲堡睡眠質量指數;Sperman相關性分析;國際疾病分類編碼ICD-10;無監督機器學習模型,K-means算法
模型假設
假設題目中所有數據均測量準確,沒有誤診或數據丟失,題目所給數據均具有可靠性,且對疾病的檢測原則一致。
分析
已有的數據的有兒童門診、門診、體檢、科研測試與病房五個數據源,其中兒童門診3例樣本,門診6325例樣本,體檢13例樣本,科研測試1例樣本,病房7例樣本。為了避免由于數據來源的不同對分析結果造成影響,我們排除兒童門診、體檢、科研測試與病房這四個小眾數據源,僅對來自門診的6325例樣本進行分析。
符號說明
K為預先設定的聚類數目Ci樣本i與K個聚類中最近的類,即表示分組(i=1,2,3,4……)
Uj對同一個類的樣本質心的猜測N樣本是n維實數
K將樣本聚類成k簇I第i個樣例
模型的建立與求解
問題一
由Spearman相關系數的雙變量相關性計算所得到的結論可知,Age、Sex、Psychoticism、Nervousness這四項參數與Sleepquality之間存在置信度為99%的相關性,但是相關系數較小,因此可以認為它們之間存在較弱的相關性。Reliability與Sleep quality之間存在置信度為95%的相關性,而Character與Sleepquality之間不存在相關性,應當除去。
問題二
由于數據量龐大,首先進行聚類分析,但效果不是很好,可能原因是小眾疾病的干擾,先考慮無監督學習的情況,首選K-means聚類。將每一病人樣本視為9維數組,在假設診斷結果與睡眠質量指標之間有聯系的基礎上,將睡眠質量指標分組,所得結果應當與實際診斷結果有較明顯的對應關系。在聚類問題中,訓練樣本為{x(1),…, x(2)},其中每個x都是n維實數。隨后K-means算法將樣本聚類成K個簇。首先隨機選取K個聚類質心點,然后對于每一個樣例i,計算其應該屬于的類:對于每個類j,重新計算質心,然后重復上述兩步,直到結果收斂。是否收斂的判斷方法為畸變函數。
按照上述思路,對附件中所提到的110種疾病進行分類,最終合并成精神類疾病與神經類疾病兩大類。排除掉同時患有多種疾病的人群,統計得到兩大類疾病患病人數的比例為2338:1703。用K-means算法聚類成2類,所得結果為1795:2226,其所的比例與實際情況吻合得非常好。通過現有對皮茨堡睡眠質量指數的研究,我們可知普通人正常水平下的7項指標。將樣本指標和正常人指標對比得到以下結果:(如表1)
模型的優缺
K-means模型優點:解決聚類問題的一種經典算法,簡單,快速。2.對處理大數據集,該算法保持可伸縮性和高效性。
K-means模型缺點:在簇的平均值可被定義的情況下才能使用。
參考文獻:
[1]鄭棒,李曼,王凱路,呂筠.匹茲堡睡眠質量指數在某高校醫學生中的信度與效度評價[J].北京大學學報(醫學版),2016,48(03):424-428.
[2]殷瑞剛,魏帥,李晗,于洪.深度學習中的無監督學習方法綜述[J].計算機系統應用,2016,25(08):1-7
[3]韓雅雯.kmeans聚類算法的改進及其在信息檢索系統中的應用[D].云南大學,2016