999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CART的高校教師亞健康決策模型構建

2019-09-03 11:34:10張一川殷慧文
實驗室研究與探索 2019年8期
關鍵詞:亞健康高校教師模型

易 俗, 張一川, 殷慧文

(1.遼寧大學 創新創業學院,沈陽 110036; 2.東北大學 軟件學院,沈陽 110819)

0 引 言

亞健康是介于健康與疾病之間的邊緣狀態[1]。高校教師在教學、科研繁重任務下,工作沒有時間界限和空間界限[2]。傳統研究方法采用自評量表和調查表[3]的方式對高校教師亞健康狀況及影響因素進行統計和評估。該方法往往只能從宏觀角度出發,階段性的開展調查。因此,從個體亞健康的預測預警角度,缺乏統計評估的時效性與客觀性,且調查評估過程需要投入的代價較高,效率較低。

大數據因其強大的預測能力,在疾病診療、模型建立、健康管理、基因分析等方面逐漸顯示出巨大優勢[4-5]?;跈C器學習的高校教師亞健康檢測方法能夠根據已有大數據分析建立評估模型,并在此基礎上根據影響因素基本數據滿足高校教師個體亞健康狀態的檢測、評估。相比與傳統方法,亞健康大數據的分析更加高效、客觀,能夠即時反映教師的亞健康狀況,并且能夠進一步支持高校教師亞健康的預測與預警。

決策樹分類是數據挖掘中的一種分類方法[6]。通過對已有教師數據的學習和分析提取規則,對識別指標中的屬性進行量化計算。從而,為高校教師亞健康狀態的檢測提供科學、準確的評估方法體系。目前,國內外大量研究針對分類回歸樹(Classification and Regression Tree,CART)技術在健康、醫療領域進行了深入研究[7-10]。既涵蓋了健康疾病檢測、風險評估與干預的理論方法體系研究,也包括利用CART對疾病和健康的檢測、預警研究。還有方法通過改進CART算法降低數據的冗余度,提高診斷及預測的精度。但尚未存在研究利用CART的方法針對高校教師亞健康狀態的檢測給出完整全面的分析和建模。

本文首先綜合分析高校教師職業本身的社會壓力與生活行為,充分考慮職業特性,構建一種多維度的高校教師多維影響因素概念模型。并進一步進行影響因素樣本數據集的特征分析,確定條件特征及決策特征,給出了數據預處理的方法及過程。在此基礎上,利用CART算法給出了高校教師亞健康決策模型的構建、優化方法和過程。最后,設計了模型的構建架構,并利用Spark計算框架給出了該方法的并行實現。

1 樣本數據分析及處理

1.1 多維影響因素

高校教師具有腦力勞動特征的職業特性,其個人健康狀況變化具有內在規律性,而不同的健康數據之間存在著內在的關聯性。在教學任務、科研成果等方面承受著巨大的精神壓力,在事業成就、職稱、生活習慣、人際關系等高壓環境下也存在著各種心理矛盾。為此,在性別、年齡、職稱等流行病學特征的理論依據下,針對高校教師的職業特點,將導致高校教師出現亞健康狀態的因素劃分為多維度高校教師健康影響因素[11-12]。多維度高校教師健康影響因素從社會特性、健康特性、環境特性、職業特性和行為特性5個維度展開,見圖1。

1.2 樣本數據集特征分析

采用決策樹技術解決高校教師亞健康狀態評估首先需要對樣本數據集展開分析。

圖1 高校教師健康多維影響概念模型圖

根據上述分析得到的多維影響因素,歸納樣本數據集中包含的條件屬性特征有48個,各維度參考的特征因素見表1。

表1 多維亞健康影響因素屬性表

決策屬性采用健康特性與標準亞健康評估指數相結合的方式,制定亞健康評價準則。利用向量空間模型對亞健康影響因素進行數學抽象。設樣本數據集中條件屬性特征為向量L(l1,l2,…,ln),其中l1至ln為影響高校教師健康的n維屬性,主要來自于多維影響因素的社會特性、環境特性、職業特性及行為特性。決策屬性特征為向量R(r),其中r是根據上述亞健康評價準則得到的亞健康評價值,即

r=w1·PHI+w2·CMI,(w1+w2=1)

其中,PHI值是根據教師個人健康特性屬性中相關指數未在正常范圍內的數量確定的體檢健康值。CMI值根據康奈爾醫學指數問卷結果,綜合考慮身體因素和心理因素兩方面得到的亞健康狀態值。w1與w2為健康評價權重系數,通過調整該系數能夠綜合考察不同指標比例對認定是否亞健康及亞健康程度的影響。

1.3 樣本數據預處理

亞健康決策樹的構建包括構建與優化兩個階段。首先,利用決策樹算法通過訓練數據集構造初始決策樹;然后,利用樹優化算法通過測試數據集修正決策樹。因此,樣本數據的預處理除了考慮對數據如何采集,還需要考慮對數據如何進行整合及標注。亞健康評估樣本數據的預處理過程見圖2。

圖2 數據預處理過程圖

(1) 數據采集階段通過與校醫院、人事處、教務處、科研處、心理咨詢中心等多部門協同合作。針對健康特性、職業特性、環境特性等不同屬性的數據來源,通過各種管理系統接口進行數據的收集。利用Flume分布式架構,將大量的數據從數據資源裝載到目標服務器。針對行為特性數據如日常運動、健康等日志的采集,通過Apache的Flume數據采集工具實現。同時,利用ZooKeeper保存配置數據,保證配置數據的一致性和高可用。采集來的多樣化數據經過值域對照、數據抽取、轉換,最后上傳到健康數據庫。

(2) 數據清洗階段為了降低決策樹構造過程數據質量對模型效果的負面影響,針對采集得到的數據進行數據補缺、去噪初步處理。

(3) 數據整合階段針對上述分析數據庫中的數據進行數據的進一步處理。重點考慮數據對分析過程的影響,通過變化、集成、標注及過濾過程對數據進行整合處理。圍繞構建決策樹的目標結果進行分析和處理,整合成支持數據分析階段的輸入數據。數據變化及集成過程將來自不同源的數據轉換成統一的數據類型,以及將部分連續型數據轉化為離散型數據,從而簡化相應的計算量;數據標注過程對條件屬性值即決策屬性值進行閾值范圍的考察和確定;數據過濾過程對需求數據屬性展開分析,對原數據中的數據進行合理范圍內的約束和選擇。最終結果數據集即可劃分為訓練樣本和測試樣本,提供給決策樹建模算法進行樹的構建。

2 CART算法亞健康決策樹建模

2.1 CART算法適用分析

高校教師亞健康的多維度影響因素具有條件屬性繁多的特點。多維影響因素中具有復雜數據類型的指標屬性,如既包括婚姻狀況、職稱、是否吸煙等離散型數據,也包括年論文數、年齡、日均步數等連續型數據。條件屬性值的區間劃分情況較為復雜,需要算法提供動態處理能力。CART算法模型可以運用于多指標海量數據的復雜分類處理特性,使得應用于高校教師亞健康評估決策樹的建模更加適用,具有較大的優勢。

CART算法利用分類樹適用于離散型目標數據的分析,利用回歸樹適用于連續型目標數據的分析[13]。因此,當亞健康評估目標為亞健康評價值r時,可考慮利用回歸樹構建對高校教師的健康值評估;當亞健康評估目標按照評價值被離散化處理為診斷時,如離散化為疾病、亞健康和健康,可考慮利用分類樹構建高教教師的健康狀態評估[14]。本文采用分類樹模型根據健康狀態對決策樹進行模型構建。其中,CART樣本數據抽象為:

DC={DL,DR}

(1)

DL={L1,L2,…,Ln}

(2)

DR={R1,R2,…,Rn}

(3)

d1=(l11,l12,…,l1n,r1), (d1∈DC)

(4)

式中,DC為樣本數據集,其中包括特征屬性集DL及結果屬性集DR。L稱為屬性向量(Attribute Vectors),其屬性來自于多維度亞健康影響因素分析過程中得到的條件屬性特征向量L(l1,l2,…,ln),其中既包括連續型屬性也包括離散型屬性;R稱為標簽向量 (Label Vectors),其屬性來自于影響因素分析過程得到的決策屬性特征向量r,該特征向量值是根據亞健康評價值r的閾值范圍評定給出的,包括{疾病,亞健康,健康}。dn為樣本數據集中的單條數據。本文研究的樣本集中每個樣本有48個條件屬性和一個決策屬性。

高校教師亞健康評估CART算法的決策樹構建實現過程首先定義了3種數據結構:存儲樣本屬性名稱及取值的KVNode屬性,存儲具體某個樣本的TeacherSet屬性,樹的節點屬性TreeNode;并存放于SHDataStructure.h中。樣本通過劃分不同文件分別存儲樣本的屬性及樣本集。設計ReadFile類讀取文件分別存儲在兩個向量中。

2.2 決策樹構造算法

利用CART算法構建亞健康決策樹的基本原理是檢查每個健康條件屬性所有可能的劃分值來發現最好的劃分。首先,需要針對條件屬性從多樣本集的輸入變量中選擇最佳分組變量;其次需要針對分組變量進行純度計算,找到一個純度最高的最佳分割值。因此,對于離散型考慮除空集和全集之外的所有劃分情況;對于連續型,則針對n個連續值產生n-1個分裂點,相鄰兩個連續值的均值(li+li-1)/2即為分裂點的分割值。將每個屬性的所有劃分按照Gini分割指數進行劃分,Gini分割指數主要用于考察節點內n(n≥2)種樣本的差異。針對整個樣本訓練數據集DT,DL部分一共包含n個條件屬性,那么Gini指數可以定義為:

(5)

式中:Pm為決策屬性值m在訓練樣本DT中的相對概率,如果集合DT中共有t條訓練數據,在l1的條件下分成DT1和DT2兩部分,數據條數分別為t1和t2,那么這個Gini分割指數就是:

(6)

以遞歸的方式針對每個屬性值嘗試劃分,意圖找到使得Gini分割指數變量最大的一個劃分,該屬性值劃分到的子樹即為決策樹構造階段的最優分支。

高校教師亞健康評估CART算法的決策樹構建過程采用遞歸函數的方式,將全部樣本數據集的80%作為訓練數據集進行決策樹構建。建模具體實現過程首先找到一個劃分值,若不存在,返回-1,然后判斷當一個樹不是葉子節點時則按照劃分值進行劃分。設計并實現SHTreeCons類,如圖3所示,該類圖展示用于構造決策樹模型的基本方法。其中,SHTreeBuild方法通過調用劃分方法對非葉子節點進行劃分;TreeDivid方法是節點劃分方法,劃分左右節點;AttriCho方法針對輸入的考察節點進行屬性值的選擇;GiniSeg方法用于計算Gini分割指數對構造樹進行最優劃分;TraverTree方法用于構造決策樹的模型。

圖3 亞健康決策樹構建類圖

構造決策樹模型的核心算法SHTreeBuild函數的偽代碼描述如下:

輸入TreeNode

輸出無

步驟1遍歷所有節點,當節點不為空時,循環執行步驟2~5,否則跳出結束程序;

步驟2變量nodeCount增1,且將其賦值給當前節點的nodeCount,樹遍歷排序;

步驟3調用AttriCho方法進行屬性值劃分確定并將該劃分添加到節點屬性中;

步驟4如果該節點屬性劃分值為-1則無法再次劃分,將其定為葉子節點,返回步驟1;

步驟5若節點屬性劃分值不為-1,則執行步驟6~8;

步驟6將該節點定為非葉子節點;

步驟7調用TreeDivid方法,將父節點按照劃分屬性進行劃分;

步驟8通過遞歸方式調用函數SHTreeBuild分別建立左子樹及右子樹,返回步驟1。

TreeDivid函數針對對輸入的樣本變量進行基于Gini分割指數的最優劃分,若劃分成功返回屬性下標,否則返回-1。nodeCount在該函數中能夠支持樹的遍歷,對每一個節點賦予唯一值,樹模型的構建過程是采用前序遍歷。當建樹結束后,樹的前序輸出結果即為nodeCount從小到大的排序,然后通過TraverTree函數輸出樹的中序序列以確定樹的結構。其中,nodeCount和leavenode同時還將支持后續的樹模型優化剪枝過程。

2.3 決策樹優化剪枝算法

采用CART算法的后剪枝方法在已構建的決策樹模型基礎上,通過刪除節點分支來剪去樹節點。

CART利用成本復雜度標準是在已有分類樹的加權錯分率基礎上,加上對樹的懲罰因子。其中,懲罰因子包含一個復雜度參數a來表示每個節點的懲罰代價。成本復雜度的數學表達為:

Ca(T)=C(T)+a×|Tnum|

(7)

式中:C(T)是測試數據被已生成的樹模型T錯誤劃分的部分;Tnum是已生成樹T的葉子節點個數;a是每個決策點懲罰代價,a=2(n-1),其中n為分類數。若a=0則表示對該樹絕大多數的節點沒有懲罰,其成本復雜度是未剪枝的樹。通過剪枝算法,從剪枝得到的優化樹模型中選取測試數據集上具有最小誤分的樹作為最終優化的決策樹模型。

高校教師亞健康評估CART算法的決策樹優化過程將全部樣本數據集剩余的20%作為測試數據集進行決策樹剪枝。設計并實現SHTreePrun類,如圖4所示,該類圖展示用于對決策樹模型進行剪枝的基本函數。其中,SHPrun函數為剪枝函數,利用測試數據集對已生成的樹模型進行剪枝;TraverLevel方法通過層次遍歷對決策點進行序號分配,以便用于剪枝函數處理;ErrTest方法通過考察不同決策點下建樹樣本產生的錯誤樣本個數,其中參數t為決策點的數目;DesTest函數根據具體的某個決策點對測試樣本集進行測試,其中參數k為單個樣本,t為決策點數目。

圖4 亞健康決策樹剪枝類圖

對于剪枝算法來說,首先要考慮獲取已生成樹的決策點,才能根據決策點數目進行剪枝。利用二叉樹具有非葉節點與葉節點之間差1的特性,可計算得到非葉結點數量。利用層次遍歷對決策點逐層賦值,其中根節點nodeCount賦值為1,左節點nodeCount賦值2,葉子節點nodeCount為0。

層次遍歷后根據決策點數量,改進決策樹前序遍歷,確定葉子節點,從而確定模型樹的結構。然后,根據樹的決策點數對訓練樣本和測試樣本的誤差進行統計。不同決策點對應不同子樹,通過前序遍歷可以將葉子節點中的錯誤樣本統計出來計算該樹模型錯誤樣本的個數。接著,利用測試樣本對樹模型進行遍歷,統計修正后測試樣本錯誤樣本個數。最后,得出最小誤分樹結果集。

3 模型實現與驗證

基于上述高校教師亞健康決策樹模型構建思路,在學院實驗室機房進行主機運行環境的搭建,采用開源的操作系統和相關開源開發資源進行運行環境的部署,利用Spark計算框架進行亞健康評估決策樹構建的分布式并行實現。

樣本數據方面基于多維亞健康影響因素,抽取2016年3月至2017年3月的258例教師基本數據。決策樹CART算法的參數設置為:樹結構最大深度為5,父節點最小個案數為5,子節點最小個案數為1,Gini系數的最小變化值為0.000 1,在樹的構建過程中排除缺失值[15]。對48個影響因素進行決策分析,歸納出模型的評估規則。根據該算法得到的輸出結果數據部分內容展示如圖5所示。其中node表示節點序號,根據算法可知序號越小越接近根節點,序號越大越接近葉子節點;split表示分割點屬性及其劃分閾值;n表示該分割點屬性下一共具有的數據量;loss表示該屬性下未得到目標決策值的數據量;SHval表示該條件屬性特征值下得到的決策屬性值;最后,SHprob為該分割點特征值下各決策值的占比。

圖5 CART算法決策樹建模結果

該決策樹模型通過CART算法的構建和剪枝優化處理,最終確定了14個屬性作為亞健康評估的條件屬性,見表2。

表2 決策樹模型亞健康評估條件屬性

該決策樹模型共產生了32個葉子節點,其中10個葉子節點利用J表示評估結果為健康狀態;6個葉子節點,利用B表示評估結果為疾病狀態;16個葉子節點,利用Y表示評估結果為亞健康狀態。該決策樹基于大數據,既能夠歸納出影響亞健康的主要因素,也能夠總結出評估亞健康狀態的規則,為未來的智能亞健康檢測評估系統與智能亞健康監視預測系統的應用開發提供基礎。

為了驗證基于CART算法的高校教師亞健康決策模型的有效性和準確率,其中選擇43名教師作為實驗對象,利用高校教師亞健康模型對該實驗對象進行教師健康狀況的評估及預測實驗。評估實驗結果健康人數4人,亞健康人數33人,疾病人數6人。

根據WHO(世界衛生組織)權威發布,全球人類亞健康狀態比例為75%。利用本文方法預測得到的高校教師亞健康比例為76.7%,見圖6。這一結果與全球亞健康比例組成非常接近,說明該方法具有一定的準確率。且通過觀察該數據略高于全球普通人群,進一步闡明高校教師工作性質將帶來一定的身心壓力,高校教師群體相對普通人群更加具有亞健康風險。

圖6 分類樹結果比例

除此之外,利用文獻3中提出的基于流行病學調查問卷傳統方式針對這43名教師進行亞健康狀態評估的對比實驗。如圖7所示,經統計利用傳統方法得到的健康狀態分類結果與本文提出的方法得到的分類結果數據僅在亞健康與疾病狀態的分類部分差異極小。進一步證明該方法能夠有效指導高校教師亞健康狀態的預測。與傳統方法相比,具有更加良好的即時性和操作簡易性。

圖7 決策樹模型與傳統方法比較

4 結 語

利用CART算法針對高校教師亞健康狀態決策模型的建立進行了研究。設計了多維高校教師亞健康影響因素概念模型,以及分析了相應樣本數據的特征,實現了數據預處理的具體過程;利用CART算法給出了多維影響因素樣本數據下進行了決策樹的建模和優化方法。并且,設計了亞健康評估的系統架構,利用Spark進行了并行化的算法實現,并通過實驗對模型的有效性進行了驗證,為高校教師亞健康檢測評估、監視預測提供了良好的決策模型基礎。

猜你喜歡
亞健康高校教師模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
甩掉亞健康 我們在行動
少先隊活動(2018年5期)2018-12-29 12:12:58
3D打印中的模型分割與打包
高校教師平等權利的法律保護
學習月刊(2016年4期)2016-07-11 02:54:18
論高校教師的基本職業道德修養
人間(2015年19期)2016-01-04 12:46:58
豬群亞健康
《內經》治未病與亞健康的干預
兒童亞健康防治
主站蜘蛛池模板: 啪啪免费视频一区二区| 久久黄色小视频| 久久人人妻人人爽人人卡片av| yy6080理论大片一级久久| 强奷白丝美女在线观看| 国产99免费视频| 美女一区二区在线观看| 亚洲美女视频一区| 亚洲视频色图| 久久精品这里只有国产中文精品| 99国产精品免费观看视频| 人妻91无码色偷偷色噜噜噜| 一区二区三区国产| 欧美成人综合视频| 91极品美女高潮叫床在线观看| 狠狠五月天中文字幕| 丰满人妻一区二区三区视频| 久久毛片基地| 免费av一区二区三区在线| 国产成人亚洲综合a∨婷婷| 在线观看91精品国产剧情免费| 成人伊人色一区二区三区| 久久五月视频| 亚洲国产精品VA在线看黑人| 91无码国产视频| 国产不卡一级毛片视频| 午夜福利视频一区| 欧美国产日韩在线| 手机看片1024久久精品你懂的| 久久中文电影| 日韩精品中文字幕一区三区| 久久精品国产亚洲麻豆| 国产亚洲精品无码专| 国产区福利小视频在线观看尤物| 成人国产三级在线播放| 五月天综合网亚洲综合天堂网| 99尹人香蕉国产免费天天拍| 久久成人18免费| www成人国产在线观看网站| www.99在线观看| 在线另类稀缺国产呦| 欧美精品亚洲日韩a| 欧美色丁香| 亚洲啪啪网| 蜜臀AV在线播放| 久久综合九色综合97婷婷| 2021国产v亚洲v天堂无码| 婷婷色中文网| 狠狠做深爱婷婷综合一区| 欧美一级片在线| 日韩色图在线观看| www.91中文字幕| 日韩天堂视频| 91久久偷偷做嫩草影院免费看| 99偷拍视频精品一区二区| 亚洲国产欧美国产综合久久| 韩日免费小视频| 欧美另类精品一区二区三区| 精品欧美一区二区三区在线| 内射人妻无套中出无码| 亚洲无码37.| 亚洲国产综合自在线另类| 91av成人日本不卡三区| 亚洲精品无码成人片在线观看| 免费看av在线网站网址| 99视频精品全国免费品| 国产精品区网红主播在线观看| 亚洲日产2021三区在线| 欧美成人手机在线视频| 无码粉嫩虎白一线天在线观看| 欧美黄网在线| 日韩欧美国产精品| 免费毛片全部不收费的| 国产成人毛片| 成人日韩欧美| 亚洲国内精品自在自线官| 国产福利一区视频| 全午夜免费一级毛片| 亚洲色图另类| 99热这里只有精品国产99| 一本大道香蕉久中文在线播放| 99一级毛片|