王曉燕,李曉萌,陳 虎,張揚鴿,高 捷,張慶麗,彭燕梅,穆立娟,孟召學,王 琳,陳芳芳,涂燕暉
(1.首都兒科研究所附屬兒童醫院保健科,北京 100020;2.南京未來網絡產業創新有限公司,江蘇 南京 210000;3.清華大學附屬北京市垂楊柳醫院兒科,北京 100022;4.北京市石景山區婦幼保健院兒童保健科,北京 100040;5.北京市懷柔區婦幼保健院兒童保健科,北京 101400;6.北京市房山區婦幼保健院兒童保健科,北京 102400;7.北京市通州區婦幼保健院兒童保健科,北京 101100)
兒童應該是消費品質量問題的重點保護對象。隨著科學技術的發展,消費品的功能和結構日益復雜,其中各種化學物質包括揮發性的有機溶劑,如苯、二甲苯、乙酸乙酯等,以及可遷移的重金屬如鉛、鎘、砷等可能給人體帶來急性中毒、化學灼傷、過敏[1]等損害,也可因長期低劑量暴露增加患病風險[2],甚至影響兒童的行為發育[3]。消費品中的有毒有害物質對于人體的暴露途徑一般包括經呼吸道吸入、經皮膚接觸和經口攝入3 種。兒童相對于成年人自我防護意識差,更容易發生經手接觸、經口啃咬物品的行為,且通常較為隱匿,但卻是兒童重金屬中毒的重要危險途徑[4]。因此,為減少兒童因消費品暴露而導致急性、亞臨床、慢性或延遲的不良健康影響,有必要對兒童使用消費品時是否發生啃咬行為進行風險預測,以幫助醫生和家長進行評估并采取預防措施。
傳統行為心理學的分析是基于統計學展開的,解釋性好,但重復和預測性差。深度學習算法預測性能好,但其解釋性差。而機器學習(machine learning,ML)正好兼具可解釋性和預測性都較好的優勢,在心理行為分析領域已得到推廣和應用。本研究采用基于機器學習的最大梯度提升算法(extreme gradient boosting,XGBoost)、隨機森林(random forest)、決策樹(decision tree)、邏輯回歸(Logistic regression)、貝葉斯網絡(Bayesian network)和支持向量機(support vector machine,SVM)6 種算法構建預測模型,這6 種算法均可以預測兒童使用消費品時是否發生啃咬行為,并且定量給出群體風險因素的貢獻值。
本研究以2019 年12 月至2020 年11 月在北京市6所醫療機構兒童保健科就診的1 803 例兒童為研究對象。納入標準:參加常規體檢的兒童;其本人或者監護人能正確回答調查問卷有關問題。排除標準:有重大疾病史、先天性疾病者;監護人不能進行正常交流者。根據兒童使用消費品時是否發生啃咬行為分為有啃咬行為組(n=617)和無啃咬行為組(n=1 186)。本研究方案已獲得首都兒科研究所倫理委員會批準(倫理批號SHERLL2019005),所有研究對象的監護人均簽署知情同意書。
采取問卷調查兒童主要照顧者關于兒童的社會人口學信息(年齡、性別、民族、居住地、受教育水平等),8 類兒童玩具和文具消費品(軟塑料玩具、塑料拼插玩具、塑料玩具、含有涂層玩具、金屬玩具、地墊、書寫筆和橡皮)的使用行為和習慣,主要照顧者的社會人口學信息,對兒童的陪伴程度,對化學物質知識內容的了解、接受培訓和關注程度等。
調查問卷的設計經過兒童保健專業、流行病學專業人員審核,并采取預調查進行校驗;調查過程中由經過培訓的醫務人員作為調查員,對參與調查的家長進行統一問詢;采用EpiData 錄入軟件對數據進行雙錄入。共發放問卷1 824 份,回收1 824 份,問卷回收率100%。最終用于分析的樣本數為1 803 份,問卷有效率為98.8%。
采用SPSS 20.0 軟件進行統計分析,符合正態分布的計量資料如年齡等用均數±標準差(±s)表示,組間比較采用t檢驗;計數資料以頻數和構成比(%)表示,組間比較采用χ2檢驗。以兒童使用消費品時是否發生啃咬行為作為因變量,以啃咬行為影響因素的單因素分析篩選出的指標為自變量,應用SPSS Modeler18.0 和6 種機器學習算法完成各個影響因素的重要性的量化分析,并采用多因素Logistic 回歸分析篩選關聯指標,以P<0.05 為差異有統計學意義。
應用Python 3.6 分析,加載sklearn、XGBoost、shap、imblearn 和matpltlib 等第三方模塊,完成兒童使用消費品時是否發生啃咬行為的預測。從1 803 例樣本中隨機無放回抽取20%作為測試集,測試集其中正樣本84 個,負樣本281 個。余下的1 438 例樣本采用Borderline-SMOTE2 進行上采樣算法,最終得到正負樣本均為1 101 個且比例1:1 的訓練集,以提高正樣本的查準率,且增強算法模型的泛化能力和效度。6 種機器學習模型進行200 次獨立的實驗,獲得一個定性評估指標ROC 曲線和定量評估指標曲線下面積Carea under curve,AUC、靈敏度、特異度。使用單因素ANOVA 檢驗比較6 種機器學習算法的性能,確定預測效度最高的算法,以P<0.05 為差異有統計學意義。
最終獲得有效問卷1 803 份,1 803 例兒童中男925 例(51.3%),女878 例(48.7%),年齡1 個月~12.80 歲,平均年齡(3.89±3.35)歲。
單因素分析顯示,兒童的年齡和受教育水平,主要照顧者的身份、年齡、受教育水平、職業、對兒童的陪伴程度、對化學物質知識了解程度、接受化學物質知識內容培訓的程度、選購兒童消費品時對化學物質的關注程度,父親職業和母親職業共12 個特征與兒童使用消費品時發生啃咬行為有關,P<0.05,見表1。
表1 有啃咬行為組與無啃咬行為組的特征比較[±s,n(%)]Table 1 The characteristics of object mouthing behaviors group and non-object mouthing behaviors group[±s,n(%)]

表1 有啃咬行為組與無啃咬行為組的特征比較[±s,n(%)]Table 1 The characteristics of object mouthing behaviors group and non-object mouthing behaviors group[±s,n(%)]
特征兒童年齡(歲)兒童受教育水平散居托幼機構小學主要照顧者年齡(歲)主要照顧者父母祖父母保姆其他主要照顧者受教育水平小學及中學大專及本科碩士及以上主要照顧者職業未就業事業單位專業技術人員商業服務業人員技術工種人員合計3.89±3.35有啃咬行為組(n=617)1.96±2.49無啃咬行為組(n=1 186)4.89±3.30 χ2/t 21.171 314.384 P<0.001<0.001 952 443 408 43.24±13.33 504(52.94)63(14.22)50(12.25)43.29±13.77 448(47.06)380(85.78)358(87.75)43.21±13.09 21.171 13.549<0.001 0.004 1 098 670 29 6 342(31.15)261(38.96)13(44.83)1(16.67)756(68.85)409(61.04)16(55.17)5(83.33)7.332 0.026 753 918 132 284(37.72)294(32.03)39(29.55)469(62.28)624(67.97)93(70.45)23.296<0.001 836 290 230 105 342 333(39.83)88(30.34)72(31.30)32(30.48)92(26.90)503(60.17)202(69.66)158(68.70)73(69.52)250(73.10)

續表1
2.3.1 構建6 種機器學習模型的流圖
構建6 種機器學習模型的流圖見圖1。

圖1 構建6 種機器學習模型的流圖Fig.1 The flow graph to construct 6 machine learning models
2.3.2 基于ROC 曲線的各模型預測性能比較
將XGBoost、隨機森林、Logistic 回歸、貝葉斯網絡和SVM 模型在測試集中進行內部驗證。AUC 的算法優劣排序為:XGBoost>隨機森林>Logistic 回歸>決策樹>貝葉斯網絡>SVM,見圖2。

圖2 各模型在測試集的ROC 曲線分析Fig.2 ROC curves of 6 models in the test set
2.3.3 基于定量標準的模型選擇
共進行200 次實驗,每個算法可以得到200 個混淆矩陣,均值見圖3。基于AUC 比較各模型預測能力差異具有統計學意義(F=2 749.701,P<0.001),LSD 多重比較排序:XGBoost>隨機森林>Logistic回歸>決策樹>貝葉斯網絡>SVM,見表2。
表2 各模型預測能力比較(±s)Table 2 Comparison of the predictive ability of each model(±s)

表2 各模型預測能力比較(±s)Table 2 Comparison of the predictive ability of each model(±s)
標準AUC準確度靈敏度特異度XGBoost 0.939±0.012 0.891±0.015 0.771±0.012 0.928±0.015 SVM 0.772±0.026 0.796±0.012 0.233±0.015 0.969±0.017隨機森林0.935±0.010 0.883±0.015 0.833±0.015 0.898±0.014 Logistic 回歸0.921±0.013 0.855±0.019 0.879±0.020 0.847±0.018決策樹0.911±0.014 0.866±0.020 0.838±0.021 0.874±0.018貝葉斯網絡0.893±0.015 0.780±0.013 0.870±0.015 0.751±0.017

圖3 平均混淆矩陣Fig.3 Average confusion matrix
2.4.1 基于SPSS Modeler 影響因素分析
SPSS Modeler18.1 結合XGBoost 等機器學習算法可以量化各影響因素重要性。為了進一步考察6種算法集成篩查影響因素的效果,將各算法的量化結果進行均值聚合,得到各影響因素重要性比例的均值,分別為兒童年齡(34.33%)、主要照顧者陪伴程度(20.33%)、主要照顧者對化學物質知識了解程度(20.17%),見表3。
2.4.2 多因素Logistic 回歸影響因素分析
Logistic 回歸模型結果見表4。綜合表3 和表4 結果,最終確定兒童年齡(OR=0.721,95%CI=0.683~0.761)和受教育水平(小學:OR=0.244,95%CI=0.170~0.352;托幼機構:OR=0.171,95%CI=0.124~0.235)、主要照顧者對化學物質知識了解程度(了解一點:OR=0.679,95%CI=0.466~0.990;大部分了解:OR=0.519,95%CI=0.325~0.830;非常熟悉:OR=0.262,95%CI=0.093~0.739)、主要照顧者陪伴兒童的程度(經常陪伴:OR=0.471,95%CI=0.347~0.639;偶爾或基本不陪伴:OR=0.214,95%CI=0.144~0.318)、母親職業(商業服務業人員:OR=0.479,95%CI=0.234~0.980;事業單位:OR=0.403,95%CI=0.231~0.705;技術工種人員:OR=0.432,95%CI=0.249~0.750)是發生啃咬行為的主要影響因素(P<0.05)。

表3 啃咬行為影響因素的重要性聚合*Table 3 Aggregation of the importance factors influencing object mouthing behaviors

表4 啃咬行為影響因素的Logistic 回歸分析Table 4 The Logistic regression analysis of influencing factors of object mouthing behaviors
傳統心理行為學的分析大多是基于統計學展開的,強調對行為的解釋,而對行為的預測不夠重視。引入以預測為目標的機器學習可以提供新的思路和研究方法。Yarkoni 等[5]認為心理學工作者如果更強調預測,可以有助于理論模型的發展,從長遠看很有可能幫助解釋行為的成因。其次是傳統心理學分析存在“可重復性危機”[6-8]。除了采用更加嚴謹研究設計和恰當統計方法進行數據分析和解讀外,從探索數據規律和趨勢,運用機器學習算法為研究的可復制性提供更大可能性[9]。本研究結合兒童的社會人口學信息、玩具和文具消費品的使用情況、化學物質知識普及情況等信息,應用基于機器學習的XGBoost、隨機森林、Logistic 回歸、貝葉斯網絡和SVM 算法構建預測模型,比較對兒童使用消費品時是否發生啃咬行為的預測價值,在AUC、靈敏度和特異度方面表現良好,對兒童行為研究和風險預測有實際的意義。
機器學習是統計學、人工智能和計算機科學交叉的應用領域,選擇正確的機器學習算法并不容易。研究者需要結合已獲得的數據的數量、類型和質量等方面綜合考慮,通過對各算法之間進行比較,選出合適且滿足研究需求的算法,最終提高大多數問題的預測準確性[10]。Moon 等人[11]以分類決策樹為分析方法,以青少年受欺凌為指標,確定最佳危險因素和保護因素。Sauer 等人[12]通過隨機森林算法完成了正念練習者和非正念練習者的分類。Sajjadiani 等人[13]從申請者的工作申請文件中發展可解釋變量,包括工作經驗、任期歷史等,然后使用貝葉斯網絡、Logistic 回歸、隨機森林和K 最近鄰等算法建立比較模型,最終確定貝葉斯網絡模型預測申請者未來的工作表現和離職意向的準確度最高。有研究顯示XGBoost 算法的計算效果甚至可以媲美需要耗費大量計算資源的深度神經網絡[14]。本研究結果也提示對于兒童使用消費品時是否發生啃咬行為的預測效能,XGBoost優于隨機森林、Logistic 回歸、決策樹、貝葉斯網絡和SVM 模型。
本次調查結果顯示不同年齡和受教育水平下,兒童啃咬消費品的行為均有發生。但隨著年齡增大、接受集體教育機會增多,啃咬的情況逐漸減少。一項薈萃分析顯示,在3 個月至6 歲的兒童中,發生啃咬物品的頻率最高的是6~23 個月的嬰幼兒[15],與本研究結果相似。因此低年齡仍然是健康教育的重點實施對象。家庭養育環境對兒童早期心理行為發展的影響是多方面的。良好的家庭養育環境有助于兒童早期認知、社會情感、人格發展、和行為能力的發展[16]。本研究中主要照顧者對化學物質知識的了解程度影響兒童使用消費品時是否發生啃咬行為。兒童普遍缺乏自我保護意識,對化學物質的知識知之甚少,因此提升家長的安全意識和知識可間接影響孩子的行為習慣,可降低兒童以及家庭面臨的安全風險。主要照顧者每天或經常陪伴及母親未就業的情況下兒童啃咬行為的發生率反而增高,可能的原因是一方面照顧者監管兒童使用消費品的頻率越高,則發現兒童不良行為的概率越大;另一方面,照顧者每天陪伴兒童的時期多為嬰幼兒期,而這也同時是兒童發生啃咬物品行為的高峰時期。同樣,事業單位、商業服務業人員和技術工種人員的母親因工作原因缺少時間和精力與孩子在一起,也影響了她們對兒童不良行為的關注。
在后續研究中,可增大樣本量并擴增風險因素,例如兒童使用消費品時的異常動作和情緒,主要照顧者的親子互動行為和心理因素以增強算法模型的預測效度和篩查出其他潛在的高風險因素。