渭南市疾病預防控制中心(714000) 焦莉萍 郭晶晶 楊云云 魏明敏 劉 瑋 張系忠 沈 托 苗美榮
【提 要】 目的 使用決策樹中的分類方法CHAID模型和logistic回歸模型分析影響生活飲用水水質的相關因素,并比較兩種模型分析結果的異同。方法 采用分層隨機抽樣的方法對渭南市2015-2017年452座集中式供水水廠的相關因素進行分析,并用受試者工作曲線(ROC)評價兩種預測模型的效果。結果 logistic回歸分析結果顯示,消毒方式、正式運營時間、總投資和供水覆蓋人口是水質不合格的影響因素,工程不消毒、工程運營時間越長,水廠規模(總投資和供水覆蓋人口)越小,水質不合格率越高。決策樹CHAID模型分析結果顯示,消毒方式、總投資、供水覆蓋人口、正式運營時間、監測點類型是水質不合格的影響因素,工程不消毒是水質不合格的主要影響因素。決策樹模型ROC曲線下面積稍大于logistic回歸模型(0.725 vs 0.701,Z=3.623,P<0.001)。結論 CHAID決策樹模型在水質影響因素風險評估方面有一定的應用價值,與logistic回歸模型結合應用可從不同方面對水質影響因素進行分析預測,為后期飲用水的監管工作提供一定的科學依據。
決策樹法(decision tree)可以彌補傳統統計學分析方法的缺陷和不足[1]。決策樹方法能自動檢測并估算出眾多自變量之間的交互效應,且不受多重共線性的影響,還可以更好地處理極值和缺失值[2]。本文用logistic回歸分析法和決策樹CHAID法對水質結果的影響因素進行分析,對渭南市水質監測結果現況調查數據建立決策樹模型與logistic回歸模型,并對兩者分析結果進行比較。
1.研究對象
采用分層隨機抽樣的方法,選取2015-2017年渭南市臨渭、澄城、合陽、大荔、蒲城、富平、白水、華陰、華洲、潼關10個縣(市、區)108個鄉鎮的452座農村集中式供水水廠進行分析,這些水廠均為監測點,分別在豐水期和枯水期取1份出廠水和1~2份末梢水進行監測,共2539份水。檢測項目包括感官指標、一般化學指標、毒理學指標和微生物指標。
2.研究方法
依據GB 5749-2006生活飲用水衛生標準,對生活飲用水常規項目及氨氮進行檢測并判定結果,水質監測結果設置為因變量,合格賦值0,不合格為1。本文收集了影響水廠水質的因素:水源類型、水期類型、消毒方式、監測點類型、正式運營時間、總投資、日供水能力、供水覆蓋人口數、衛生許可、水樣類型,將這些因素設為自變量,根據自變量與因變量的特征,選擇決策樹CHAID法與logistic回歸分析法對影響因變量的因素進行分析。
3.統計分析原理
根據飲用水檢測結果及其相關因素分別建立決策樹CHAID模型和logistic回歸模型,比較分析結果的異同。CHAID即chi-squared automatic interaction detector,卡方自動交互探測[3]。CHAID法會產生多個樹節點,在每一個節點會有不同數目的分支來分割數據,用來建立決策樹;其分類的原理則利用卡方檢驗進行檢測分支,根據得到的P值來決定是否仍繼續進行分支。logistic回歸屬于傳統型統計學分析方法,屬于概率型非線性回歸[4],它研究自變量和因變量之間的依存關系,通過回歸分析進行變量的分類與預測。
4.統計分析
本文以水質監測結果為因變量(合格為0,不合格為1),對自變量進行量化賦值,采用SPSS 17.0統計軟件對資料進行CHAID算法分析和logistic逐步回歸分析,檢驗水準α=0.05。根據分析結果找出影響生活飲用水水質的重要因素。利用Medcalc 15.8軟件對兩種預測模型生成的預測值進行比較,以水質分析結果為狀態變量繪制logistic回歸模型和CHAID模型生成的受試者工作特征曲線(receiver operating characteristic curve,ROC),以此曲線判斷模型優劣,P<0.05為差異有統計學意義。
1.基本情況
2015-2017年共選取452座農村集中式供水水廠,根據相關因素對自變量進行賦值,水質監測結果設置為因變量。將水源類型、水期類型、消毒方式、監測點類型、正式運營時間、總投資、日供水能力、供水覆蓋人口數、衛生許可、水樣類型設置為自變量,并對變量進行相應的賦值,見表1。

表1 飲用水水質影響因素賦值表

表2 飲用水水質影響因素單因素分析結果

表3 飲用水水質結果和多因素logistic回歸分析
2.單因素分析
單因素分析結果顯示,消毒方式、監測點類型、正式運營時間、總投資、日供水能力、供水覆蓋人口等6個自變量對水質結果的影響有統計學意義,將這6個自變量納入logistic回歸模型和CHAID模型中。水源類型、水期類型、衛生許可、水樣類型共計4個自變量對水質結果的影響差異無統計學意義,予以排除,見表2。
3.多因素logistic回歸分析
將影響水質結果的6個相關因素用最大似然估計的向前逐步回歸法進行分析,在α進入=0.05,β剔除=0.10的條件下進行,通過回歸模型檢驗χ2=239.352,P<0.001,表明回歸方程有統計學意義,分析結果見表3。該模型錯誤分類率為27.8%,分類效果較好。由表3可見,有4個因素進入回歸方程,渭南市生活飲用水水質受到消毒方式、正式運營時間、總投資、供水覆蓋人口的影響(P<0.05),監測點類型、日供水能力被剔除。其中消毒方式對水質的影響程度最大。通過分析得知工程不消毒、工程運營時間越長,水廠規模(總投資和供水覆蓋人口)越小,水質不合格率越高。
4.決策樹CHAID模型分析
如果在某節點不存在有統計學意義的進一步劃分,則在此節點停止分支成為葉節點[5]。該決策樹模型最大樹深度為3,父節點為100,子節點為50,產生的終末決策樹模型見圖1。水源類型、水期類型、衛生許可、水樣類型、日供水能力被剔除出該模型。

圖1 CHAID方法對飲用水水質結果影響因素分析的分類樹型圖
通過分析得出決策樹模型錯誤分類率28.3%,分類能力較好。影響水質結果的有消毒方式、總投資、供水覆蓋人口、正式運營時間、監測點類型。決策樹第一層為消毒方式,表明消毒方式與水質結果的相關性最高,消毒后水質合格率(81.1%)比不消毒的水質合格率(61.9%)高;在消毒飲水工程中供水覆蓋人口大于1000人的工程水質合格率(86.7%)高于少于1000人的飲水工程(63.6%)。在大于1000人的供水工程中農村飲水工程水質合格率(90.8%)高于城市飲水水質合格率(62.3%);在不消毒的飲水工程中總投資大于1000萬的工程水質合格率(81.9%)高于總投資小于1000萬的飲水工程水質合格率(52.8%)。在所有供水工程中運營時間越久的工程水質合格率越低。
5.兩種模型預測能力評估
兩種模型的分析結果顯示,水源類型、水期類型、衛生許可、水樣類型在兩方法中均被排除,均顯示此四種因素均不是水質結果的影響因素。logistic回歸模型中的影響因素包括日供水能力,然而在決策樹模型中被剔除。決策樹類型中有監測點類型,而在logistic中被剔除,顯示了兩模型的不同之處。
logistic回歸模型預測準確率為72.2%,靈敏度為64.83%,特異度為67.95%,約登指數32.8%,ROC曲線下面積為0.701(95%CI0.682~0.718)。決策樹模型的預測準確率為71.7%,靈敏度為81.13%,特異度為55.57%,約登指數36.7%,ROC曲線下面積為0.725(95%CI 0.707~0.743)。決策樹模型曲線下面積高于logistic回歸模型,兩個模型的ROC曲線下面積之間的差異有統計學意義(Z=3.623,P<0.001)。兩模型的預測效果為中等(0.7~0.9)(圖2)。

圖2 logistic回歸與CHAID模型的ROC曲線對比圖
決策樹是一種通過樹狀圖來表現數據受各變量影響情況的分類預測模型,不但可以篩選主要影響因素,還能清晰展示變量之間交互作用的功能,并可以根據對目標變量產生效應的不同而制定分類規則,它是建立在信息論基礎之上對數據進行分類的一種方法[6]。從統計學角度來說,決策樹屬于非參數統計,其打破了傳統的線性處理方式,消彌了變量間的共線性,避免了復雜參數估計來解釋變量間關系而不能用函數表達的分類問題[7]。本文將決策樹模型與多因素logistic回歸模型互為補充,以此來充分解釋變量間的關系。
本研究首次使用CHAID模型與logistic回歸模型對2539份飲用水進行分析研究。通過研究發現應用logistic回歸和決策樹兩種方法對水質相關因素進行分析,兩種方法分析結果較一致,消毒和水廠規模為主要影響因素。在兩種模型中消毒方式都是影響水質結果的首要因素,消毒后的水質合格率81.1%,遠高于不消毒的水質合格率61.9%。可見消毒與否是影響水質的首要因素。由于農村條件參差不齊,部分農村集中式供水的消毒設備因經濟因素無投資,考慮到消毒方式的重要影響,相關部門應將專項資金撥款用于進一步完善消毒設備配備及使用情況,購買消毒劑及設備、管道更新和配備,提高水質合格率。
在決策樹CHAID模型的構建過程中,總投資、供水覆蓋人口作為連續變量進入模型,軟件自動將研究對象分割為兩部分,總投資分為1000萬內和超過1000萬兩個子群,說明以1000萬為分割點;覆蓋人口分為小于1000人和大于1000人,說明以1000人為分割點,這樣能最大限度提高決策樹模型信息增益率,實現分類效率最大化[8]。決策樹模型的第二層顯示,水廠規模(總投資和供水覆蓋人口)越小,水質不合格率越高。在不消毒的供水工程中,總投資越小水質不合格率越高,其原因可能是總投資高的水廠規模大,各項設備設施和人員管理方面都比較規范,相對于大投資水廠,低投資水廠各方面比較欠缺,更容易導致水質不合格。在消毒供水工程中,供水覆蓋人口越大,水廠規模就越大,水廠管理更規范,水質合格率就高。決策樹模型的第三層顯示,運營時間越久的工程水質合格率越低。調查中發現渭南市集中式供水工程制水工藝比較陳舊,供水管網老化,輸水管網的管材以金屬為主,管網腐蝕和金屬析出現象嚴重,是造成水質微生物、金屬等指標超標的一個重要原因[9]。大于1000人的消毒供水工程中,農村供水工程水質合格率高于城市供水工程。一個原因是城市飲水工程基數(樣本)較少,導致水質合格率低;另一個原因可能是城市管網復雜、老化,施工或材料的問題加上使用時間過長,造成水質差。
logistic回歸的優勢是在分析水質的合格率與各自變量的依存關系時,是在控制其他變量的情況下來分析某種變量的作用,主要反應某變量的主效應,而在自變量對因變量變化關系方面的信息比決策樹模型充分。但logistic回歸在反應變量間的交互作用上不如決策樹模型的效果好。而決策樹模型表現出大量的交互作用后,卻無法反映因素的主效應和疊加效應[10],有研究表明[11-13],在實際應用中應將兩者結合,可以最大限度地發揮決策樹與logistic回歸兩種模型的優越性;利用決策樹的直觀效果、易解釋、生成部分分類規則的優點,結合logistic回歸模型給出每個變量的參數估計值以及假設檢驗結果的優點[14],通過logistic回歸模型篩選主效應變量,再利用決策樹模型進一步研究變量間的交互作用[15]。
在本項研究中兩種預測模型的準確率均達到70%以上,模型效果較好。決策樹模型的靈敏度、約登指數高于logistic回歸預測模型;logistic回歸預測模型的特異度、準確度高于決策樹模型。ROC曲線一般位于機會線的上方,因此AUC在0.5到1之間,面積越接近1,說明模型的判別效果越好[16]。logistic回歸模型ROC曲線下面積為0.701,決策樹模型ROC曲線下面積為0.725。兩模型比較Z值為3.623,P<0.001,表明二者差異有統計學意義,說明決策樹模型的評價效能優于logistic回歸預測模型。logistic回歸和決策樹的不同算法各有優勢[17-18],決策樹模型靈敏度較高,logistic回歸模型的特異度較高,兩者結合,將更加有助于找出影響干預效果的因素[19]。
本研究納入的影響水質合格率的個別變量結果無統計學意義,如水源類型、水期類型、衛生許可、水樣類型未納入預測模型。本文旨在為水質影響因素的研究提供新思路,水質好壞的影響因素眾多,CHAID決策樹模型在生活飲用水水質影響因素風險評估方面有較高的應用價值,其與logistic回歸相結合應用,能夠互相補充,從不同方面描述影響水質合格率的因素及作用,為進一步制定相關政策和方案提供依據和參考。