張燕華 孫 超 馬 會 湯連升
(山東省藥學科學院新藥評價中心,濟南 250101)
生殖毒理學主要研究對雌雄生命生殖系統產生損害作用的原因、機制和后果,它包括對動物的精卵形成、交配、排卵、射精、合子形成、著床、妊娠、分娩和哺乳過程的毒理學作用,當具有生殖毒性的外源性物質在此期間與機體接觸,會影響動物的生殖發育,造成損害作用。藥物非臨床生殖毒性實驗則是研究藥物對動物生殖系統及其功能活動毒副現象和作用機制的具體方法和技術,其評價方法主要包括生育力與早期胚胎發育毒性實驗(生殖Ⅰ段毒性實驗)、胚胎-胎仔發育毒性實驗(生殖Ⅱ段毒性實驗)和圍產期毒性實驗(生殖Ⅲ段毒性實驗)[1-2]。
生殖毒性實驗動物數量多、過程繁瑣復雜、產生的數據量大、指標眾多及生殖毒性實驗產生的主要數據從傳統意義上可以劃分為計量資料和計數資料[3-4](表1),不同類型的數據具有不同的統計學方法。在做統計學分析時,需要根據數據的特點,選取合適的統計學方法,作出相應的統計判斷。

表1 實驗類別及數據類型分類
不同的數據分析應選用不同的統計方法,應根據數據類型以及數據是否服從正態分布、總體方差是否相等,進而選用適當的檢驗方法[5],表2列出了毒理實驗中常用的幾種統計方法[6-8]。通過以上對生殖毒性實驗中產生的數據進行歸納分析,得出生殖毒性產生的實驗數據主要分為母體數據和胎仔數據,根據不同數據的特點選擇合適的統計方法。
生殖毒性實驗一般包括對照組和受試物的高、中、低劑量組等,所以產生的母體計量資料屬于完全隨機設計的多樣本數據間的均數比較,可以選用方差分析進行多樣本數據間的比較。由于數據的分布特征會因不同的實驗、不同的時間測定出現不同的結果,所以應首先對這些數據進行方差齊性檢驗,而生殖毒性實驗中因每組動物受孕數量的不同,使得每組樣本數不同,所以不適于采用Hartevl最大方差比檢驗法,可以選用Bartlett檢驗或Levene檢驗(表2)。

表2 常用的統計方法及適用條件
若總體方差相等,則選用方差分析進行總體均數間的比較,若總體均數存在顯著性差異時,需進行兩兩比較,生殖毒性實驗只需比較各實驗組與對照組是否有差異,但若用t檢驗多重比較,可能把本無差別的兩個總體均數判為有差別,所以可選擇Dunnett-t檢驗進行多重比較。若總體方差不等,可用變量變換的方法或非參數統計方法進行統計分析,但用變量變換的方法使得結果的解釋不如原始觀測尺度方便,所以方差不齊時,一般選擇Kruskal-Wallis H檢驗方法,當檢驗結果存在顯著性差異時,應選擇非參數Dunnett-t檢驗法或Nemenyi法進行兩兩多重比較[7]。
生殖毒性實驗中產生的如生育率、受孕率、死亡率、早產率和流產率等屬于計數資料。這些數據因沒有等級要求且實驗組只與對照組進行比較,所以可根據總樣本數量或理論頻數選用χ2檢驗或Fisher確切概率法進行統計[6]。
2.3.1胎仔數據的特點:為了探索胎仔數據的特點,選擇生殖毒性Ⅱ段實驗中對照組和實驗組胎仔畸形的部分數據(表3)。采用SPSS中的Fisher確切概率法,以胎仔為單位對對照組(畸形數/正常胎仔數:2/67)和實驗組(畸形數/正常胎仔數:10/60)的畸形數進行統計分析,得到P<0.05,表明與對照組相比,實驗組的畸形發生率有統計學意義上的顯著性差異;但是以窩為單位,以SPSS中非參數秩和檢驗方法統計對照組和實驗組的畸形率得到P>0.05,表明實驗組的畸形率與對照組相比,未見統計學意義上的顯著性差異。

表3 胎仔數據實例1
以窩為單位和以胎仔為單位得出不一樣的結論,原因為實驗組的的胎仔畸形數大部分集中于F09號孕鼠的胎仔中,導致實驗組的畸形率僅F09較高,結果說明胎仔數據中存在窩效應,即實驗數據中存在孕鼠-仔鼠關系,由于同窩仔鼠接受的外界環境均相同,所以來自同一窩的仔鼠其體質量、身長和發育指標較所有仔鼠中隨機抽取的個體更為相似,即同窩仔鼠具有相似性和聚集性,數據是非獨立的[9-10]。若以每個胎仔作為實驗單位,這些非獨立的數據被誤認為成獨立數據,使得統計分析失去參數估計的有效性,增加犯假陽性的概率,并導致不合理的推斷結論[8,11],而且以胎仔為實驗單位時,畸形率比較小,數據的分布接近二項分布的極限泊松分布,所以只用計數資料的χ2檢驗不足以得出正確的統計結果。
針對窩效應的問題,胡麗娜[2]和管彤等[12]提出用窩平均法來統計胎仔數據,即將每窩比率作平方根反正弦變換后作參數方差分析或用非參數秩和檢驗的方法進行統計分析。這種以母體作為分析單元來進行組間分析的做法雖然考慮到了窩效應的存在,但是沒有考慮到窩大小的不均一性,假設實驗組窩內胎仔總數和畸形數均明顯多于相應對照組,而采用窩平均法則不能統計出這一差異性。如表4所示,實驗組的畸形數量明顯多于對照組,采用Fisher確切概率法,以胎仔為單位統計分析對照組(畸形數/正常胎仔數:3/96)和實驗組(畸形數/正常胎仔數:10/88)的畸形數,顯示與對照組相比,實驗組的畸形發生率有顯著性差異(P<0.05);但由于F10號和F14號孕鼠的胎仔總數較多,導致每窩畸形率差異不大,若以窩平均法采用非參數秩和檢驗的方法進行統計分析,與對照組相比,實驗組的畸形率未見明顯統計學差異(P>0.05)。另一方面,由于母體的觀察數量較少,以母體作為分析單元,會損失大量的數據信息,不能分析胎仔個體水平的變異,增加犯假陰性的概率[13]。

表4 胎仔數據實例2
2.3.2可用于窩效應的統計方法:目前,有研究[4,14]對處理這類多層次的聚集性數據提出了相應的統計方法,如隨機效應logistic回歸模型、廣義估計方程和多水平模型等。隨機效應logistic回歸模型:logistic回歸是研究二分類觀察結果與一些影響因素之間關系的一種多變量分析方法,生殖毒性實驗中的胎仔計數資料則為多變量數據。在對生殖毒性實驗胎仔計數資料進行分析時,所建立的隨機效應logistic回歸模型是針對窩效應的發生率不同和變異分布不同這一特點對logistic回歸的擴展,是帶有隨機效應參數的logistic回歸模型,通過對兩種模型進行擬合,假設隨機效應參數的大小,進而判斷檢驗資料是否存在窩效應,然后通過參數估計和回歸系數判斷各組間的差別[15]。這種方法可以檢驗資料是否存在窩效應,并在窩效應的前提下比較各組間的差別,降低犯假陽性錯誤的概率。
廣義估計方程(generalized estimation equations,GEE):是在廣義線性模型的基礎上發展起來的,可用于處理分析非獨立數據,在生殖毒性實驗的胎仔數據中,每窩胎仔之間存在組內相關性,可以通過等相關矩陣建立GEE-logistic回歸模型[16]。多水平模型可以用來處理具有層次結構的數據,生殖毒性實驗中胎仔數據有母體和胎仔兩個水平單位,對于這些非正態數據,可以建立兩水平logistic回歸模型,通過預測性擬似然法和二階近似法對模型進行估計,再通過Wald檢驗得出比較結果[16-17]。這兩種模型中兩水平logistic回歸模型可以方便的分解開兩水平上的殘差,便于考慮窩效應的具體影響。
這幾種統計方法雖然可以準確的統計存在窩效應的數據,但是這些方法過程復雜,需要借助像SAS、SPSS、SUDAAN等專業的統計軟件來處理[13-17]。為此,需要將百分率統計法和頻數計數統計相結合的方法來處理胎仔計數資料。首先計算每只母體的胎仔畸形率,將其合并到劑量組,因百分率數據的分布不服從正態分布,可采用非參數秩和檢驗方法,如果只有兩個實驗組,則直接用兩個獨立樣本比較的Mann-Whitney U檢驗進行統計分析;當實驗組數大于等于三個實驗組的時候,采用Kruskal-Wallis H檢驗。頻數計數統計法:即分別以窩為單位和以每個胎仔為單位匯總窩畸形頻數和胎仔畸形頻數后,將其處理為四格表資料,直接用Fisher確切概率法進行差異性統計。本文以表4數據為例,簡要介紹了其在SPSS19.0中的操作過程(表5)。這種方法在對結果進行分析時,需要綜合考慮兩種方法的統計結果,對結果的解釋沒有以上幾種方法直觀,但是這種方法在統計軟件中操作方便,簡單易懂,在對數據進行統計時,可以根據自身情況選擇合適的方法。

表5 SPSS操作過程
胎仔數據中還有像體質量、身長、胎盤質量、胎仔骨化數等一樣的計量資料,對于這些數據,可以選擇窩平均法對胎仔計量資料進行統計分析,也可以選擇前文提到的廣義估計方程和多水平模型來處理這些非獨立數據。
藥物安全性評價的目的為通過統計分析安全性評價實驗中產生的大量數據,得出藥物的毒性相關信息。生殖毒性實驗過程繁瑣復雜,實驗數據多樣,尤其是窩效應和窩大小的不均一性越來越受到研究者們的重視,所以對于實驗中產生的數據需要根據數據的特點選用合適的統計分析方法。生殖毒性實驗產生的數據可以根據數據的特點將其分為母體數據和胎仔數據,其母體數據可以按照常規的統計方法進行統計分析。窩效應的存在使得生殖毒性實驗中胎仔數據成為非獨立數據,可以選用本文提到的隨機效應logistic回歸模型、廣義估計方程和多水平模型等或者百分率統計和頻數統計相結合的方法對胎仔數據進行統計分析,并根據胎仔畸形的類型以及背景數據做出合理的判斷。