方杰 肖海君 譚濤



摘? 要:在屠宰環節豬進行肺部病變評分(lung lesion scoring,LLS),有助于更全面完整地評估和預測豬場呼吸道疾病及其造成的經濟損失。評估結果的科學性和準確性一方面取決于評分的方法和流程,另一方面取決于采樣是否隨機、樣本數量是否足夠。文章旨在基于正態分布的基本原理,初步探索豬肺部病變評分中所需要的最小采樣數量。
關鍵詞:正態分布;呼吸道疾?。环尾吭u分;最小采樣數量
中圖分類號:S851.31+3 文獻標志碼:A? ? ? ? ? 文章編號:1001-0769(2024)02-0116-05
1? 正態分布是自然界常見分布規律
所謂正態分布是指某一個數量指標在諸多隨機無關聯的因素影響下,最終呈現正態分布,用圖形表示像一個鐘,中間高、兩端逐漸對稱減少。用一個簡單的例子來解釋,影響人身高的因素有很多,如遺傳、營養、運動、疾病等,而通過分析大量的身高數據后,發現各個年齡段的男性和女性身高數據分別表現出正態分布的特性[1-2]。這一規律的發現是一個漫長的、逐漸發展的過程,最早可以追溯到1733年,De Moivre和Stirling兩位科學家通過計算賭博概率問題的思考,偶然間得到了正態分布的數學公式雛形,后來Laplace進一步完善了該公式,建立了第一代中心極限定理——De Moivre-Laplace中心極限定理,當時沒有人會把這個數學公式、定理和自然規律相聯系。高斯運用正態分布規律,準確地預測了天文學天體出現的時間。人們逐漸在生物、醫藥、建筑、經濟等各個領域都觀察到了正態分布特性,并對數學公式、定理進行了持續的擴展和完善[3-4]。為了紀念高斯的偉大創新,德國10馬克紙幣上仍然印著高斯頭像和正態分布圖案。
2? 豬呼吸道等多種疾病發病情況符合正態分布規律
正態分布這一規律同樣適用于分析豬的疾病[5]。加拿大愛德華王子島大學大西洋獸醫學院的Hurnik等[6]研究了當地一家屠宰場的豬肺部病變,對地方性肺炎和胸膜炎進行了簡單肺部病變評分,根據每次的評分結果,通過統計學分析分別計算出每次暴發的地方性肺炎和胸膜炎的嚴重程度,并發現這個計算結果的數值趨向于正態分布;2005年,德國基爾大學畜牧業研究所的Karsten等[7]發現,豬從感染經典豬瘟到具有傳染性的時間間隔也呈正態分布;2016年,? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 美國明尼蘇達州立大學獸醫群體醫學系的Kinsley等[8]發現,豬感染口蹄疫后處于亞臨床感染階段的時間也呈正態分布。由于這是一種普遍現象,有的學者會對樣本數據進行正態分布驗證來判斷采樣是否合理,并選擇合適的統計分析方法[9-11]。
3? 如何通過有限樣本反映整個群體的信息
在實踐中,我們對未知群體的有限次數的采樣并不能總是做到近似擬合正態分布曲線,針對不同采樣群體大小和抽樣數量,出現了t分布檢驗、F分布檢驗、卡方分布檢驗等方法,這些分布都是基于正態分布公式改變了部分參數推導得到的。在Student t分布檢驗中,當每次抽樣數量達到30個及以上時,t分布近似于正態分布。至此我們又回到中心極限定理,經過了多代科學家的努力和完善,該定理在教科書上最終被描述為:從均值為μ,方差δ的總體中,抽取樣本容量n的隨機樣本,當n充分大時(通常要求≥30個),樣本均值的抽樣分布近似服從均值為μ,方差δ/n的正態分布。這個定理告訴我們,對于符合正態分布規律的大數據樣本,采樣數越大就越能反映樣本總體的信息,同時應盡可能讓每次抽樣的數量達到30以上[4]。
4? 肺部病變評分中采樣數量與正態分布擬合度關系的模擬試驗
在開展肺部病變評分時,我們會對每次肺部病變評分中多個肺臟得分數據進行統計學計算得到一個實變指數,范圍為0~6,根據這個范圍,我們接下來將用R語言去模擬采樣數量和正態分布的擬合度關系,以便驗證每次采樣數量達到30個以上是否必要。基本思路是,使用Set.seed(789)語句固定隨機序列,然后按照樣本數生成0~6范圍的符合正態分布的隨機數,由此生成的隨機數相當于我們每次肺部病變評分后得到每個肺臟數據,生成一次隨機數相當于做了一次肺部病變評分,生成500次就相當于做了500次肺部病變評分。最后,我們比較在樣本數量不同和肺部病變評分次數不同的情況下,數據與正態分布曲線的擬合度。
為了方便理解,將代碼簡化,并以每次采樣30個肺臟,做了500場肺部病變評分的模擬分析代碼作示例(圖1),通過調整n和m的參數獲得圖2中的9個直方圖(圖2)。
結果顯示,在采樣數量較少(每次5個肺臟)的情況下,進行10場肺部病變評分的結果與正態分布差異較大;隨著開展場次的增加,情況略有改善,但在該情況下即使開展500場的肺部評分,所得結果也不能較好地擬合正態分布曲線;在采樣數量為每次15個肺臟的情況下,10場肺部病變評分的結果依然與正態分布差異較大,開展了100場后,情況有所改善,當開展500場后所得結果已經與正態分布曲線擬合較好;在采樣數量為每次30個肺臟的情況下,完成10場肺部病變評分的結果與正態分布曲線的擬合情況已經遠遠優于5個和15個采樣數量,開展了100場肺部病變評分后,已經能較完美擬合正態分布曲線(圖2)。
5? 從肺部病變評分實踐數據中探索正態分布和采樣數量的關系
截止2023年7月底,我們在全國開展了134場次豬肺部病變評分,大多數采樣數量在30個以上,但也遇到特殊情況造成采樣數量不足的,在這種有限的采樣數量和開展次數中,我們嘗試去進行一些分析比較。考慮到需要在同等開展次數下比較樣本量差異的影響,我們在樣本量20以下的、樣本量20~29的和樣本量30以上的肺部病變評分活動中各選擇28場次進行正態分布分析。結果顯示,從直方圖上樣本量30以上的結果更趨向于正態分布,20~29樣本量略差,0~20樣本量幾乎不表現正態分布趨勢;從RJ(Ryan-Joiner,RJ)指標看,該值越接近1則與正態分布曲線擬合度越高,也是隨著樣本量增加而更接近1(圖3)。
6? 結果與討論
模擬分析結果表明,當開展肺部病變評分次數不足時,盡量需要采樣30個以上肺臟才能得到對豬群有代表性的分析結果;當開展的次數足夠多時,每次采集15個樣本也可以達到近似效果。然而,在實踐中,盡管我們期望肺部病變評分是持續開展的;但是,在國內當前情況下,某一家豬場想要持續開展100場甚至以上的肺部病變評分是有一定難度的;在實際屠宰環節,因為各種各樣的原因影響樣本采集數量,但每場肺部病變評分要盡量采30個以上肺臟樣本是非常關鍵和必要的。
參考文獻
[1] BURMASTER D E,MURRAY D M.A trivariate distribution for the height, weight,and fat of adult men[J].Risk Anal,1998,18(4):385-389.
[2] 劉?;ǎ筮B地區健康成年人人體測量指標的調查[D].大連:大連醫科大學,2011.
[3] 陳希孺.數理統計學簡史[M].長沙:湖南教育出版社,2000.
[4] 李金昌.神奇的正態分布[J].中國統計,2020(9):28-30.
[5] PASMA T.Spatial epidemiology of an H3N2 swine influenza outbreak[J].Canadian Veterinary Journal La Revue Vétérinaire Canadienne,2008,49(2):167-76.
[6] HURNIK D,DOHOO I R,BATE L A.Types of farm management as risk factors for swine respiratory disease[J].Preventive Veterinary Medicine,1994,20(1/2):147-157.
[7] KARSTEN S,RAVE G,KRIETER J.Monte Carlo simulation of classical swine fever epidemics and control Ⅱ.Validation of the model[J].Veterinary Microbiology,2005,108(3/4):199-205.
[8] KINSLEY A C,PATTERSON G,VANDERWAAL K L,et al.Parameter Values for Epidemiological Models of Foot-and-Mouth Disease in Swine[J].Frontiers in Veterinary Science,2016,3:44.
[9] SHEN H,WANG C,MADSON D M,et al.High prevalence of porcine circovirus viremia in newborn piglets in five clinically normal swine breeding herds in North America[J].Preventive Veterinary Medicine,2010,97(3/4):228-236.
[10] KWAK S G,KIM J H.Central limit theorem: the cornerstone of modern statistics[J].Korean Journal of Anesthesiology,2017,70(2):144-156.
[11] ISLAQM M R.Sample size and its role in Central Limit Theorem (CLT) [J].2018.