孫菀霞,金玉琴,戴穎秀,肖建偉,王 翔,董慶利,*
(1.上海理工大學醫療器械與食品學院,上海 200093;2.上海市楊浦區疾病預防控制中心,上海 200090)
單核細胞增生李斯特氏菌(Listeria monocytogenes,以下簡稱單增李斯特菌)是一種能夠引起人畜共患病的致病菌,廣泛分布于自然界,如土壤、污水、人和動物糞便以及多種食品中。由單增李斯特菌導致的李斯特菌病通常發病率低但后果嚴重,該菌可穿透腸道、血腦和胎盤三大屏障,引起人類腹瀉、腦膜炎、敗血癥等疾病[1-2],人類一旦感染死亡率高達20%~30%[3-4]。易感人群主要包括老年人、免疫功能缺陷者、孕婦及新生兒[5]。已有資料表明,單增李斯特菌的發病與即食食品有較大關系[6]。我國污染物監測網2010—2013年的資料[7-9]顯示,我國的即食涼拌菜、熟肉制品、生食水產品和豆制品均受到單增李斯特菌不同程度的污染,在對上述各類即食食品中單增李斯特菌的暴露情況進行初步風險分級和比較之后,散裝熟肉制品被認為可能是導致我國居民發生食源性李斯特菌病的主要食品類別之一。因此,對散裝熟肉制品中單增李斯特菌進行定量風險評估對減少食源性李斯特菌病的發生、保障消費者健康以及減輕國家經濟負擔具有一定意義。
1999年食品法典委員會制定的《微生物風險評估原則和指導方針》將微生物定量風險評估分為危害識別、危害特征描述、暴露評估和風險特征描述4 個步驟[10]。暴露評估作為風險評估的核心內容,其主要作用是在統計分布的基礎上對某個個體或群體暴露于致病菌的可能性及攝入的菌量進行估計[11-12]。進行暴露評估時,常用泊松分布描述菌落計數過程中的隨機性,用對數正態分布描述致病菌的濃度[13-14]。當同時考慮計數隨機性和污染水平變異性時,采用負二項分布或泊松對數正態分布進行描述[15-16]。在實際檢測中,受檢測方法所限,無法完全定量樣品中已存在的微量致病菌,當致病菌的含量小于定量檢測限(limit of quantification,LOQ)時就會產生左刪失數據[17]。此類數據實際上是由“陰性樣本”(真零值)和“假陰性樣本”(非零值)兩個部分共同構成,并通常均以“<LOQ”的形式表達。目前,在微生物定量暴露評估中,針對左刪失數據的常用處理方法是將缺失的數據以某種特定分布的形式代替[18-20]。然而,對于散裝熟肉制品中的單增李斯特菌而言,監測結果中的左刪失數據通常占據較大比例,并且包含大量的真零值,數據呈現出零膨脹現象[21],超出了傳統模型所能估計的范疇,造成實際數據與既定的傳統模型之間可能存在較大偏離,導致暴露評估結果不準確。另外,在單增李斯特菌的監測結果中除了零膨脹現象外,還常常出現過度離散的現象。若忽視這一現象也將導致不準確的暴露評估結果。
因此,本研究以上海市某區散裝熟肉制品中單增李斯特菌的定量檢測結果為例,探究不同概率分布的選擇對暴露評估結果的影響,以期提供較為理想的左刪失數據處理方法,提高風險評估結果的準確性,同時為風險管理提供可靠的理論依據。
2017年2—12月從上海市某區各大超市、農貿市場以及餐飲環節隨機采集散裝熟肉制品共254 份,每份樣品250 g(表1)。根據GB 4789.30—2016《食品安全國家標準 食品微生物學檢驗 單核細胞增生李斯特氏菌檢驗》進行單增李斯特菌定量檢測,并參照單增李斯特菌最可能數(most probable number,MPN)檢索表獲得單增李斯特菌濃度[22]。采集的樣品均置于干冰貯存箱內轉運至實驗室進行檢測,檢測結果可近似認為是零售階段散裝熟肉制品中單增李斯特菌的污染水平。

表1 2017年上海市某區不同時間散裝熟肉制品的采樣地點、采樣量及單增李斯特菌定量檢測結果Table 1 Sampling locations, number of samples and number of samples positive for L. monocytogenes in bulk cooked meat products in a certain district of Shanghai in 2017
根據254 份樣品中單增李斯特菌的定量檢測結果,分別選用泊松分布、負二項分布、對數正態分布、泊松對數正態分布及其零膨脹形式進行擬合,從而定量描述零售階段散裝熟肉制品中單增李斯特菌的污染水平。
1.2.1 標準統計分布
1.2.1.1 泊松分布
假設254 份散裝熟肉制品中單增李斯特菌的數量服從泊松分布(平均值等于方差),則其概率質量函數如式(1)[23]所示。

式中:Yi表示散裝熟肉制品中單增李斯特菌的定量檢測結果;λ表示樣本數據的平均值;Pr(Yi)為單增李斯特菌的概率質量。
1.2.1.2 負二項分布
當單增李斯特菌的檢測結果出現過度離散現象時,常用負二項分布取代泊松分布進行描述,其概率質量函數如式(2)[23]所示。

式中:α表示離散參數;Yi表示單增李斯特菌的定量檢測結果;Γ表示伽馬函數,即Γ(α)=∫∞0e-ttα-1dt;Pr(Yi)為單增李斯特菌的概率質量。
1.2.1.3 對數正態分布
對數正態分布作為一種連續型分布,可以對單增李斯特菌的濃度結果進行描述。當零膨脹數據過多時,該分布的估計值與實際值之間可能有較大偏離,其概率密度如式(3)所示。

式中:Yi表示單增李斯特菌的污染濃度;μ和σ分別為定量檢測結果的對數平均值和對數方差;Pr(Yi)為單增李斯特菌的概率密度。
1.2.1.4 泊松對數正態分布
統計學上,針對過度離散現象常用的處理方法是進行對數轉換。本研究選擇泊松對數正態分布描述不同樣本之間單增李斯特菌數量的變異性和不確定性,其概率質量函數如式(4)所示。

式中:Yi表示單增李斯特菌定量檢測結果的對數值;λ服從對數正態分布,即λ~Lognormal(μ,σ);Pr(Yi)為單增李斯特菌的概率質量。
1.2.2 零膨脹統計分布
零膨脹分布中小于LOQ的數值來源于兩種不同的過程:一種是由于樣本未被污染而表現出的真零值,其真零值的待估計概率用p0表示;另一種是由于檢測方法所限導致未檢出的數值。
1.2.2.1 零膨脹泊松分布
若散裝熟肉制品中單增李斯特菌的定量檢測結果出現零膨脹現象,且陽性數據服從泊松分布,則可采用零膨脹泊松分布進行描述,具體如式(5)所示。

式中:p0為“零膨脹參數”,表示真零值的概率;Yi表示單增李斯特菌的定量檢測結果;λ表示樣本數據的平均值;Pr(Yi)為單增李斯特菌的概率質量。
1.2.2.2 零膨脹負二項分布
若單增李斯特菌的陽性檢測結果出現偏大離差(方差大于期望),則需要將零膨脹泊松分布擴展到零膨脹負二項分布,其概率質量函數如式(6)所示。

式中:p0為陰性樣本的待估計概率;α表示離散參數;Yi表示單增李斯特菌的定量檢測結果;Pr(Yi)為單增李斯特菌的概率質量。
1.2.2.3 零膨脹對數正態分布
零膨脹對數正態分布概率密度函數如式(7)所示。

式中:p0為陰性樣本所占的比例;Yi表示單增李斯特菌的污染濃度;μ和σ分別為定量檢測結果的對數平均值和對數方差;Pr(Yi)為單增李斯特菌的概率密度。
1.2.2.4 零膨脹泊松對數正態分布
為盡可能縮小樣本檢測結果的離散程度,本研究選擇采用泊松對數正態分布描述陽性樣本間的變異性和不確定性,其零膨脹形式的概率質量函數如式(8)所示。

式中:p0為陰性樣本的檢出率;Yi表示單增李斯特菌的定量檢測結果的對數值;λ服從對數正態分布;Pr(Yi)為單增李斯特菌的概率質量。
標準統計分布與零膨脹分布的參數估計均可采用最大似然估計的方法。在進行參數估計時,泊松分布與泊松對數正態分布的差異在于是否進行模型參數λ的對數轉換,即λ的數值不同,因此本研究只給出泊松分布和零膨脹泊松分布似然函數的顯式。本節模型中模型參數的意義與1.2節相同。泊松分布、負二項分布、對數正態分布及其零膨脹模型的對數似然函數分別如式(9)~(14)所示。


式中:LLP、LLNB和LLLN分別為泊松分布、負二項分布和對數正態分布的對數似然函數;LLZIP、LLZINB和LLZILN別為零膨脹泊松分布、零膨脹負二項分布和零膨脹對數正態分布的對數似然函數。
在不考慮模型間關系的前提下,通過信息準則指標進行模型的選擇與比較。本研究選用被廣泛用于判斷模型優劣的赤池信息準則(Akaike information criterion,AIC)、貝葉斯信息準則(Bayesian information criterion,BIC)[24]。通過對每個模型計算AIC、BIC值并比較其大小,從而完成對模型的選擇。模型評價參數公式如式(15)、(16)[25]所示。

式中:LL表示模型對數似然函數的最大值;k1和k2分別為模型種參數的個數;n為樣本量。AIC和BIC值遵循取值越小模型越優的原則。
X2統計量是對于數據的分布與預期(或假設)分布之間差異的度量,因此,利用卡方統計量比較各個模型的優劣,如公式(17)[25]所示。

式中:k為總體被分成數據段的個數;Ni為第i個數據段中觀測的樣本數;Ei為第i個數據段中期望的樣本數。
采集254 份散裝熟肉制品進行單增李斯特菌定量檢測,陽性樣品的檢出時間及檢出地點如表1所示。40 份大型超市散裝熟肉樣品中均未出現單增李斯特菌陽性檢測結果。農貿市場和餐飲環節共檢出4 份陽性樣品。總體陽性檢出率為1.57%,由此可見,小于LOQ的樣本量占據較大比例,出現了零膨脹現象。
由表2可知,4 份陽性樣品中單增李斯特菌濃度的最小值和最大值分別為3.6 MPN/g和75.0 MPN/g,平均值為22.85 MPN/g,方差為1 215.69,單增李斯特菌陽性檢出結果出現偏大離差現象。

表2 2017年上海市某區散裝熟肉制品中單增李斯特菌抽樣調查的陽性檢測結果Table 2 Quantification of L. monocytogenes in bulk cooked meat samples in a certain district of Shanghai in 2017

圖1 泊松分布、負二項分布、對數正態分布和泊松對數正態分布擬合單增李斯特菌定量檢測數據的概率質量(或密度)Fig. 1 Predictive distribution of the L. monocytogenes contamination level as modeled by the Poisson, Negative Binomial, Lognormal and Poisson Lognormal models
如圖1所示,與對數正態分布和泊松對數正態分布相比,泊松分布和負二項分布有較高的預測零值。進行了對數轉換的標準統計分布所估計的陽性樣本污染濃度較高,且陽性率的估計值也高于泊松分布和負二項分布。
對單增李斯特菌污染水平進行擬合時,由于對數正態分布在零處無意義,因此,與其他標準統計分布估計的零值概率產生較大差異。由此可見,標準對數正態分布不適于估計低菌量條件下的污染水平。Gonzales-Barron等[26]利用對數轉換方法對牛胴體表面的大腸桿菌進行濃度估計時也得到相似的結論。

圖2 零膨脹模型擬合單增李斯特菌濃度的累積概率Fig. 2 Cumulative probability of L. monocytogenes MPN results as fitted by zero-inflated distribution
圖2描述了4 種零膨脹模型的累積概率,結果表明零膨脹模型比標準統計分布有更高的預測零值。零膨脹對數正態分布克服了其標準形式的不足,與帶有層次結構的零膨脹泊松對數正態分布得到的擬合結果相似。相比于零膨脹對數正態分布和零膨脹泊松對數正態分布,零膨脹負二項分布在一定程度上低估了單增李斯特菌的污染水平。
零膨脹泊松分布與其他零膨脹模型的累積概率產生較大差異,主要是因為該組數據的陽性檢測結果有偏大離差現象,而泊松分布只適用于擬合平均值等于方差的數據[27]。根據模型擬合結果可以推斷,4 種零膨脹模型均可以對左刪失數據的零膨脹現象進行準確的估計。

表3 基于散裝熟肉制品中單增李斯特菌定量檢測數據的參數估計Table 3 Model parameter estimates based on quantitative detection of L. monocytogenes in bulk cooked meat products
泊松分布、負二項分布、對數正態分布、泊松對數正態分布及其零膨脹模型的參數估計及擬合效果見表3。零膨脹參數p0顯著不為零,這進一步說明散裝熟肉制品中單增李斯特菌呈現零膨脹現象,同時也表明標準統計分布均不適合描述該組數據。另外,由模型評價結果可知,零膨脹泊松對數正態分布比其他零膨脹模型更適合擬合該組數據,說明單增李斯特菌的陽性污染水平出現偏大離差。
參照GB 29921—2013《食品安全國家標準 食品中致病菌限量》[28]規定的預包裝熟肉制品中單增李斯特菌限量標準,同時出于保護消費者健康的角度考慮,本研究將散裝熟肉制品中單增李斯特菌的風險閾值設定為不得檢出(每份樣品25 g)。由表3可以看出,零膨脹模型所估計的總體陽性檢出率均為2%,這與實際監測的陽性率(1.57%)接近。
本研究基于散裝熟肉制品中單增李斯特菌的定量檢測結果構建零膨脹模型,并與傳統模型進行比較,將擬合結果應用于單增李斯特菌的暴露評估中,為食源性致病菌檢測數據中出現的零膨脹和過度離散現象提供方法學支持。
研究發現,盡管泊松分布常作為描述食源性致病菌污染水平的假設統計分布之一,但是它對數據有著嚴格的要求[29-30],因此并不能較好地處理檢測結果之間的變異性。一般來說,當單增李斯特菌的檢測結果出現由較大變異性所導致的過度離散現象時,通常可以采用負二項分布和對數正態分布分別對菌落計數和污染濃度進行擬合[31]。然而,當數據中存在由零膨脹現象導致的過度離散現象時,則需要采用能夠準確描述陽性樣本變異性的零膨脹模型進行擬合。此時若依然選擇標準統計分布進行單增李斯特菌的定量暴露評估,不但會低估真實零值的概率,而且對于陽性樣本污染濃度較高的情況也無法作出準確估計。
通過分析不同模型對散裝熟肉制品中單增李斯特菌暴露水平的描述情況,可以看出:1)零膨脹模型處理左刪失數據的能力明顯優于標準統計分布;2)零膨脹模型可以同時估計陽性率和陽性樣本的污染水平;3)零膨脹模型污染濃度的參數估計值受LOQ影響小。因此,在進行暴露評估時,建議優先選擇零膨脹模型。另外,本研究無法區分零膨脹對數正態分布與零膨脹泊松對數正態分布的優劣。本研究中的擬合優度指標雖然顯示零膨脹泊松對數正態分布優于零膨脹對數正態分布,但是二者之間的差距不大。因此,在進行模型選擇時需更注重數據類型(離散變量或連續變量)及數據結構(零值的比例及來源)。