王博
(遼寧師范大學,遼寧 大連 116029)
最近幾年,隨著傳感器以及計算機技術的不斷進步,生活生產中各行各業的大數據越來越多,隨著數據的日益增多,逐漸引起了人們的關注。因為在這些數據中存在著大量的信息量,通過分析數據可以發現數據內部所隱藏的價值。那么如何來分析這些數據,這就需要一定的算法,合適的模型對數據進行處理,利用數據來估計模型中的參數,通過訓練好的模型對新的數據進行分析。在我們現實生活中的數據各種各樣,有可能是服從高斯分布,有可能服從二項分布,也有可能是多種模型的混合分布。在這些大數據中存在一種情況是,出現的零的個數過多,如果出現的零的個數超過了我們采用的模型的預測范圍,那么我們可以認為這些數據存在零膨脹的現象。最近一段時間,混合模型在金融數據、混合數據得到了大量的應用,該模型越來越受到數據挖掘研究者的關注。因此,開發合適的模型應用于零膨脹數據的情況具有非常重要的意義。
零膨脹負二項混合模型是處理數據中大量存在0的模型。在我們的生活中會存在大量存在0的數據,研究如何處理這些數據的算法從而對新數據進行預測顯得十分重要。這些數據廣泛存在于金融行業,保險行業。比如,我們在買新車的時候會對車買保險,保險公司會統計車主在這一年內的出險次數,這些出險次數數據有什么規律,由于對于新車出險的小的事故車主一般自己花錢就處理了,因為這樣的話第二年交的保險就是減少,因此如果事故金額小于第二年保險折扣省下的錢,車主一般會選擇自行處理,從這些數據上來觀察就是發現出險數據中存在大量的0的數據。因此需要開發合適的數據處理的模型對零項數據進行處理。
零膨脹負二項混合回歸模型是由零計數過程與負二項計數過程建立起的混合概率分布模型。零膨脹模型的基本思想為零數據來源為兩個過程,第一個過程來自數據只能取零,第二個過程數據服從某一分布,比如負二項分布,這個過程數據可以為為零也可以為正數。假設,整個過程服從伯努利分布,則零計數與非零計數的混合概率分布為:

其中,Pi第一個過程產生零的概率,g(Yi)是離散型的分布,比如負二項分布。yi的條件概率密度為:

如果第二個過程服從負二項分布,那么零膨脹負二項模型的表達式為:

參數估計最終通過模型估計算法對模型中的參數進行求解,常用的參數估計的方法有,極大似然估計法(MLE),貝葉斯估計方法以及EM算法。在這些算法當中,EM算法是應用較為廣泛并且估計精度較高的方法。EM算法是參數估計中的有效方法,EM算法為期望最大化算法,從本質上來說是一種迭代優化策略,通過E步(期望)與M步(最大化)步不斷估計模型中的參數,最終達到參數收斂的目的。EM算法最開始的時候是受到缺失值的影響,是為了解決缺失值影響下的參數估計問題。其基本思想為:首先是根據已經給出的觀測值來估計模型中的參數,然后,再根據估計出的模型中的參數求得缺失值的值,再根據新估計得到的缺失值與觀測到的數據重新對缺失值進行估計,通過這樣的方法反復進行迭代,直到參數最終達到收斂精度,由此得到最終估計的參數。
假設yi服從零膨脹負二項回歸模型退化分布,記ui=1;yi服從零膨脹負二項非退化分布時,記ui=0。記缺失數據Ym=(u1,u2,…un)T,觀測到的數據為yi
Xi,Wi為Y0,則Yc=(Y0,Ym),那么全部數據下的極大似然函數為:

通過EM算法估計極大似然函數中的參數,完成了參數的估計過程,即可對零膨脹負二項混合回歸模型進行建模分析。
在前面介紹了零膨脹負二項回歸模型的參數估計方法,通過該套系統的方法論可以應用到各種工程實踐方面中。下面介紹一個簡單的案例來說明零膨脹負二項回歸模型的應用。我們都知道,通過雷擊引起的火災的發生與氣象因子之間存在著一定的關系。通過收集某一地區的火災發生的數據與氣象數據對雷擊的發生與氣象因子之間的關系進行建模,然后通過EM算法對模型中的參數進行估計,在完成了建模之后可以通過觀察每天的氣象狀態對雷擊所導致的火災進行預測。
在我們的日常生活中存在著各種各樣的數據,如何利用這些數據,如何發掘數據潛在的價值具有十分重要的意義。這些數據中存在著0過多的這種數據,這些數據就是統計學中的零膨脹數據。零膨脹數據在工業、農業以及金融行業應用廣泛,結合零膨脹數據與負二項混合模型對場景問題進行建模分析并應用模型中的參數估計方法對模型中的參數進行估計。完成了建模分析之后,可以通過優化好的模型,對不同的應用場景進行預測性分析,這將會產生非常重要的應用價值。