戴建國 楊劍紅



摘 要: 針對分類數據模型的誤差不滿足正態分布,Logistic分布等常用分布,而是滿足極值分布這類特殊情況時,采用互補雙對數模型進行分析。以R語言作為分析工具,并將其與幾種常用模型進行對比分析,結果表明互補雙對數模型優于其他模型。
關鍵詞: 互補雙對數模型; R語言; 有序分類
中圖分類號: O 212.1 文獻標志碼: A 文章編號: 1671-2153(2017)04-0087-03
1 問題提出
大數據時代,數據挖掘與數據分析過程中遇到的數據類型主要有連續型,離散型,以及混合型,其涉及的方法眾多,如機器學習,深度學習等。當然,對于離散型數據,回歸模型也是比較流行的統計分析方法之一,而且在多數情況下,因變量有可能是有序二分類或多分類的離散型變量,在醫療衛生統計或社會統計尤為常見,如對某事的評價可能分為不好、好、非常好這樣三個等級。對于這類數據常用的模型有Logistic回歸模型(包括累積Logistic,鄰近Logistic等模型),Probit回歸模型,但它們分別是假設模型誤差分布是Logistic分布和正態分布的,而有些情況誤差并不滿足這樣的假設,其誤差分布是非對稱的極值分布或稱Gumbel 分布[1]。如某年某河面最高水位這樣一個極值,這時需要尋求一個更為有效的模型,此時采用互補雙對數線性模型與其他幾種模型進行對比分析。并且近年來R語言已成為當下最流行做數據分析和挖掘的工具之一,它不僅有豐富的函數包,而且能與Hadoop,Python等軟件結合,使得成為重要的數據分析工具。下面基于R語言用互補雙對數模型對一組實際數據進行對比分析。……