999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

邏輯斯特模型在社會學量化研究中的應用

2011-10-18 10:31:54儲慶羅強強
統計與決策 2011年5期
關鍵詞:分類模型研究

儲慶,羅強強

(1.中央民族大學民族學與社會學學院,北京100081;2.安慶師范學院,安徽安慶246133)

邏輯斯特模型在社會學量化研究中的應用

儲慶1,2,羅強強1

(1.中央民族大學民族學與社會學學院,北京100081;2.安慶師范學院,安徽安慶246133)

隨著對社會科學研究科學性要求的不斷提高,越來越多的學者開始使用量化方法進行社會科學研究。從發表于國內學術雜志的一些量化研究文章來看,存在著諸多對量化研究的誤解和一些對統計模型使用和解釋上的偏差。文章以社會科學研究中最為常用模型—邏輯斯特模型為例,詳細解析了模型使用前提和參數意義,避免了科學方法的誤用。

科學方法;線性回歸;邏輯斯特;社會學

縱觀社會學學科重建30年來的發展,可以看出社會學研究中的科學性在不斷加強,尤其是從近七、八年來發表在《中國社會科學》、《社會學研究》中的社會學論文更可以看出這一明顯的趨勢。雖然很多研究者在實際研究中使用的一些統計模型,但是仔細研讀這些論文,還是會發現很多作者對一些模型的前提假設并不甚了解,對一些模型參數的實質意義與統計意義的區分比較模糊,這樣導致一些明顯有誤的解釋。本文將以在社會學量化研究中最為常用的模型之一邏輯斯特(Logistic)模型為例,系統分析社會學量化研究中模型使用的前提和參數的實際意義,避免科學方法的誤用。

1 線性回歸模型的回顧

1.1 線性回歸模型的基本假定

回歸分析是一種利用兩個變量或幾個變量之間的關系,從而一個變量(因變量、響應變量、結果變量)能被另一個或幾個變量(自變量、解釋變量、預測變量)所預測。線性回歸就是用一條直線來擬合一個變量與另一個或幾個變量之間的關系。線性回歸分析也是對數據的一種簡化。在線性回歸分析中,研究者利用自變量的一個線性函數來盡可能地預測因變量的一批觀測值。顯而易見,這種預測不可能完全準確。從形式上看,回歸分析將觀測值分解為兩個部分[1]:

因變量的實際觀測值=回歸線性方程所解釋的部分+隨機部分

回歸線性方程解釋的部分是研究者認為自變量與因變量之間存在的結構關系,隨機部分包括現有方程中未能包括的其它結構關系、測量誤差和“噪音”。對于個觀測值有:

對于方程(1)來說,xiβ相當于回歸線性方程所解釋的部分,亦即研究者假設的自變量與因變量的結構關系,εi為隨機部分。方程(1)是對所有觀測值的完全擬合,而研究者的目的在于對復雜社會現象的簡化,因此方程(1)只有理論意義,而無實際意義。

對于實際研究來說,不是預測具體的個觀測值,而是對一定條件下yi均值的預測,即E(y|xi)。為了簡化模型,必須對(1)式進行一些必要限制。

(1)隨機部分的期望為零,即E(εi)=0;

(2)隨機部分的協方差為零,即Cov(εi,εj)=0,i≠j;

(3)隨機部分等方差,即Var(εi)=σ2;

(4)隨機部分服從正態分布,即εi~N(0,σ2)。

在上述四項假定的情況下,我們可以得到關于E(y|xi)數學方程式:

由于因變量Y是隨機變量εi的線性函數,因此對εi的基本假定均適用于Y,只是Y的均值和方差與εi不一樣而已。

1.2 線性回歸模型的局限

線性回歸模型以其簡潔性和解釋的方便性,在實際生產生活中有著廣泛的應用。利用線性回歸分析,可以對數據進行描述,對生產過程進行控制和預測。在應用線性回歸模型時,研究者應對線性回歸模型的假定條件保持足夠警醒。現實中的大多時候研究不能直接應用線性回歸模型,需要對數據進行一定的變換。實際研究中,線性回歸模型的局限性主要表現在兩個方面。

(1)模型的基本假定不足

線性回歸模型最為基本的前提條件就是因變量與自變量之間的關系是線性。這一點在社會科學中不一定滿足。比如工作年限對收入的影響就不是線性,剛工作時收入會隨著工作年限的增長而增加,但到一定工作年限后收入會隨著年齡的增長而下降,這是一個二次曲線關系。線性回歸模型還假定因變量(也即殘差)之間互相獨立,且服從同一分布。在實際社會現象中,這項假定中的一項或幾項常常不滿足。比如社會科學中最為常見的收入變量,顯而易見的是剛開始參加工作的時候人們之間的收入差異比較小,工作一定年限后人們之間的收入差異會加大——收入作為因變量不符合等方差的假設。遇到類似不符合線性回歸模型基本假定的時候,處理的思路有二:一是采用其它模型擬合數據;二是通過對數據進行適當的轉換,以使其符合線性回歸模型的基本假定。由于線性回歸模型具有的簡潔性和解釋的便利性,在可能的情況下,研究者都是采用后一種處理策略。比如對第一種情況,可以在工作年限變量上加上二次項,對于后一種情況,可以對收入取對數。如設收入為因變量y,工作年限為自變量x,若直接應用線性回歸有:

顯然(3)式不符合線性回歸的基本假定,為使其符合線性假定,作如下變換有:

令y'=1ny,x1=x,x2=x2,則有:

式(5)即是標準的線性回歸方程。

(2)與社會現象的實際狀況不符

所謂與社會現象的實際狀況不符常常是與線性回歸模型的基本假定不符聯系在一起的。這種與社會現實狀況的不符,正是社會科學研究中廣泛采用Logistic模型的原因之一。由線性回歸方程可以看出,對因變量Y的取值沒有任何限制,即Y的取值區間在[-∞,+∞]。但是,研究者所關注的一些社會現象常常是“是”和“否”的問題,即0和1變量。比如研究人們的婚姻意愿,研究者關心的結果只有兩個取值:結婚和不結婚。在此情況下,若強行應用線性回歸模型,有可能使因變量取值超出[0,1]的取值區間,沒有實際意義。面對這種情況,同樣有兩種方式出來:一是換模型,二是進行數據轉換。社會學研究中,最為常用的是進行邏輯斯特(Logit)轉換。

2 邏輯斯特(Logistic)回歸模型

Logit模型廣泛應用于社會科學和生物科學中,在人口學和流行病學研究時,對某一因素對某些結果的相對風險的評估中尤其有用。邏輯斯特轉換可以解釋為成功對失敗之發生比的對數,下面將從最簡單的二分類變量開始對這一模型進行探討。

2.1 二分類變量的邏輯斯特回歸模型

2.1.1 Logit轉換

在社會科學研究中,研究者面對的因變量很多時候是分類變量。最常見的分類變量就是二分類變量,又稱(0,1)變量。習慣上二分類變量的結果通常被描述為成功或失敗,比如一個高中畢業生能否上大學:上大學了就是成功,賦值為1,未能上大學認為是失敗,賦值為0。對于二分類因變量,研究者的目標是以一組自變量為條件來估計或預測成功或失敗的概率。這樣問題就轉化為,對概率p的回歸分析。

由于概率取值區間是[0,1],因此直接對概率進行線性回歸肯定不合適。這就要求能通過某種方式,對概率p進行轉換,使得轉換后的一個關于概率p的函數符合線性回歸的基本假定,從而進行(廣義)線性回歸分析。Logitic回歸模型就是對概率p進行Logit轉換,轉換的公式為:

公式(6)可以看作廣義線性模型框架內的一個鏈接函數,得到的Logti模型為:

對(7)式進行變換,即可得到概率p:

經過Logit轉換后,對于x和β的所有可能取值,概率p始終在區間[0,1]內。隨著p接近0,Logit(p)趨近于-∞;隨著p接近1,Logit(p)趨近于+∞。使用一般化線性模型理論的術語,則Logit鏈接使模型在未知參數上呈現線性形式。

2.1.2 比數、比數比和相對風險

從一般線性回歸模型的角度來思考,則得到事件的概率即8式后,似乎研究者的工作已經結束。Logistic回歸模型之所以在社會科學得到非常廣泛的應用,一個重要的原因在于logit(p)可以很容易的擴展為用來描述某一群體相對于另一群體的成功的比數之比。

⑴比數

在社會科學研究中,研究的興趣可能并不主要在于事件發生的概率。比如還以前述上大學為例,研究的目的不在于一個人上大學的概率是多少,更令人感興趣的問題時上大學與不上大學的兩組人之間比較。上大學與不上大學的概率比為pi/(1-pi),由1.6式可知,這恰好是logit轉換。比數定義為一個結果的概率對另一個結果的概率之比,公式為:

⑵比數比

線性回歸模型的目的是在于用自變量來預測因變臉。線性回歸模型得到極大的采用,就在于回歸系數解釋的簡潔性和實質性意義:在保持其它自變量不變的情況下,回歸系數代表某一自變量增加一個單位因變量的增加量。Logistic回歸模型中的系數是否也具有類似的意義呢?

假設要研究性別與個人是否上大學的關系,Logit模型如下:

p為上大學的概率,xsex為性別,男性=1,女性=0,βkxk為其它控制變量。

研究者關注的是男女兩性在上大學這一事件上是否有差異。分別令xsex=0和1,可以得到關于男性和女性上大學的對數比數的線性回歸方程:

為得到男性與女性上大學的差異,將(12)式減去(11)式,有:

對(13)式進行變換:

ωm/ωf即為比數比,比數比具有與線性回歸系數類似的意義:在保持其它變量不變的情況下,男性上大學的比數是女性上大學的比數的expβ1倍。

⑶相對風險

比數比是與相對風險概念密切聯系在一起,從理解上來說,相對風險的概念要比比數比的概念更為直觀,更容易理解。風險是指在一定時間間隔內(通常稱之為暴露期——explore)的概率。比如,假設100個人抽煙的人處在患肺癌的風險之中,觀察10年,發現有15人得了癌癥,則風險是15/ 100,或0.15。假定要研究抽煙與肺癌之間的關系,前述觀察的100人均分為兩組,結果發現控制組(戒煙)得肺癌的有5人,實驗組(不戒煙)得肺癌的10人,則可以兩組患肺癌的相對風險為:

若以前述的比數比的概念構造,則為:

事件發生的概率很小的時候,即r戒煙→0,r不戒煙→0,比數比將非常接近于相對風險。而在生物統計學和流行病學中的患病研究時,患病率一般來說都是非常小的,因此比數比的概念得到了廣泛的應用。對于社會科學的研究者來說,弄清楚相對風險的概念,有益于加深對比數比涵義的理解。

2.2 多項邏輯斯特回歸模型

前面討論的只是二分類變量的Logit模型,從思路來說很容易將之擴展到一般分類變量(分類類別≥3)的情況,需要注意是,當涉及到3個或以上的分類時,需要考慮這些類別之間是否包含序次信息。

2.2.1 多分類定類變量的Logit回歸模型

假設因變量分為三個類別,三個類別的概率分別記為:p1,p2,p3。與二分類變量略微不同的是,對于多分類變量,研究者需要先確定一個參照組。為不失一般性,這里制定第一類別為參照組。則可以建立多項邏輯斯特回歸模型:

系數的解釋與二分類變量類似,只是此事的比數比是相對于參照組的比數比。

2.2.2 多分類定序變量的Logit回歸模型

當分類變量是定序變量時,當然也可以不考慮其包好的次序信息,直接應用上述定類變量的Logit回歸模型。考慮變量自身的次序信息后,可以有三中稍微不同的處理方式。

⑴基線Logit模型

基線Logit模型實質與定類的Logit模型一樣,只是在選擇參考類別時,會考慮到序次信息,一般選擇最低或最高序次作為參照。

⑵相鄰Logit模型

相鄰Logit模型的基本想法是比較一對相鄰的類別,一般式可以表達為:

⑶累積Logit模型

累積Logit模型是用累積概率來計算比數,以某一類別為分界點,計算其上的概率與其下的概率的比率,一般表達式為:

3 小結

以上只是從便于理解和實際應用的角度,對邏輯斯特模型在社會學量化研究中的分析。在分析的過程中,筆者的分析始終圍繞兩方面來進行。第一,構建模型的目的是什么,或者說模型的適用范圍是什么?第二,這一模型解決問題的基本思路是什么?至于模型背后復雜的數學推導過程,則不在本文論述之列。這兩點本質上也是對利用模型進行量化研究的研究者的根本要求。研究者只有明了模型前提條件和基本思路,才能在實際科學研究中應用自如。否則,只能是照貓畫虎,得出一些令人啼笑皆非的所謂研究發現。

在終極的分析中,一切知識都是歷史;在抽象的意義下,一切的科學都是數學;在理性的基礎上,所有的判斷都是統計學(C.R.勞,2004:2)。不僅是社會學的量化研究,可以說所有的科學研究,在其最為本質的意義上都是對復雜的社會現象進行簡化和抽象。因此,在構建模型的時候,不能本末倒置:社會現象本身是“本”,模型是“末”。換句話說就是,模型只是對現有觀測數據的一種擬合——即使模型對數據完全擬合,也可能該模型是對現象本身的歪曲。

[1][美]丹尼爾·A.鮑威斯(Daniel A.Powers),謝宇[M].分類數據分析的統計方法,2009.

[2]郭志剛主編.社會統計分析方法——SPSS軟件應用[M].北京:中國人民大學出版社,1999.

[3]王濟川,郭志剛.Logistic回歸模型:方法與應用[M].北京:高等教育出版社,2001.

[4][美]C.R.勞.統計與真理——怎樣運用偶然性[M].北京:科學出版社,2004.

[5]王靜龍,梁小筠編著.定性數據統計分析[M].北京:中國統計出版社,2008.

[6]張堯庭等編著.定性資料的統計分析[M].廣西師范大學出版社,1991.

[7]Darrell Huff.How to Lie with Statistic[M].New York:W.W.Noton &Compand,1993.

[8]Kutner.AppliedLinearRegressionModels(4thEdition)[M].New York:McGraw-Hill Companies,2004.

(責任編輯/浩天)

C91

A

1002-6487(2011)05-0023-03

教育部人文社會科學研究資助項目(09YJC850006)

儲慶(1981-),男,安徽岳西人,博士生,研究方向:社會學理論與方法。

羅強強(1981-),男,寧夏西吉人,博士生,研究方向:環境社會學。

猜你喜歡
分類模型研究
一半模型
FMS與YBT相關性的實證研究
遼代千人邑研究述論
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
分類討論求坐標
數據分析中的分類討論
主站蜘蛛池模板: 久久久国产精品无码专区| 亚洲中字无码AV电影在线观看| 激情综合网激情综合| 日韩毛片基地| 日韩A级毛片一区二区三区| 欧美精品在线观看视频| 好吊色妇女免费视频免费| 无码一区二区三区视频在线播放| 2021精品国产自在现线看| 亚洲伊人久久精品影院| 18禁高潮出水呻吟娇喘蜜芽| 尤物午夜福利视频| 亚洲欧美日韩色图| 国产一国产一有一级毛片视频| 亚洲码一区二区三区| 国产精选自拍| 日韩午夜伦| 高清无码不卡视频| 丁香五月激情图片| 色亚洲成人| 视频一本大道香蕉久在线播放 | 五月激激激综合网色播免费| 99re经典视频在线| 一区二区三区四区日韩| 最新加勒比隔壁人妻| 国产精品观看视频免费完整版| 人妻精品久久无码区| 国产aaaaa一级毛片| 激情网址在线观看| 亚洲午夜片| 国产成人精品男人的天堂| 亚洲伦理一区二区| 精品视频在线观看你懂的一区| 色综合天天娱乐综合网| 亚洲综合色婷婷中文字幕| 九色在线观看视频| 国产成人av一区二区三区| 国产精品.com| 国产女人18毛片水真多1| 一本大道香蕉高清久久| 国产爽妇精品| 欧美成人午夜在线全部免费| 亚洲一级毛片在线观| 女人18毛片水真多国产| 米奇精品一区二区三区| 日韩欧美中文字幕在线精品| 亚洲国产高清精品线久久| 暴力调教一区二区三区| 免费国产不卡午夜福在线观看| 青青热久麻豆精品视频在线观看| 免费国产不卡午夜福在线观看| 国产欧美中文字幕| 欧美成人影院亚洲综合图| 国产美女主播一级成人毛片| 久久久精品久久久久三级| 91精品伊人久久大香线蕉| 鲁鲁鲁爽爽爽在线视频观看| 久久不卡国产精品无码| 一本大道AV人久久综合| 国产美女在线免费观看| 欧美日韩高清在线| 成人福利在线观看| 亚洲日韩AV无码精品| 尤物精品国产福利网站| 激情乱人伦| 成年A级毛片| 日韩精品成人网页视频在线| 国产97色在线| 99视频在线看| 精品综合久久久久久97超人| 国产精品不卡片视频免费观看| 亚洲欧美另类日本| 99久久国产精品无码| 青青青亚洲精品国产| 天天做天天爱天天爽综合区| 国产真实乱子伦精品视手机观看 | 免费不卡在线观看av| 亚洲一级毛片免费观看| 中国一级毛片免费观看| 无码中字出轨中文人妻中文中| 亚洲色偷偷偷鲁综合| 五月婷婷丁香色|