字星運
摘 要:隨著近年來信息時代的到臨,數據也變得越發的重要起來。逐漸,數據等級結構分析的方法開始出現,多層模型數據分析技術也隨之應運而生。顧名思義,多層模型是在單層模型技術分析的基礎上發展起來,也具有單層模型不可比擬的優勢,分析數據時多層模型比單層模型更加全面,實用性更加廣泛,使用起來也更加的靈活多變。本文將簡要的闡述多層模型在社會科學中的應用基本原理,以及使用多層模型所具有的優勢。
關鍵詞:多層模型;社會科學;應用
由于我國經濟的迅速發展,人口的轉移與遷移也越來越頻繁。一般進行人口普查的時候都會采取大規模的社會調查方法,多層次、分步驟的進行樣本的采集[1]。這樣,就是得到的人口數據龐大而具有層次性。運用以往的統計方法對這些數據進行分析的話,無法得到精確和準確的答案,因為,往往會將高層的數據與底層的數據混合在一起統計。為了得到更加科學、準確的數據分析,在社會科學領域中運用多層模型進行統計的方式就越來越受到關注了。
一、多層線性模型
在社會科學的研究中,收集而來的數據往往具有多層次的特點,不僅會描述調查個體的變量,還會出現更高一層的變量,這樣的變量一般都是以組合的形式出現[3]。具有這樣特點的結構數據在測量的時候可以看作為一個具有層次結構的數據,第一水平為測量的不同種類,第二水平為個體或組合,這樣重復的測量數據就擴大了多層模型的使用范圍。在社會科學領探究之中,像人口調查數據就是典型的分層數據,一般考慮的變測量為社會經濟地位,職業、住址等,第一水平的設定是每個公民個人,第二水平則是每個不同的社區。也就是說,對帶有層次特征的數據分別在每一個層級進行討論,并分別設立模型,再通過高層變量對底層方程的截距和變量施加影響來達到相互聯系的目的[2]。使用多層模型不僅能考慮到不同水平的變異,還能在模型的假設上與實際情況更加一致,并得出更加合理的答案,也更加正確的揭示了事物之間的變量關系。
二、多層線性模型運用的基本原理
多層模型運用的基本原理是:將變量中的變異分解為兩部分,一部分是同一個群體之中的個體差異;另一個部分則是不同群體之間的個體差異,通過分解變異區分多層模型中的群體效果及個體效果,并揭示群體與個體之間的變量關系[1]。
(一)無條件平均模型
比如人口普查,我國的人口普查是社區以家庭為單位的進行統計,最后匯總到統計局的數據往往都是具有家庭和社區兩層結構,社區由千萬個家庭組合而成,家庭由存在于各個社區之中,兩者之間任何一方產生變量另一方也隨之發生變化。首先對該數據進行無條件平均模型進行回歸分析,假設該模型沒有產生任何變量,然后運用公式進行數據的分析,然后要注意三個方面:第一,群體會因變量的變異而產生明顯的變異,在人口普查的時候,沒有被調查的或者是無法接受調查的社區層次的隨機變量的變異成分明顯不等于零時,那么因變量就會隨著群體的變異而變異,這個時候就需要使用多層線性模型分析了;第二,群體特征對因變量影響的大小;第三,自變量對因變量的解釋能力[4]。
(二)隨機截距模型
然后,在無條件平均模式中加入變量因素,探討個體和群體這兩個因素對因變量的作用。隨機截距模型主要體現的是每個層次的因素之間會缺乏互動性,主要是因為模型假設了因變量的截距會隨著群體的變異而變異,且每個群體的回歸斜率是固定的前置條件。另一種常用的多層模型則是隨機截距和隨機斜率相結合的模型。跟隨機截距模型的不同是,它不僅假設了截距會會因群體變異而變異,還假設了回歸斜率也會因群體變異而變異,這樣,就允許了不同層次之間的各個因素可以相互互動和影響。比如,在人口普查中,因變量為家庭背景和社區環境,在經過計算后,這個隨機的因變量值就可以成為統計人員估算社區環境對家庭影響大小的依據。另外,也可以根據這個因變量估算出,在同等的社區環境和家庭影響下,不同想的個體之間可能會存在相同的因素。
(三)隨機截距與隨機斜率模型
反過來,在一些情況下,個體的因素對因變量的影響可能會因群體的不同而不同,也就是允許群體擁有不同的截距和不同的斜率。套用中國的古話則是:近朱者赤近墨者黑。在每次人口普查統計后,統計人員都會發現,每個城市都存在著‘打工村這樣的情況。不僅是因為‘打工村社區本身就聚集了許許多多的外來務工人員,更是因為外來的務工人員在城市‘落腳的時候往往會因為自我對號入座的思想及‘打工村的‘名聲而選擇性的留在‘打工村。另一方面,城市的常住人口也會具有明顯的聚集性。這也就是說,個體的因素對因變量的影響很可能會因為社會環境的不同而不同。
三、多層線性模型的優勢性
將因變量的變異分解為群內變異和群間變異并將結果盡可能的標準化、精確化是多層模型的主要優點。運用多層模型,不僅可以分析出社區和假體因素對家庭個經濟地位的影響,還能探討出因變量的變異、自變量對因變量的影響和社區之間的關系,從而利于對人口的統計與管理,為城市發展導向提供了良好的依據[1]。
(一)多層模型具有區分不同層次因素對因變量的解釋能力
傳統的線性模型只能對樣本數據的一層進行分析,然而,在社會科學領域當中,研究意義更為重要的、更讓人引發興趣的是家庭層的變量與社區層的變量之間的交互作用。多層模型也許會因為數據的局限性和理論的局限性,在實際計算的時候往往會因為遺漏一些對家庭經濟地位至關重要的因素,導致計算出來的答案往往會出現不符合常理、不符合實際的情況。即使社區因素的解釋能力強,但是社區層次的隨機變量變異非常活躍,要求研究人員仍需要進一步的研究:是否需要在模型中加入其它的重要因素。但是,相對其它模型而言,多層模型能在發現新的重要因素使能隨時予以加入,并更加完善的表現出不同層次因素對家庭經濟地位的影響結果,并進一步的發展了社會科學領域研究模型,完善了研究理論學識,對社會科學領域的調查數據也更加精準,結論也更加準確、真實。
(二)多層模型運用范圍廣,使用比較的靈活
多層模型的運用范圍很廣,比如,在不同層次的數據調查中,同一個個體的特征在不同時間內調查會顯示其的共性關聯性,這樣,就違反了研究中的樣本獨立原則。那么,后期計算出的數據必然是不真實的,有些數據很有可能重疊計算了。經過研究,運用多層模型進行計算,將每個調查時間作為一個單獨的層次來處理就能克服調查數據的重疊問題、假如一個多層模型的縱向設計包括了家庭和社區,那么,在實際計算的時候往往要多加一個類別——時間。并且,多層模型的運用是非常靈活的,橫向的因變量不是一成不變的,可以根據社會發展中出現的新產物而進行編入,可以隨著時代的發展而不斷完善。所以,多層模型又稱之為“生長模型”。
四、結語
綜上所述,隨著社會的不斷發展,以及人口遷移的加快,對社會科學領域的研究也越來越深入。但是,社會科學是一門數據非常龐大,統計非常困難,穩定性特別弱的學科。導致社會科學研究人員在面對龐大的數據進行計算的時候,往往會因為公式的運用錯誤,或者是考慮的不周全而導致結論出錯,或者結論不夠精準。經過研究人員研究發現,運用多層模型進行數據統計是目前最良好的方式,不僅能得到可靠的假定檢驗和參數估計,還能使研究人員發現一系列傳統數據無法回答,但又具有重要意義的問題。(作者單位:德宏州宏康投資開發有限公司)
參考文獻:
[1] 楊菊華.多層模型在社會科學領域的應用[J].中國人口科學,2006,(3)
[2] 雷靂,張雷.多層線性模型的原理及應用[J].首都師范大學學報(社會科學版),2002,(2)
[3] 蔡永紅,姜勤德.統計在社會科學領域應用的新進展及反思[J].統計研究,2006,(2)
[4] 謝美華,黃友泉,董圣鴻等.多層多項Logit模型:原理與應用[J].心理學探新,2013,33(5)