梁玉成,賈小雙
中山大學 社會學與人類學學院,廣東 廣州 510275
社會結構是社會學的核心議題。作為社會結構最重要的維度,階層結構的研究對于理解社會現象和社會變遷有著重要的意義,一直以來廣受國內外社會學家的關注,發展出了豐富的社會分層理論,并在此基礎上提出了不同的階層測量方法。總體來看,國內外學者對階層的理解可分為兩種:一種認為階層是等級不同的群體,只需確定一定的數量標準就可以對社會階層進行區分,例如按照收入的高低劃分為低收入群體、中等收入群體和高收入群體;另一種認為階層是社會性質、社會屬性完全不同的群體,而不僅僅是簡單的上下排列的等級層次,因此需要找到階層之間屬性差異的指標來界定。傳統的社會分層理論(如馬克思、韋伯和涂爾干的分層理論)都體現了將階層看作屬性不同的群體這一階層視角,即根據生產資料的占有、勞動分工等差異來界定階層[1]。
社會學對階層結構的測量常常將兩種視角結合起來,既考慮群體的社會屬性差異,也關注社會屬性的等級層次,而用于分層的社會屬性常常被理解為“對各類資源的占有”。李強[1]認為,社會分層的本質是資源在不同群體中的分布。因此,資源的種類和占有水平是階層和社會地位劃分的依據。他將格倫斯基提出的用于分層的七種資源[2]擴展為十種,分別是生產資料資源、財產或收入資源、市場資源、職業或就業資源、政治權力資源、文化資源、社會關系資源、主觀聲望資源、公民權利資源以及人力資源。這十種資源各有側重,其不同組合可以形成不同的分層標準,而不同的分層組合所劃分的階層群體又常常相互交叉,即在一種標準下被劃分為同一個階層的群體在另一種標準下可能被分為不同的階層群體。基于不同的資源組合和不同的劃分標準,社會學發展出了不同的階層測量方法。但筆者發現,這些方法都存在一定的局限性:一方面,不同分層模型測量階層地位時選用的維度(資源種類)和劃分標準(資源占有水平)不同;另一方面,這些方法都面臨著“分層結果無法在現實中驗證”的批判。因此,本文嘗試提出一種理論和數據雙驅動的階層測量,在更全面地考慮階層測量維度的基礎上,使用數據驅動的方式從現實出發進行階層劃分。
社會分層研究的首要任務是界定社會階層,階層測量需要研究者制定出分層的指標對社會階層進行劃分。自馬克思以來,社會理論家和社會學研究者提出了大量的階層測量理論和方法,對社會分層指標、測量方法和劃分方式進行了界定和討論,發展出了理論驅動和數據驅動兩種研究范式。
傳統的階層測量均屬于理論驅動范式。在這一范式下,社會分層的研究者在階層測量上存在兩種不同的取向:一種是階級分析,另一種是職業分層。前者多使用類別型(categorical)的階級測量方法,本文稱之為階層歸類法;后者多使用連續型(continuous)的階層測量方法,本文稱之為數值測量法。
階層歸類法是指研究者基于社會分層理論探索出一些有重要經濟社會差異的大的階級類別,然后將社會人群納入這些大的類別,社會學分層理論最重要的兩種階層圖示——賴特階級分類模型和誒里克森-戈德索普層圖式(EGP)都屬于這一類測量方法[1,3-4]。賴特階級分類模型是根據不同社會群體圍繞物質生產資料、勞動力、組織和技術四種資產所產生的占有(控制)和剝削關系進行的階級分類[3];戈德索普等提出的EGP圖式主要是依據職業信息進行的階層劃分,根據職業聲望、職業的市場地位(職業的經濟收入來源和收入水平、經濟保障狀況和經濟提升、職業的技術能力等)、工作地位(管理權限、工作自主程度等)以及雇傭關系等特征對職業社會階層地位進行劃分[4-7]。
數值測量法是指研究者基于特定的特征計算出一個有高低等級的、連續的數值作為界定階層地位的指標,其典型代表是職業聲望量表(occupation prestige scale,OPS)和社會經濟地位指數(socioeconomic index,SEI)。職業聲望量表是通過調查的方式來了解人們對國家或國際職業分類標準中的職業評價,從而計算出職業聲望的評估標準[8]。目前大多數學者使用的職業聲望量表是特萊曼整合60個國家與地區的85套職業聲望調查數據所提出的較為穩定的、可以用于跨國比較分析的國際標準職業聲望量表(standard international occupational prestige scale,SIOPS)[9-11]。社會經濟地位測量則是使用每一類職業的平均教育水平和平均收入對該類型的職業聲望進行回歸,并基于回歸方程來估計所有職業的社會經濟地位指數[12-15],目前所使用的社會經濟地位指數是1992年甘澤布姆等根據國際標準職業編碼(international standard classification of occupations,ISCO)提出的國際標準社會經濟地位量表(international socio-economic index of occupational status,ISEI)。這一量表給出了每一個職業對應的ISCO、ISEI、SIOPS,并與十等級的EGP階層分類相對應[16-17]。隨著社會的發展,國際標準職業編碼在不斷更新,IESI和SIOPS也進行了相應的更新。
隨著大數據和計算社會科學的發展,數據驅動的階層測量方法逐漸興起,并在學術界和業界得到了廣泛應用。與傳統階層測量方法不同,數據驅動的階層測量主要是用于估計個體或家庭的社會經濟地位(socioconomic status,SES),而不以研究整個社會的階層結構為目的。社會經濟地位是指基于個體或家庭的受教育水平、收入水平和職業水平而形成的在經濟層面和社會層面相對于他人的社會位置,并且通常被劃分為高、中、低三個等級[18]。傳統的SES測量主要使用調查數據來獲取決定SES的教育、收入、職業等傳統社會分層理論所關心的階層測量維度直接進行劃分,而數據驅動的階層測量主要依據大數據來測量個體的社會經濟地位。
由于大數據難以獲取經濟資源、職業資源、聲望資源等理論驅動分層所關注的數據,而更多地包含社交網絡和生活方式等社會資本和文化資本信息,因此,基于不同社會經濟地位的群體擁有不同生活方式和社會網絡的觀點[19-20]。數據驅動的階層測量主要使用手機或互聯網獲取的用戶行為、社交網絡以及環境(如居住區域)數據等,通過一定的算法對個體或家庭的社會經濟地位進行預測和估計。
在使用生活方式特征預測階層地位的研究中,研究者從多個生活方式的多個維度預測個體的SES,如活動軌跡、電話溝通模式、消費模式、社交媒體上討論的話題以及使用的語言和社交媒體上的表現等。其方法一般是將手機或社交媒體上記錄的海量個體行為數據轉化為結構化的數據(即個案—變量式的數據),用以刻畫個體生活方式的特征,然后根據這些特征來預測個體的SES等級、收入或職業類別[21-25]。在使用社會網絡特征進行預測時,研究者通常依據社會網絡分析(social network analysis,SNA)中整體網分析的各項網絡結構指標(如中心性、度分布等)[26],而非個體及其朋友的社會人口屬性來預測個體的SES。
根據生活方式或社會網絡特征預測個體或家庭的SES等級以后,還需要結合直接測量SES的相關數據——如用戶居住小區的房價、普查或社會調查發布的地區社會經濟水平、用戶的職業類別等作為用戶的“真實”SES,來驗證基于行為和網絡預測的準確性。由此可見,數據驅動的階層測量實際上把階層測量作為一個分類任務去完成,研究者基于個體的行為或社會網絡特征,采用機器學習的方法對用戶進行分類,并通過特征篩選、優化算法等方式來提高分類的準確性。在實際操作中,支持向量機(support vector machine,SVM)、隨機森林(random forest)等有監督機器學習分類方法和詞聚類與詞嵌入(word cluster and embedding)、K均值聚類(K-means clustering)等無監督聚類方法常被用于劃分用戶的SES等級。
如表1所示,通過對理論與數據驅動的階層測量方法及其理論依據進行梳理,發現理論驅動的階層測量更關注經濟資源(如生產資料的占有、收入與財富等)、與經濟資源直接相關的資源(如職業類別、市場資源、勞動關系等權力資源以及受教育程度、技能水平等人力資本)以及聲望資源,而并未將(除人力資本外的)文化資本和社會網絡資源納入社會分層的維度;而數據驅動的階層測量正好相反,只考慮文化資本和社會網絡資源,實際上這種分異的產生是由于數據和方法的局限性。

表1 理論與數據驅動的階層測量方法比較
在理論驅動的階層測量發展之時,研究者只能使用調查數據進行研究,調查數據中更多地包含教育、收入、職業等核心變量,而較少包含生活方式數據;在分析方法上,由于人腦的思考維度是有限的,理論驅動的分層模型只能考慮有限維度的社會屬性,無法處理高維的特征,加之傳統的實證分析大多采用線性模型,由于存在地位不一致的可能,階層地位并不一定是各種資源的線性組合。因此,研究者只能選用更重要的維度對階層進行測量。由于每種理論驅動的方法都只考慮特定維度的資源,在階層劃分的方式上也存在差異,因此不同流派的分層研究者對究竟應該如何進行劃分爭論不休[27-29]。此外,不同國家或地區、不同時期的社會發展情況存在差異[30],研究者基于不同的數據測量出的階層結構能在多大程度上反映社會現實也難以驗證[31]。
對于數據驅動的階層測量而言,手機和互聯網產生的大數據主要是對個體使用痕跡的記錄,通過這些記錄很容易得出個體的移動軌跡、通話模式以及社交媒體上的信息。因此,基于大數據的階層測量只能根據文化和社會網絡等信息來推測。但由于大數據很難獲取教育程度、收入、職業等隱私信息,通常用社區房價、地區SEL等作為替代,因此對SES的預測結果難以驗證。此外,若特征維度較高,過于復雜的黑箱算法也使得分層結果難以解釋。
實際上,很多大型社會綜合調查的數據包含行為、態度、生活方式等文化資本和社會網絡的數據,只是因方法的限制使得研究者未能將其納入階層測量中;而機器學習方法和技術不僅可以用于大數據的分析,同樣可以用于調查數據的分析。為克服純理論和純數據驅動的階層測量方法的不足,本文嘗試將兩種方法的優勢結合起來,提出一種理論與數據雙驅動的階層測量方法。
階層測量的目的是分析社會的階層結構,從而分析結構形成的原因及其影響。因此,研究者所得出的階層結構必須符合社會現實。然而,有學者對我國分層研究的四種模式進行分析后提出了尖銳的批評,認為“關于中國分層的幾種不同模型只不過是幾種不同的關于當前中國社會分層狀況的概念或分類游戲而已,并且四種模型經過一番操作能夠實現相互轉化”,并認為“關于當代中國社會分層狀況的幾種模式,其是非對錯本質上與‘事實’(1)因為陸學藝的階層劃分是根據十大階層在經濟資源、組織資源、文化資源上的差異來劃分的,謝立中認為,若要證明這一分層符合現實,也應該證明十大階層經濟資源、組織資源、文化資源上的差異,但李春玲卻分析了十大階層在收入、聲望、社會經濟地位指數、消費等方面的差異,所以這里的“事實”標了引號。無關,因而也不可能通過將它們與‘事實’對比,看誰更符合‘事實’(或能獲得更多‘事實’支持)的方法來對它們的是非對錯加以判斷。它們之間的差異,實質上只是幾種關于社會分層之話語系統之間的差異”[31-32]。這一觀點啟發了筆者,即在進行階層劃分時應該從社會事實出發進行階層結構測量,避免從理論上對階層進行定性的分類。但如何根據社會事實來劃分階層呢?前文提到,階層是社會屬性和等級不同的群體,是對不同資源占有水平不同的群體,那么階層劃分就是根據社會成員的屬性和等級將社會成員劃分為不同的群體,而如何選擇用于區分階層的屬性和等級,則需要借助分層理論的幫助。基于這一觀點,本文建構了理論和數據雙驅動的階層測量框架。
布勞在《不平等與異質性》中建構了其宏觀社會結構理論,認為社會結構可以用類別參數和等級參數來描述。類別參數是指將人口平行地劃分為界限明確的若干個亞群體的特征,包括性別、種族、宗教、國籍、居住地、語言、職業、婚姻狀況等;等級參數是將人口按高低秩序劃分為若干層次的特征,包括教育、收入、財富、權力等。布勞認為,社會結構的分化一般有異質性和不平等兩種形式,異質性是水平分化,指人口在由類別參數所表示的各群體之間的分布;不平等是垂直分化,指由等級參數所表示的地位分布。此外,他還用相交性表示社會結構中幾條軸線的人口分布共變情況。類別參數和等級參數構成了多維空間,而人口在這一多維空間中的分布則構成社會結構[33-34]。這一“多維空間”被命名為布勞空間,所有社會人口特征都是布勞空間的潛在坐標軸[35-36]。
社會階層是社會結構最核心的維度,因此可以認為,社會階層是由類別參數和等級參數共同決定的。如上文所述,不同社會階層既是異質性的群體,也是在等級秩序的階梯中占有不同位置的群體。因此,參照社會結構的定義,可以將社會階層看作人口在由類別參數和等級參數所構成的高維社會空間中的分布所形成的次級群體,那么階層劃分就是去識別這些群體。基于這一思想,本文建構了理論與數據雙驅動的階層測量框架:第一步,建構社會階層空間,即基于分層理論提出的對階層劃分有意義的資源(階層測量的維度),將其操作化為可測量的變量作為社會空間的維度,建構出社會空間;第二步,使用無監督聚類的方法識別在高維社會空間中形成的次級群體,從而進行階層劃分。
建構社會階層空間需要先描繪出社會空間的“軸線”,即定義用于階層劃分的維度。李強總結了過往分層理論所使用的階層劃分的10種資源:生產資料資源、財產或收入資源、市場資源、職業或就業資源、政治權力資源、文化資源、社會關系資源、主觀聲望資源、公民權利資源以及人力資源。但這一分類過于細致,導致這10種資源并非互斥,如文化資源包含了人力資本,職業或就業資源中也包含收入、生產資料和市場資源等信息,在操作化時較難進行測量。陸學藝[27]根據我國特色,將階層劃分要素綜合為5個:職業或勞動分工、經濟資源、組織資源(也稱權力資源)、文化(技術)資源和單位地位或制度分割,但這種歸類也忽視了社會網絡資源、除人力資本外的文化資本以及聲望資源和公民權力。在對二者進行綜合的基礎上,本文將用于社會分層的要素歸納為7類,分別是:(1)經濟資源,主要指收入狀況,包括個人收入與家庭收入;(2)職業與聲望,整合了組織資源(有無管理權限)、職業資源(職業類型、工作狀況)和職業聲望;(3)單位地位或制度分割,包括戶口、單位類型、體制以及黨員身份等;(4)社會資本;(5)民權資源;(6)人力資本;(7)文化資本,主要包括人力資本以外的其他文化資本,如生活方式、消費結構等。結合獲取數據的情況將上述要素操作化為可測量的變量,即社會空間的坐標軸。
構建好社會空間的下一步是進行階層劃分。由于本文沒有理論預設,并不清楚人口在這個高維空間中是如何分布的,因此并不知道社會可以劃分為多少個階層以及每個階層擁有什么樣的特征。為此,本文采用數據驅動的方式,使用無監督(unsupervised)的機器學習聚類(clustering)算法來幫助識別人口在這個空間中的分布狀況,尋找高維空間中聚集在一起的一個個“團體”來進行階層劃分。
聚類算法的目標是將樣本劃分為若干個不相交的子集,每個子集叫作一個“簇”(cluster),每個簇對應這個子集一些潛在的特質,如高教育程度、高收入等。聚類算法事先并不清楚這些特質的存在,而是通過學習數據的分布結構找到內在性質和規律而自動形成的簇。聚類算法的聚類邏輯是“物以類聚”,即將擁有相似特征的樣本劃分到同一個簇,而不同簇的樣本之間盡可能不同,即簇內相似度(intra-cluster similarity)高而簇間相似度(inter-cluster similarity)低。因而,“相似度”或稱“距離”是聚類算法簇劃分的重要依據。常見的相似度或距離測量方式有歐式距離(Euclidean distance)、曼哈頓距離(Manhattan distance)、余弦相似性、圖中連邊概率等。不同的聚類算法采取不同的相似度或距離計算方式,當前常見的聚類算法可以分為5類:劃分式的聚類(如K-means聚類算法及其變種)、層次聚類、基于密度的聚類、基于網格的聚類、基于圖的聚類(如譜聚類)和基于模型的聚類(如采用最大期望算法的高斯聚類)。在實際應用中,選擇哪種聚類算法取決于數據特征和算法的性能表現。而在運行完聚類算法對樣本進行簇劃分之后,還需要選取適當的性能度量指標對聚類的效果進行評估,以分析聚類算法是否實現了簇內相似度最高而簇間相似度最低的目標。值得一提的是,無監督的聚類算法需要研究者自己定義簇的個數,因此在實際研究中需要通過不斷調試模型參數來找到最佳的聚類簇數[37-38]。
在提出理論與數據雙驅動階層測量方法的基本框架后,如何對7個分層要素進行操作化以建構社會空間、選取何種聚類算法以及如何設定模型參數還需要研究者根據具體數據所包含的信息和模型的表現來決定。為此,本文使用中國社會綜合調查(CGSS)2017年數據(2)在比較了CLDS、CGSS等全國大型綜合調查歷年數據后發現,CGSS 2017數據能夠更加全面地涵蓋上述社會分層的7個要素,而其他年份的CGSS數據以及CLDS的數據存在關鍵模塊的缺失,故選用CGSS 2017數據。來建構我國的社會階層空間,并通過聚類算法來對我國的社會階層進行劃分。
CGSS 2017共收集了12 582個樣本,根據上述社會分層的7大要素,筆者在數據中選出相關變量對每個要素進行操作化,操作化過程見表2。其中,CGSS 2017的職業編碼采用ISCO-08編碼,為獲得職業聲望和職業社會經濟地位,本文使用R語言中的ISCO08 ConveRsions程序來生成SIOPS-08和ISEI-08;社會資本的測量參考邊燕杰[39]測量城市居民社會資本的方法;網絡異質性的測量根據受訪者所認識的人中有幾個列出的職業類別:網頂為受訪者的社會網絡中的最高聲望,平均網絡質量為受訪者網絡中的平均聲望;閱讀習慣包括月均讀書本數、電子書本數,日均看報紙/雜志數以及日均手機閱讀新聞咨詢小時數;生活方式來源于問卷A部分生活方式模塊中對媒體的使用情況、閑暇時間的活動、在空閑時間做什么事情三個量表,本文將量表進行重新編碼,轉換成虛擬變量(3)A28、A31題答案中的1~2編碼為0,3~5編碼為1;A30題答案中的1~3編碼為1,4~5編碼為0。。

表2 分層要素的操作化
因聚類模型不允許數據存在缺失值,但有些樣本在職業類型等關鍵變量上的答案缺失且無法填補,因此本文刪除了關鍵變量缺失的樣本,最后得到9 726個樣本。為檢驗清理后樣本是否會導致關鍵變量與原樣本在分布上的差異,選取收入、受教育程度兩個常用于測量社會階層的重要指標進行檢驗。從分布形態上看,清理后樣本的收入、教育年限(4)本文將受教育程度處理成了受教育年限(連續變量)。和原樣本分布形態較為一致,如圖1所示。同時對原樣本和清理后樣本進行了獨立樣本T檢驗,結果顯示二者在收入和教育程度的分布沒有顯著差異(5)篇幅所限,T檢驗結果未列出,如有需要可向筆者索取。。綜上,可以認為刪除職業等關鍵信息缺失的樣本并不會導致清理后樣本重要指標分布與原樣本的之間的偏差,本文對樣本的清理沒有損害原樣本的代表性。

圖1 清理后樣本與原樣本的收入與教育程度分布對比
為驗證在社會階層空間中通過無監督聚類算法所劃分的簇是否能夠作為社會階層,本文先在低維度的社會空間進行探索,以便分析每個簇的階層特征,并與傳統階層測量方法進行對比。具體而言,以數值型階層測量方法——社會經濟地位指數模型為基準,首先使用社會經濟地位理論中考慮的4個關鍵變量:收入、職業類別、職業聲望、受教育年限進行階層劃分,并將結果與國際社會經濟地位指數(ISEI)進行對比。
在模型選擇上,首先使用K均值聚類算法、高斯混合聚類算法和凝聚層次聚類算法對樣本進行聚類。這些聚類算法需要事先設定聚類的簇數,為便于后期對每一類別的特征描述,本文將聚類簇數控制在10類以下,因此模型的簇參數(n-cluster)被設定為3~10共8種選擇。此外,凝聚層次聚類算法可以選用不同的相似性(距離)測量方式和凝聚(合并)的規則,本文對三種相似性(距離)測量方式(歐氏距離、曼哈頓距離和余弦相似性)和所有的凝聚規則(計算簇間鄰近性的規則,包括單鏈、全鏈、組平均和ward方法)都進行了嘗試,從中選擇聚類效果最好的模型進入下一步分析。聚類的效果使用CH得分(Calinski Harabasz Score)來衡量,得分越高表示簇內相似性越大而簇間相似性越小,即聚類效果越好。圖2是三種聚類模型在不同參數設置下的聚類效果展示。

圖2 不同模型的聚類效果
由圖2可知,總體而言K-means算法的聚類效果最好,其中簇數為7的K-means聚類模型與其他模型相比能夠最大限度地將相似的人劃分在同一個子群體,并將不同的子群體分開。因此本文選用簇數為7的K-means聚類模型來進一步分析不同子群體在各個維度上的特征。由于聚類模型所產生的類別編號沒有實際意義,為更直觀地觀察每個子群體在不同屬性上的差異,需要對簇標簽進行重新排序。為此,本文選用社會經濟地位得分作為排序的標準,以計算每一簇社會經濟地位得分的均值,并按照從小到大的順序對7個簇進行排序,按照順序對簇標簽進行重新編碼,然后考察這7個子群體在收入、社會經濟地位得分、職業聲望得分和教育程度4個維度上的差異,從而評估模型是否實現了階層劃分。
總體而言,該模型從收入、教育、聲望和職業所構成的社會階層空間中識別出了屬性和等級不同的7個子群體。由表3可看出,7個階層的規模差異較大,其中第六階層的規模最小,僅占總人口3.61%,而第五階層人數最多,占總人口23.29%。

表3 7個階層的人數分布
如圖3所示,在特征分布上,7個子群體的社會經濟地位水平(ISEI得分的分布)和社會聲望存在較大的階梯式差異,根據社會聲望分層和社會經濟地位分層理論可以認為這7個子群體即可作為7個不同的階層,但是7個階層的收入水平和教育程度并不完全與階層等級相符合,尤其是第3和第6階層的收入水平與其階層地位完全不匹配,這兩個階層中大多數人的收入為0。

圖3 7個階層的社會經濟地位特征
產生這種結果是因為CGSS 2017詢問的是受訪者去年的收入,而有些受訪者2016年處于無工作狀態,筆者在處理職業數據時,將目前無工作但是曾經有工作的受訪者曾經的職業作為其職業編碼,主要是考慮到在現實中職業地位在時間上更具有穩定性,曾經處于高職業地位的個體,其社會經濟地位很難因目前收入的減少而產生大幅波動。
如圖4所示,當具體分析收入為0的第3階層和第6階層的職業類型時,由于職業編碼大致是按照職業等級從高到低的順序進行編碼,ISCO的數值越小,說明職業的等級越高,通過對比兩個階層的職業類型分布,無需查看職業編碼表便可發現,同樣是收入均值和中位數為的兩個群體,第6階層的職業類型相較于第3階層的職業類型而言等級更高。也就是說,本文的模型自動識別出了無收入人群中的職業社會經濟地位和職業聲望不同的兩個社會階層。而在職業社會地位和職業聲望相似的第2、3階層中,模型又通過收入和教育信息識別出了同樣處于較低職業地位的兩個不同的社會階層。

圖4 第3和第6階層的職業分布
以上這種收入與職業的社會經濟地位和聲望不匹配現象在社會分層理論中被稱為“地位不一致”。當使用多個維度進行社會分層時,階層群體在不同維度上的等級排序可能存在在差異,當這種差異過大時,即可以認為產生了地位不一致。地位一致和不一致的程度可以用“地位結晶化”的概念來衡量。高地位結晶化(地位一致)指運用各種分層標準得到的結果都是一致的;低地位結晶化(地位不一致)指運用各種分層標準得到的結果都是不一致的[40]。根據個人在n個地位測量維度和m個等級排序體系下所取得的地位排序組合狀況,人們的地位一致性程度又可進一步劃分,有學者根據三個維度和三個等級將其劃分為地位一致者、中等地位不一致者、絕對地位不一致者和兩個地位差四種不同的類型[41]。吉登斯認為,地位一致性程度是判斷群體已經形成了階層還是只是利益群體的關鍵,如果某個群體各個維度的地位水平高度相關,那么該群體就可以稱作一個邊界相對清晰的、定型化的階層;如果某個群體各個維度的地位水平相關程度不明顯,那么該群體還不能稱作一個相對封閉的、定型化的階層,只能說該群體在某個維度上成為一個利益群體但沒有形成階層[42-43]。按照上述觀點,在以上7個階層中,第1、2、4、5、7階層地位一致性程度較高,是邊界相對清晰、定型化的階層;而第3、6階層的地位一致性相對較低,其階層的邊界相對不夠清晰,這恰好體現出本文提出的分層模型的優勢。因為如果按照職業劃分,第3階層的成員可能被歸到第2階層,而第6階層可能被分到第5和第7階層;而若按照經濟進行分層,第3、6階層會被劃分到同一個階層中,而本文的分層模型既識別出了定型化的階層,也識別出了這兩個特殊的階層邊界不夠清晰的群體。
在使用簡潔模型驗證了理論與數據雙驅動模型的分層效力之后,筆者根據分層理論所涵蓋的7大要素將樣本映射到高維空間進行階層劃分。由于CGSS問卷的B、C、D部分是隨機抽樣填答,位于C部分的社會資本和位于D部分的消費結構相關問題并非所有受訪者都進行了回答,因此,本文構建了以下三個數據集分別進行分析。(1)全樣本數據:包含所有個案但不使用社會資本和消費結構變量的數據集,有9 726個樣本和除社會資本外6大分層要素共52個變量。(2)社會資本數據集:包含除消費結構變量外所有變量的數據集,樣本量為3 430,變量數為55。(3)消費結構數據集:包含除社會資本變量外所有變量的數據集,樣本量為2 897,變量數為64。圖5是不同聚類模型在高維空間中的聚類效果展示。

圖5 不同聚類模型在高維空間中的聚類效果
首先使用全樣本數據集建構社會階層空間來進行階層劃分。為避免各變量的量綱不同對計算聚類所造成的偏差,在對數據進行零均值(Z-score)標準化(6)首先將類別變量按照一定順序重新編碼成定序變量,然后使用零均值標準化的方法將轉化后的類別變量和連續變量標準化為Z-score值,其計算方式為Z-score=(原始值-均值)/標準差。后,使用與簡潔模型相同的算法和參數設置對7大分層要素所構成的52維空間中的樣本進行聚類。結果顯示,在這一空間中,使用K-means聚類算法將樣本聚集成3個子群體的CH得分最高,聚類效果最好。因此,本文采納最佳模型的結果將群體劃分為三個階層,并按照三個子群體的平均社會經濟地位得分高低進行排序,以此順序將其定義為低、中、高三個階層。表4為三個階層的人數分布情況,其中,中等階層規模最大,占總人口的42.22%;高階層的規模相對較小,占總人口的24.86%。

表4 三個階層的人數分布
然后考察不同階層在各維度上的特征,從而評估模型的社會分層效果。如圖6所示,模型所劃分出的低、中、高三個階層在經濟收入水平、職業社會經濟地位、職業聲望、受教育程度和閱讀習慣等經濟資源、職業資源、人力資本和文化資本四大階層要素8個維度上的等級次序完全一致。

圖6 不同階層的經濟、職業、文化、技能資源分布
表5描述了三個階層在制度與民權資源上的差異。首先,高、低兩個階層的成員呈現出明顯的城鄉二元分割,低階層中91%的成員為農業戶口,74%居住在農村地區;而高階層中80%以上成員為非農業戶口,且僅有8%的成員當前居住在農村地區。其次,在黨員身份和工作單位體制方面,各階層黨員和體制內人員的比例隨著階層等級的升高而上升。最后,在養老和醫療保險方面,高階層參與基本養老保險、商業醫療和養老保險的比例更高。此外,三個階層在職業資源和文化資源其他方面也存在較大差別:(1)在工作經歷及當前工作狀況方面,低階層主要由從未工作過和曾經務農現在無工作的人口組成,而高階層和中等階層的大部分人當前正在從事非農工作,對于中高階層當前無工作的人,曾經也都擁有非農工作。(2)在工作管理權限方面,階層越高,在工作中擁有管理權限的比例越大,低階層幾乎在工作中沒有任何管理權(7)篇幅所限,三個階層階層工作經歷及當前工作狀況分析結果未列出,感興趣的讀者可向筆者索要。。(3)在生活方式上,低階層對媒體的使用和空閑時間從事的活動都較為單一;而階層越高,使用媒體和空閑時間從事活動的多樣化程度越高。其中,低階層在空閑時間主要以看電視等娛樂為主,而高階層則更多從事閱讀、鍛煉身體、聽音樂等能夠為自己“充電”的活動(8)篇幅所限,三個階層休閑方式差異分析結果未列出,感興趣的讀者可向筆者索要。。

表5 三大階層制度與民權資源占有情況
由此可見,模型所劃分的三個階層既在等級參數分布上存在著低、中、高的差異,且在8個維度上的等級次序完全一致,同時在類別參數的分布上存在明顯差別,因此可以認為這三個群體的階層地位一致性程度較高,形成了邊界清晰的階層。
為評估社會資本和消費結構對階層測量的影響,本文繼續加入社會資本特征和消費結構特征進行階層劃分,并用“類別不一致率”作為測量社會資本特征與消費結構對階層劃分的指標。類別不一致率的計算方式是:以上述全樣本數據的階層劃分結果為基準階層類別C,類別不一致率即為使用其他特征(數據集)進行階層劃分之后的類別Ci與基準類別C不一致成員的比例(9)為消除樣本量變化所帶來的差異,本文也測試了以去掉這兩個樣本中的社會資本和消費結構特征的數據所得出的分層結果作為基準,并與社會資本模型和消費結構模型的結果進行對比,其類別一致性均比較高。。
分別使用社會資本數據集和消費結構數據集來建構階層社會空間,為與基準類別進行對比,同樣使用簇數為3的K-means聚類模型進行階層劃分,且按照ISEI對模型所得出的簇標簽進行排序,得到低、中、高三個階層,如表6所示。總體而言,兩個模型的分類不一致率較低,對樣本的階層劃分均與全樣本模型的階層劃分相差不大,加入社會資本和消費結構特征后,分別僅有5.9%和7.5%的成員階層類別發生了變化。從模型的表現上來看,加入社會資本和消費結構變量后,模型的CH得分相較于全樣本模型(CH得分為2 098.67)大幅降低,模型聚類效果變差(10)CH得分的差異也可能是因為模型的樣本量不同所導致。。因此可以認為,對于CGSS 2017所調查的這一部分人而言,社會資本和消費結構對于階層測量和階層劃分而言作用不大(11)這一結論還需要更多數據驗證,因CGSS 2017對社會資本的測量比較簡略,且回答了社會資本和消費結果問題的樣本量較少。。

表6 社會資本和消費結構階層劃分模型分類
上文通過聚類模型將社會劃分為低、中、高三個階層,并在模型對比中發現社會資本和文化資本中的消費結構特征并未對階層劃分起到重要作用。那么在其他特征中,什么才是區分不同社會階層最重要的維度呢?由于聚類模型的類別劃分原理綜合了所有特征屬性來計算樣本之間的相似性,是一個“黑箱操作”,故無法得知人們哪些特征上的相似或差異在決定被劃分到哪個群體時的作用更大。為了找出社會分層最重要的維度,本文將這個問題轉化為機器學習分類模型的特征選擇問題,即從個體的階層類別來反推識別階層類別最重要的特征。具體而言,以全樣本聚類模型對個體的階層歸類作為個體的真實階層類別,然后基于全樣本數據中的52個特征訓練出能夠準確識別每個個體階層類別的決策樹模型,最后比較每個特征對于模型分類的重要性,重要性最高的特征便是判斷個體階層類別的最重要特征。
在訓練決策樹時,首先將全部樣本按照1∶1的比例隨機劃分成訓練集和測試集兩個部分,用訓練集訓練模型,用測試集評估模型預測效果。在不經過任何調參的情況下,使用不同的初始狀態運行1 000次,模型均可達到90%左右的準確率(12)1 000個模型準確率均值為0.91,標準差為0.005,最大值為0.92,最小值為0.89。,因此可以認為該簡潔模型對個體階層的識別能力可以達到分析要求(13)由于本文關注的是特征的重要性而不是模型的預測準確率,模型能夠識別絕大多數樣本的階層,說明當前的特征分析機制已經滿足了模型預測的需求。。
通過對全樣本階層聚類模型中所使用的52個特征(變量)的重要性進行分析,發現絕大部分(96%)特征對判斷個體階層的重要性都不足0.1。筆者選取了對預測階層類別的重要程度大于0.01的特征(變量)在圖7中進行展示,預測個體階層類別最重要的是“單位類型”,其次是“職業社會經濟地位得分”。也就是說,當前在我國階層測量中最重要的因素是單位類型和職業社會經濟地位得分。筆者通過僅使用以上兩個特征對全樣本數據進行簇數為3的K-means聚類分析來對這一發現進行進一步驗證,結果發現,僅使用兩個特征的聚類模型的平均類別不一致性為27.2%,也就是說,僅使用單位類型和職業社會經濟地位便能夠實現對70%以上的人口群體進行準確的階層劃分。并且,模型對低階層的識別更好(低階層的類別不一致性低至6%)。此外,該模型按兩個特征聚類模型的階層分類在全樣本數據的所有特征上計算CH得分,所得出的CH得分(1 458.51)甚至比上述社會資本模型和社會網絡模型的CH得分都要高。因此可以基本確認單位類型和職業社會經濟地位是我國階層劃分最重要的維度。

圖7 階層測量特征的重要性
那么,各階層的單位類型到底存在何種差異呢?如表7所示,三個階層成員的單位類型均有各自的特征:低階層主要由務農和無工作的人口構成,高階層則有50%以上的成員主要來自國家機關、事業單位、國企、集體企業等體制內的工作單位,且有部分(30%左右)成員來自民營企業、私企和外企;而中等階層的單位類型則以個體工商戶和自由職業者(34.61%)以及民營、私企(25.6%)為主,也有一部分成員(35.7%)來自體制內工作單位。

表7 各階層單位類型占比 %
需要說明的是,雖然單位類型是劃分我國社會階層最重要的維度,且三個階層的單位類型構成的確存在差異,但這并不意味著可以依據單位類型直接對社會階層進行劃分,這也是本文構建的模型和傳統分層模型的最大差別,即傳統的分層方法是以變量為中心,即可以根據一些有重要經濟社會差異的類別變量(如單位類型)對模型進行定類劃分,或者根據可以反映社會經濟等級的連續變量(如ISEI)進行“劃線切割”,但由圖8可知,單位類型相同的人可能會被劃分到不同的階層,職業社會經濟地位得分相同的人也可能被劃分到不同的階層。而本文構建的理論與數據雙驅動模型的分層是以人群為中心,根據不同的特征計算出人與人之間的距離,并將類別和等級屬性相似的人聚集在一起,從而保證階層內部成員盡可能相似且不同階層之間差異的最大化。
如何測量和劃分社會階層是社會分層研究者長期爭論的焦點。我國社會學研究者對如何分層作出了許多嘗試,提出了豐富的階層測量方法和分層體系,得出了對我國社會階層結構的不同看法,但這些研究都面臨一個問題——階層測量和階層劃分的真實性和有效性難以在現實中得到驗證。在大數據時代,盡管一些研究者作出了基于社會現實(大量的、真實的數據)測量階層的嘗試,但由于其數據的限制導致其測量指標可能并不是區分階層的關鍵。本文在回顧社會分層理論和研究中的經典分層理論、方法模型和具有代表性的分層研究后,將當前的社會分層方法歸納為理論和數據驅動的兩種階層測量范式,通過對比兩種范式下的分層方法,發現二者各自存在弊端。為此,嘗試提出將二者結合起來的理論與數據雙驅動的階層測量框架:理論驅動在于根據過往分層理論中提出的對階層劃分有意義的資源(要素)整合了7種分層要素及其操作化方法,基于布勞的宏觀社會結構理論來構建分層的社會階層空間;數據驅動在于使用無監督聚類方法,完全由機器決定社會應該分為幾個階層,以及每個階層包含哪些人。
在數據與理論雙驅動的階層測量框架下,本文使用CGSS 2017數據對中國的社會階層進行劃分。首先使用簡潔模型來驗證所提出的分層框架和方法的有效性,發現使用無監督聚類模型可以有效識別出社會空間中的不同階層,并且發現了現實中存在階層地位不一致現象。本文所構建的模型既可以識別出已經形成階層邊界的高地位一致性的階層,也可以識別出階層邊界尚不清晰的低地位一致性的利益群體。
之后建構了包含經濟資源、職業資源、人力資本、文化資源、單位地位和制度分割、民權資源6大分層要素共52個維度的高維社會階層空間,并使用聚類模型進行階層劃分,結果顯示,高維空間中的人口可被劃分為三個子群體,通過比較三個子群體在收入、聲望、職業社會經濟地位、人力資本和文化資本上的差異,發現這三個邊界清晰的群體代表著我國社會低、中、高三個階層,且這三個階層具有高地位一致性。接著使用社會資本模型和消費結構模型對人口進行分層,通過對比這兩個模型與全樣本模型的分類一致性,發現加入社會資本和消費結構的相關變量并不會引起分層結果的改變,并且在考慮更多特征后,模型的性能反而下降。也就是說,社會資本和消費結構特征對社會分層的作用不大。
那么社會分層最重要的指標究竟為何呢?本文進一步使用機器學習的決策樹模型分析了每個指標(特征)對于測量(預測)個體階層等級的重要性。結果發現,在我國,單位類型是社會分層最重要的指標,職業社會經濟地位次之,而其他特征對估計個體社會階層的重要性微乎其微。進一步使用僅含有單位類型和社會經濟地位得分的模型進行階層劃分,結果鞏固了這一結論:當僅考慮單位類型和職業社會經濟地位水平時,模型對70%人口的階層劃分與考慮52個指標時并無差異。
本研究還存在一些需要改進之處。首先,在分層指標的操作化上,由于數據的局限性,對社會資本的測量較為簡單,只考慮了個體的網絡規模和網絡所蘊含資源的最高可達性和異質性,還需要收集更多社會網絡結構和整體網的數據,將個體網絡結構和個體在整體網絡結構中所處的位置納入社會資本的測量中。其次,本文所得出的“社會資本和消費結構特征對于階層劃分意義不大”的結論是基于CGSS 2017的數據得出的結果,但由于CGSS 2017在詢問社會網絡相關議題時,只是隨機選擇了1/3的受訪者進行填答,因此樣本量較全樣本而言有較大損失。雖然進行了多種驗證發現這一結論具有穩健性,但若條件允許,在同一個樣本上進行比較更為嚴謹。最后,本研究只是基于CGSS 2017數據,得出結論的穩健性還需要進一步使用其他數據進行驗證。
此外,本研究僅僅是對社會分層方法上的探索,并基于這一方法對我國的社會階層劃分作出嘗試。今后可以努力的方向還有很多,例如使用其他國家的數據,利用這一方法進行國際社會分層的比較等。同時,階層是一種社會結構的維度,當前對社會階層的劃分主要采取的是地位結構觀這一理論視角,即把階層視為屬性和等級不同的群體,但社會結構還有另外一種理論視角——網絡結構觀,在這一視角下,對群體的劃分一般采用社團分割的辦法——基于人與人之間實際存在的交往關系所形成的群體分化來進行階層劃分,這種方法仍然值得探索。社會分層包含兩個層面,一是測量和劃分階層,本文已進行了探索;二是理解階層結構是如何形成的以及如何隨著社會的發展而產生變化的,這也是筆者下一步努力的方向。