高 興
(上海星河灣雙語學校 上海 200000)
邏輯回歸模型。
(1)變量。
選取對社會歸屬感是否滿足(Belonging)作為因變量,性別(Sex)、年齡(AgeC)、出生地(Born)、現階段長期居住地(Live)以及職業(Job)作為主要的自變量。其中,本文針對年齡進行中心化處理,即將年齡減去數據集中的中位數;出生地與現階段長期居住地均分為城鎮與鄉村;職業則根據現行分類分為學生,各類專業和技術人員,國家機關、黨群組織、企事業單位的負責人,辦事人員和有關人員,商業工作人員,服務性工作人員,農林牧漁勞動,生產工作、運輸工作和部分體力勞動者,以及不便分類的其他勞動者。
(2)模型。
在上一節中,本文將因變量定義為一個服從伯努利分布(Bernoulli distribution)的啞變量(Dummy variable),因此我們使用邏輯回歸模型:

其中Belongingi表示一個色弱者對社會歸屬感是否滿足的變量;i表示一個色弱者對社會歸屬感是否滿足的可能性;fi為邏輯鏈接函數(Logit link function),為;X為模型矩陣,包括上述定義的自變量(Sex、AgeC、iBorn、Live與Job),以及 為模型矩陣對應的系數向量。
(3)訪談法。
為了進一步探究影響色弱群體對社會歸屬感滿足與否的原因,本文對問卷調查過程中自愿受訪的色弱者進行訪談。本文將針對以下幾點對受訪者進行提問:對社會歸屬感是否滿足及其原因,以及提升其社會歸屬感的可能措施。
利用調查問卷中收集的數據對系數進行最大似然估計(Maximum likelihood estimate,MLE),并將其轉化為比值比(Odds ratio),如表1所示。

表1:基準比值(Baseline odds)和比值比的最大似然估計與的置信區間
數據結果分析表明,年齡與現階段長期居住地顯著影響一個色弱者對社會歸屬感是否滿足。在保持其它因素不變的情況下,年齡增長一歲會使一個色弱者對社會歸屬感滿足的可能性增加 3.3%(其 90%置信區間為 [0.6%,6.1%]);與長期居住于城鎮的色弱者相比,現階段長期居住于鄉村的色弱者更可能對社會歸屬感不滿足(對社會歸屬感滿足的可能性降低96.6%,其90%置信區間為[39.2%,99.8%])。
考慮到在數據收集過程中,職業的分類過多導致變量過多,可能導致過擬合(Overfitting)的問題并影響其它變量,因此本文嘗試在模型矩陣中去除職業(Job)變量進行分析,其結果如表2所示。

表2:基準比值(Baseline odds)和比值比的最大似然估計與的置信區間
數據結果分析表明,年齡與現階段長期居住地顯著影響一個色弱者對社會歸屬感是否滿足。在保持其它因素不變的情況下,年齡增長一歲會使一個色弱者對社會歸屬感滿足的可能性增加;與長期居住于城鎮的色弱者相比,現階段長期居住于鄉村的色弱者更可能對社會歸屬感不滿足。這一結果與第一個模型的結果是一致的。
因此,本文根據數據發現,對于色弱者而言,年齡越大,對社會歸屬感越滿足;長期居住于鄉村的色弱者比長期居住于城鎮的色弱者對社會歸屬感更不滿足。
與同齡人相比,年輕的色弱者可能會感受到格格不入,讀書、就業不便等等,甚至在虛擬世界中的體驗都受到了影響。而對于年齡更大的色弱者,在他們的青、壯年時期,他們并未因為色弱而受到太多的影響——這很可能是因為在當時,我國并未建立健全完善的體檢機制,他們在專業選擇或就業上并未受到阻礙,并且在當時,人們的穿衣風格基本樸素,社會娛樂活動匱乏,因此很難感受到不同。
長久居住于城鎮的色弱者能享受到更完善的基礎設施,因此在日常生活中并未有過多的不便。但由于只有極少數的居住于鄉村的色弱者愿意提供聯系方式,本文無法很好地總結為什么長期居住于鄉村的色弱者比長期居住于城鎮的色弱者對社會歸屬感更不滿足,因而猜測長久居住于鄉村的色弱者對社會歸屬感更不滿足的主要原因是鄉村的基礎設施建設偏弱。
長久居住于鄉村的人們主要以種植業為生計,而色弱無疑影響了一些種植業項目,比如觀賞花卉、具有一定顏色的蔬菜水果等等,這極有可能導致他們出售的產品質量下降,從而影響收入。長此以往,惡性循環,他們對社會歸屬感或者會更不滿足。而這樣的認知差異存在在色弱者群體中,更不用說一些不了解色弱的其他人了。
國家與學校應當加強對于色弱的科普,讓每一個人了解色弱,從而減少對色弱群體的歧視;國家可以做適當的色弱普查,需要將一些交通路牌等的顏色變得更有區分度;大力發展科技,利用計算機技術,放大色差,以便于色弱患者辨認;國家在對于安排調配人民職業的時候,應當更充分考慮色弱的影響;對于色弱群體增加一些心理課程,來彌補色弱所造成的對于微表情的限制;國家可以召集各個街道小區,設立專門為色弱建造溝通交流的地點,成立互幫互助小組。
在數據收集過程中可能存在不足,雖然是通過隨機抽樣調查的方式收集數據,但是數據類別存在著不平衡的現象。一個是因變量的類別不平衡,在機器學習的領域,這一問題可以通過重采樣法解決,但本文考慮到這是一個社會科學的數據,利用算法強行平衡會使結果失去現實意義,因此未有采納。此外,自變量的類別也存在著不平衡,而由于樣本容量不大,不平衡導致的問題會被放大,在今后的研究中,可以通過擴大樣本容量的方式降低這一影響。