王辰曦,張智成,袁 晨,蔡世民*
(1. 電子科技大學數學科學學院 成都 611731;2. 電子科技大學大數據研究中心 成都 611731;3. 電子科技大學格拉斯哥學院 成都 611731)
高考招生錄取制度采取平行志愿錄取規則[1-2],優質生源的稀缺性加劇了不同院校對同一批次生源的爭奪,形成院校競爭關系(簡稱競爭關系)。同時,考生在填報志愿時,通常會依據“C9”“985”“211”“雙一流”“省部共建”等高校建設項目來區分院校的教育水平和實力差距,使競爭關系存在層次性。然而,在志愿填報策略分析中,競爭關系的定量化研究普遍未考慮這些因素[3-6]。因此,采用適當的定量分析方法研究競爭關系,有助于正確理解其內在結構特征與形成機制,對指導考生進行合理、分梯度地志愿填報起到重要啟示作用[7]。
針對競爭關系這一問題,有學者分析了院校競爭力的影響因素,提出提升院校競爭力的方法[8-14]。如文獻[11]基于波特五力模型提出的“競爭三力和影響二力”模型。文獻[13]基于博弈論構建生源競爭的博弈模型,提出了正當提升競爭關系的方法;文獻[14]基于元胞自動機進行建模仿真,得到了院校核心競爭力及附加條件對優質生源競爭力的影響。
網絡科學是研究復雜網絡系統規律的交叉科學[15-16]。從網絡科學視角,院校及其競爭關系可以抽象地表示為院校競爭網絡(簡稱競爭網絡)。本文基于復雜網絡度量方法,對競爭網絡進行實證研究,定量分析拓撲結構特征,挖掘一般的網絡統計特征與中尺度的社團結構特征。并利用2019 年山西省高考錄取成績,基于改進的Jaccard 相似度計算方法,計算院校之間錄取成績的相似性,定量表示競爭關系強度。
本文使用2019 年山西省高考理科錄取成績,所選數據覆蓋了山西省1A、1B、2A 和2B 批次的院校,總計877 個數據項。1A、1B 對應本科第一批次,2A、2B 對應本科第二批次,兩個批次的分數線分別為507 分與432 分。
每個數據項中除了院校名稱外,還包含該院校在當前批次的(錄取)最高分和最低分,以及院校標簽,如“C9”“985”“211”“省部共建”“省屬”與“其他”。具體而言,“C9”包括9 所院校及單獨招生的醫學院,共13 個數據項。“985”共34 個數據項。“211”共82 個數據項。“省部共建”共260 個數據項。“省屬”共485 個數據項。其余少部分、較特殊的院校將其標簽設為“其他”,共3 個數據項。值得注意的是,部分院校存在多重院校標簽,本文按照院校標簽表示的教育水平層次等級,一般優先考慮高等級。同時,部分省部共建或省屬院校會分專業在不同批次進行招生,本文將其視作兩個不同的數據項進行分析。
競爭關系可以通過計算院校之間錄取成績的相似性度量。本文選擇改進的Jaccard 相似度實現相似性計算。Jaccard 相似度[17]用于比較有限樣本集A、B之間的相似性與差異性,Jaccard 系數值越大,樣本相似度越高,即:


J(A,B) 度 量競爭關系強度,令J(A,B) =wij=wji。通過遍歷每對院校,利用改進Jaccard 相似度度量方法,得到表示競爭關系的相似度矩陣W。
通過將競爭關系的相似度矩陣轉換成鄰接矩陣,實現競爭網絡的構建。通過統計分析,81.6%的相似度矩陣元素是0。圖1 給出非0 相似度矩陣元素的概率分布,呈現中間高兩端低的分布,與瑞利(Rayleigh)擬合的函數曲線相符,說明其偏離正態分布。

圖1 非0 相似度矩陣元素的概率分布
由此可見,競爭關系的相似度矩陣具有稀疏性。設定劃分閾值為0,將相似度矩陣轉換成表示競爭網絡的鄰接矩陣。鄰接矩陣中的一個元素為1 表示競爭網絡中兩個節點之間有連邊。顯然,競爭網絡是一個簡化的無向、無權網絡。表1 給出了競爭網絡的基本統計量。

表1 競爭網絡的基本統計量
如表1 所示,競爭網絡的平均度相對較高,主要原因是錄取分數較低的院校(簡稱底部院校)數量較多,而且它們的專業差異性較大。這些底部院校的分數區間較大,使得它們之間的相似度較高,連接較為緊密。如最大度節點是齊齊哈爾醫學院,度數達到了465。該院校的特點是錄取專業差異性較大,應用心理學專業錄取分數高達496 分,健康服務與管理專業錄取分數卻只有430 分。它的分數區間幾乎涵蓋了本科第二批次招生院校的最大分數區間(即是本科第一批次線與第二批次線的差值)。這些度數大的節點導致競爭網絡的平均度較大。因此,考生在填報志愿時,在服從專業調劑條件下可以選擇這些度數大的節點作為備選,增加錄取概率。同時,院校之間的緊密連接使得競爭網絡的平均聚類系數很高,達到0.79。這一結果表明院校之間傾向于構成社團,即競爭網絡可能存在顯著的社團結構[18-19]。

式中,Nk是度數為k的節點個數。在競爭網絡中,底部院校的部分節點擁有大量的邊,這些節點稱為富節點(rich nodes)。它們傾向于相互連接,構成富人俱樂部。該統計特征可通過富人俱樂部連通性Φ(r/N)刻 畫。 Φ(r/N)表 示競爭網絡中前r個度最大的節點之間,實際存在的邊數L與 這r個節點之間總的可能存在的邊數r(r?1)/2的比值[20-21]:

競爭網絡的累計度分布如圖2 所示,其中,虛線指示節點度數為100,內嵌子圖是基于一分一段表的累計人數變化,其中的虛線指示本科第一批次的分數線,右邊表示高分段,左邊表示低分段。競爭網絡中度數超過100 的節點數量開始變多,度數小于100 的節點數量很少。實證結果表明競爭網絡具有一定的異質性特征,反映底部院校的高聚集性及它們之間激烈的競爭關系。競爭網絡的異質性特征主要由不同高考成績的考生數量分布異質性決定。如圖2 中內嵌子圖所示,基于一分一段表[22]的累計人數變化表明,最高分與本科第一批次之間(簡稱高分段,虛線右邊部分)的考生數量(約3.2 萬)要遠少于本科第一批次與本科第二批次之間(簡稱低分段,虛線左邊部分)的考生數量(約5.4 萬),且其分布也具有明顯的異質性特征。

圖2 競爭網絡的累積度分布
累計度分布的異質性表明大量低分段的考生在填報志愿時選擇底部院校,在院校招生人數限定的條件下,他們考慮專業差異性,使得對院校具有偏好選擇。他們的偏好選擇容易加大底部院校的分數區間,形成較強的連接緊密性(即形成高的相似度),加劇它們之間的競爭關系,引起院校最低錄取分的劇烈波動。同時,少量高分段的考生填報志愿時,基于一分一段表排名選擇頂部院校(如C9、985、211 院校),使得它們的分數區間較小,形成較弱的連接緊密性。由于底部院校最低錄取分波動幅度大,導致低分段考生更容易由于目標院校的最低錄取分大幅上升而掉檔,同時也更有機會被最低錄取分大幅下降的院校錄取,所以建議低分段考生增加填報少數往年錄取分高于自身分數的院校。
競爭網絡的簇度相關性如圖3 所示。競爭網絡中節點度數越大,聚類系數呈現逐漸減小的趨勢。簇度負相關性表明競爭網絡存在層次結構。相對而言,大部分度數小的節點(如度數小于100)能夠更好地聚類,一般是錄取成績較高的優秀院校,如985、211 院校等;度數較大的節點(如度數大于400)之間連接并不緊密,往往聚類效果相對偏弱。然而,競爭網絡的高聚類性與層次結構,表明院校傾向于構成層次社團結構,本文將著重對競爭網絡的社團結構進行分析。

圖3 競爭網絡的簇度相關性
競爭網絡的富人俱樂部連通性如圖4 所示。具體而言,當r/N=7.3%時 , Φ(r/N)非常接近于1,表明競爭網絡存在富人俱樂部特征。特別是,當r/N≤2.8%時 , Φ(r/N)=1表示度數在前2.8%的富節點形成的子圖可以構成一個完全聯通圖。這個度數閾值為375,即度數大于375 的節點均為競爭網絡的富節點。表2 列出競爭網絡中富節點對應的院校,其平均度406.8。值得注意的是,富節點之間相互連接緊密,但是其連接的其余節點之間沒有連邊(即是富節點與其余節點沒有形成閉環),使得富節點的聚類系數相對不高。它們聚類系數波動在0.4~0.5 之間。

圖4 競爭網絡的富人俱樂部連通性

表2 全聯通的富節點對應的院校
由表2 可知,富節點中超過50%是醫科類院校。它們的分數區間較大,區間長度均超過40,且均處于440~500 分數區間(低分段)附近。由于屬于低分段,這些醫科類院校在招生時,它們的專業相似度高、專業之間分差跨度大。這一特征導致報考其中某一院校的學生分數差距較大,且這些同類型院校的分數區間重疊較大,使得它們的競爭關系變得更加劇烈,容易演變成富節點,形成競爭網絡的富人俱樂部特征。因此,考生填報平行志愿時,應該適當回避這類院校,避免在平行志愿中重疊填報。
競爭網絡的中尺度如社團結構分析,能夠幫助考生深入地理解在不同層級院校招生時的競爭關系。本文基于節點元數據(如院校標簽),利用文獻[23]提出的網絡社團結構推斷方法,對競爭網絡進行社區劃分。假定一個具有N個節點與M個社團的競爭網絡,節點的標記u∈{1,2,···,N}, 社團的標記su∈{1,2,···,M} 。 院校標簽類別數量是K=6的離散值,分別表示“C9”“985”“211”“省部共建”“省屬”與“其他”,使得節點u的元數據標記 χu∈{1,2,···,K}。 定義具有元數據 χi的 節點i劃分到社團si的 概率為 γsx,社團之間存在連邊的概率


由表3 可知,社團1、2、6 具有較小的GI值,表明構成社團的大部分院校具有相近的教育水平。如圖5 所示,社團1 由清華大學與北京大學構成,社團2 由部分C9 院校(含醫學院)與985 院校中國人民大學構成。這些社團內院校具有相近的教育水平(即同質性),它們在招生時存在較為激烈的競爭關系。而且,由社團2 可知,同屬于C9 院校的哈爾濱工業大學與西安交通大學,由于地理位置影響,它們與其他C9 院校的競爭關系相對較弱。社團6 由大部分地方性的省屬院校構成,它們教育水平相對較弱。這些院校的分數區間靠近本科第二批次線,具有較強的同質性導致激烈的競爭關系。

表3 基于節點元數據和網絡結構的競爭網絡社團劃分

圖5 競爭網絡社團劃分
同時,社團4、5 具有適中的GI 值。它們主要由省部共建與省屬院校混雜構成,具有適當的教育水平,一般在本省范圍內具有一定的知名度。特別值得注意是,社團3 具有最高的GI 值,且社團規模最大、混雜度最高。它包括部分985 院校、211 院校、省部共建、具有優勢專業(特指在本科第一批次招生專業)的省屬院校,以及其他特殊院校。雖然這些院校存在一定的同質性,但是分數區間跨度較大,其內部依然存在較為明顯的層次化結構。Louvain 算法是基于模塊度的經典社團劃分算法,能夠快速劃分網絡社團[26]。同時,考慮到再次使用網絡社團結構推斷方法可能無法細化社團3 的子結構,本文從模塊度視角通過Louvain 算法進一步分析該社團的層次化結構。社團3 劃分的子結構GI 值、規模,如表4 所示。

表4 基于Louvain 算法的社團3 劃分
由表4 可知,所有子結構都具有相對適中的GI 值,每一個子結構包含兩個大類院校,且院校教育水平逐次降低以體現一定的層次結構。如子結構1 主要由有教育水平較好的985 與211 院校構成(如圖6 所示),子結構2 主要是排名適中的211 院校與具有特色學科的省部共建院校構成。因此,本文通過子結構中院校標簽類別分布,能夠清晰地、科學地得到社團3 內同質化院校的不同層次分布,從而對合理、分梯度地志愿填報進行有效指導。

圖6 社團3 劃分的子結構1 網絡
基于上述社團結構分析,同一社團中同質化院校的競爭關系較為劇烈。這樣會導致院校在招生政策上采取一些有利于考生的政策,以此來吸引考生填報。但同樣,在對同質化院校進行填報時,應充分考慮到社團內院校仍然可能存在分數區間的層次性。因此,考生在進行志愿填報時,應當依據社團結構劃分的結果,在異質化的社團之間進行初步的篩選,并基于社團內部的層次結構,利用高度同質化院校的競爭關系進行合理、分梯度地填報,從而進入更優質的院校。
本文應用復雜網絡理論實證研究高考志愿填報過程中院校之間的競爭關系,分析其存在的異質度分布特征、層次結構特征、富人俱樂部以及社團結構特征。依據競爭網絡結構(院校競爭關系)與節點(院校)的標簽信息進行社團劃分,其結果表明同一社團內院校在招生時存在較激烈的競爭關系,這種潛在的競爭關系將會影響院校的招生政策。進一步,本文通過Louvain 算法發掘社團內競爭關系的層次結構特征,衡量社團內院校之間的競爭關系層次差異性,細化院校之間的競爭關系。
這些實證結果有助于從網絡科學角度理解院校的競爭關系。在此基礎上,本文歸納了一些志愿填報策略和建議:
1) 考生按照高考成績,對應到社團劃分得到的院校組群(即社團或社團子結構)。按照院校組群的層次化差異,可以合理、分梯度地填報平行志愿,且每個梯度對應某一個層級的院校組群。如社團3 分解成5 個層級的子結構,它們具有明顯的梯度,考生可以適當選擇2~3 個梯度的院校組群,分別填報合適的目標院校。
2) 填報平行志愿時,要適當減少分數區間波動較大的院校,降低平行志愿滑檔的風險。如醫科類院校的分數區間每年波動較大,填報此類院校的考生也較容易滑檔。
3) 如果考生的高考成績處于本科第二批次的分數線附近,需要平衡目標院校的類型、地理位置等多種因素,結合“沖穩保”策略合理地填報平行志愿。
最后,考慮到不同院校專業錄取規則與設置專業的差異性,本文不直接考慮(不同學校)同專業之間的競爭關系。但是,本文對院校競爭關系是基于院校分數區間進行度量的,分數區間的下限表示院校的錄取成績,分數區間的上限表示院校最優專業的錄取成績,分數區間一定程度上反映出同學校不同專業之間的競爭關系。因此,僅有上述最后一項建議中的“沖穩保”策略可適用于填報同院校專業,且建議勾選“服從專業調劑”。