許榮華,胡仁杰,綦方中,馬慶國
(浙江工業大學管理學院,杭州 310023)
為解決實際問題,考察多個對象之間的聯系,復雜網絡成為了有效的分析工具。復雜網絡是復雜性科學研究中的一個重要分支,一個典型的復雜網絡由頂點和連接頂點的邊組成,其中頂點代表了研究對象,而連接邊代表了研究對象之間存在的關聯。特別地,連接邊的形成可以根據研究對象所屬的具體領域以及關聯關系的具體含義而改變。因而復雜網絡分析已經廣泛運用于技術、社會、信息以及生物等領域,其中技術領域的電力網絡成為近年來研究的熱點。
對于電力網絡的研究主要分為兩類,1)使用真實的電力物理運輸網絡,通過研究復雜網絡線路的拓撲結構的改變,來研究電力網絡在停電事故中表現出的脆弱性[1];2)考察不同行業、地區或企業用電量之間的邏輯聯系,包括因果關系和相關關系等,通過最小生成樹(MinimumSpinningTree, MST)、層次樹(Hierarchical Tree, HT)、聚類分析等方法,考察用電量網絡的多種結構和特性。Zhou等人[2]使用上海市不同行業的用電量數據建立行業用電量關系網絡,并利用MST和社團發現對不同行業網絡進行聚類分析,以此揭示行業間的聯系。Yao等人[3-5]分別使用Granger因果關系檢驗[6]、Pearson相關性以及偏Granger因果關系[7],對中國南方各省建立行業用電量關系網絡,通過網絡拓撲結構分解,核心頂點的考察,層次聚類[8]的應用,探究各省行業間的相互聯系。Xiao等人[9]對歐洲電力市場建立因果關系網絡,并使用方差分解的網絡拓撲確定影響其歐洲用電量結構穩定的因素。
對用電量網絡的研究不僅可以展現行業或地區間聯系,作為城市基礎指標,用電量網絡的宏觀分析能夠進一步反映城市經濟發展狀況及其發展中心。Kantar等人[10]通過MST和層次樹方法展現了亞洲高經濟收入國家有更高可能性處于網絡的中心,并發現高經濟收入國家的用電量變化與其GDP增長相吻合。網絡的宏觀分析包括網絡拓撲結構分析,很多學者通過網絡拓撲測度來反映經濟狀況。Tang等人[11]通過探究聚類系數、介數中心性等測度,發現美國與中國的金融網絡拓撲存在明顯差異,揭示現實中兩個國家市場行為的區別。Hu等人[12]通過設定閾值和MST構建各產業經濟網絡,顯示不同產業形成的網絡結構差異較大,反映了不同產業在經濟系統中的差異。除了網絡整體結構特性與經濟增長形成關聯,在網絡結構中處于核心位置的中心頂點還展現出了對經濟增長的帶動(或抑制)作用。Li[13]等人通過建立世界國家貿易無標度網絡,發現美國作為加權度分布的最大頂點,大多數其他國家與美國存在顯著的經濟周期同步。Lee等人[14]發現面對金融危機,國際貿易網絡中與外界連接緊密的頂點集團會加劇危機的蔓延。
在對電量網絡的研究中,大多數學者通過網絡連接結構(如MST形成的星型結構等)來找到中心頂點[2-5,15],但是這類頂點只代表了網絡的局部中心,且只能體現單一中心對其鄰居頂點的影響。考慮同時展現網絡所有中心頂點的連接情況,復雜網絡中的冪律分布性質能夠為我們提供較好的分析角度。網絡度分布是否滿足冪律分布特性是復雜網絡分析中的重點問題,在許多領域中都對冪律分布做出了研究。Clauset等人[16]提出了完整的冪律分布考察及計算方法,并將其運用在各個領域中。Rho等人[17]考察了不同臨界值下的網絡度分布特征,發現在一定的閾值下度分布將服從冪律分布。在此基礎上,Yang等人[18]在金融領域網絡度分布的研究中進一步說明了形成冪律分布特征所需滿足的閾值條件。
與隨機網絡相比,符合冪律分布的網絡存在更強的規則性。頭重分布作為冪律分布中的重要性質,指網絡中大部分的連接僅指向小部分度數較大的頂點,Newman[19]在研究中提出了度大頂點比例P和與其相連邊數比例W之間的關系,通過這種關系可以近似估計網絡中頂點與連接分布特征。Lorenz[20]在此基礎上研究了不同冪律系數取值下P和W之間關系的變換,即洛倫茲曲線。洛倫茲曲線的建立可以清楚了解網絡中頂點和連接邊的變化趨勢。
基于學者們對閾值和冪律分布的研究,本文考慮使用冪律分布作為用電量網絡中閾值選擇的標準,運用冪律分布的擬合情況和閾值相結合的方法,確定相關系數閾值,從相關性矩陣中過濾出中心企業及其連邊,建立中心企業用電量相關性網絡。本文使用杭州市2017工業企業用電量數據,分別通過頭重分布、同配混合特性、小世界特性等方面對企業用電量相關性網絡進行實證分析。
自從第11屆G20峰會在浙江省杭州市召開,杭州城市建設和經濟加速發展,超出了以往任何時期。特別地,杭州市規模以上工業增加值的發展速度在2017年到達頂峰。2017年是杭州近年來快速發展的典型時期,從企業用電量關聯特性的角度對杭州城市發展做出實證分析,本文收集了杭州2017年總共1 788家工業企業的日用電量時間序列數據,數據來源于國家電網浙江省電力公司。選擇工業企業日用電量的原因有:
1)工業用電量在城市全社會用電量中占有較大的比重,相比于全社會用電量,其變化會受到居民用電量的影響,僅使用工業用電量能更及時地反映城市經濟發展狀況。
2)日用電量的變化及時,相比較其他更新周期,如月用電量、季度用電量,更短的記錄間隔意味著更準確的分析。
圖1描述了企業數據天數(總天數為334天)的累計分布,以及數據缺失(天數在334天數以下)的企業頻次分布圖。其中,大圖表示企業天數累計分布,x軸表示天數,y軸表示累計頻率;小圖展示了僅包含部分天數的企業,x軸表示天數,y軸表示企業數目。鑒于我們的數據時間跨度,總共為334天,大多數企業保留了完整的記錄天數,仍存在大約20%的企業未達到標準。為保證數據的有效性,我們僅保留擁有完整記錄天數的企業,總企業數為1 469。

圖1 企業天數累計分布與334天數以下企業分布
Pearson相關性檢驗作為檢驗兩組數據之間的線性相關程度的有效工具,在金融、醫學[21-22]等領域都有非常廣泛的應用。同樣地,也可以用于考察兩組時間序列數據之間的相關性,比如股票走勢[23]、電量變化等。
在時間序列分析中,數據的走勢會呈現出一定的規律性。本文使用企業用電量的日增變化率來衡量該企業用電量的走勢變化,即:
(1)
Ei·t為企業i在第t天的用電量,ei·t+1為企業i在第t+1天相對于前一天的用電量增長率。
企業用電量除了反映企業自身的發展變化,還會隨著季節變化產生明顯波動。由于這種影響的存在,大部分企業的用電量存在同步變化,進而形成虛假的線性相關關系。因此需要排除用電量數據中的季節因素,還原企業自身真實用電量的變化。本文定義該城市宏觀基礎用電量為所用企業日用電量之和,即:
(2)
相應地,該城市宏觀基礎用電量的日增變化率為
(3)
因此,觀察到的企業用電量變化的來源可以分解為兩部分,一部分是所有企業都會受到的宏觀因素影響,表示為eI;另一部分是企業自身發展產生的用電量波動。
在統計學中,通過建立回歸模型,用自變量的變化解釋因變量的變化。本文使用宏觀基礎用電量的日增變化率作為自變量,對每個企業的用電量日增變化率建立線性回歸模型:
ei·t=a+b*eI·t+εi·t
(4)
由于隨機擾動的存在,計算得到的預測值與觀測值會產生偏差,因此,殘差表示了自變量無法解釋因變量的部分。通常,使用最小二乘法尋找最小殘差平方,來確定最佳的擬合函數。使用宏觀基礎用電量的變化對企業用電量的變化進行回歸分析,殘差反映了由企業自身因素產生的用電量變化,其定義為
(5)

我們將所有企業的原始用電量變化率數據轉化為殘差數據,再進行兩企業之間的相關性檢驗,得到兩企業間的條件Pearson相關系數Cij:
(6)

通過對所有企業進行條件Pearson相關性檢驗,得到企業用電量相關性矩陣C。圖2描述了企業相關系數的分布圖。一般地,可以根據相關系數將相關性強度分成5個等級:1)絕對值在0.8~1.0表示極強相關性;2)0.6~0.8表示強相關性;3)0.4~0.6表示較強相關性;4)0.2~0.4表示弱相關性;5)0~0.2表示極弱相關性[24]。
兩兩企業之間(排除企業自身)的相關系數從最小值-0.75到最大值0.96不等,企業之間的相關系數集中在-0.2到0.4之間。根據圖3累計頻數分布圖的結果,網絡中的強負相關關系僅存在于網絡中極小的部分,因此本文只考慮強正相關部分。圖2顯示,隨著相關系數的增加,累積頻率以逐漸降低的速度逐漸增加到1,并且大約90%的企業相關性小于0.6,表明大部分企業之間的相關性較弱。

圖2 企業條件Pearson相關系數分布圖

圖3 企業條件Pearson相關系數累計分布圖
復雜網絡一般具有3個特征:1)小世界,網絡規模即使再大,兩頂點之間總能找到一條極短的路徑;2)集群性,網絡中的頂點總會產生聚類狀態;3)如果網絡的度分布滿足冪律,網絡頂點度數與擁有該度數的頂點所占比例之間存在如式(7)的函數關系。
pk=ck-α
(7)
其中,k表示頂點的度數,pk表示度為k的頂點所占比例,α為該分布的冪律系數。冪律分布是大量復雜系統研究的重點,涉及大量研究領域,比如天文、社會、計算機等[25-27]。滿足冪律分布的網絡中大量的連接僅存在于少數頂點中,這些頂點為網絡的中心頂點,而大部分頂點只有很少量的連接。少數中心頂點對網絡的運行起著主導的作用。
由于兩兩企業用電量之間總存在一定相關性,以相關性矩陣C建立的全連接網絡度分布無法滿足冪律。由于網絡中存在大量相關性較弱的連接,具有強連接的中心結構會被大量噪聲所淹沒,因此需要設置閾值來過濾這部分噪聲。隨著閾值的增加,越來越多的噪聲會被過濾,網絡度分布逐漸滿足冪律分布。在閾值設置后,大量的頂點與外界僅有少量的強連接。
相關系數矩陣C可以通過如式(8)的規則轉化為篩選后鄰接矩陣D:
(8)
其中,Cr表示相關性系數閾值。
由于用電量網絡中的連接復雜,因此本文使用雙對數線性回歸模型來考察網絡度分布是否近似滿足冪律。基于式(7),將pk轉化為實際頂點數后,兩邊同時進行對數變化,即可得到:
logNk=-αlogk+logc
(9)
其中,Nk表示度數為k的頂點數。本文使用最小二乘估計方法來判斷該數據是否近似服從冪律分布。
考慮到低相關系數連接會掩蓋核心連接結構,強相關性連接更能有效反映頂點之間的關系,因此本文僅考慮網絡中強相關系數0.7以上的連接。圖4和圖5描述了杭州市企業用電量網絡在閾值0.7和0.8條件下的雙對數分布圖。圖4和圖5中x軸和y軸分別表示度數和相應頂點數的log對數變換,省略了沒有任何鄰居的獨立頂點。當閾值大于0.7時,在雙對數分布圖中近似呈現出線性趨勢,模型擬合優度R2達到0.543,自由度為898。隨著閾值的增加,越來越多的頂點被過濾,線性回歸擬合優度逐步上升,在0.8閾值下,模型擬合優度R2達到0.686,自由度為491。

圖4 閾值為0.7時的雙對數度分布

圖5 閾值為0.8時的雙對數度分布

圖6 不同閾值下冪律指數分布
以0.01閾值為間隔,圖6描述了0.7到0.8之間各閾值取值下網絡度分布的冪律指數分布。其中x軸和y軸分別表示相關系數閾值和相應的冪律系數。在閾值設定0.7~0.8時,度分布近似符合冪律分布,冪律指數α大致穩定在0.65和0.75之間,由于變化程度很小,可以認為在這些閾值下的網絡度分布服從同一冪律。在0.7~0.8區間內的冪律指數均值為0.676。另外,我們經過測試發現,當閾值超過0.8后,冪律指數迅速上升,原因在于較大的閾值排除了大量噪聲,僅有的用電量網絡度分布逐漸形成近似完美的冪律分布,在閾值設置為0.87時,冪律分布效果最好,回歸模型擬合優度R2達到0.861,但是企業連接數隨之大量減少。經過測試,在閾值設置為0.84時,網絡中有鄰居頂點的企業數下降到總企業數的20%;閾值達到0.87時,網絡中有鄰居頂點的企業數僅不到5%,企業數量過少會影響對網絡連接總體分布的分析。因此本文只考慮閾值區間在0.7和0.8之間的情況。
對于度分布近似滿足冪律分布的網絡,會滿足另一種獨特的分布特性,即頭重性質:網絡中大部分的頂點度數較小,而小部分的頂點擁有網絡中大量的連接。考察頭重分布特性能夠對網絡進行整體分析,識別網絡中處于中心位置的節點,進而重點研究這類中心節點的連接情況。作為頭重分布的常見例子,在大量事實中發現有很多現象滿足80/20分布,簡稱二八定律,是帕累托分布中一種常見實例[28]。比如:在經濟領域,其認為社會上20%的人擁有了80%的財富。
二八定律認為小部分個體就可以對總體起著主導作用,因此定律中的20%是研究的重點。在滿足冪律分布的網絡中這類中心節點對于城市整體經濟發展起著主導作用。由于大部分節點連接到了小部分中心節點中,小部分中心節點能夠較大程度地聯系整個網絡,進而促進企業間信息及資源傳播,決策者也可以通過重點干預中心頂點而促進整體網絡的發展。然而擁有頭重性質的網絡存在較強的脆弱性,攻擊中心頂點會使網絡連接破碎,因此在現實中同樣需要對中心頂點進行保護,以保證網絡連接。

圖7 不同閾值下度大頂點數比例P與相應連接邊數比例W的累計分布
為考察杭州市企業用電量網絡中頂點與其邊數之間的分布關系,我們使用如下測度:假設網絡中度較大頂點占總頂點的比例為P,與這些頂點相連的邊數占總邊數的比例為W,Lorenz[20]研究了在不同冪律指數α下,W和P的關系曲線變化,稱為“洛倫茲曲線”。Newman[19]提出了在完美冪律分布下W和P的關系。不過,現實中大多數網絡均僅近似滿足冪律分布,因此本文從P和W的定義出發,考察網絡中頂點和連接的分布關系。圖7繪制了各閾值下P和W的累計分布曲線,反映了不同閾值的曲線變化。
其中,x軸為度大頂點數比例,表示度數排名前P位的頂點;y軸表示與這部分頂點相連的邊數占網絡總邊數的比例。以P=0.2,W=0.8為例,表示網絡中度數在前20%的頂點擁有網絡中80%的連接數,即二八定律。對于不同閾值下的曲線,均保持上凸的形狀。當P值處在0.1~0.2之間時,曲線上升速度非常快,意味著大部分的邊只與少量的頂點連接。特別地,隨著閾值的增加,曲線的上升速度也隨之加快。以此說明杭州工業企業用電量網絡,在強相關性0.7~0.8的條件下,大約20%~10%的企業擁有網絡中大約80%~90%的連接,即僅有小部分企業涵蓋了網絡中大部分的強相關關系。這些小部分企業構成了城市的中心,影響著城市中的大部分企業。接下來,將重點圍繞中心企業構成的用電量網絡,探究在不同閾值下中心企業網絡連接情況。
通過第3節洛倫茲曲線的建立,我們發現杭州企業用電量網絡中,絕大部分連接僅由小部分頂點決定,這些頂點被看作是網絡的中心頂點。在給定閾值條件下,網絡度大頂點和其連接數形成了明顯的二八分布。隨著相關系數閾值的上升,度數前20%的頂點能夠擁有更多的連接,表示網絡中的強相關性均與這部分中心頂點有關。
為探究中心頂點對其他頂點的直接影響,我們將度數前20%的頂點作為中心頂點,建立中心頂點及其直接鄰居組成的相關性網絡。圖8和圖9分別展現了在閾值設置為0.7和0.8時建立的網絡。

圖8 閾值設置為0.7時的20%度大頂點(圓形標注)及其直接鄰居組成的相關性網絡

圖9 閾值設置為0.8時的20%度大頂點(圓形標注)及其直接鄰居組成的相關性網絡
其中圓形頂點表示度數前20%的度大頂點,即中心頂點;三角形頂點為中心頂點的直接鄰居頂點。該網絡僅包含有一個連通分支,網絡呈現出明顯的從中心向外發散的結構。我們發現中心頂點之間存在非常復雜的連接,而且這種內部聯系,在數量上遠遠高于他們與鄰居頂點的聯系。因而我們通過計算中心頂點的鄰居仍為中心頂點的概率,考察中心頂點之間和與其他頂點之間的連接關系。圖10描述了不同閾值下的概率。其中橫線表示多種不同閾值下的概率均值,數值是0.939。結果表明中心頂點有90%以上的鄰居依然為中心頂點,概率數值隨閾值變化波動較小。從以上結果得知,中心頂點與中心頂點之間的內部連接眾多且緊密。

圖10 中心頂點的鄰居仍為中心頂點概率
另一方面,本文研究了網絡的同配混合性質。同配混合是指在網絡中的頂點傾向于與同種屬性的頂點連接,也可稱為同質性[29]。相反,如果網絡展現出異配混合的結果,說明網絡中的頂點更傾向于與不同屬性的頂點連接。
通過計算同配系數判斷網絡是否同配,其取值在-1~1之間:如果同配系數為正,表明網絡屬于同配混合;如果為負,則屬于異配混合。本文分別對20%度大頂點及其鄰居頂點設置不同的屬性,并且計算不同閾值下的同配系數。表1給出了不同閾值下網絡同配系數的結果。
可以清楚地發現:在0.7~0.8的閾值下,同配系數均大于0,盡管數值不大,但是足以表明網絡滿足一定的同配混合性質。我們可以將閾值看作來自外界的攻擊,由于滿足頭重分布的網絡具有脆弱性,因此隨著閾值的增加,中心頂點之間的連接變得稀疏,網絡開始破裂,對內連接與對外連接逐漸相當,進而同配混合系數逐漸減小。當閾值為0.8時,同配系數接近于0,網絡此時均不滿足同配或異配特征,說明中心企業之間的相關關系大部分處于0.7~0.8之間。
另外,特征向量中心性也是考察網絡中心的一種常用測度[30],Bonacich[31]提出,一個節點的中心程度不僅在于其鄰居的數量,還在于其鄰居的中心性程度。連接到少量卻重要的鄰居的節點具有較高的特征向量中心性,而如果一個節點只擁有較低重要性的鄰居,其得分就會小得多[32]。由于考慮了鄰居的重要程度,因此度中心性高的節點不一定具有較高的特征向量中心性。本文分別計算了網絡中20%度大頂點以及其余所有非獨立的特征向量中心性,發現有超過80%的非中心頂點擁有極小(小于0.001)的特征向量中心性,表2匯總了不同閾值下20%度大頂點與所有非孤立頂點(包含前者)的平均特征向量中心性。我們發現中心頂點的平均特征向量中心性始終大于所有非孤立頂點的計算結果,說明中心頂點普遍擁有較高的特征向量中心性。

表1 不同閾值下網絡同配系數計算結果

表2 不同閾值下中心頂點和所有非孤立頂點(包含前者)的平均特征向量中心性
另外,本文分別將兩組頂點根據中心性降序排列,并繪制散點圖。在0.7閾值下的結果如圖11所示,圖中圓形標記代表所有頂點的特征向量中心性排序,三角形標記表示中心頂點排序。我們發現三角標記能夠很好地與圓形標記重疊,僅在尾部出現偏差,表明有超過95%由度數選擇到的中心頂點,依舊擁有較高的特征向量中心性。隨著閾值的上升,也能得到類似的結論。因此中心頂點不僅擁有廣泛的連接,連接到的其他網絡節點也擁有較高的中心性,結合中心頂點對內連接大于對外連接的結論,進一步說明了中心頂點的重要性。
通過對中心企業與其鄰居企業的連接關系、網絡同配系數以及特征向量中心性的考察。清楚地表明:在一個城市中存在用電量高度相關且網絡結構高度同質的少部分企業,包含了該城市企業大部分的相關關系,并且這些企業內部之間形成了緊密而有效的合作關系,成為城市的中心企業。
在上述分析中,我們發現這樣兩個問題:
1)在0.8閾值條件下,同配系數雖然表示網絡不符合同配混合性質,但在網絡的最大分支中仍然能夠發現部分中心頂點之間緊密聯系,且大于對外的連接。
2)隨著閾值的上升,中心企業之間被分成了多個分支,這些分支以一個最大分支(涵蓋了大部分中心企業)和多個小分支組成,形成了明顯的核心—邊緣結構。因此,在極高閾值條件下,一些中心企業從網絡中心脫離了出來,失去了代表性。
進而,我們要找到網絡中最關鍵的中心企業,這些企業之間總是存在緊密連接,不會因為相關系數閾值變化而破裂。通過試驗,我們發現在0.7~0.8的閾值條件下,度數前10%的頂點均能夠保證產生單一分支的網絡。如圖12展現了在閾值設置為0.8時,10%度大頂點及其直接鄰居頂點組成的網絡。

圖11 網絡非獨立頂點與中心頂點的特征向量中心性排名
我們發現10%度大頂點全部來自于20%度大頂點形成的網絡最大分支中,即盡管同配系數為0時,網絡中仍然連接緊密的部分。而且我們發現在0.7~0.8的閾值下,前10%的度大頂點涵蓋的企業基本保持不變,即大約147家固定企業之間存在有大量的0.7~0.8以上的強連接。由于在0.7~0.8的閾值條件下,中心企業能夠滿足同一分支的條件,說明當其他企業與這部分中心企業連接時,能夠進入到企業聯系最中心的部分。以此我們認為10%度大頂點對試圖與中心企業產生聯系的其他企業具有更加重要的作用,稱其為關鍵企業。
小世界效應首先在社會網絡中發現,研究者Milgram[33]通過信件傳遞試驗發現任意兩人之間最多只需要6步即可產生聯系,說明現實生活中信息能夠形成快速的傳遞。在不同的領域中小世界有著不同的實質意義,比如在社會網絡中意味著兩個人之間的信息需要傳遞的次數;在交通、鐵路、航空網絡中意味著兩地之間中轉站數等等。特別地,在電量相關性網絡中,我們認為兩企業之間的用電量相關性代表了緊密的合作關系與供應鏈關系,因此小世界特性意味著兩企業之間能夠更快地進行資源傳遞、信息交流。
小世界效應的測量主要在于網絡的平均測地距離和網絡聚類系數。測地距離是指兩頂點之間的最短距離;聚類系數是指網絡中三頂點之間形成閉合三角形結構的比例。表3描述了閾值設置在0.7~0.8時,平均測地距離、網絡聚類系數以及網絡直徑的信息。
可以看出該網絡擁有較小的平均測地距離,以及較大的聚類系數,說明該網絡滿足小世界特性。盡管隨著閾值的增加,網絡中的極強連接關系減少,從而導致平均測地距離增加,聚類系數減少,但是網絡直徑,即網絡中

表3 不同閾值下的平均測地距離、聚類系數以及直徑計算結果
最大的測地距離沒有產生較大變化,說明網絡中頂點之間的連接依舊保持著較高的密集程度。考慮到極小的平均測地距離,說明在10%度大頂點的鄰居之間,平均只需通過1~2個關鍵頂點即可形成聯系。特別地,當我們刪除關鍵頂點時,鄰居頂點以及其他非獨立頂點之間的平均測地距離,在0.7的閾值條件下,上升到了3.784,聚類系數下降到了0.596。表明關鍵頂點的存在,加快了企業信息及資源的傳播。
大部分企業由于與外界連接較小,或者連接較弱,往往無法成為網絡的中心。因此這些頂點在企業間信息傳遞、資源共享等方面,僅依賴于少數企業,存在信息不充分的劣勢。中心企業作為城市的中心,兩兩之間存在大量的強連接,形成了強關系網。其中10%度大頂點,即關鍵頂點,能夠在相關系數0.8的強條件下保持單一分支的網絡結構,并且滿足小世界特性,意味著關鍵頂點能夠促進企業之間聯系。對于企業來說,與這些關鍵企業相連接,可以增加信息來源數量,加強資源共享效率。對于城市來說,關鍵企業如同城市企業發展的“風向標”,進一步刺激這些關鍵企業與其他企業形成聯系,擴大中心企業數量,形成更大的合作關系網絡,進而促進城市發展。
本文以杭州市2017年工業企業用電量數據為例,以企業為頂點建立網絡,在使用條件Pearson相關性檢驗方法提取出由季節和節假日等宏觀因素帶來的基礎電量變化后,以條件Pearson相關系數作為兩企業之間的關系測度,我們發現大約90%的企業相關性小于0.6,企業間連接普遍較弱。我們通過網絡度分布能否近似滿足冪律分布為標準,設置相關系數閾值,發現在0.7~0.8的閾值水平下,網絡度分布近似服從同一冪律,而更大的閾值會使得網絡中有鄰居的頂點數過少而影響后續分析。
為測量網絡整體,我們通過冪律分布的頭重性質考察了用電量網絡中度大頂點比例與相應的連接邊比例之間的關系。我們發現在閾值設置為0.7及以上網絡的度分布能夠很好地滿足二八分布,并且隨著相關系數閾值的增加而擬合程度增強。我們建立了中心頂點及其鄰居的組成的網絡。通過對中心頂點的鄰居以及網絡同配性質的考察,我們發現中心頂點90%以上的鄰居依然是中心頂點,且網絡滿足較強的同配混合性質,意味著中心頂點之間形成了非常密集的強相關集群。特別地,度大頂點也擁有較大的特征向量中心性,進一步說明了中心頂點的核心地位。另外,10%度大頂點,即關鍵頂點,及其鄰居形成的網絡滿足小世界特性。關鍵頂點的存在,加快了企業信息及資源的傳播。對于企業來說,與這些關鍵企業相連接,可以增加信息來源數量,加強資源共享效率。對于城市來說,進一步刺激這些關鍵企業與其他企業形成聯系,擴大中心企業數量,形成更大的合作關系網絡,進而促進城市發展。