徐珊珊 唐大鵬 梁偉明 董會 孫煒程
南京華蘇科技有限公司
隨著經濟體制改革的推進,城市中外來常住人口迅速擴大,成為了一個不可忽視的特殊群體。常住人口,作為一種統(tǒng)計口徑,主要針對地區(qū)而言,常住人口與戶籍人口的統(tǒng)計口徑不同,在社會與政府部門工作中發(fā)揮著不同的作用。在當前流動人口規(guī)模大、人戶分離現象較為普遍的情況下,常住人口更能準確地反映一個地區(qū)的人口規(guī)模與現狀,對于政府制定相關政策與服務措施提供更為有效的信息。所以統(tǒng)計外來常住人口數量對于了解國情國力,制定人口計劃和經濟、社會發(fā)展計劃,進行人口科學研究,都有十分重要的意義。
但人口統(tǒng)計一直是一項費時費力的工作。現有的外來常住人口識別方法中,主要靠人工來完成,通過發(fā)放問卷的方式或者電話外呼的方式來確認,這種方法不但耗費人力物力,而且效率低下。部分運營商也會采取口徑的方式進行定義,但此種定義規(guī)則缺乏科學解釋性。如何減少人力物力,采用更高效科學的手段對外來常住人口進行識別是一項具有挑戰(zhàn)的工作。本文根據移動手機用戶駐留數據,使用大數據手段對外來常住人口進行統(tǒng)計,從而為政府提供具有科學解釋性的數據支撐,既不用像傳統(tǒng)普查方式那樣費時費力,也讓識別結果更具科學性。
移動運營商所收集的用戶駐留信息可以統(tǒng)計用戶在本市的駐留天數、駐留時長以及ECI切換數據。其中常住和非常住用戶在駐留特征上一定不同,因此通過對駐留信息進行處理形成駐留特征變量,則可使用聚類算法對兩類用戶進行區(qū)分。
研究結果表明,利用機器學習算法可以使用科學的方法對外來常住人口進行識別,且識別準確率較高。
人口是一個地區(qū)發(fā)展最重要的基礎,人口的多少與質量直接關系到所在地區(qū)的經濟水平、生活質量以及未來的發(fā)展?jié)摿?。人口、資源、環(huán)境三者相互影響、相互制約,人口規(guī)模的增減會直接影響地區(qū)的資源消耗與環(huán)境保護這兩項指標水平的高低。其中常住人口更能準確地反映一個地區(qū)的人口規(guī)模與現狀,對于政府制定相關政策與服務措施提供更為有效的信息。
目前大多數研究都只停留在宏觀的常住人口規(guī)模預測上,宋漢杰在多模型方法下的地區(qū)常住人口規(guī)模預測分析一文中,通過運用一元線性回歸法、二次指數平滑法、灰色GM(1,1)模型預測法,分別對2013—2020年株洲市的常住人口進行了短期預測。另一項研究也是采用Logistic模型對青島常住人口進行預測,從而了解青島人口發(fā)展趨勢。從以往這些研究中發(fā)現,對人口微觀上的研究非常少,并沒有細分到單個常住人口的識別。
當用戶缺乏標簽時,對用戶的劃分則需要用到非監(jiān)督機器學習算法。無監(jiān)督學習中最典型的就是聚類算法,聚類可根據用戶數據特征,將有相似特征的數據點聚成一組。每一個組都被稱作一個集群(簇)。對象之間的相似性可通過解析方式進行定義。存在很多不同的聚類算法,其區(qū)別在于衡量對象相似性的標準不同:可通過距離、密度、圖論或是統(tǒng)計分布來衡量。
本文采用無監(jiān)督機器學習算法,挖掘出常住人口與非常住人口的駐留行為特征,對單個用戶進行識別,從而便于政府部門進行管理。
本文中所研究的數據來自無錫移動通信公司(位于中國江蘇?。?。下面,我們詳述了無錫移動公司目前的相關數據情況。
在外來人口的定義上,本文根據運營商的要求對外來人口做出如下定義。根據手機號碼歸屬地和身份證信息共分為以下四種用戶類型,如圖1所示。
(1)本地號碼本地戶籍的用戶;
(2)本地號碼外地戶籍本地戶口的用戶;
(3)本地號碼外地戶籍外地戶口的用戶;
(4)外地號碼的用戶。
其中第一類和第二類人均不歸類為外來人口,所以常住外來人口識別只需針對第三類和第四類用戶進行分析。

圖1 全網用戶分類圖
為了保護用戶隱私,目前無錫移動僅能為我們提供一種類型的數據:用戶駐留數據。駐留數據主要包括用戶在某個時刻某一小區(qū)下的駐留時長。
本文用于實驗的是無錫2月用戶駐留數據(包含2/3/4G所有數據),按照以上四類用戶共分為四個數據集,包含以下字段:用戶手機號,小區(qū)唯一標識碼,秒級駐留時長,時間,以及一些標簽變量。其中第一類數據集中包含236個用戶,第二類數據集中包含182個用戶,第三類數據集中包含178個用戶,第四類數據集中包含199個用戶,共795個用戶。本文用于建模的主要為第三類和第四類用戶。
本文的目的是區(qū)分外來流動人口和外來常住人口。但數據中缺乏標簽,因此選擇無監(jiān)督學習中的聚類算法完成兩類人口的區(qū)分,主要分為以下幾個步驟:
(1)數據預處理。即將數據中的異常值和缺失值從數據集中剔除;
(2)變量轉換。即對駐留數據進行變形轉換,運用統(tǒng)計手段處理產生新的可用變量;
(3)變量篩選。目的為避免某些相關性較強的變量影響最終的聚類結果;
(4)數據標準化。目的是為消除各變量由于量綱不同所產生的影響;
(5)聚類模型相關機器學習算法。
前面已經提到,本文將使用到用戶駐留數據,所以在建模前需要對數據中的缺失值和異常值進行處理。通過對數據進行觀察發(fā)現,有些數據中的用戶標識碼和小區(qū)標識碼存在缺失,對于此類數據,我們選擇行刪除的方式進行處理。有些用戶的駐留時長也會存在異常值,理論上駐留時長應該在0-3600s之間,對于大于3600s和小于0s的數據需要刪除。
為了保護客戶隱私,運營商只能提供用戶駐留數據。未經處理的駐留數據無法用于用戶聚類分析,因此要對駐留數據進行轉換,運用統(tǒng)計手段處理產生新的可用變量。根據用戶駐留數據進行如下統(tǒng)計分析,形成以下15個新變量∶
(1)統(tǒng)計各用戶一個月中駐留的天數總和
(2)統(tǒng)計各用戶一個月中駐留的小時數總和
(3)統(tǒng)計各用戶一個月中駐留的秒數總和
(4)統(tǒng)計各用戶工作日eci類別總數(只統(tǒng)計駐留超過10min 的 eci)
(5)統(tǒng)計各用戶休息日eci類別總數(只統(tǒng)計駐留超過10min 的 eci)
(6)統(tǒng)計各用戶工作日eci總和
(7)統(tǒng)計各用戶休息日eci總和
(8)統(tǒng)計各用戶工作日駐留的天數總和
(9)統(tǒng)計各用戶休息日駐留的天數總和
(10)統(tǒng)計各用戶工作日駐留的小時數總和
(11)統(tǒng)計各用戶休息日駐留的小時數總和
(12)統(tǒng)計各用戶工作日駐留秒數總和
(13)統(tǒng)計各用戶休息日駐留秒數總和
(14)統(tǒng)計各用戶平均每天駐留時長(按小時統(tǒng)計)
(15)統(tǒng)計各用戶平均每天駐留時長(按秒統(tǒng)計)
在進行聚類分析時,若各變量間存在強相關性,則會導致相關變量權重增大,影響最終聚類結果。因此在做聚類分析之前,需要通過相關性檢驗對變量進行篩選。
Pearson相關系數又叫做Pearson積矩相關系數,是一種統(tǒng)計學參數,一般用來定量的衡量變量之間的相關關系,其計算公式如公式(1)所示:

上式中,變量X是所有點的x坐標的集合,變量Y是所有點的y坐標的集合,N表示點的總個數。Pearson相關系數的絕對值越大,反映變量之間的相關性越強。當相關系數越接近于1或-1,表示相關度越強;當相關系數越接近于0,表示相關度越弱。當相關系數大于0時,表示為正相關;當相關系數小于0時,表示為負相關。通常情況下可以通過相關系數的絕對值取值范圍判斷變量的相關強度,相關系數和相關強度的關系如表1所示。

表1 相關系數和相關強度關系表
圖2為各變量之間的相關性可視化圖,通過圖形可以更直觀的看出各變量之間的相關性,根據相關系數和相關強度關系表可以刪除具有強相關的變量。

圖2 變量相關性可視化圖
由于轉換的新變量在量綱上不同,因此進行聚類之前要先對變量進行無量綱化的處理,本文采用了min-max標準化,即對原始數據進行線性變換,使結果映射到[0,1]之間,公式為:

其中max為樣本數據的最大值,min為樣本數據的最小值。
完成變量篩選及無量綱化處理后,則可對用戶進行聚類分析。聚類就是按照事物的某些特征,把事物分成若干類或簇,使得在同一個類內的對象之間最大程度相似,而不同類之間的對象最大程度不同。聚類作為無監(jiān)督學習方法,廣泛地應用在了各個領域,本文嘗試了以下四種聚類算法:
(1)均值聚類
首先從n個數據對象任意選擇k個對象作為初始聚類中心;而對于所剩下的其他對象,則根據他們與這些聚類中心的相似度(距離),分別將他們分配給與其最相似的聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數。K個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
(2)Ward層次聚類
Ward層次聚類方法具體的可以分為兩大類,第一,分裂型層次聚類方法,即在聚類開始時假定所有數據點都屬于同一個類,在迭代的過程中,利用相應的準則一個類被一直的分解,使之成為更小類,直到滿足預定的條件時,分裂的過程停止。第二,合并型層次聚類方法,相反的,設每個樣本點都是一個獨立的類,之后把相似度高的類逐漸合并,當滿足算法的終止條件時,停止迭代。
(3)DBSCAN算法
是一種基于高密度聯通區(qū)域的聚類算法,它將類簇定義為高密度聯通區(qū)域的聚類算法,它將類簇定義為高密度相連點的最大集合。它本身對噪聲不敏感,并且能發(fā)現任意形狀的類簇。DBSCAN算法需要輸入兩個參數:一個參數是半徑(Eps),表示以給定點p為中心的圓形領域的范圍;另一個參數是以點p為中心的領域內最少點的數量(min_sample)。如果滿足:以點p為中心,半徑為Eps的鄰域內的點的個數不少于min_sample,則稱點p為核心點。
(4)譜聚類
譜聚類原理上是一種基于圖論的聚類方法。將樣本看成頂點,樣本的相似度看作帶權邊。這樣,把樣本集劃分成K個簇的過程就等同于一個圖的分割問題。要求組間相似度低,組內相似度高。如圖3所示,譜聚類能對任意形狀的樣本空間聚類,并能獲得全局最優(yōu)解,其基本思想是通過對樣本數據的拉普拉斯矩陣進行特征分解而得到的特征向量進行聚類。假定將每個數據樣本看作圖中的頂點V,且樣本中的數據對之間都有一定的相似性,由樣本間的相似度,將頂點間的邊E賦權重值W,得到一個無向加權圖G = (V,E),V = {v1,v2,…,vn}表示點集。圖G中,可將聚類問題轉化為在圖G上的圖劃分問題。圖論中的劃分準則一般有Minimum Cut、Normalized Cut、Ratio Cut、Average Cut、Min-max Cut、MN Cut等,劃分準則的好壞對聚類結果的優(yōu)劣產生很大影響。

圖3 譜聚類無向圖劃分圖
本節(jié)主要從下幾個部分展示模型的結果:
(1)列出兩到三個選擇的特征變量
(2)展示聚類中的最優(yōu)聚類個數
(3)列出兩種聚類效果的比較結果
(4)展示模型最終聚類效果
(5)對比口徑法和聚類法結果
通過相關性檢驗對變量進行篩選后,結合最終聚類效果共保留了十一個變量。其中用戶一個月中駐留的天數總和是最重要的特征之一。從經驗判斷,一般常住人口一個月中駐留的天數一般較長。
用戶平均每天駐留時長也是另一個重要的特征向量。一般常住人口不僅在一個月中駐留的天數較長,且每天的駐留時間也會比較長。通過這個變量可以排除一些每天路過無錫的過路人。
在進行聚類分析前,首先要確定最優(yōu)聚類個數。本文結合輪廓系數和業(yè)務背景對K值進行了選擇。其中輪廓系數法結合了凝聚度和分離度,可以以此來判斷聚類的優(yōu)良性,其值在-1到+1之間取值,值越大表示聚類效果越好。于是我們可以計算在每個簇數條件下的輪廓系數,當輪廓系數取最大時,其相應的簇個數是最好的。如圖4所示,輪廓系數方法建議最優(yōu)簇數為K=2。結合實際情況考慮,需要人群區(qū)分為非常住和常住,也是兩類的情況。因此在最終的聚類算法中,將K值設為2。
本文嘗試了k-means、層次聚類、DBSCAN、譜聚類共四種聚類算法。以上四種算法在數據集的聚類效果上差別較大。以下圖形展示了在第三類數據集上各算法的聚類效果比較,各聚類算法在第四類數據集上的表現與第三類數據集類似。
下圖中的橫坐標表示用戶一個月中的駐留天數總和,縱坐標表示用戶平均每天駐留時長。一般常住人口在行為特征上表現為一個月中駐留天數長且每天駐留時間也較久。從各聚類結果中可以看出,只有譜聚類能夠很好地挖掘出此類行為特征。

圖4 輪廓系數圖

圖5 聚類結果二維分布圖
衡量各種聚類效果,本文最終選擇譜聚類作為最終聚類算法。譜聚類不對樣本空間的整體結構做任何假設,能夠識別樣本點在空間上的非凸分布。因此,譜聚類方法適用于具有任何分布形狀的樣本空間,從而求解到全局最優(yōu)解。同時,譜聚類算法在實現上僅涉及標準的線性代數方法,易于實現。而傳統(tǒng)的k-means聚類中,當樣本維數增大時,k-means計算會很困難。因為在k-means中,輸入計算的是歐式空間中的原始向量。而且k-means求得的是一種局部最優(yōu)策略,SSE不一定是最小的。
圖6、圖7分別為第三類和第四類用戶樣本數據集的最終聚類效果圖,從圖中可以看出聚類效果較好地區(qū)分了外來常住與非常住人群。外來常住人口在特征上基本表現為一個月中駐留天數長且每天駐留時間也較久,而非常住人口基本表現為駐留天數短。將聚類標簽與運營商口徑法的結果進行對比,用戶標簽完全相同的平均占比高達92%以上。

圖6 第三類用戶聚類效果圖

圖7 第四類用戶聚類效果圖
表2、3分別為本地號碼外地戶籍外地戶口和外地號碼的結果對比。無錫移動通過口徑法對外來常住人口進行了判斷,認為除本地用戶外,當月每天晚9點至第二天8點時間內駐留超過5小時并且駐留7天以上的人即為外來常住人口。通過對比口徑法的結果,本地號碼外地戶籍外地戶口這類用戶中,聚類法得到的結果與口徑法結果完全一致的用戶有163個,占總用戶數的91.57%;在外地號碼這類用戶中,聚類法得到的結果與口徑法結果完全一致的用戶有186個,占總用戶數的93.47%。
在本地號碼外地戶籍外地戶口這類用戶中,口徑法判斷為常住,而聚類法判斷為非常住的用戶有兩個,從駐留原始數據中可以看出,這兩個用戶2月在無錫分別只駐留了5天和6天,且為連續(xù)駐留,理論上不應認為是常住人口。而口徑法判斷為非常住,聚類法判斷為常住的用戶有13個,這13個用戶2月在無錫最少駐留12天,且每日駐留時間較長,理論上應判斷為常住。外地號碼這類用戶中的情況也是如此。

表2 本地號碼外地戶籍外地戶口結果對比表

表3 外地號碼結果對比表
本文通過對用戶駐留數據進行轉換處理,形成用戶駐留行為特征變量,并采用多種聚類算法對外來常住人口進行識別。最后選取了計算速度快且能產生全局最優(yōu)解的譜聚類算法進行建模預測。預測結果表明預測精度較高,與口徑法判斷結果基本一致,且能識別出口徑法中無法判斷的異常事件。此模型不僅可以為政府部門節(jié)省人力物力資源,也能有力支撐運營商在外來常住人口市場營銷服務工作的開展,為市場部門提供精細化營銷所必須的分析支撐服務。