王 林,郭娜娜
西安理工大學 自動化與信息工程學院, 西安 710048)(*通信作者電子郵箱1352214125@qq.com)
基于差異度的不均衡電信客戶數據分類方法
王 林,郭娜娜*
西安理工大學 自動化與信息工程學院, 西安 710048)(*通信作者電子郵箱1352214125@qq.com)
針對傳統分類技術對不均衡電信客戶數據集中流失客戶識別能力不足的問題,提出一種基于差異度的改進型不均衡數據分類(IDBC)算法。該算法在基于差異度分類(DBC)算法的基礎上改進了原型選擇策略。在原型選擇階段,利用改進型的樣本子集優化方法從整體數據集中選擇最具參考價值的原型集,從而避免了隨機選擇所帶來的不確定性;在分類階段,分別利用訓練集和原型集、測試集和原型集樣本之間的差異性構建相應的特征空間,進而采用傳統的分類預測算法對映射到相應特征空間內的差異度數據集進行學習。最后選用了UCI數據庫中的電信客戶數據集和另外6個普通的不均衡數據集對該算法進行驗證,相對于傳統基于特征的不均衡數據分類算法,DBC算法對稀有類的識別率平均提高了8.3%,IDBC算法對稀有類的識別率平均提高了11.3%。實驗結果表明,所提IDBC算法不受類別分布的影響,而且對不均衡數據集中稀有類的識別能力優于已有的先進分類技術。
客戶流失預測;不均衡數據分類;樣本子集優化;原型選擇;差異度轉化
電信客戶流失預測所對應的數據集是典型的不均衡數據集,因為在所有的電信客戶中有流失發生的客戶畢竟是少數,大多數客戶還是穩定存在的,而流失客戶才是企業關注的焦點。傳統的機器學習算法以整體預測精度為訓練目標,這樣就導致多數類預測精度高,而少數類預測精度相對較低[1]。因此,數據的不均衡性成為影響客戶流失預測精度的主要障礙,研究如何解決客戶流失預測中面臨的數據不均衡問題就變得越來越重要。
針對客戶流失預測中的數據不均衡問題,國內外學者主要進行了以下兩方面的研究:
1)修正偏斜的數據分布,采用重采樣或者構建新樣本的方法實現數據均衡化處理。針對重采樣過程中有用樣本信息丟失的問題,文獻[2]提出了兩種欠采樣的改進算法EasyEnsemble和BalanceCascade,結果表明改進的欠采樣方法能夠有效地均衡數據分布,同時提高少數類樣本的分類準確率;文獻[3]采用基于聚類的欠采樣方法來提取多數類的聚類邊界,并結合支持向量機(Support Vector Machine, SVM)分類算法構建流失預測模型,結果表明該方法能夠保留有用的多數類樣本信息,均衡數據分布并擴大決策邊界,進而提高SVM算法對少數類樣本的識別能力;針對樣本合成過程中所帶來的數據噪聲干擾以及模型過擬合問題,文獻[4]提出一種基于錯分的混合采樣算法,有效地解決了合成少數類過采樣技術(Synthetic Minority Over-sampling Technique, SMOTE)中存在的數據噪聲干擾問題,同時克服了盲目采樣和不合理采樣所帶來的樣本空間重疊問題;文獻[5]提出一種基于單邊選擇鏈和樣本分布密度融合的不均衡數據處理方法,有效地解決了SMOTE采樣算法所帶來的過擬合問題,同時提升了分類模型對少數類樣本的分類性能。
2)改進分類算法,采用組合分類方法或代價敏感分析。文獻[6]將基于粒子群優化的欠采樣方法與組合分類技術相結合來構建流失預測模型,結果表明該組合預測模型對流失客戶的識別能力明顯優于單一的預測技術;文獻[7]采用了基于分割聚類分層抽樣邏輯回歸預測模型,該模型從失衡數據集的重采樣和預測算法的改進兩個方面同時入手,改善了數據失衡對預測所造成的影響;文獻[8]將客戶生命價值作為隨機森林中節點劃分的準則,不僅消除了不均衡數據對預測結果的影響,而且提高了對有流失傾向的高價值客戶預測的準確率;文獻[9]將代價敏感學習理論與隨機森林分類算法相融合,采用加權隨機森林分類算法來解決電信客戶流失預測中的不均衡數據分類問題;針對客戶流失數據集的非均衡問題和錯分代價的差異性問題,文獻[10]將代價敏感學習應用于加權支持向量機,結果表明該方法在精確度、命中率、覆蓋率和提升度方面均有所改善。
雖然上述研究對客戶流失預測具有一定的貢獻,但是研究的焦點一直圍繞如何消除不均衡數據分布對分類預測結果的影響,而文獻[11-12]表明偏斜的數據分布并不是影響傳統分類算法對稀有類識別的唯一因素,特征和類標簽之間的關聯性同樣對不均衡數據的分類結果有重要影響,然而許多研究往往忽略了特征對類標簽的識別能力。文獻[13]表明傳統的特征選擇僅僅實現了特征降維,并不能提高特征對類標簽的識別能力。文獻[14-16]采用了一種差異度表示方法來處理不均衡數據的分類問題,該方法利用樣本之間的差異性來捕獲數據集的結構特性和統計特性,并借助樣本間的差異度來構建新的特征空間,即差異度空間,結果表明在新的特征空間內,樣本的類標簽更容易得到識別。故差異度表示方法為電信客戶流失預測中的不均衡數據分類問題提供了一種新的解決思路。
不受類別分布的影響是差異度表示方法的一大優勢,可彌補已有不均衡數據分類方法的不足,然而,若直接將該方法應用于實際的電信客戶流失預測,將會出現以下兩大弊端:1)電信客戶數據集中存在大量冗余或無關的特征屬性,可能會對原型選擇形成干擾,進而影響差異度轉化的有效性;2)基于隨機選擇的原型選擇方法并不能確保所選擇的原型集是最優的。
為解決上述問題,本文提出一種基于差異度的改進型不均衡數據分類(Improved Dissimilarity-Based imbalanced data Classification, IDBC)方法來預測電信客戶的流失趨勢。針對冗余屬性對差異度表示方法的影響,本文在構建分類模型之前,采用基于關聯的特征選擇(Correlation-based Feature Selection, CFS)算法對原始數據集進行特征選擇;針對隨機選擇方法在原型選擇過程中所帶來的不確定性和復雜度高的弊端,本文采用改進型的樣本子集優化(Improved Sample Subset Optimization, ISSO)技術來選擇原型集。
1.1 差異度表示
傳統的分類技術是根據特征與類標簽之間的關聯性來決定對象的類別歸屬。在原始特征空間內,不同對象在同一特征空間內可能會有相同的類標簽,同樣,當特征空間的結構發生變化時,隸屬不同類別的對象可能會由相同的特征向量所表示。因此,僅利用特征與類標簽之間的關聯性來判斷對象的類別歸屬是遠遠不夠的。在差異度表示方法中,假定歸屬同一類別的對象之間具有很強的相似性;反之,具有極大的差異性,以能夠顯著刻畫類標簽的代表性對象實例為參考目標,利用其余對象與代表性對象之間的差異度來構建新的特征空間,即差異度空間。差異度表示方法借助對象之間的差異性來確定對象的類標簽,以差異度代替特征屬性,從而克服了類重疊的弊端。
差異度表示的基本思想:


(1)
其中:x∈T;dis(·)表示距離函數;[·]T表示矩陣的轉置。
進而利用訓練集中的任意對象和原型集中所有對象之間的差異性,確定該對象的類別歸屬,證明如下:
?xj∈T,p1,p2∈R,Label(p1)=c1,Label(p2)=c2,若dis(xj,p1)>dis(xj,p2),則Label(xj)=c2。

該差異度表示方法僅借助對象實例之間的差異性來確定對象的類別歸屬,不需要考慮特征屬性對類標簽的影響,而且忽略了類別分布對分類結果的影響,從而避免了傳統分類器在不均衡數據分類過程中失效。
1.2 基于樣本子集優化的原型選擇
在差異度表示方法中,原型集代表了一類對類標簽具有顯著識別能力的有用樣本子集,作為差異度轉化過程中的參考數據集。隨機選擇是一種最簡單的原型選擇方法,即從訓練集中隨機選取部分樣本實例作為原型集;但是隨機選擇方法所存在的不確定性可能會導致所獲取的原型集缺乏參考價值,從而影響差異度轉化的有效性[13]2。文獻[17]曾采用樣本子集優化(SampleSubsetOptimization,SSO)方法從多數類樣本集中選擇有用的樣本實例,所選取的樣本實例代表了整個多數類樣本集的統計特性。本文利用該優化思想,以整個訓練集(既包含多數類樣本,也包含少數類樣本)為研究對象,采用改進型的樣本子集優化技術進行原型選擇。
改進型的樣本子集優化(ISSO)技術通過最小化訓練數據集交叉驗證過程中的期望誤差來選擇一個有效的訓練樣本子集。k折交叉驗證的期望誤差定義如式(2)所示:
(2)

在樣本子集優化過程中,采用粒子群優化(Particle Swarm Optimization, PSO)算法[18]選取最優的訓練子集。假定訓練集中含有n個樣本實例,即T={x1,x2,…,xn},粒子群中含有L個粒子,即Z={m1,m2,…,mL},采用一個指示函數集M={Ix1,Ix2,…,Ixn}編碼對應粒子。在每一維中,若第j個樣本實例xj被選中,則指示函數Ixj=1;否則Ixj=0。在優化過程中,由于指示函數采用二進制離散編碼的方式進行表示,但是粒子群算法通常是對連續值進行優化,故使用sigmoid(·)函數對式(3)中所求得的連續速度值進行離散化處理。粒子的速度和位置更新如式(3)~(5)所示:
vi, j(t+1)=wvi, j(t)+c1f1(pbesti, j-posi, j(t))+c2f2(gbesti, j-posi, j(t))
(3)

(4)
(5)

1.3 差異度轉化

2.1 模型方案設計
基于差異度的電信客戶流失預測模型的具體方案設計如圖1所示。

圖1 基于差異度的電信客戶流失預測模型框圖
模型構建主要包括兩個階段:訓練階段和測試階段。在模型訓練階段,主要進行特征選擇、原型選擇、差異度轉化和分類器訓練;在模型測試階段,主要利用測試樣本對訓練所得的分類器的有效性進行檢驗。具體過程如下:
1)模型訓練。
a)特征選擇。利用基于關聯的特征選擇(CFS)算法對電信客戶數據集中的特征空間進行降維,剔除冗余或無關的特征屬性,保證原型選擇的有效進行。
b)原型選擇。采用改進型的樣本子集優化技術(ISSO)從訓練數據集中選取有代表性的樣本子集,作為差異度轉化中的參考集。
c)差異度轉化。計算訓練數據集與原型集之間的差異度,并利用訓練樣本實例與原型集之間的差異度來重新定義訓練樣本實例的描述方式,取代已有的基于特征屬性的樣本實例描述方法。
d)分類器訓練。由于差異度表示方法與類別分布無關,故在類別分布不均衡的數據分類問題中失效的分類算法仍可運用于電信客戶流失預測的分類建模。本文采用的分類算法有樸素貝葉斯(NativeBayes,NB)、邏輯回歸(LogisticRegression,LR)、k近鄰(k-Nearnest Neighbors, kNN)、決策樹(J48)和隨機森林(Random Forest, RF)。
2)模型測試。
a)數據約簡。利用模型訓練過程中所得的特征子集,對測試數據集進行屬性約簡。
b)差異度轉化。利用模型訓練過程中所得的原型集,將約簡后的測試數據集映射到差異度空間,形成差異度測試集。
c)分類器評估與應用。利用差異度測試集對訓練所得的分類器進行測試,獲取分類評價指標,預測流失結果。
2.2 模型評價標準
受試者工作特征曲線下的面積(Area Under ROC Curve, AUC)表示受試者工作特征曲線(Receiver Operating Characteristic Curve, ROC)與坐標軸所圍的面積,該曲線的橫坐標代表假正率(False Positive Rate, FPR),縱坐標代表真正率(True Positive Rate, TPR)。通常情況下,AUC是一種用來評估不均衡數據分類預測性能的重要指標。理想情況下,要求真正率盡可能高,假正率盡可能低。因此,AUC值越大,代表分類模型的分類性能越優。TPR、FPR的定義如式(7)、(8)所示:

(7)

(8)
3.1 實驗數據
本文選取UCI機器學習數據庫中的電信客戶流失數據集(Churn_data)和另外6個普通的不均衡數據集(abalone9-18、ecoliIM、ecoliIMU、ecoliOM、yeastCYT-POX、glassNM)對所提出的基于差異度的改進型不均衡數據分類算法的有效性進行驗證。Churn_data數據集的詳細信息如表1~2所示,另外6個類別分布不均衡的UCI數據集的數據描述如表3所示。

表1 UCI電信客戶數據集(Churn_data)的客戶屬性描述

表2 Churn_data電信客戶數據集的數據描述

表3 UCI中其他六個不均衡數據集的數據描述

3.2 實驗結果及分析
為評估本文算法在解決不均衡數據分類問題時的有效性,在Eclipse開發環境下,利用數據挖掘工具Weka進行了相應的實驗,并對實驗結果進行了詳細的分析。實驗分為兩個部分。
實驗1 基于UCI電信客戶數據集,借助樸素貝葉斯(NB)、邏輯回歸(LR)、k近鄰(kNN)、決策樹(J48)和隨機森林(RF)五種分類算法,分別運用已有的不均衡數據處理方法,例如隨機過采樣(Random Over-Sampling, ROS)、隨機欠采樣(Random Under-Sampling, RUS)、合成少數類的過采樣(SMOTE)、提升(Boosting)、裝袋(Bagging)、代價敏感分析算法(MetaCost)和原差異度分類(Dissimilarity-Based Classification, DBC)方法、改進型的差異度分類(IDBC)方法,以及在特征選擇基礎上實現的改進型差異度分類(Improved Classification based on Feature Selection and Dissimilarity, FS-IDBC)方法對該數據集進行訓練和測試,比較分類評價指標AUC,實驗結果如表4所示。
通過分析表4的實驗數據,可以分析得出以下結論:
1)在不同的分類算法下,基于差異度的不均衡數據處理(DBC)方法的分類評價指標AUC值均高于已有的不均衡數據處理方法的AUC值。說明差異度表示是一種有效的不均衡數據處理方法,能夠避免傳統分類算法在不均衡數據分類過程中失效。
2)通過分析不同的兩種原型選擇方法的實驗結果,并在同一分類算法下以已有不平衡處理方法中最優方法所獲取的分類評估指標AUC值為參考對象,依次計算IDBC方法、DBC方法相對于最優方法在識別率方面的提升度,同時進一步綜合上述五種分類算法下識別率的提升度,以識別率的平均提升度為衡量標準,計算結果表明:當采用基于隨機選擇的原型選擇(Prototype Selection based on Random Selection, RS-PS)方法進行原型選擇時,DBC方法對流失客戶的識別率要比已有的不平衡處理方法中最優算法的識別率平均提高了大約8.3%;然而,當采用基于改進型的樣本子集優化的原型選擇(Prototype Selection based on Improved Sample Subset Optimization, ISSO-PS)方法進行原型選擇時,IDBC方法對流失客戶的識別率平均提高了大約11.3%。比較結果表明基于改進型的樣本子集優化的原型選擇方法能夠通過分析樣本在分類過程中的作用,進而選出與類標簽緊密相關的核心樣本子集。因此,基于改進型樣本子集優化的原型選擇方法對分類結果更有利。
3)通過比較特征選擇前后IDBC算法的分類結果,分析可得:雖然基于改進型樣本子集優化的差異度分類方法是一種高效的不均衡數據分類方法,但是電信客戶數據集中所存在的冗余、無關的客戶屬性不僅會增加模型構建過程中的復雜度,而且會對原型選擇造成干擾,致使所選擇的原型集缺乏參考價值。因此,在特征選擇的基礎上,采用IDBC方法將有助于提高傳統分類算法對不均衡電信客戶數據分類預測的準確率。
實驗2 基于6個普通的UCI不均衡數據集(abalone9-18、ecoliIM、ecoliIMU、ecoliOM、 yeastCYT-POX、glassNM),借助樸素貝葉斯(NB)、邏輯回歸(LR)、k近鄰(kNN)、決策樹(J48)和隨機森林(RF)五種分類算法,分別運用已有的不均衡數據處理方法ROS、RUS、SMOTE、Boosting、Bagging、MeataCost和改進型的差異度分類方法(IDBC)在上述6個不均衡數據集上訓練分類模型,并對訓練所得模型的有效性進行檢驗,比較分類評價指標AUC,如表5所示。
通過分析表5中的實驗結果,可以得出結論:差異度表示方法不僅可以解決電信客戶流失預測中的不均衡數據分類問題,而且適用于其他不同領域的不均衡數據分類研究。同時通過比較所有的不均衡數據處理方法,發現組合分類技術和代價敏感學習的分類效果優于一般的重采樣方法,而遜色于改進型的差異度分類方法。

表4 基于Churn_data數據集的不均衡數據處理方法的分類評價指標(AUC)

表5 基于UCI其他六個數據集的不均衡數據處理方法的分類評價指標(AUC)
本文針對電信客戶流失預測中存在的不均衡數據分類問題以及差異度分類方法在不均衡數據分類中的局限性,提出將特征選擇、樣本子集優化以及差異度分類方法相結合來解決電信客戶流失預測問題。通過對基于差異度的改進型不均衡數據分類(IDBC)算法進行實證分析,可以得出以下幾點結論:1)差異度分類方法能夠消除類別分布對預測結果的影響,對流失客戶的預測性能優于已有的流失預測方法;2)相對于隨機選擇的結果,樣本子集優化所選擇的原型集更具有參考價值,對流失客戶的識別更有利;3)在構建分類模型之前,對原始電信客戶數據集進行特征選擇,不僅能夠消除冗余,降低計算復雜度,而且確保了原型選擇的有效性;4)差異度表示方法適用于解決不均衡數據的分類問題。但是,本文提出的改進型差異度分類算法目前僅僅適用于解決不均衡數據的二分類問題,并不適用于解決多類別的數據分類問題。因此,探索差異度分類方法在多類別數據分類問題中的應用將成為下一階段的研究目標。
References)
[1] 曹鵬, 李博, 栗偉, 等. 基于粒子群優化的不均衡數據學習[J]. 計算機應用, 2013, 33(3): 789-792.(CAO P, LI B, LI W, et al. Imbalanced data learning based on particle swarm optimization[J]. Journal of Computer Applications, 2013, 33(3): 789-792.)
[2] LIU X, WU J, ZHOU Z. Exploratory under-sampling for class-imbalance learning [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B, 2009, 39(2): 539-550.
[3] LI P, YU X, SUN B, et al. Telecom customer churn prediction based on imbalanced data re-sampling method[C]// Proceedings of the 2013 International Conference on Measurement, Information and Control. Piscataway, NJ: IEEE, 2013: 229-233.
[4] 古平, 歐陽源遊. 基于混合采樣的非平衡數據集分類研究[J]. 計算機應用研究, 2015, 32(2): 379-381.(GU P, OUYANG Y Y. Classification research for unbalanced data based on mixed-sampling [J]. Application Research of Computers, 2015, 32(2): 379-381.)
[5] 翟云, 王樹鵬, 馬楠, 等. 基于單邊選擇鏈和樣本分布密度融合機制的非平衡數據挖掘方法[J]. 電子學報, 2014, 42(7): 1311-1319.(ZHAI Y, WANG S P, MA N, et al. A data mining method for imbalanced datasets based on one-sided link and distribution density of instances [J]. Acta Electronica Sinica, 2014, 42(7): 1311-1319.)
[6] IDRIS A, KHAN A. Churn prediction system for telecom using filter-wrapper and ensemble classification [J/OL]. The Computer Journal, 2016 [2016- 06- 01]. http://comjnl.oxfordjournals.org/content/early/2016/05/27/comjnl.bxv123.abstract.
[7] LI P, LI S B, BI T T, et al. Telecom customer churn prediction method based on cluster stratified sampling logistic regression [C]// Proceedings of the 2014 International Conference on Software Intelligence Technologies and Applications & International Conference on Frontiers of Internet of Things. London, UK: IET, 2014: 282-287.
[8] 丁君美, 劉貴全, 李慧. 改進隨機森林算法在電信業客戶流失預測中的應用[J]. 模式識別與人工智能, 2015,28(11): 1041-1049.(DING J M, LIU G Q, LI H. The application of improved random forest in the telecom customer churn prediction [J]. Pattern Recognition and Artificial Intelligence, 2015,28(11): 1041-1049.)
[9] EFFENDY V, BAIZAL Z K A. Handling imbalanced data in customer churn prediction using combined sampling and weighted random forest[C]// Proceedings of the 2014 2nd International Conference on Information and Communication Technology. Piscataway, NJ: IEEE, 2014: 325-330.
[10] 蔣國瑞, 司學峰. 基于代價敏感SVM的電信客戶流失預測研究[J]. 計算機應用研究, 2009, 26(2): 521-523.(JIANG G R, SI X F. Study of telecom customer churn prediction based on cost sensitive SVM [J]. Application Research of Computers, 2009, 26(2): 521-523.)
[11] JAPKOWICZ N, STEPHEN S. The class imbalance problem: a systematic study [J]. Intelligent Data Analysis, 2002, 6(5): 429-449.
[12] ELLOUMI M, ZOMAYA A Y, YANG P, et al. Stability of feature selection algorithms and ensemble feature selection methods in bioinformatics [EB/OL]. [2016- 03- 10]. http://onlinelibrary.wiley.com/doi/10.1002/9781118617151.ch14/summary.
[13] ZHANG X, SONG Q, WANG G, et al. A dissimilarity-based imbalance data classification algorithm [J]. Applied Intelligence, 2015, 42(3): 544-565.
[14] PEKALSKA E, DUIN R P W. Dissimilarity representations allow for building good classifiers [J]. Pattern Recognition Letters, 2002, 23(8): 943-956.
[15] PEKALSKA E, DUIN R P W, PACLIK P. Prototype selection for dissimilarity-based classifiers [J]. Pattern Recognition, 2006, 39(2): 189-208.
[16] DUIN R P W, PEKALSKA E. The dissimilarity representation for pattern recognition: a tutorial[EB/OL]. [2016- 03- 10]. http://homepage.tudelft.nl/a9p19/presentations/DisRep_Tutorial_doc.pdf.
[17] YANG P Y, YOO P D, FERNANDO J, et al. Sample subset optimization techniques for imbalanced and ensemble learning problems in bioinformatics applications [J]. IEEE Transactions on Cybernetics, 2014, 44(3): 445-455.
[18] KENNEDY J, EBERHART R. Particle swarm optimization[C]// Proceedings of the 1995 IEEE International Conference on Neural Networks. Piscataway, NJ: IEEE, 1995: 1942-1948.
This work is partially supported by National Natural Science Foundation of China (61405157).
WANG Lin, born in 1962, Ph. D., professor. His research interests include wireless sensor network, community detection of complex network, big data, data mining.
GUO Nana, born in 1992, M. S. candidate. Her research interests include big data, data mining.
Imbalanced telecom customer data classification method based on dissimilarity
WANG Lin, GUO Nana*
(College of Automation and Information Engineering, Xi’an University of Technology, Xi’an Shaanxi 710048, China)
It is difficult for conventional classification technology to discriminate churn customers in the context of imbalanced telecom customer dataset, therefore, an Improved Dissimilarity-Based imbalanced data Classification (IDBC) algorithm was proposed by introducing an improved prototype selection strategy to Dissimilarity-Based Classification (DBC) algorithm. In prototype selection stage, the improved sample subset optimization method was adopted to select the most valuable prototype set from the whole dataset, thus avoiding the uncertainties caused by the random selection; in classification stage, new feature space was constructed via dissimilarity between samples from train set and prototype set, and samples from test set and prototype set, and then dissimilarity-based datasets mapped into corresponding feature space were learnt with conventional classification algorithms. Finally, the telecom customer dataset and other six ordinary imbalanced datasets from UCI database were selected to test the performance of IDBC. Compared with the traditional imbalanced data classification algorithm based on features, the recognition rate of DBC algorithm for rare class was improved by 8.3% on average, and the recognition rate of IDBC algorithm for raw class was increased by 11.3%. The experimental results show that the IDBC algorithm is not affected by the category distribution, and the discriminative ability of IDBC algorithm outperforms existing state-of-the-art approaches.
customer churn prediction; imbalanced data classification; Sample Subset Optimization (SSO); prototype selection; dissimilarity transformation
2016- 09- 05;
2016- 12- 26。 基金項目:國家自然科學基金資助項目(61405157)。
王林(1962—),男,江蘇東臺人,教授,博士,主要研究方向:無線傳感器網絡、復雜網絡社團發現、大數據、數據挖掘; 郭娜娜(1992—),女,河南三門峽人,碩士研究生,主要研究方向:大數據、數據挖掘。
1001- 9081(2017)04- 1032- 06
10.11772/j.issn.1001- 9081.2017.04.1032
TP301.6
A