陳興達
?
長租公寓租戶退租原因分類模型的構建
陳興達
(天津商業大學,天津 300000)
隨著長租公寓行業的發展,市場規模不斷擴大,為了保證產品和服務的質量,長租公寓的管理需要更加科學、精準。用戶退租的原因能夠反應出用戶對于產品和服務存在哪些不滿,進而,長租公寓企業可以通過這些信息進行改善。為了通過這些退租用戶留下的文本信息挖掘有用的信息,利用某長租公寓2018-01—2018-08的退租用戶在退租時留下的文本新息,構建了一個可以用來對用戶退租原因進行分類的決策樹模型,并且模型的準確性較高。通過此模型可以準確發現用戶退租是因為經營中的哪些問題造成的,借此有針對性地改善長租公寓提供給用戶的產品和服務。
文本分類;機器學習;決策樹模型;長租公寓
隨著房價的不斷上漲,尤其是2016年之后,一、二線城市房價的大幅上漲,租房已經成為工作在一、二線城市上班族的“必選項”。由于傳統租賃市場的種種問題,越來越多的人選擇管理更加規范、服務更加專業的長租公寓。在這樣的背景下,長租公寓的品牌如雨后春筍一般出現,并且整個行業的規模也在迅速擴大。體量的增長對長租公寓企業管理的各個環節提出了更高的要求。只有及時發現產品和服務中存在的問題,及時解決問題,才能為廣大租客提供更優質的服務。顯而易見,對提供租賃服務的長租公寓公司的哪些服務不滿意,租戶是最了解的。其中一部分用戶在不滿達到一定程度后,就會選擇不再租住該品牌的公寓,進而進行退租。這部分用戶的流失原因就是對產品和服務中的薄弱環節最好的反映。所以市場上的長租公寓品牌在服務流程設計時,都會記錄用戶的退租原因,這部分信息在用戶退租時客服會記錄,或者客戶在退租時通過手機客戶端進行反饋。但是這些有意義的信息往往是通過文本記錄的,無法直接進行統計和分析。本文通過構建決策樹模型對于用戶退租時留下的文本信息作為特征,將不同退租用戶進行分類,確定退租用戶因何原因退租。
本文所采用的樣本數據集為某長租公寓公司20182-01—2018-08的退租用戶退租時留下的退租原因文本,主要記錄了用戶因何原因選擇退租。最終的目標是希望構建一個機器學習模型,能夠自動將用戶退租文本進行分類,確定用戶的退租原因。
訓練集的構建思路為,首先將樣本集內的用戶根據其退租時留下的文本信息進行人工分類,判斷其因何原因退租;然后給數據集中的每一個樣本標記一個標簽,代表其退租的原因。在所有樣本中的用戶都被標記完成后,再將其留下的文本進行處理,將每個用戶留下的退租原因文本進行處理,形成一個特征向量,特征向量中的元素為1或者0,代表某一個詞語是否出現。所有的工作完成后,獲得一個可以用來訓練機器學習模型的數據集。
2.1.1 訓練樣本標簽
根據行業運營的經驗,目前長租公寓租戶的退租原因主要分為以下幾大類:①銷售人員在銷售過程中沒能詳實介紹房屋的實際情況,以及在入住后租客和長租公寓企業各自的責任和義務,租客實際入住后發現與預期不符合,產生退租,簡稱“銷售原因”;②對于房屋質量不滿意,例如對空氣質量、房屋內設施質量,以及其他配套設施不滿意,簡稱“房屋質量原因”;③租客自身信用問題無法通過信貸審核,不能分期付款作為支出房租,只能選擇退租,簡稱“金融分期被拒”;④租客對于長租公寓企業提供的客戶服務不滿意,例如400客服電話無法接通,或無法提供有效的客服支持等,簡稱“客服原因”;⑤客戶自身需求結構發生變化導致的退租,例如公司提供宿舍、自住購房等,簡稱“客戶自身原因”;⑥由于政策原因,需要將出租房內隔斷墻強制拆除等原因造成的退租,簡稱“外部原因”;⑦由于工作調動造成的退租,簡稱“工作調動原因”。
按照上述分類原則,將45 276條樣本數據進行人工分類,分類后每類樣本的數量如表1所示。
2.1.2 特征向量構造
本文構建樣本的特征向量思路為:首先將所有的文本進行分詞,分詞后將重復出現的單詞去除,僅留下一個,這樣就構成了一個所有出現過的單詞的集合,為了方便,之后在本文中簡稱這個集合為“詞典”。特征向量的維度與詞典的維度相同,特征向量中每個位置對應詞典中對應位置的單詞,并且特征向量中的每個元素的取值為1或者0,代表對應單詞是否出現在此樣本中。
取樣本中的某一個退租用戶退租原因的文本舉例,該用戶退租原因的文本為“房屋空氣問題無責退租、押金全退、結算剩余房租、結清水電燃”,按照此方法構建特征向量的方法可以得到特征向量如圖1所示。
表1 數據集中各類樣本的數量
類別樣本數量 銷售原因567 房屋質量原因649 金融分期被拒2 940 客服原因16 客戶自身原因2 060 外部原因1 083 工作調動原因37 691
依照上文中闡述的詞典和特征向量的構造方法,通過Python中的jieba分詞以及scikit-learn模組將45 276條樣本進行處理,得到每條樣本的特征向量。
本文采用的機器學習模型為決策樹模型。決策樹模型本質上就是一個完備的定義在特征空間與類空間的條件概率分布。決策樹模型存在以下一些優點:①相較于支持向量機模型等模型,決策樹模型更容易解釋,并且可以通過決策樹將分類規則可視化;②決策樹模型對于數據處理等要求比較低,不需要進行正態化,特征間不同量綱不會對于模型的學習和預測造成影響;③模型的初始假設比較簡單,相較于樸素貝葉斯等模型那樣嚴格對于特征間關系的假設來說,決策樹模型對于特征間關系的要求較低。
決策樹模型學習算法主要包括以下3個步驟:①特征選擇,也就是選擇哪個特征進行分類;②決策樹的生成;③為了防止過擬合,需要將第二步生成的決策樹進行剪枝。
本文在學習決策樹模型時選用的為CART算法。CART算法在決策樹生成的過程中通過遞歸的方法構造二叉樹形式的決策樹,并且利用基尼指數作為最優特征選擇的標準。所謂基尼指數就是指在分類問題中,假設存在個類別,某一個樣本屬于第個類別的概率為n,則概率分布的基尼指數定義為:

訓練樣本已經確定的情況下,假設樣本數據集合用表示,可以通過如下公式計算基尼指數:

式(2)中:是樣本中類的個數;n為樣本中第類樣本的子集;∣n∣代表樣本中第類子集內樣本的數量。
在決策樹生成階段,從決策樹的根節點開始,對于每個特征以及該特征的每個可能取值作為分割點,將樣本進行分割,計算當選擇該特征及特征取值作為分割點后,樣本的基尼指數,最終選擇某一個特征及其特征值的取值作為分割點。當這個特征的特定取值分割樣本后,得到的基尼指數最小。從根節點開始按照這個原則遞歸的向下分割,直到所有的節點都為葉節點。但是按照這個方法生成的決策樹,在泛化的能力上比較差,需要通過剪枝降低過擬合的風險。
在剪枝階段,首先從上一步生成的整體樹0開始進行剪枝。選擇整體樹中的某一個內部節點,那么以為單節點樹的損失函數則為:
α()=()+. (3)
以為根節點的子樹t的損失函數為:
α(t)=(t)+∣t∣. (4)
當=0及充分小時,存在如下關系:
α(t)<α(). (5)
當增大時,存在某一使得:
α(t)=α(). (6)
按照機器學習訓練的一般方法,通過Python語言中的scikit-learn模組隨機抽取數據集中的70%作為模型訓練的訓練集,剩余30%的樣本作為模型評估的測試集,拆分后訓練集和測試集中各類退租用戶的數量如表2所示。
表2 訓練集和測試集中各類樣本數量
類別訓練集測試集 銷售原因419148 房屋質量原因496153 金融被拒2 200740 客服原因124 客戶自身原因1 559501 外部原因798285 工作調動原因28 4739 488
在確定訓練集后,通過訓練集利用Python語言中的scikit-learn模組對于決策樹模型進行學習,然后通過測試集對模型預測能力進行評估,模型準確率的相關指標如表3所示。從預測準確程度的3個指標來看,由于銷售原因、房屋質量原因退租的用戶樣本相對較少,所以對于這兩類樣本的預測能力相對較差,但是學習到的決策樹模型的綜合預測準確率達到97%,說明學習到的決策樹模型分類能力出色。
本文通過構建決策樹模型對長租公寓退租用戶的退租原因進行分類,通過此模型可以為長租公寓經營者提供一個量化的數據支持。在實際應用中可以通過本模型對不同時期的退租用戶對退租原因進行預測,并統計各個時期不同原因退租用戶的變化。假設由于“銷售原因”退租的用戶增加,長租公寓管理者就可以判斷在銷售環節自己存在不足。本文提供了一個進行文本分類的方法,即先構建詞典,再通過詞典將每條文本轉化為特征向量,最后通過特征向量學習機器學習模型。
表3 模型準確率的相關指標
PrecisionRecallF1-score 銷售原因0.490.500.50 房屋質量原因0.610.590.60 金融被拒0.920.950.93 客服原因0.000.000.00 客戶自身原因0.910.930.92 外部原因0.960.920.94 工作調動原因0.990.990.99 平均值0.970.970.97
2095-6835(2019)05-0130-03
F299.23
A
10.15913/j.cnki.kjycx.2019.05.130
陳興達(1989—),男,遼寧西豐人,主要研究方向為數量經濟學、經濟預測與決策。
〔編輯:嚴麗琴〕