◆林建洪 徐 菁
(浙江鵬信信息科技股份有限公司 浙江 310000)
基于機器學習的惡意電話場景化治理方法研究
◆林建洪 徐 菁
(浙江鵬信信息科技股份有限公司 浙江 310000)
本文應用機器學習中的決策樹模型對惡意電話進行識別與分類,利用頻繁項集挖掘惡意電話集團號碼;將號碼劃分為白名單、灰名單、黑名單個人號碼和黑名單集團號碼四類;引入場景化的概念,針對不同的時間、地點、人物屬性要素為用戶提供符合當下場景的個性化治理策略。在提高判斷惡意電話準確率與效率的同時,為用戶提供更好的體驗。
惡意電話;決策樹;頻繁項集;場景化
隨著智能手機的迅速普及和移動通信業務的快速發展,通過電話進行溝通已經成為人們日常生活的重要組成部分。移動電話在給人們的生活帶來方便的同時也給廣告商和詐騙分子提供了實施犯罪的肥沃土壤,他們會通過電話營銷、詐騙等方式對目標人群進行騷擾。據某網絡電話服務商發布的《2016年中國騷擾電話形勢分析報告》顯示,近一年來,該系統為用戶攔截騷擾電話數量達到322億次,平均每天產生約9000萬個騷擾電話[1]。通訊詐騙事故的頻發,騷擾、詐騙等惡意電話的存在和泛濫已經嚴重危害到人們的財產、人身安全和社會安定,因此,在大數據時代的背景下,如何利用數據挖掘、機器學習等技術對惡意電話進行有效識別與監控以此降低甚至根除惡意電話事故的發生具有重要意義和研究價值。
惡意電話是指不法分子或電信詐騙集團未經過被叫的同意,利用群呼設備或外呼軟件對指定號碼或特定號段進行大范圍、高頻率的撥打,嚴重影響人們生活、工作中的正常通話,造成其一定的財產損失,常見的惡意電話種類有“響一聲”、“呼死你”等。
通過對已有研究的整理,目前對惡意電話的治理方法主要有以下幾種:
(1)頻譜特征分析。該方法主要適用于類似“響一聲”的惡意電話類型,其特征為主叫在單位時間內高頻發起呼叫并在短時間內掛斷,因此出現大量信道占用,可通過頻譜分析定位犯罪窩點。該方法通常針對某一種特定的惡意騷擾方式,對于其他場景或新出現的惡意撥打方式適用性較弱[2]。
(2)黑名單人工過濾。建立疑似黑名單,將疑似黑名單號碼發給客服進行人工回撥驗證,確認為黑名單的號碼直接在匯接局和關口局進行攔截。該方法判斷惡意電話的準確率高,但是人工處理時間成本高,效率較低[3]。
(3)人工規則判斷。運營商根據用戶話單行為分析,依據專家經驗判斷顯著特征,將日撥打頻率異常高的號碼提取并進行二次驗證,對確認有惡意撥打行為的號碼進行停機處理。雖然按照專家經驗可以判斷出具有明顯惡意行為的號碼,但是日話單數據量龐大,該方法忽略了其他隱含特征,號碼識別覆蓋率較低[4]。
(4)安裝手機軟件。通過安裝手機軟件用戶可以事先設置拒接或者攔截的號碼、號段,該方法區別于以上幾種系統攔截的方式,用戶可以針對個人情況進行個性化設置。但是手機軟件往往攔截準確率不高,且大多軟件只有提醒功能并不能有效攔截惡意電話[4]。
隨著號碼資源成本的不斷降低,惡意電話的主叫號碼開始出現隨機變換的特點,特征模糊,難以捕捉,這給惡意電話的防治工作帶來了很大的挑戰。而互聯網時代,用戶對體驗的要求高,已不滿足于簡單粗暴的“一刀切”系統攔截模式。因此本文提出一種基于機器學習的場景化惡意電話治理方案。
本文所提出的基于機器學習的場景化惡意電話治理方案中,機器學習是主要技術手段,利用大數據特征分析、模型構建判斷惡意電話,進行準確識別;場景細分能夠針對不同的時間、地點、人物屬性提供更具個性化的治理策略。本文融合大數據、互聯網思維與運營商的呼叫控制能力,將以往互聯網產品終端處理的方式上移到了云端,使得通話還未達到手機終端前就被攔截或對用戶進行提醒,真正實現“千人千面”,滿足用戶的當下需求,給用戶帶來更好的體驗。
2.1 通話場景要素
“場景”一詞是在移動互聯網發展隨之帶來的人們的時間被碎片化分割的背景下提出。“場景化”是時間、地點、人物三要素所組成的特定關系。通過場景的細分可以為特定時間、地點下的不同用戶群體提供不同的治理策略。
(1)通話場景時間要素。時間要素主要是指用戶在什么時間段內可能接到電話,可以劃分為正常、特殊、工作、開車、休息等。正常代表隨時可接聽電話的時間段;特殊代表用戶處于非常態的通話狀態,例如遭遇“呼死你”的高頻惡意騷擾,需要采取緊急攔截;工作和開車代表用戶當前不方便接聽電話,可以給主叫提供語音提示;休息代表用戶只接聽緊急電話。
(2)通話場景地點要素。地點要素主要是指用戶在當前和通話時的地理位置屬性。通過用戶手機號歸屬地和當前所在的位置判斷用戶是在本地、外地或國外。從用戶手機與基站通訊產生的日志中獲取基站坐標信息,確定用戶的停留點和移動點,停留點往往是用戶的辦公場所和居住場所,移動點往往是用戶往返停留點之間的路徑上的地點。通過地點要素可以為用戶提供更加準確的電話攔截與接通服務,例如當用戶在外地遭遇高頻惡意電話騷擾時,應對歸屬地是用戶所在地的號碼進行謹慎甄別,避免誤攔正常通話。
(3)用戶屬性。用戶屬性即通過對用戶性別、年齡、職業等人口統計學特征以及用戶行為的分析,將其劃分到特定的用戶群或給用戶打上顯著特征的標簽[5]。例如“退休老人”、“職場精英”、“家庭主婦”等。針對不同的用戶屬性制定不同的惡意電話治理策略,例如“退休老人”屬于易被騙人群,當遭受惡意電話騷擾時,可以采取只接通白名單電話的措施;而“職場精英”每天的對外通話較多,應為其提供高準確率的治理措施,避免誤攔重要的工作電話。

圖1 通話場景要素
2.2 基于機器學習的惡意電話場景化治理策略
本文采用機器學習中的決策樹 C5.0算法對話單行為進行分析與分類,挖掘惡意電話的行為特征,將確認為惡意電話的號碼拉入黑名單中,進一步采用關聯分析中的 Apriori算法對黑名單號碼進行頻繁項集挖掘,同一個頻繁項集中的號碼可認為是一個騷擾詐騙集團。
2.2.1 決策樹C4.5分類算法
決策樹(decision tree)是一個樹結構。其每個非葉節點表示一個特征屬性上的測試,每個分支代表這個特征屬性在某個值域上的輸出,而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特征屬性,并按照其值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作為決策結果[6]。決策樹C4.5是其中一種算法,具體步驟如下:
(1)設D為用類別對訓練元組進行的劃分,計算D的信息熵(entropy):

(2)抽取樣本號碼的 N個呼叫特征并且計算每個呼叫特征的期望信息以及分裂信息,如特征A的期望信息為:

特征A的分裂信息為:

(3)計算每一個呼叫特征的信息增益以及信息增益率,特征A的信息增益率為:

(4)選擇選擇具有最大信息增益率的呼叫特征作為分裂屬性;
(5)設置決策樹的最大樹深度C4.5_M以及最小分裂節點樣本數C4.5_N進行預剪枝;
(6)重復(2)到(4)的步驟直到樹深度>C4.5_M 或者分裂節點樣本數 2.2.2 Apriori算法尋找頻繁項集 頻繁項集是關聯規則中的一個基本概念。假設I={i1, i2, ..., im}為項的集合, D={T1, T2, ...,Tn},i∈[1,n]為事務數據集, 事務Ti由I中若干項組成。設S為由項組成的一個集合, S={i|i∈I},簡稱項集。包含k個項的項集稱為k-項集。其中Apriori算法是一種基本的發現頻繁項集的算法。Apriori算法由連接和剪枝兩個步驟組成。連接是了找到 ,通過與自己連接產生候選 k項集的集合;剪枝是通過計算每個k項集的支持度來得到 ,為減少計算量,可利用到該算法的性質即如果一個k項集的(k-1)項子集不在中,則該候選也不是頻繁的,可以直接從 中刪除。 支持度代表了項集中{X,Y}同時出現的可能性即概率,具體公式為: 只有滿足:的項集Z才能成為頻繁項集,即Z的支持度≥給定最小支持度。同一個頻繁項集內的所有黑名單號碼認為是一個集團的號碼。 2.2.3 惡意電話治理流程 首先對樣本特征數據進行決策樹建模,通過算法準確率與覆蓋率的評估選擇最優參數,獲取判斷是否為惡意電話的行為規則,將規則應用于全網用戶行為數據,判斷每一個手機用戶的通話行為是否符合惡意電話的行為,若符合則加入黑名單。其次從黑名單號碼和對應的被叫號碼中尋找頻繁項集,同一個頻繁項集內的所有號碼為同一個集團號碼,即一些黑名單號碼同時出現在不同被叫的主叫列表中,則認為這些黑名單號碼來源于同一個集團,否則就認為是個人號碼。未被模型判斷為黑名單的號碼首先判斷是否為用戶白名單號碼,白名單是指用戶通訊錄號碼和用戶個人信任的號碼,若不屬于白名單號碼則被認為是灰名單號碼。 對集團號碼直接攔截處理,對黑名單個人號碼、灰名單號碼和白名單號碼進行通話場景過濾,基于不同的場景選擇對白名單號碼接通或者提醒,對灰名單號碼接通、提醒或者攔截,對黑名單個人號碼提醒或者攔截。 圖2 惡意電話號碼識別與場景化的治理策略 3.1 決策樹C4.5分類模型 本文對脫敏后移動用戶的話單行為進行統計分析,選取1小時內用戶的總通話次數、總通話時長等特征作為模型的輸入,選取的樣本量為黑名單1866個、白名單10000個,訓練集與測試集的比例為7:3。算法主要參數設為每個葉節點的最小觀測樣本量為100個,樹的高度為20。 該算法選用的顯著的指標為總通話次數、平均振鈴時延、不同被叫數與平均通話時長。指標的重要性為:總通話次數100%、平均振鈴時延86.47%、不同被叫數3.51%、平均通話時長3.45%。該算法得到的置信度最高的兩條規則為:總通話次數>15與8 <總通話次數15平均通話時長13.65,這兩條規則生成的黑名單數量較多。從表1的結果矩陣中可以得到模型的準確率為87.9%,覆蓋率為78.9%,效果較好。 表1 決策樹C4.5分類模型結果矩陣 將該模型應用于全網用戶話單分析,將符合黑名單特征的號碼加入到黑名單庫中。 3.2 頻繁項集 進一步挖掘決策樹分類模型得到的黑名單號碼中的頻繁項集,將支持度設置為 0.002%,至少為頻繁 5-項集,得到以下集團號碼,為了保護用戶隱私,其中的用戶號碼都做了脫敏處理,用符號“*”遮蓋部分號碼。同一個頻繁項集內的號碼為同一個集團的號碼,集團號碼一旦出現直接做攔截處理,其余號碼為個人號碼,需要進一步通過場景分析進行個性化處理。 表2 頻繁項集挖掘集團號碼結果 3.3 基于場景的治理策略 本文模擬五個場景,根據每個場景提供的時間、地點、人物屬性三大要素分別對用戶白名單、用戶灰名單、黑名單個人號碼采取不同的治理策略。 場景1:時間要素為“特殊”即用戶正在遭受高頻率的惡意電話騷擾,地點要素為“本地”,人物標簽為“退休老人”。由于“退休老人”屬于易受騙群體,且處于被高頻騷擾的狀態,因此采用高攔截率的策略,只對用戶通訊錄或白名單中的號碼放行接通。實驗中采用該方法對非白名單的號碼進行100%攔截。 場景 2:時間要素為“特殊”,地點要素為“本地”,人物標簽為“商務人士”。由于“商務人士”多需要溝通洽談,需要接聽的電話較多,因此當其遭受高頻率的惡意電話騷擾時,除了對其白名單號碼放行接通,對黑名號碼全部攔截外,還對歸屬地為本地的灰名單號碼進行提醒,若該類號碼被用戶標記為信任則予以接通。實驗中直接攔截的號碼占比為 89.1%,提醒的號碼占比為6.9%,接通的號碼占比為4%。 場景3:時間要素為“開車”,地點要素為“本地”、“移動點”,人物標簽為“開車一族”。當用戶處于行車的狀態時,在未到停留點之前對所有白名單和灰名單來電進行提醒,當用戶結束行車狀態時再對提醒的號碼進行判斷和回撥。實驗中直接攔截的號碼占比為75%,提醒的號碼占比為25%。 場景 4:時間要素為“工作”,地點要素為“外地”,人物標簽為“經常出差某地的上班族”。由于該類人群經常出差某地,因此對歸屬地為出差地和本地的灰名單號碼進行提醒,若該類號碼被用戶標記為信任則予以接通。實驗中直接攔截的號碼占比為70.2%,提醒的號碼占比為18%,接通的號碼占比為11.8%。 場景5:時間要素為“正常”,地點要素為“本地”、“停留點”,人物標簽為“防騙高手”。該類人群的防騙意識強,且并未收到高頻的騷擾或處于不方便通話的狀態。因此只需對黑名單中的個人電話予以提醒,對灰名單和白名單中的電話放行接通,用戶手動判斷自否信任該電話或將其拉入個人黑名單。實驗中直接攔截的號碼占比為61 %,提醒的號碼占比為10%,接通的號碼占比為29.2%。 圖3 不同場景下灰名單和黑名單個人號碼的治理策略 本文采用機器學習分類模型中的決策樹和關聯分析模型中的頻繁項集挖掘技術對移動用戶的話單行為進行分析,根據模型的判斷結果將號碼劃分為白名單、灰名單、黑名單個人號碼和黑名單集團號碼四類。引入場景化的概念,通過對時間、地點、人物屬性三大場景要素的分析,對不同類型的號碼采取符合當下場景的治理策略。對黑名單集團號碼直接攔截處理;對黑名單個人號碼進行提醒或攔截處理;對灰名單號碼進行接通、提醒或攔截處理;對白名單號碼進行接通或者提醒處理。通過機器學習技術提高惡意電話識別的準確率與覆蓋率,通過場景化的治理手段為用戶提供更具個性化的治理措施,提升用戶體驗。本文提供的惡意電話治理策略能夠為運營商和相關領域的學者提供實踐上和理論上的參考。 [1]觸寶電話大數據中心.2016年中國騷擾電話形勢分析報告[EB/OL]. [2]沙夏云.虛假主叫號碼攔截實現方案分析與實施[D].北京:北京郵電大學, 2011. [3]王大偉.電信詐騙電話攔截系統的設計與實現[D].北京郵電大學,2014. [4]麥歡怡,黃斌華.基于特征識別的交互式騷擾電話攔截系統的設計與實現[J].電信快報,2011. [5]黃文彬,徐山川,吳家輝,王軍.移動用戶畫像構建研究[J].現代情報,2016. [6]韓家煒,坎伯.數據挖掘: 概念與技術[J].北京: 機械工業出版社, 2001. [7]張怡婷,張揚,張濤,楊明,羅軍舟.基于樸素貝葉斯的Android軟件惡意行為智能識別[J].東南大學學報(自然科學版),2015. [8]劉劍.基于數據挖掘技術實現騷擾電話識別[D].中國地質大學(北京),2011. [9]王丹陽.數據挖掘技術在騷擾電話監控系統的應用研究[D].湖南大學,2010. [10]岳亮.限制垃圾短信及騷擾電話行為方案設計與實現[D].北京郵電大學,2012. [11]Enck W,Ongtang M,McDaniel P.On lightweight mobile phone application certification[C]//Proceedings of the 16th ACM conference on Computer and communications security. ACM 2009. [12]Miettinen M, Halonen P. Host-based intrusion detection for advanced mobile devices[C]//Advanced Information Networking and Applications, 2006. AINA 2006. 20th International Conference on. IEEE, 2006. [13]Xie L,Zhang X,Seifert J P,et al.pBMDS:a behavior-based malware detection system for cellphone devices[C]//Proceedings of the third ACM conference on Wireless network security. ACM, 2010.

3 實驗結果與分析



4 結束語