錢慶鋒等


【摘要】 當短信已經成為人們生活當中不可或缺的通信方式時,短消息業務也為信息垃圾的傳播提供了一條便捷的渠道,因此針對垃圾短信的攔截成為各運營商的社會責任和網絡運維的一部分。但低速、短信內容頻繁變異讓傳統的攔截策略束手無策,而中文的博大精深又讓新穎的語義分析攔截法命中率低及誤攔率高。本文以不變應萬變,抽取垃圾短信內容中的聯系電話、詐騙卡號等數字串信息作為特征碼進行攔截,則實現了對垃圾短信的精準打擊,收到事半功倍的效果;如果進一步建立垃圾短信的大數據平臺,則可使得基于廣義數字的垃圾短信攔截策略如虎添翼。
【關鍵詞】 垃圾短信 廣義數字 變異數字 攔截 大數據一、背景
隨著無線通信服務功能的不斷增強和完善,短消息業務已成為人們生活中最普及的電信增值業務。然而,短消息業務在為用戶提供便捷消息服務的同時,也為信息垃圾的傳播提供了一條方便的渠道。隨著我國移動通信網絡建設的不斷完善以及越來越多的可提供給用戶短消息服務的平臺的出現,垃圾短消息有愈演愈烈的趨勢。
垃圾短消息的存在給用戶與運營商均帶來了不少的煩惱:用戶可能被恐嚇、騷擾,往往也被犯罪分子利用來進行違法活動,破壞安定團結的政治局面;而運營商也會由于用戶錯誤的界定垃圾短消息的來源而受到用戶的誤解,給公司努力建立的良好聲譽和品牌形象造成嚴重的影響。因此,目前各運營商在網絡側都大大加強了垃圾短信的整治力度,采用了眾所周知的過濾和攔截,如流量規則、傳統的關鍵字規則及其它發送行為規則,但由于這些規則本身的限制及垃圾短信發送者的“靈活”調整,使得現有的垃圾短信過濾策略總是滯后于垃圾短信發送行為,同時因為誤攔與攔截效果兩者之間的矛盾而使現有的垃圾短信攔截很難達到理想的效果。
因此,各運營商雖投入了大量的人力物力與垃圾短信發送者“斗智斗勇”,但效果仍不理解,仍因為頻繁的垃圾、詐騙短信的發送而受到用戶的各種詬病。
二、垃圾短信的關鍵特征分析
隨著垃圾短信的整治工作的深入,垃圾短信由于以下特點而現有的大量策略面臨命中率或誤攔率高的窘境:
1. 低速發送。垃圾短信發送者采用大量號碼,單一的發送號碼至同一區域或省份的垃圾短信發送數量很小,內容分散。
2. 垃圾短信關鍵信息頻繁變異,是傳統的關鍵字抽樣和語義分析等攔截手段一直的“惡夢”,如兜售發票的垃圾短信,可以將發票變異成“發漂”、“發票”、“發piao”等,由于漢字的博大精深,所以短信內容中的中文可以變異成無數種,讓運營商的垃圾攔截策略來不及變化和調整。
基于低速、短信內容的變異和中文的博大精深讓傳統的攔截策略束手無策,如果全部采用人工審核和確認的方式進行,為了保證正常短信的時延不能增加,必須進行系統擴容和大量的人工審核人力投入,并且人工審核量巨大。
但是,垃圾短信的內容無論怎么變異,無論怎么低速,無論發給誰,其中必不可少的關鍵特征是聯系電話或詐騙電話的銀行卡號等。因此,無論垃圾短信的發送號碼如何變化,但由于成本關系,垃圾短信中所帶的數字信息不會頻繁變化。
【案例1】發送號碼:86159xxxx7205;垃圾短信內容:“宏達汽貿銷售九成新(套牌)車本田豐田3萬,奧迪寶馬5萬,現代1,5萬越野車可送貨當面交易電話137xxx36768劉經理”
【案例1】發送號碼:86159xxxx8307;垃圾短信內容:“汽貿銷售九成新(套片卑)車本田豐田3萬,奧迪寶馬5萬,現代1,5萬越野車。聯系電話137xxx36768王經理”
因此,根據垃圾短信中的數字信息這一關鍵特征進行攔截,將擊中垃圾短信發送者的軟肋,在垃圾短信攔截系統或手機中加以應用,可以取得事半功倍的效果。而基于短信內容中的數字進行攔截,是目前眾多研究者和攔截策略所忽略的,且很多采用復雜算法的攔截策略還首先過濾了其中的數字等ASCII碼,將垃圾短信中相對不變的關鍵特征“拋棄”了。
三、基于廣義數字的攔截
3.1 主要功能模塊
針對垃圾短信中的數字信息關鍵特征進行攔截,主要模塊如下圖1所示:
1. 廣義數字。垃圾短信中所包含的電話號碼、賬號等數字,很多時候已不是簡單的阿拉伯數字,不法分子為了避免被攔截,往往通過各種各樣的形式來表達數字信息:阿拉伯數字、中文簡體數字(如一、二、三)、繁體數字(如壹、貳、叁)、諧音數字、帶符號的數字(①、?)、以全角或上下標表示的數字(如?、?)等等。我們把這些表現形式多樣的“數字”定義為廣義數字。
2. 廣義數字庫。即定義0~9每個阿拉伯數字分別可以等價于哪些廣義數字,這是針對垃圾短信中的數字信息關鍵特征進行攔截成果與否的關鍵,系統攔截策略將根據此“廣義數字庫”進行判定字符是否為“數字”。如廣義數字庫中定義的數字1包括:1、1、①、?、?、1、一、壹。由于可以理解的變異數字不會像漢字那樣千變萬化,因此“廣義數字庫”樣本量將會非常小,易于維護、攔截效率高。例如,垃圾短信內容將聯系號碼變異為“壹③91ooOO0000”,攔截系統也會根據“廣義數字庫”識別出“139100000000”的數字串。隨著新的變異數字的出現,可以將新出現的變異數字加入“廣義數字庫”。
3. 短消息輸入源。通常為短信中心、垃圾短信接收服務器或手機終端,根據“廣義數字”攔截策略所布署的位置而變化。當布署于垃圾短信攔截系統中時,就是從短信中心接收過來的原始的短消息內容。
4. 短消息預處理。垃圾短信發送者同樣會在詐騙卡號或聯系電話中夾雜空格等無效的ASCII碼或其它字符,干擾攔截策略。因此預處理模塊會首先將定義的一組字符進行過濾,包括“廣義數字”中定義的數字以外的ASCII碼、自定義的其它字符等。
5. 數字串黑名單。系統根據策略人工或自動將定性為垃圾短信中的聯系電話、銀行號碼加入“數字串黑名單”中,作為后續“廣義數字策略”判定的標準。
6. 廣義數字策略判定。根據“廣義數字庫”,按一定規則抽取短信內容的廣義數字并轉換為標準的數字串,如果該數字串在“數字串黑名單”中,則判定為垃圾短信。
3.2 基于廣義數字的攔截流程
基于廣義數字攔截策略的攔截流程如下圖2所示。
3.3 特殊約束
為了避免廣義數字攔截策略產生誤攔截,因此需要進行一些特殊約束:
1. 從短信內容中抽樣出的數字串s1,必須滿足一定的長度,即m≤length(s1) ≤n。對于長度過短的數字串,如10086、銀行類的9xxxx開頭的聯系電話、短信內容中出現的短數字等,均為正常,因此長度過短或過長均應排除。
2. 數字串白名單。將一些容易出現在短信內容中的正常的數字串加入數字串白名單列表中,此列表中的數字串判定為正常短信。
3.4 應用效果
通過將廣義數字攔截策略應用在試驗環境,在數字串長度、數字串白名單等特殊約束條件下,廣義數字攔截策略攔截準確率達到100%。如果布署在生產環境,將會大大減少人工投入,大幅降低垃圾短信判定的人工審核量。
四、結束語
現有常規的垃圾短信攔截策略已無法適應新的垃圾短信發送特征。而通過抽取垃圾短信內容中最本質的數字信息特征,利用廣義數字攔截策略,以不變應萬變,將垃圾短信內容中的聯系電話、詐騙卡號等數字串加入黑名單,則可實現對垃圾短信的精準打擊,收到事半功倍的效果。同時,切中垃圾短信發送者要害的廣義數字攔截策略原理簡單,易于推廣和應用。
而隨著大數據時代的到來,各運營商更可以針對垃圾短信建立全集團的大樣本量。這樣,即使每個號碼往某一地區只發少量垃圾短信,但從匯集全集團范圍內的大數據中仍可以抽取可觀的數字特征串,豐富各省公司的數字串黑名單,以進一步提高各省公司垃圾短信的攔截率,讓垃圾短信無所遁形。