牛碩 鄧捷 陳佳宇 林宇辰 李昊海



摘? ?要:近年來,電信網絡詐騙案件逐漸趨向種類多樣性、受害群體普遍性,而目前社會上的群眾防詐教育存在著滯后性和覆蓋面少等缺點,許多地方甚至不重視群眾防詐教育,如何教育并提高群眾對電信網絡詐騙的防范意識是減少電信詐騙發生的關鍵。文章旨在推出一款能夠利用個性化推薦系統,根據用戶年齡、職業、文化程度等信息形成用戶自定義個人畫像,為群眾量身訂造防范電信網絡詐騙的教育平臺APP,從而解決傳統網絡與線下宣傳教育出現的問題。通過Android系統構建“防詐通”電信詐騙信息聚合平臺APP,利用推薦系統算法將數據進行分類并與用戶畫像結合實現個性化的防詐案例集,給用戶提供大量與自身切合的防詐新聞,培養并加固群眾的防范意識,以此來實現教育培養與提高公民防范電信網絡詐騙意識的目的。
關鍵詞:個性化推薦;Android平臺構建;用戶畫像;數據分類
中圖分類號: TP520.4060? ? ? ? ? 文獻標識碼:A
Abstract: In recent years, the telecom network fraud cases gradually incline to species diversity and universality of vulnerable groups, and the social masses fraud prevention education lag and coverage exist shortcomings, such as less, many places do not even attach importance to the anti cheat education, how to education and raise people's awareness to the telecom network fraud is the key to reduce telecom fraud occurred. This project aims to launch a personalized recommendation system that can form a user's self-defined personal portrait according to the user's age, occupation, education level and other information, and create an education platform tailored for the masses to prevent telecom network fraud, so as to solve the problems arising from traditional online and offline publicity and education. Through the Android build via "anti cheat" telecom fraud information aggregation platform, using the recommendation system algorithm is applied to the data classification combined with user portrait realize personalized and preventing fraud case set, provide users with a large number of rich and its relevant anti cheat news, cultivating and strengthening the awareness of the masses, so as to realize the education to cultivate and enhance the citizens' consciousness of telecommunications networks to prevent fraud.
Key words: personalized recommendation; android platform construction; user portrait ;data classification
1 引言
隨著當下網絡技術的飛速發展,網絡已經滲透進了人們生活的方方面面。在構建一個方便、快捷的虛擬世界的同時,也隨之帶來一些負面的影響。網絡詐騙便是在這種網絡技術發展的大環境下日益猖獗。
根據公安部官方微博消息顯示,盡管公安機關開展了持續不斷地打擊,但是受各種因素的影響,電信網絡新型犯罪活動仍然快速發展蔓延,形式嚴峻、危害突出。在公安部刑偵局歸納出的常見的電信詐騙犯罪案件中,使用電話類的占63.3%、使用短信的占14.8%、使用網絡的占19.6%。
騰訊守護者計劃發布的2018年第一季度《反電信網絡詐騙大數據報告》中顯示,網絡詐騙雖然近年來有所改善,但犯罪分子也在不斷地轉換詐騙手段,威脅著群眾的經濟財產安全。為了減少電信網絡詐騙的發生,除了要求有關部門加大打擊力度的同時,廣大網絡使用者也應該增強網絡安全意識,了解并學習網絡安全的相關知識,提高自己的防范能力。
群眾網絡詐騙防范意識的樹立與預防本領的提高是打擊網絡詐騙的重要手段之一。宣傳、加強管理、完善法律法規、加大打擊力度等手段主要是通過對網絡詐騙的處理來抑制網絡詐騙的發生。但是,無論如何抑制打擊,只要網絡詐騙的主體還在,這種現象便不會徹底消失。而從群眾的角度出發,加強群眾對網絡詐騙防范意識和本領的教育,群眾便可以更好地分辨出網絡詐騙,從而可以防止陷入網絡詐騙當中。這種方式可以有效地減少網絡詐騙的目標,使網絡詐騙者無從下手,進而有效地遏制網絡詐騙。然而,群眾是由各式各樣的個體組成的,不同個體有不同的特點。譬如,不同年齡、職業、教育程度的人,他們所接觸的圈子不同,經濟狀況、興趣愛好也是不同的。因此,犯罪分子必然會從這個角度入手,對不同的人群進行不同種類的詐騙。不同的群體所受到的網絡詐騙威脅是不同的,通過個性化教育,提高群眾網絡詐騙防范意識與本領,達到加強群眾對網絡電線詐騙防范意識和本領的作用效果,是十分有必要且有價值的。從這點出發,嘗試構建并完善電信詐騙新聞聚合教育平臺,為未來對群眾進行防詐教育提供一種更加合理和有效的方式。
本文設計的電信網絡詐騙新聞匯集平臺“防詐通”(以下簡稱防詐通),首先運用Scrapy爬蟲技術從網絡上獲取大量電信詐騙類新聞,根據網上大量數據的共同點與獨特屬性,將獲得的新聞數據根據詐騙手段、節日詐騙、詐騙對象、地區、詐騙金額、防詐標語、詐騙持續時間、各地案件數量等維度進行分類,形成專門的新聞數據庫。進而使用Android Studio建立起用于展現數據的平臺,并在APP上要求用戶提供基本個人信息來初步形成用戶個人畫像,使其與系統中設定好的用戶畫像相匹配,再將與該畫像連接的防詐新聞推送到用戶的“防詐通”中,以此達到個性化推薦的效果。
2 針對性防范教育
2.1 防詐教育現狀
目前社會上主流的防詐騙宣傳教育方式主要有兩種:一是通過自營號、微信公眾號、新聞媒體等網絡平臺使用文字、圖片、視頻等方式為群眾介紹最近的電信詐騙案件或提醒群眾日常需要提防的電信詐騙手段;二是在現實生活中警方通過宣傳標語、進入社區開展防詐宣傳講座、在銀行門口安排專人為路過群眾介紹電信詐騙手段等方式進行宣傳教育。這兩種方式都能起到教育群眾的作用。然而,它們同樣存在著自己獨有的缺點:網絡平臺雖然有實時性、易獲取等特點,但因為網絡平臺太過分散,適合某一人群的防詐新聞分散在不同平臺,難以聚合獲取,在目前的快餐時代,無法做到重復教育,讓群眾形成主觀的防詐意識,達不到理想的效果;線下教育雖然能做到言傳身教,讓群眾更容易形成防詐意識,但其有著自己天然的劣勢,即受眾范圍小,一次宣傳或許只能達到百人或千人收益,無法做到大規模的群體收益,且介于目前電信詐騙手段更新速度之快,線下教育很可能會出現宣傳內容滯后,無法與時俱進的問題,并且在當今各地警力資源匱乏的情況下,線下教育在案件量多、警察任務重的地區難以開展。
2.2 推薦系統
互聯網時代的出現和普及為人類提供了得以快速獲取信息、分享信息的平臺,21世紀的人類進入了前所未有的信息爆炸時代,而面對大量信息的沖擊,人們難以在眾多無用數據中篩選出對自己有用的信息內容,導致信息使用效率下降,產生信息超載的問題。
為了解決信息超載的問題,1995年3月,卡耐基·梅隆大學的Robert Armstrong等人在美國人工智能協會中提出了個性化導航系統Web Watcher,在同一會議上,斯坦福大學的Marko Balabanovic等人推出了個性化推薦系統LIRA。推薦系統的研究及運用逐漸與電子商務相結合,2003年Google開創了AdWards盈利模式,通過提取用戶搜索的關鍵詞來提供相關的廣告,導致廣告的點擊率不斷上升,提高了Google的廣告收入利潤,2007年Google改進了AdWards模式,改良了單詞搜索關鍵詞的方法,通過對用戶一段時間內的搜索歷史進行記錄和分類,進行提供更為精準的個性化推薦。“百度世界大會2011”上,百度創始人李彥宏提出將推薦引擎與云計算、搜索引擎并列為未來互聯網重要戰略規劃以及發展方向。
推薦系統是通過提取用戶相關信息并對用戶行為進行分析,獲取用戶個人偏好,并通過推薦算法為用戶提供個性化的推薦服務,一方面幫助用戶在大量信息中針對性地發現對自己有價值的信息,減少瀏覽無用信息的精力與時間,提高對信息提供平臺的喜愛性與依賴性,另一方面信息能夠點對點的出現在對它感興趣的用戶面前,使信息的使用率上升,實現用戶與信息提供者之間的雙贏。
3 電信詐騙行為分類
3.1 防詐新聞多維度分類
如今的網絡詐騙類型眾多,如何實現對電信詐騙信息的分類并由此實現對用戶的個性化推薦是本次項目的重點。
電信詐騙有著活動蔓延性大、發展迅速、手段翻新速度快等特點。因此,電信詐騙信息數據內容龐大且復雜,難以按照一個有效的方法將其分類。模仿推薦系統算法,參考公安部近年來公布的電信網絡詐騙套路,通過大量收集網絡上已有數據并按照詐騙手段、主要節日詐騙、詐騙對象、地區、詐騙金額、防詐標語、詐騙持續時間、各地案件數量等方面,從多種維度將電信詐騙信息數據進行詳細分類。
在眾多分類維度當中,詐騙手段與詐騙對象是最基礎的維度。電信詐騙,是犯罪分子通過某種詐騙手段,選擇詐騙對象實施詐騙行為,導致受害人經濟財產損失的動作。詐騙手段與詐騙對象會在節日維度與詐騙持續時間維度進行動態變化,如圖4和圖5所示。例如,某犯罪分子會在婦女節當天實施電信詐騙,因為節日的緣故,犯罪分子更青睞于選擇女性作為詐騙對象,利用推銷美容減肥用品或節日贈禮等手段進行詐騙,且詐騙持續時間短,因為節日的緣故會讓受害人降低對詐騙的防備??梢?,詐騙手段分類與詐騙對象是最基本的兩種分類方式。
3.2 詐騙手段分類
根據詐騙方式的不同,可將電信詐騙粗分類為微信、QQ等社交軟件詐騙;傳統電話形式詐騙;短信詐騙;互聯網詐騙及以路邊二維碼、小廣告等形式的其他類詐騙。不同的詐騙方向又會根據工具的不同發展出不同的詐騙方法。例如,微信等社交工具以其方便與靈活性被人們廣泛使用,微信好友、朋友圈、訂閱號、附近的人等功能為人們的交流交友提供了便利的條件。然而,因為社交軟件的身份隱藏性以及不能與好友面對面等特點,每個用戶都可能戴著一副虛偽的面具與他人交流,因此這些社交功能為犯罪分子提供了施行詐騙的突破口。犯罪分子通過微信好友、附近的人等功能大量的散發添加好友信息,將自己的頭像偽裝成富豪或者美女,并精心經營自己的朋友圈,使得受害人相信犯罪分子的偽裝,進而向受害人傳述自己的生財之道,誘騙受害人一步步掉進被編織好的陷阱。等到受害人意識到自己受騙時,犯罪分子早已攜帶贓款逃之夭夭,這只是眾多詐騙手段的一種。通過將網絡上大量數據從簡到繁、從粗到細,將如上所訴的大量新聞數據結合我國電信詐騙現狀及公安部近年來公布的詐騙案件種類,把數據分類成樹狀圖形式,如圖6所示,從而針對用戶進行更好的個性化推薦。
3.3 詐騙對象分類及用戶畫像
根據網絡上搜集到的數據中的詐騙對象進行統計歸類,將詐騙對象按照性別、年齡、經濟條件、文化程度、職業五種維度進行分類。而在年齡上又根據該年齡段常用工具將其分為使用電話類、短信類、社交軟件類以及互聯網類。
對詐騙對象的分類,就是用于對用戶的自定義畫像的分類。通過收集網絡上大量受害人的信息,經過篩選總結,發現受害人中男性比例略高于女性,而青年人在全部受害人中占比超過60%,至于在文化程度方面,占多數的是初中學歷。除此之外,電話和網絡詐騙是目前犯罪分子成功實現詐騙的主要工具。
通過表1中不同維度占比的大小以及維度本身權重的高低,把上述維度重新分類組合,形成人工設定用戶畫像。例如,常用網絡的青年女性,大學本科學歷,或是常用電話的老年男性,小學學歷等。如此一來,形成全部用戶畫像,并與新聞數據相連接。通過這種方式使得之后用戶在定義完自己的個人畫像后,個人畫像會匹配系統中已有的用戶畫像,系統會根據用戶畫像向用戶的APP中推送與之相匹配的新聞信息。
4 相關技術簡介
4.1 Scrapy爬蟲技術
Scrapy是Python開發的一個快速、高層次的屏幕抓取和Web抓取框架,用于抓取Web站點并從頁面中提取結構化的數據。Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試。Scrapy可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、Sitemap爬蟲等。
根據四步流程進行信息爬取。(1)創建一個Scrapy項目;(2)定義提取的Item;(3)編寫爬取網站的Spider并提取Item;(4)編寫Item Pipeline來存儲提取到的Item(即數據)。Scrapy抽取信息的基本流程如圖8所示。
4.2 Android Studio
Android Studio是基于IntelliJ IDEA的官方Android應用開發集成開發環境(IDE)。除了IntelliJ強大的代碼編輯器和開發者工具,Android Studio提供了更多可提高Android應用構建效率的功能,具體有九項。
(1)基于Gradle的靈活構建系統;
(2)快速且功能豐富的模擬器;
(3)可針對所有Android設備進行開發的統一環境;
(4)Instant Run,可將變更推送到正在運行的應用,無需構建新的APK;
(5)可幫助構建常用應用功能和導入示例代碼的代碼模板和GitHub集成;
(6)豐富的測試工具和框架;
(7)可捕捉性能、易用性、版本兼容性以及其他問題的Lint工具;
(8)C++和NDK支持;
(9)內置對Google云端平臺的支持,可輕松集成Google Cloud Messaging和APP引擎。
5 數據收集與平臺搭建
5.1數據收集
用Scrapy爬蟲爬取網絡上關于詐騙方法和詐騙手段的新聞,例如,從今日頭條和新浪網等新聞網站上爬取到想要的新聞并將其標題、出版社、封面等數據用Pymysql存儲到本地的MySql中,再經過人工篩選,按照制定的推薦方法建成一個新聞數據庫。當然,該數據庫遠遠不夠完善,因為大量的詐騙新聞信息在網絡的形式千奇百怪、良莠不齊,且沒有分類。假若由公安專業部門進行收集整理,則能大大擴充數據庫,提高實戰性。本文在建立了數據庫的基礎上,進行后續實驗。部分新聞數據庫基本情況如表2所示。
5.2 Android平臺搭建
參考當今網絡上比較流行的手機新聞類客戶端,使用Android Studio開發出“防詐通”這一針對易被騙人群的電信網絡詐騙防范信息聚合平臺,允許用戶在該平臺上按照性別、年齡、職業等個人信息形成用戶個人自定義畫像。Android Studio中自帶的SQLite輕量型關系型數據庫能夠把用戶個人信息數據存儲到個人本地的數據庫中。同時,將存儲在MySql中的新聞數據同樣設置在平臺內部的數據庫中,并根據用戶的不同在數據庫中為每條新聞貼上獨特的標簽。如此,Android Studio中用戶所定義的對于自我的畫像將與新聞數據的標簽相結合,形成數據—用戶標簽對應的個性化推薦體系,并根據用戶的個人畫像向用戶推送適合用戶的詐騙信息新聞。
例如,在初始設定中將用戶信息設置為ID:NS,出生日期:1990-3-1,教育程度:研究生的信息。點擊確定后,后臺會自動存儲用戶的個人信息,并將用戶的ID體現在后面的用戶信息頁上。在下一頁跳轉界面中選擇自己的職業為學生,同樣,點擊“開始體驗”后,后臺也會存儲用戶的行業信息。由此,后臺數據庫獲得了用戶的初步個人畫像,并根據此用戶畫像將新聞數據庫中的新聞數據以設定好的適用年齡、適用人群等屬性與用戶相匹配,從而實現對用戶的詐騙新聞的定向投遞。
6 結束語
本文中APP以個性化推薦的方式,為用戶打造專屬用戶畫像。通過大量收集防詐新聞數據并從中找尋基礎屬性,做到對新聞數據的多維度分類,并根據統計得到的詐騙對象維度中的不同類別、受害人占比來人工合成用戶畫像。實現針對性地提供最新、最常見的電信詐騙案例、手段及預防方式,達成個性化防詐信息與用戶智能對接,有利于使群眾提高防范電信網絡詐騙的意識,了解犯罪分子的慣用手段及規律,保護自身人身財產安全。
如今智能手機是最普遍使用的電子通訊工具,同時也是公民生活中最必不可少的信息來源手段,本項目采用當前手機軟件作為平臺,建立“防詐通”手機APP,專門用于預防電信網絡詐騙宣傳及教育,時刻在群眾心中敲響防詐的警鐘。相信這一款軟件的誕生能有力地加強防詐宣傳教育,推動群眾提高電信網絡自我防范意識。
目前該軟件還有許多值得完善和修改的地方,今后將更新相關技術,使用戶畫像更加立體化,進一步加強用戶與新聞數據間的智能個性化連接,為未來電信詐騙案件的減少甚至杜絕貢獻自己的一份力量。
參考文獻
[1] 張穎. 基于用戶畫像特征數據集的個性化推薦算法研究[D].西安電子科技大學,2018.
[2] 王炎.數據挖掘技術下的個性化智能推薦系統設計[J].微型電腦應用,2019,35(02):119-121.
[3] 郝立明.網絡詐騙犯罪治理研究[J].法制博覽,2019(04):9-11.
[4] 2018年第一季度反電信網絡詐騙大數據報告[J].騰訊守護者計劃.
[5] 公安部公布常見電信詐騙犯罪案件[J].中國警方在線.
[6] 王璐璐,張鵬,閆崢,周曉康.機器學習訓練數據集的成員推理綜述[J].網絡空間安全,2019,10(10):1-7.
作者簡介:
牛碩(1999-),男,漢族,遼寧遼陽人,中國人民公安大學,在讀本科生;主要研究和關注領域:電信詐騙。
鄧捷(1999-),女,漢族,廣東茂名人,中國人民公安大學,在讀本科生;主要研究方向和關注領域:理化檢驗。
陳佳宇(1999-),男,漢族,廣東廣州人,中國人民公安大學,在讀本科生;主要研究方向和關注領域:網絡安全與執法。
林宇辰(2000-),男,漢族,江蘇常州人,中國人民公安大學,在讀本科生;主要研究方向和關注領域:刑事科學技術。
李昊海(1999-),男,漢族,海南??谌?,中國人民公安大學,在讀本科生;主要研究方向和關注領域:電信詐騙。
(本文為“2020年429首都網絡安全日”活動征文)