999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于屬性聚類的傳銷網站賬戶去重方法研究

2019-07-01 03:40:34趙廣曄
科技創新與應用 2019年18期

趙廣曄

摘 ?要:在網絡傳銷案件取證過程中,需要分析傳銷活動的實際參與人數,但是由于網絡身份的虛擬性,經常存在一人使用多個賬戶的情況,因此需要對傳銷網站中的賬戶進行去重分析。目前常用的方法是將姓名、身份證號等信息一致的賬戶做去重處理,但是該方法無法對使用虛假身份注冊的賬戶進行去重。文章提出了一種基于屬性聚類的賬戶去重方法,通過對與使用者身份關聯的屬性進行聚類分析,從而實現對傳銷網站中的賬戶進行去重。

關鍵詞:電子數據取證;網絡傳銷;并查集;去重統計

中圖分類號:D631.1 ? ? ? ?文獻標志碼:A ? ? ? ? 文章編號:2095-2945(2019)18-0139-02

Abstract: In the process of collecting evidence in network marketing cases, it is necessary to analyze the actual number of participants in these pyramid marketing activities, but due to the virtual nature of network identity, there is often a situation in which one person uses multiple accounts. Therefore, it is necessary to reanalyze the accounts in the network marketing website. At present, the commonly used method is to reprocess the account with the same information such as name and ID number, but this method cannot reprocess the account registered with false identity. In this paper, an account de-duplication method based on attribute clustering is proposed. Through the cluster analysis of the attributes associated with the user's identity, the account in the pyramid selling website can be deduplicated.

Keywords: electronic data forensics; network marketing; union-find sets; deduplicated statistics

1 概述

在辦理網絡傳銷案件時,根據法律規定和相關的司法解釋,犯罪嫌疑人直接或間接發展下線的人數是對其定罪量刑的重要依據。但是網絡傳銷案件的參與人是以虛擬賬戶的方式加入傳銷組織的,存在大量一人多賬戶的情況。然而在司法解釋中的人數指的是參與傳銷活動的自然人。

本文首先介紹目前司法實踐中常用的簡單去重法,并對該種方法在司法實踐中遇到的問題進行分析。然后針對這些問題,提出一種基于屬性聚類的傳銷網站賬戶去重分析方法。

2 簡單去重法及其在司法實踐中存在的問題

2.1 簡單去重法

目前網絡傳銷組織者往往會要求參與者提供姓名、身份證等個人身份信息,以及手機、郵箱、微信、QQ等聯系方式,同時還會要求參與者提供銀行卡、支付寶等用來提取返利資金的賬戶信息。

簡單去重法指的是依據姓名和身份證號等個人身份信息組合進行查重、去重的方法。表1是某傳銷網站中五個賬戶的部分注冊信息。因為一人使用多部手機的情況十分常見,在應用簡單去重法時通常采用“姓名+身份證號”的組合進行分析。表1中只有“ZZKL0083”與“ZZKL0096”兩個賬戶注冊時使用的姓名和身份證號完全一致,為同一人注冊,即這5個賬戶實際上應為4個人注冊的。雖然簡單去重法可以快速的得出分析結果,但是該方法在庭審過程中也遭到了嫌疑人及其辯護律師的質疑。

2.2 存在的問題

(1)網站對注冊信息缺乏嚴格驗證。目前,網絡傳銷的網站并不會進行實名驗證,甚至對信息格式都不進行校驗。例如,表1中“ZZKL0096”和“ZZKL1983”兩個賬戶的姓名和手機號完全一致,但是身份證的最后兩位不同,如果使用簡單去重法,這兩個賬戶將會被作為2個人進行統計。但兩個賬戶實際上是同一人的,只是其中一個身份證號輸入錯誤。(2)網站對冒用身份無法鑒別。簡單去重法通過注冊賬戶信息屬性的組合進行去重,無法鑒別冒用他人身份信息注冊的賬戶。例如,表1中“ZZKL0099”這個賬戶注冊時使用的手機號是“188****1234”,與賬戶“ZZKL0083”一致,但是兩個賬戶其他信息并不一致。在該傳銷網站中需要使用手機接收重要信息,即兩個賬戶實際上是同一人的。按上述邏輯分析,表1中“ZZKL0083”、“ZZKL0096”、“ZZKL099”和“ZZKL1983”等4個賬戶應該是由同一人注冊并操作的,即表1中賬戶的去重結果應為2個。

3 基于屬性聚類的去重分析方法

3.1 分析思路

為了避免前文提到的情況影響去重分析結果的準確性,在進行去重分析時,不能簡單的使用身份屬性信息組合來進行去重。因此,本文提出一種基于屬性聚類的傳銷網站賬戶去重分析方法。該方法的分析思路是對會員賬戶依據其屬性進行聚類,如果兩個賬戶的某一屬性值相同則聚為一類,不斷將聚類進行擴張,最后統計聚類數作為結果。根據會員賬戶的特點主要提取以下幾類屬性進行聚類分析:會員身份基本信息、會員操作痕跡信息、收付款賬戶信息等。

3.2 分析方法

本文提出的基于屬性聚類的分析方法主要包括三個步驟:提取數據、建立關聯、聚類計數。

3.2.1 提取數據

根據去重分析的需求,首先要從后臺數據中提取出三類數據:(1)會員身份基本信息:主要包括姓名、身份證號、手機號等。(2)會員操作痕跡信息:主要是指會員登錄時的IP地址。(3)收付款賬戶信息:主要包括微信賬戶、銀行卡號、支付寶賬戶等。

3.2.2 建立關聯

將提取到的所有賬戶作為圖中的結點,記為Naccount,結點的屬性包括上述提取出的所有屬性。如果兩個賬戶有某個屬性值相同,則在兩個結點間建立一條邊,記為Erelation。對所有賬戶的所有屬性進行遍歷,構建所有提取到的屬性信息的聚類關聯,從而形成一個所有賬戶的關聯圖,記為Gar。

3.2.3 聚類計數

在本文提出的基于屬性聚類的賬戶去重分析方法中,所有連接在一起的結點就作為一個結點進行統計。要統計最終的去重結果即是計算圖Gar中的連通分量個數Ccomponent。

4 去重方法的實現及驗證

4.1 去重方法的實現

首先,將會員賬戶及相關數據從傳銷網站后臺數據庫中導出。為了便于后期的數據處理和分析,將相關數據整合為一張二維表Tinfo,以CSV格式進行存儲,根據傳銷網站存儲的數據不同,相關屬性字段包括賬戶ID、姓名、身份證號、手機號碼、銀行賬戶、登錄IP地址等。

其次,定義圖的數據結構Gar,使用導出的CSV數據建立圖中的結點Naccount實例,記錄結點的ID和相關屬性。

然后,對于會員賬戶信息中的每一個屬性字段A[i],按照如下步驟生成關聯邊Erelation集合:

Tinfo.sort_by(A[i]);

CurValue = Tinfo[0][i];

CurId = Tinfo[0][‘Id];

for j in range(1,len(Tinfo)):

if Tinfo[j][i] == CurValue:

Erelation.append(CurId,Tinfo[j][‘Id]);

Else:

CurValue = Tinfo[j][i];

CurId = Tinfo[j][‘Id];

最后,統計圖Gar中的連通分量個數作為去重結果。傳銷網站中會員賬戶數量和最終去重結果數都很大,所以本文采用并查集的方法進行統計。并查集主要有以下三種操作:初始化,創建一個新的并查集,并把每個元素所在的集合初始化為這個元素本身;查找,查找該元素所在的集合,即根結點;合并,將兩個元素所在的不同集合合并為一個集合,在合并之前使用“查找”操作判斷兩個集合是否屬于同一個集合。[1]

4.2 去重結果的分析

本文從某傳銷網站后臺數據中提取了某一分支中1970個會員賬戶的相關信息,分別使用簡單去重法和基于屬性聚類的方法進行賬戶去重分析,去重結果如圖1所示。圖1(a)為使用簡單重法去重的結果,即使用“姓名+身份證號”組合進行關聯的結果,在1970個賬戶中,僅有兩個賬戶的“姓名+身份證號”組合信息完全相同,即去重結果為1969。圖1(b)為分別使用“姓名”、“身份證號”、“手機號”三個屬性進行關聯后的去重結果,1970個賬戶共形成關聯邊280條,最終形成的連通分量數為1787個,即去重結果為1787。

使用本文方法形成的關聯集合中的賬戶信息進行分析,發現可以有效實現對使用不同身份信息注冊但是使用同一手機號碼的賬戶進行去重,但是對于姓名相同的賬戶可能會發生過度去重的情況,即去重結果可能會小于實際參與人數。

5 結束語

綜上,本文提出的基于屬性聚類的傳銷網站賬戶去重方法可以有效實現對傳銷網站后臺人員的去重統計,特別是可以將輸入數據不規范和冒用他人身份注冊的賬戶進行去重,雖然該方法存在過度去重的問題,即去重結果可能小于實際人數,但是相較于簡單去重法,該方法的去重結果更接近真實情況,也更加合理和符合相關司法解釋,具有實際應用價值。

參考文獻:

[1]羅志磊,馮波,葉鵬.基于并查集的圖像連通域標記算法[J].黑龍江科技信息,2017(11):41.

主站蜘蛛池模板: 天堂在线亚洲| 老司国产精品视频91| 依依成人精品无v国产| 国产精品男人的天堂| 欧美国产日产一区二区| 色婷婷国产精品视频| 免费又黄又爽又猛大片午夜| 国产在线视频二区| 国产99精品视频| 无码粉嫩虎白一线天在线观看| 国产精品无码久久久久AV| 日韩欧美国产三级| 亚洲性网站| 视频在线观看一区二区| 99在线观看免费视频| 高h视频在线| 久久综合丝袜日本网| 国产一级二级在线观看| 亚洲欧美成人在线视频| 综合亚洲网| 综合网天天| 国产在线观看99| 中国丰满人妻无码束缚啪啪| 日本欧美视频在线观看| 视频一本大道香蕉久在线播放| 免费 国产 无码久久久| 日本午夜影院| 亚洲高清日韩heyzo| 久久精品这里只有精99品| 久久久久久高潮白浆| 国产精品美乳| 无码中字出轨中文人妻中文中| 精品福利视频网| 在线欧美a| 亚洲成人福利网站| 亚洲欧洲日韩综合色天使| 呦女亚洲一区精品| 毛片最新网址| 国产一区二区三区精品久久呦| 成人无码一区二区三区视频在线观看| 国产欧美视频一区二区三区| 波多野结衣一区二区三区四区| 丝袜高跟美脚国产1区| 久久综合一个色综合网| 国产一级片网址| 亚卅精品无码久久毛片乌克兰| 国产男女免费视频| 欧美亚洲国产精品第一页| 午夜视频免费试看| 国产伦精品一区二区三区视频优播| 一本久道久久综合多人| 91麻豆国产在线| 欧美日韩亚洲综合在线观看| 91精品专区国产盗摄| 免费看a级毛片| 亚洲精品在线91| 米奇精品一区二区三区| 玩两个丰满老熟女久久网| 国产香蕉国产精品偷在线观看| 丁香婷婷久久| 精品91视频| 毛片在线看网站| 亚洲国产欧洲精品路线久久| 国产欧美高清| 99精品国产自在现线观看| 日韩毛片在线视频| aⅴ免费在线观看| 日韩毛片在线视频| 欧美第九页| 亚洲人成人伊人成综合网无码| 99精品国产自在现线观看| 国产男人的天堂| 99re热精品视频中文字幕不卡| 六月婷婷综合| 国产精品开放后亚洲| 久久精品电影| 1769国产精品免费视频| 91午夜福利在线观看| 毛片久久网站小视频| 欧洲欧美人成免费全部视频| 国产成人永久免费视频| 福利一区三区|