999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多維數(shù)據(jù)的關(guān)系人分析方法研究

2020-03-30 03:19:04丁洪麗
電腦知識(shí)與技術(shù) 2020年1期

丁洪麗

摘要:針對(duì)只利用單數(shù)據(jù)源進(jìn)行關(guān)系人發(fā)現(xiàn)不準(zhǔn)確、不完備的問(wèn)題,研究利用多維數(shù)據(jù)的關(guān)系人分析方法。針對(duì)航班和火車出行數(shù)據(jù),采用同行規(guī)律挖掘算法得到與目標(biāo)人物一起出行的同行關(guān)系人;針對(duì)話單數(shù)據(jù),采用通聯(lián)規(guī)律統(tǒng)計(jì)算法得到與目標(biāo)人物有通話的通聯(lián)關(guān)系人;針對(duì)出行數(shù)據(jù)和話單數(shù)據(jù),采用會(huì)面關(guān)系人分析方法得到與目標(biāo)人物有會(huì)面的會(huì)面關(guān)系人;根據(jù)重點(diǎn)關(guān)系人發(fā)現(xiàn)規(guī)則從上述關(guān)系人得到重點(diǎn)關(guān)系人。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在關(guān)系人分析方面是十分有效的。

關(guān)鍵詞:同行規(guī)律挖掘;通聯(lián)規(guī)律統(tǒng)計(jì);會(huì)面關(guān)系人分析;重點(diǎn)關(guān)系人分析

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)01-0001-04

1概述

關(guān)系人分析主要是從大量數(shù)據(jù)中挖掘出潛在的、不為人所知的、人與人之間的各種關(guān)系。隨著現(xiàn)有數(shù)據(jù)獲取技術(shù)手段的提高,獲取的各種人類行為數(shù)據(jù)量劇增,話單數(shù)據(jù)、出行數(shù)據(jù)是其中的典型代表,其中潛藏著各種類型的人物關(guān)系,這些人物關(guān)系可支撐嫌疑人查找、團(tuán)伙發(fā)現(xiàn)、商品推銷等應(yīng)用,如何從這些海量數(shù)據(jù)中挖掘人物關(guān)系及其類型變得尤為重要。

傳統(tǒng)方法在進(jìn)行關(guān)系人分析時(shí)僅采用單一數(shù)據(jù)源進(jìn)行處理,只利用話單數(shù)據(jù)進(jìn)行重點(diǎn)關(guān)系人發(fā)現(xiàn),其缺點(diǎn)是容易出現(xiàn)漏判和誤判情況。

利用話單數(shù)據(jù)進(jìn)行關(guān)系人分析是比較常用的方法,一般將通話次數(shù)多、通話時(shí)間長(zhǎng)的人員列為重點(diǎn)關(guān)系人。然而現(xiàn)在網(wǎng)購(gòu)已經(jīng)成了大家的習(xí)慣,隨之而來(lái)的快遞員、外賣送餐員越來(lái)越多。如果目標(biāo)人物經(jīng)常網(wǎng)購(gòu)買東西或者定外賣,那么其與快遞員或者外賣送餐員的通話次數(shù)就很多,利用傳統(tǒng)分析方法,很容易將快遞員或者外賣送餐員等日常關(guān)系人判斷為目標(biāo)人物的重點(diǎn)關(guān)系人,產(chǎn)生誤判;另外還存在某些重點(diǎn)關(guān)系人和目標(biāo)人物通話次數(shù)并不多的情況,利用傳統(tǒng)分析方法,這些重點(diǎn)關(guān)系人就被過(guò)濾掉了,產(chǎn)生漏判。所以話單數(shù)據(jù)僅適合發(fā)現(xiàn)通聯(lián)度高的關(guān)系人。

利用航班和火車等出行數(shù)據(jù)也可以進(jìn)行重點(diǎn)關(guān)系人發(fā)現(xiàn),但也可能存在誤判和漏判的情況。經(jīng)常一起出行的人大多可認(rèn)為是重點(diǎn)關(guān)系人,但也存在兩個(gè)沒(méi)有任何關(guān)系的出差達(dá)人經(jīng)常一起出行的情況;另外不是所有的關(guān)系人都會(huì)經(jīng)常一起出行。所以出行數(shù)據(jù)僅適合發(fā)現(xiàn)同行度高的關(guān)系人。

針對(duì)上述問(wèn)題,我們提出一種基于多維數(shù)據(jù)的關(guān)系人分析方法。本方法采用多數(shù)據(jù)源進(jìn)行關(guān)系人發(fā)現(xiàn),將處理過(guò)程進(jìn)行融合,判定結(jié)果既互相補(bǔ)充又交叉驗(yàn)證,減少了漏判和誤判的情況。

基于多維數(shù)據(jù)的關(guān)系人分析方法流程示意圖如圖1所示。

2關(guān)系人分析方法研究

2.1同行關(guān)系人分析

針對(duì)航班和火車出行數(shù)據(jù),采用同行規(guī)律挖掘算法挖掘與目標(biāo)人物姓名一起出現(xiàn)的頻繁項(xiàng)目2一項(xiàng)集得到與目標(biāo)人物一起出行的同行關(guān)系人列表。同行關(guān)系人列表項(xiàng)包括目標(biāo)人物姓名、目標(biāo)人物證件號(hào)碼、同行關(guān)系人姓名、同行關(guān)系人證件號(hào)碼和同行次數(shù)。

同行規(guī)律挖掘算法(cRM,Co-occurrence Rule Mining)流程圖如圖2所示,具體為:

相關(guān)概念如下:

·k-項(xiàng)集:如果事件A中包含k個(gè)元素,那么稱這個(gè)事件A為k項(xiàng)集。

·支持度:指事件A和事件B同時(shí)發(fā)生的概率。

·最小支持度:由用戶定義的衡量支持度的一個(gè)閾值,表示項(xiàng)目集在統(tǒng)計(jì)意義上的最低重要性。

·頻繁項(xiàng)目集:事件A滿足最小支持度閾值的事件。

CRM的實(shí)現(xiàn)流程如下:

a]CRM預(yù)讀數(shù)據(jù),對(duì)出行數(shù)據(jù)中的旅客姓名進(jìn)行排序。

b)排序后,CRM將掃描一遍整個(gè)數(shù)據(jù)集,生成一個(gè)只包含一個(gè)項(xiàng)目的項(xiàng)集。計(jì)算在事務(wù)集合中的支持度,并據(jù)此得到初始的單項(xiàng)目頻繁項(xiàng)目集F.(即卜項(xiàng)集),隨后的每一輪搜索(假設(shè)接下來(lái)進(jìn)行第k輪搜索1都分為3步:

1)將算法第(k-1)輪搜索生成的頻繁項(xiàng)目集集合作為種子集合產(chǎn)生候選項(xiàng)集集合Ck;

2)掃描整個(gè)事務(wù)數(shù)據(jù)庫(kù),計(jì)算候選項(xiàng)集集合Ck中每個(gè)候選項(xiàng)集的支持度;

3)本輪搜索的最后,算法計(jì)算出候選項(xiàng)集集合Ck中每個(gè)候選項(xiàng)集的支持度,并將符合最小支持度要求的候選項(xiàng)集加入k-項(xiàng)集Fk。

值得注意的是,第b)步中1)由合并和剪枝兩步完成:

1)合并:將兩個(gè)(k-1)一頻繁項(xiàng)目集合并來(lái)產(chǎn)生一個(gè)可能的k-候選項(xiàng)集c。兩個(gè)頻繁項(xiàng)目集的前k-2個(gè)項(xiàng)目都相同,只有最后一個(gè)項(xiàng)目不同,則該候選項(xiàng)集被加入候選項(xiàng)集集合Ck中。

21剪枝:判斷合并步中得到的候選項(xiàng)集集合中的候選項(xiàng)集c的所有(k-1)一子集是否都在(k-1)一項(xiàng)集Fk-1中,若其中任何一個(gè)不在(k-1)一項(xiàng)集中,則c必然不是頻繁項(xiàng)目集,則將c從候選集Ck中刪除。

同時(shí),在第二步的整個(gè)計(jì)算過(guò)程中,并不需要將整個(gè)數(shù)據(jù)集加載入內(nèi)存,只需要在內(nèi)存中保留一條事務(wù)記錄,這一特點(diǎn)使得CRM可以用于處理非常巨大的數(shù)據(jù)集。算法僅需對(duì)數(shù)據(jù)集掃描K次,K是最大項(xiàng)集的大小,在本文中,K=2。

針對(duì)時(shí)間效率這一挑戰(zhàn),為了確保頻繁項(xiàng)目集生成的高效性,本算法首先對(duì)航班和火車出行數(shù)據(jù)中的旅客姓名進(jìn)行排序,同時(shí),本算法采用逐級(jí)搜索,所以很方便就能夠在某一輪搜索完成后就停止。這一點(diǎn)在實(shí)際應(yīng)用中很重要,因?yàn)楹芏嗲闆r下過(guò)長(zhǎng)的頻繁項(xiàng)目集或規(guī)則并無(wú)實(shí)際應(yīng)用,無(wú)須將它們找出。

2.2通聯(lián)關(guān)系人分析

針對(duì)話單數(shù)據(jù),采用通聯(lián)規(guī)律統(tǒng)計(jì)算法得到與目標(biāo)人物有通話的通聯(lián)關(guān)系人列表。通聯(lián)規(guī)律統(tǒng)計(jì)算法包括通聯(lián)頻次統(tǒng)計(jì)和通聯(lián)時(shí)長(zhǎng)統(tǒng)計(jì)。如圖3所示,通聯(lián)頻次統(tǒng)計(jì)模塊查詢?cè)拞螖?shù)據(jù)得到目標(biāo)人物的全部通話記錄,遍歷全部通話記錄,統(tǒng)計(jì)所有對(duì)端號(hào)碼的通聯(lián)頻次,通聯(lián)頻次降序排列,得到通聯(lián)關(guān)系人列表1。如圖4所示。通聯(lián)時(shí)長(zhǎng)統(tǒng)計(jì)模塊查詢?cè)拞螖?shù)據(jù)得到目標(biāo)人物的全部通話記錄,遍歷全部通話記錄,統(tǒng)計(jì)所有對(duì)端號(hào)碼的通聯(lián)時(shí)長(zhǎng),通聯(lián)時(shí)長(zhǎng)降序排列,得到通聯(lián)關(guān)系人列表2。通聯(lián)關(guān)系人列表項(xiàng)包括目標(biāo)人物姓名、目標(biāo)人物證件號(hào)碼、目標(biāo)人物電話號(hào)碼、通聯(lián)關(guān)系人姓名、通聯(lián)關(guān)系人證件號(hào)碼、通聯(lián)關(guān)系人電話號(hào)碼、通聯(lián)頻7欠/通聯(lián)時(shí)長(zhǎng)。

2.3會(huì)面關(guān)系人分析

針對(duì)出行數(shù)據(jù)和話單數(shù)據(jù)中的位置信息,利用會(huì)面規(guī)則得到與目標(biāo)人物有會(huì)面行為的會(huì)面關(guān)系人列表。會(huì)面關(guān)系人列表項(xiàng)包括目標(biāo)人物姓名、目標(biāo)人物證件號(hào)碼、會(huì)面關(guān)系人姓名、會(huì)面關(guān)系人證件號(hào)碼和會(huì)面次數(shù)。

以下會(huì)面規(guī)則滿足任意一條,即可判定分析對(duì)象和目標(biāo)人物有會(huì)面行為。

會(huì)面規(guī)則1:分析對(duì)象在目標(biāo)人物的停留地點(diǎn)范圍內(nèi)同時(shí)出現(xiàn)過(guò)且出現(xiàn)時(shí)間≥CXSJ分鐘;分析對(duì)象至少屬于同行關(guān)系人列表或者通聯(lián)關(guān)系人列表之一。

會(huì)面規(guī)則2:分析對(duì)象與目標(biāo)人物在活動(dòng)路線上同時(shí)出現(xiàn)過(guò)且并行時(shí)間≥BXSJ分鐘;分析對(duì)象至少屬于同行關(guān)系人列表或者通聯(lián)關(guān)系人列表之一。

其中CXSJ、BXSJ可根據(jù)需要進(jìn)行設(shè)置。

會(huì)面關(guān)系人分析方法流程圖如圖5所示。會(huì)面關(guān)系人分析模塊遍歷出行數(shù)據(jù)和話單數(shù)據(jù)中的位置信息時(shí)空序列,11查找與目標(biāo)人物在停留地點(diǎn)同時(shí)出現(xiàn)的人,判定出現(xiàn)時(shí)間是否≥CXSJ分鐘,判斷是否屬于同行關(guān)系人或通聯(lián)關(guān)系人,得到滿足會(huì)面規(guī)則1的會(huì)面關(guān)系人;21查找與目標(biāo)人物在活動(dòng)路線上并行出現(xiàn)的人,判定并行時(shí)間是否≥BXSJ分鐘,判斷是否屬于同行關(guān)系人或通聯(lián)關(guān)系人,得到滿足會(huì)面規(guī)則2的會(huì)面關(guān)系人;3)去除重復(fù)的關(guān)系人,得到最終的會(huì)面關(guān)系人。

2.4重點(diǎn)關(guān)系人分析

針對(duì)同行關(guān)系人列表、通聯(lián)關(guān)系人列表和會(huì)面關(guān)系人列表中的數(shù)據(jù),利用重點(diǎn)關(guān)系人發(fā)現(xiàn)規(guī)則判定得到重點(diǎn)關(guān)系人列表,重點(diǎn)關(guān)系人列表項(xiàng)包括目標(biāo)人物姓名、目標(biāo)人物證件號(hào)碼、目標(biāo)人物電話號(hào)碼、重點(diǎn)關(guān)系人姓名、重點(diǎn)關(guān)系人證件號(hào)碼、重點(diǎn)關(guān)系人電話號(hào)碼。

以下重點(diǎn)關(guān)系人判定規(guī)則滿足任意一條,即可判定分析對(duì)象為目標(biāo)人物的重點(diǎn)關(guān)系人。

規(guī)則1:關(guān)系人同時(shí)存在于同行關(guān)系人列表、通聯(lián)關(guān)系人列表和會(huì)面關(guān)系人列表,將其加入重點(diǎn)關(guān)系人列表;

規(guī)則2:關(guān)系人同時(shí)存在于同行關(guān)系人列表、通聯(lián)關(guān)系人列表和會(huì)面關(guān)系人列表中的任意兩個(gè)表中,將其加入重點(diǎn)關(guān)系人列表。

規(guī)則3:關(guān)系人只存在于同行關(guān)系人列表,同行次數(shù)排序前10,將其加入重點(diǎn)關(guān)系人列表。

規(guī)則4:關(guān)系人存在于通聯(lián)關(guān)系人列表,通聯(lián)頻7欠/通聯(lián)時(shí)長(zhǎng)排序前10,將其加入重點(diǎn)通聯(lián)關(guān)系人列表。

規(guī)則5:關(guān)系人存在于會(huì)面關(guān)系人列表,會(huì)面次數(shù)大于2,將其加入重點(diǎn)關(guān)系人列表。

規(guī)則6:關(guān)系人只存在于通聯(lián)關(guān)系人列表,通聯(lián)頻次或通聯(lián)時(shí)長(zhǎng)排序前10,但是目標(biāo)人物與此關(guān)系人存在如下通聯(lián)規(guī)律:通話時(shí)間點(diǎn)規(guī)律經(jīng)常在中午11:00-13:00期間,通話位置在同一基站位置內(nèi),且通話前后目標(biāo)人物位置相對(duì)固定,但關(guān)系人位置在不停變化。此關(guān)系人疑似外賣送餐員,可將此關(guān)系人從重點(diǎn)關(guān)系人列表移除。

通話時(shí)間點(diǎn)規(guī)律具體為:

將00:00-24:00區(qū)間分成若干個(gè)時(shí)間段,將用戶號(hào)碼每次通話的事件發(fā)生日期時(shí)間映射到每個(gè)時(shí)間段、統(tǒng)計(jì)每個(gè)時(shí)間段的通話次數(shù),得出通話時(shí)間點(diǎn)規(guī)律。

進(jìn)一步的,經(jīng)過(guò)以上規(guī)則得到的重點(diǎn)關(guān)系人列表需要根據(jù)證件號(hào)碼進(jìn)行去重處理。

3實(shí)驗(yàn)結(jié)果及分析

針對(duì)出行數(shù)據(jù)和話單數(shù)據(jù),本文搭建了一個(gè)關(guān)系人分析演示系統(tǒng)。演示系統(tǒng)采用基于松耦合架構(gòu)進(jìn)行設(shè)計(jì)的B/S架構(gòu),應(yīng)用服務(wù)開發(fā)基于J2EE的設(shè)計(jì)開發(fā)規(guī)范,采用Java語(yǔ)言開發(fā),前端采用JavaScfipt開發(fā),數(shù)據(jù)庫(kù)方面采用impala數(shù)據(jù)庫(kù)。把出行數(shù)據(jù)和話單數(shù)據(jù)提交給演示系統(tǒng)進(jìn)行關(guān)系人分析。針對(duì)分析對(duì)象ABRAMOWICZORYSHLOMO,同行關(guān)系人發(fā)現(xiàn)模塊的結(jié)果如圖6所示。通聯(lián)關(guān)系人發(fā)現(xiàn)模塊的結(jié)果如圖7所示。會(huì)面關(guān)系人發(fā)現(xiàn)模塊的結(jié)果如圖8所示。系統(tǒng)最終給出重點(diǎn)關(guān)系人列表,并以關(guān)系網(wǎng)絡(luò)圖的形式展示目標(biāo)人物的關(guān)系網(wǎng)絡(luò),如圖9所示。經(jīng)過(guò)對(duì)比分析,系統(tǒng)給出的結(jié)果相比采用單一數(shù)據(jù)源進(jìn)行重點(diǎn)關(guān)系人發(fā)現(xiàn)得到的結(jié)果更加準(zhǔn)確,完備。

4結(jié)束語(yǔ)

本文提出的基于多維數(shù)據(jù)的關(guān)系人分析方法采用多數(shù)據(jù)源進(jìn)行關(guān)系人發(fā)現(xiàn),將處理過(guò)程進(jìn)行融合,判定結(jié)果既互相補(bǔ)充又交叉驗(yàn)證,減少了漏判和誤判的情況,解決了只利用單一的數(shù)據(jù)源進(jìn)行關(guān)系人發(fā)現(xiàn)不準(zhǔn)確、不完備的問(wèn)題。

主站蜘蛛池模板: 免费国产高清视频| 国产AV无码专区亚洲A∨毛片| 在线看片中文字幕| 欧美日韩va| 欧美成人午夜视频免看| 美女免费黄网站| h网站在线播放| 特级毛片免费视频| 国产小视频免费| 久久semm亚洲国产| 国产中文一区二区苍井空| 国产99欧美精品久久精品久久| 不卡视频国产| 在线看免费无码av天堂的| 欧美不卡视频一区发布| 9啪在线视频| 中国一级特黄大片在线观看| 久久永久视频| 欧美中出一区二区| 国内精自线i品一区202| 欧美另类视频一区二区三区| 伊人精品视频免费在线| 久久精品国产在热久久2019| 亚洲欧美另类日本| 亚洲V日韩V无码一区二区| 精品一区二区三区水蜜桃| 国产麻豆精品手机在线观看| 欧美成人h精品网站| 国产91熟女高潮一区二区| 日韩午夜伦| 538精品在线观看| 91精品专区国产盗摄| 国产精品专区第1页| 最新无码专区超级碰碰碰| 22sihu国产精品视频影视资讯| 国产va视频| 亚洲日本中文字幕乱码中文| 精品亚洲国产成人AV| 精品人妻无码区在线视频| 色综合成人| 国产精品亚洲精品爽爽| 无码免费视频| 秋霞国产在线| 亚洲 成人国产| 自拍亚洲欧美精品| 三区在线视频| 国产精品网曝门免费视频| 特级aaaaaaaaa毛片免费视频 | 久久国产高清视频| 国产91麻豆免费观看| 天堂在线www网亚洲| 中文一级毛片| 91麻豆国产视频| 夜夜操国产| 国产成人久久综合一区| 亚洲欧洲免费视频| 国产本道久久一区二区三区| 又大又硬又爽免费视频| 国产黑人在线| 国产人成午夜免费看| 国产jizz| 亚洲天堂自拍| 国产精品网址在线观看你懂的| 国产av一码二码三码无码| 在线综合亚洲欧美网站| 成人国产免费| 欧美精品在线视频观看| 毛片网站在线播放| 欧美伦理一区| 亚洲系列中文字幕一区二区| 亚洲第一区在线| 日韩在线2020专区| 欧美日韩第二页| 亚洲中文无码av永久伊人| 久久精品最新免费国产成人| 色吊丝av中文字幕| 国产尤物jk自慰制服喷水| 人妻丰满熟妇AV无码区| 国产婬乱a一级毛片多女| 青青操国产| 国产91视频观看| 日韩在线1|