999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下移動社交網絡中大學生用戶信息泄露的研究分析

2020-11-02 07:49:34王全蕊張浩飛袁夢宇
現代計算機 2020年26期
關鍵詞:用戶大學生信息

王全蕊,張浩飛,袁夢宇

(河南科技學院信息工程學院,新鄉453003)

0 引言

隨著移動互聯網的迅猛發展,導致全球數據量出現爆炸式的增長。人們可以從海量的數據中方便快捷地獲取有用信息,同時人們對互聯網的依賴程度也在日益加深。2020 年4 月28 日中國互聯網絡信息中心(CNNIC)發布第45 次《中國互聯網絡發展狀況統計報告》,截至2020 年3 月,我國網民規模達9.04 億,普及率達64.5%,我國手機網民規模達8.97 億,互聯網普及率超過六成,微信朋友圈、微博、QQ 空間使用率分別為85.1%、42.5%、47.6%[1]。在手機網民們常用的App 中即時通信App 和社交App 仍然占絕對比重,而微博作為社交媒體平臺,隨著短視頻和移動直播的深入布局和服務逐步完善,在推動用戶使用率穩步增長的同時使得網絡社交平臺仍是人們日常賴以交流溝通的主要途徑。

1 研究背景與問題提出

在移動社交網絡中大學生用戶是一個比較特殊的群體,隨著他們步入大學校園,開始獨立的大學生活,他們的獨立意識也在逐漸增強,并且比高中時代有著更多的自由支配時間,因此他們每天都會借助微信、QQ、微博等這些移動社交網絡平臺豐富自己的課余生活,但是在他們進行在線聊天、刷微博、發動態的時候早已將自己的個人信息甚至是隱私暴露無遺。近幾年來,隨著網絡詐騙、網絡暴力、網絡謠言等事件逐漸增多,國內許多學者開始關注并研究移動社交網絡中用戶隱私泄露問題[2-8]。常文英、劉冰采用信息追溯法持續跟蹤150 名微博用戶的相關活動,并提取用戶個人基本特征信息和私密信息進行可信度分析研究得出用戶信息泄露的主要方式和途徑[9];王水平、朱新峰以借助MapReduce 技術,采用關聯規則分析用戶單屬性隱私、雙屬性隱私以及多屬性隱私之間的關聯關系,為社交網絡用戶制定個性化隱私保護策略提供數據支撐[10];田波等選取6 個典型的移動社交App,通過專家打分形式對移動App 用戶隱私泄露風險水平進行評判,并根據構建的用戶隱私信息泄露風險評價指標體系分析得出由App 平臺原因造成的隱私泄露大于由用戶原因造成的隱私泄露[11];鄭倩月等人[12]和白偉等人[13]都采用網絡問卷調查的方式分析移動社交網絡中大學生個人隱私泄露的現狀,并給出個人隱私保護的措施和建議;張學波等人運用風險感知理論、信息隱私關注理論構建隱私風險感知分析維度,分析大學生移動社交媒體隱私風險感知的個人因素中受教育程度對隱私風險感知度影響較大[14]。

這些研究成果大都側重于社交網絡用戶發布動態或文章內容上的隱私保護和社交網絡訪問控制方面,而對于移動社交網絡中大學生用戶個人信息泄露的研究卻不多見。目前已有的一些研究基本也都是采用走訪調查、網絡問卷等形式獲取大學生用戶的個人數據,并沒有體現大數據特性,且后期采用偏定性分析的方法分析用戶信息泄露的途徑和方式,帶有一定的主觀性。本文在大數據的背景下,爬取社交網絡中用戶信息,利用聚類算法識別其中的大學生用戶,并同時分析用戶信息的真實性,利用信息泄露風險評估模型進行風險分析,得出大學生信息泄露的關鍵因素,并有針對性的提出預防的措施。

2 NCA-ADOC大學生用戶識別算法

大學生用戶作為移動社交網絡中一個占較大比重的特殊群體,其特殊性體現在以下幾個方面:首先他們在校學習期自由時間非常充裕由此導致他們在各大移動社交網站在線時間較長而且在線時間具有規律性;其次是大學生有著強烈的求知欲和好奇心,因此移動社交網站就是他們獲取信息和涉獵知識的一個主要途徑,同時也是他們情感寄托和情緒宣泄的主要方式;最后也是最為令人擔憂的是這些大學生用戶個人信息保護和隱私防范意識非常薄弱,他們在社交網絡中的幾乎接近真實的注冊信息、隨意發布包含位置信息和家庭狀況信息的動態、不經意流露個人喜好的說說等隱私數據。為了防止大學生用戶的個人信息被非法人利用,首先需要識別這些用戶身份。

2.1 微博用戶模型

微博是基于用戶關系的社交媒體平臺,借助該平臺完整的描述了用戶之間的社交關系、社交活動。由用戶之間的關注、被關注關系使得微博中用戶構成一個龐大的網絡結構,因此可以將該網絡結構表示為一個微博信息系統,即WS=,其中W為由微博用戶構成的集合,A為微博用戶的相關屬性集合,該屬性集合可以用一個二元組表示,A(u)={Privacy(u),Tweet(u),Behavior(u)},其中Privacy(u):表示用戶的個人信息,包括:id、用戶名、位置、性別、微博地址、關注數、粉絲數、個人簡介、職業、教育程度、用戶標簽、是否認證等信息;Tweet(u):表示用戶的微博總數、第一篇微博發文時間、開微博年數、微博標簽(關鍵詞)等信息;Behavior(u):表示某段時間內用戶活動情況,包括發文內容、發文時間、發文地址、是否原創、微博來源、微博轉發數和轉發時間等信;V為用戶屬性的取值范圍,即屬性值域,對于用戶不同屬性其取值類型和取值范圍不同;f為信息函數,即從用戶集合到屬性值域的映射。

2.2 基于NCA-ADOC的微博大學生用戶識別算法

在分析研究微博中大學生用戶信息泄露情況,需要先進行大學生用戶身份的有效識別。本為采用文獻[15]中基于屬性依賴關系和對象相關性的自然聚類算法,通過對其改造能使算法適用于識別微博中大學生用戶。改造后的自然聚類算法可以依據提取的大學生用戶特征,在相似度閾值的控制下,自然地將用戶集合中有著相似的自然屬性的大學生對象聚為一類。

(1)相關概念

定義1微博用戶相似性函數。設WS=是一個微博系統,A 為系統上用戶的屬性集合,a 是A 上的屬性,A=C∪D,對微博用戶集合上任意兩個用戶ui和uj,其相似度為:

S(ui, uj)表示ui和uj兩個微博用戶的相似性,顯然S(ui,uj)∈(0.5,1]。

其中,C 和D 分別為條件屬性集和決策屬性集,且C∩D≠Φ,D≠Φ;aa表示用戶各個屬性的重要度,每個屬性的重要度可以表示為a={aa1,aa2,…,aa|A|};

ba表示對象相關因子。

定義2微博用戶相似關系模型。設WS=是一個微博系統,A 為系統上用戶屬性的集合。ui和uj是W 上的兩個微博用戶,a 是A 上的屬性。對于任意R?A對應的相似關系定義為:

其中,Sima(ui,uj)表示對象ui和uj關于屬性a 的相似度,αa和βa分別表示屬性集A 中屬性的重要度因子和對象相關因子,thp是設置的相似度閾值。

基于微博用戶屬性重要性和用戶對象之間的相關性定義用于判斷算法收斂的目標函數。

定義3目標函數。設WS=是一個微博系統,ci是微博用戶集合的聚類中心,uj是ci所代表類i 中的對象,則目標函數定義為:

其中,k 表示聚類的數目,nj表示類i 所包含的對象個數,S(uj,ci)表示在類i 中,對象uj與其所在類的中心的相似度。

(2)NCA-ADOC 自然聚類算法

首先確定手工標注n 個大學生用戶,根據相似度計算其他微博用戶到這些大學生用戶的初始相似度,并且如果初始相似度達到一定閾值,則初步認為這些用戶是大學生用戶,然后在根據自然聚類算法對大學生用戶進行聚類,將其分成k 個不同的子集,直至k 個子集不再發生變化為止,算法實現的主要步驟如下所示。

輸入:微博系統WS=,閾值thp;

輸出:大學生用戶集合U 的k 個子集,C={C1,C2,…,Ck}。

步驟1 采用手工標注的方式生成微博大學生用戶原始集合U;

步驟3 根據公式(2)計算大學生用戶集合U 中任意兩個用戶之間的相似度;

步驟4 從U 中選擇兩個最不相似的用戶,即SA(ui,uj)的值最小,將這兩個用戶作為初始聚類中心,記為c1=u1和c2=u2,并將這兩個點加入初始聚類中心集合C 中,即C∪{c1,c2}。此后繼續尋找與C 中相似度小于相似度閾值thp的對象ui,將其加入至C 中,直到條件不成為止,至此得到初始聚類中心C={c1, c2,…, c|c|}以及聚類數目k=|c|;

步驟5 計算集合U 中各個大學生用戶到各簇中心的相似度,將大學生用戶分配至與之相似度最大的簇中心所在的子集中;

步驟6 根據公式(3)的目標函數計算由步驟5 所生成的所有簇中所有點與其所在簇的中心的相似度之和J1;

步驟7 計算子集中各維度的平均值作為新的簇中心;

步驟8 重復步驟5;

步驟9 計算新生成子集的目標函數J2,若J1=J2,則該算法結束,輸出k 個大學生用戶子集;否則轉至步驟6。

3 大學生用戶個人信息泄露風險評估模型

目前關于隱私泄露風險評估的研究大都是根據信息安全風險BS 7799(ISO/IEC17799)評估標準原則,從移動終端、移動網絡環境、用戶自身以及其他外部威脅等維度上選取相應的指標進行風險評估。本文主要從用戶自身主觀這個維度出發,研究大學生用戶在注冊、登錄和發布信息時有意或無意地泄露個人隱私信息。

由于大學生用戶屬性集合上的屬性較多,且各個屬性對接個人信息泄露的影響程度不同,因此在分析時不能一概而論,而是需要從中選取屬性重要度較高的屬性進行分析。本文根據屬性重要度的定義4,初步計算每個屬性的重要度,并從中選取和個人隱私相關度較大的14 個風險指標,如表1 所示。

定義4屬性主要度。設WS=是一個微博系統,αa表示用戶各個風險指標的屬性重要度,其定義為:

其中,a 是用戶屬性集合中的一個屬性,即a∈A,用戶每個屬性的重要度可以表示α={αa1,αa2,…,αa|A|},αa∈[0,1],D 為屬性集合A 中的決策屬性。

由于本文分析信息泄露的主要對象為大學生用戶,因此將14 個風險指標即用戶屬性集合中的教育程度作為決策屬性,剩余的12 個屬性作為條件屬性。

根據由公式(4)初步計算的各個屬性的重要度,發現其中5 個屬性:性別、地區、是否認證、用戶標簽、近期發文標簽的屬性重要度都大于0.5,因此這個5 個屬性可以作為接下來進行個人信息泄露分析的5 個維度。因此本文將這個5 個屬性作為每個維度的主屬性,設置其屬性重要度為1,并且根據定義4 再次調整每個維度上各從屬性的重要度,如表1 所示。

表1 大學生用戶個人信息泄露風險指標及其屬性重要度

4 實驗及結果分析

4.1 識別微博大學生用戶

本文從河南科技學院不同專業不同年級的本科生中選取31 個在新浪微博處于活躍狀態且基本信息填寫完整的大學生用戶為種子用戶,根據用戶的關注與被關注關系爬取了2020 年2 月2 日到2020 年2 月13日時間段新浪微博上共112852 個用戶。爬取到的用戶信息包括:用戶id、用戶名、用戶位置、用戶性別、微博地址、關注數、粉絲數、微博發文數、第一篇微博發文時間、用戶簡介、職業信息、教育信息、用戶標簽。

預處理:將種子用戶和爬取的微博用戶共112883個用戶信息作為原始數據集,對其進行預處理。首先去除“用戶id”重復的用戶記錄;接著去除“教育信息”字段值為空的用戶記錄;再根據“第一篇微博發文時間”計算用戶創建微博賬戶的年數,去除值大于4 年的用戶記錄;接著對用戶記錄中的部分字段的字段值轉化為與之對應的數值。

大學生用戶聚類:選取了31 個種子用戶記錄,根據相似度計算原始數據集中其他微博用戶記錄到這些種子用戶記錄的初始相似度,并篩選出閾值大于0.6 的共計24376 條記錄,該數據集記為Dcu。再以用戶的“性別”、“地區”、“關注數”、“粉絲數”、“是否認證”、“微博創建年數”6 個屬性作為分類屬性,根據自然聚類算法對各個數據集進行聚類并生成不同的聚類集合,基本信息如表2 所示。

表2 不同分類下的聚類結果

4.2 基于風險指標的關聯規則挖掘

借助關聯規則挖掘算法可以發現大學生用戶的個人信息泄露風險指標中頻繁出現的屬性集合以及對應的關聯規則,這些關聯規則能夠反映的用戶屬性集合中各個屬性之間隱性關系,尤其是夠反映條件屬性和決策屬性之間的內在聯系。

按照8:2 的拆分比例將表2 中的各個數據集數據分為訓練集和測試集,并設置最小支持度為40%,借助Apriori 算法求出大學生用戶屬性集中頻繁項集,由此發現其中的關聯規則。

首先通過掃描訓練集,檢測事務數據并生成只含一個屬性的頻繁項集。以“用戶地區”屬性為主屬性為例,產生的1-項頻繁項集如表3 所示。

表3 主屬性為“地區”的1-項頻繁項集

接著從上述的1-項頻繁項集中生成候選2-項頻繁項集,然后掃描訓練集,找出2-項頻繁項集,如此循環,直至無法產生頻繁項集為止。最后以“性別”、“地區”、“是否認證”、“近期發文時間段”、“近期發文標簽”為主屬性產生的最終頻繁項集如表4 所示。

表4 各主屬性下的最終頻繁項集及其支持度

通過對以上各個主屬性下的頻繁項集分析可知,其中“性別”屬性對應頻繁項集中不含“教育程度”項,說明在“性別”屬性下,頻繁項集的各項和“教育程度”一項關聯度不大,此處不做分析。除此之外,其他頻繁項集中均出現“教育程度”一項,因此最小置信度為50%,可以產生滿足最小置信度的所有強關聯規則,如表5 所示。

表5 各主屬性下的強關聯規則的置信度

由以上微博大學生用戶聚類結果和基于風險指標產生的關聯規則中來看,在各個分類屬性下,微博用戶個人信息中泄露的信息有所不同,且信息泄露的風險程度也不同。

從用戶所處的地區來看,大學生用戶泄露的信息主要有:位置、關注數、近期發文標簽。大學生用戶通常會根據用戶所在的地區選擇要關注的人,并且由于用戶所處位置會呈現一定的地域性,大學生用戶在微博上發文時會顯示出強烈的地域色彩,例如今年年底爆發的疫情,由此導致用戶位置信息通過微博標簽或是微博發文中直接被泄露。

從用戶是否認證的角度來看,大學生用戶泄露的信息主要有:是否認證、關注數。大學生用戶更信賴認證的同等教育程度的“同伴”,同時也更愿意關注“同伴”的微博動態,而這種信任是建立在現實世界中相互不認識的基礎上,由此導致詐騙事件的產生。

從大學生用戶的關注數來看,大學生用戶泄露的信息主要有:性別、地區、第一篇微博發文時間、近期發文地區。男性大學生用戶比女性大學生用戶有著更強的關注度和持久度;因用戶所處位置和近期發文位置的不同導致其關注的用戶數量也會有所不同,如此次處于疫情地區的用戶以及發布疫情情況的用戶的關注數將遠遠高于平時及其他地區;同時創建微博更長時間的大學生用戶更容易受到其他大學生的信賴和關注,由此可能引發網絡傳銷事件的發生。

從大學生用戶近期發文頻次來看,大學生用戶泄露的信息主要有:近期發文地區、近期發文標簽。大學生受近期疫情的影響,導致大學生用戶的近期發文位置高度固定,并且根據這些高度固定的位置信息,可以大致確定出大學生用戶的活動軌跡;通過描繪大學生用戶活動軌跡,對比微博用戶注冊地區以及近期發文標簽可以確定大學生用戶實際所處的地區甚至是位置,從而暴露出大學生用戶現實中真實的身份,并由此可能引發網絡暴力事件。

5 結語

本文通過自然聚類算法識別出微博身份是大學生的特殊用戶,獲取大學生用戶的個人信息項作為屬性,從中選取與信息泄露相關度較高的風險指標,分析各個指標之間的屬性重要度;分別對屬性主要度較高的屬性進行聚類分析,發現這些大學生用戶對象可以從“性別”、“地區”、“關注數”、“粉絲數”、“是否認證”、“微博創建年數”6 個屬性維度進行高度的自然聚類;從6個分類屬性維度下通過關聯規則挖掘發現其中關聯規則,由此得出大學生用戶個人信息泄露的關鍵因素和關鍵傳播途徑。

猜你喜歡
用戶大學生信息
帶父求學的大學生
大學生之歌
黃河之聲(2017年14期)2017-10-11 09:03:59
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
讓大學生夢想成真
中國火炬(2013年7期)2013-07-24 14:19:23
他把孤兒院辦成大學生搖籃
中國火炬(2010年9期)2010-07-25 11:45:09
主站蜘蛛池模板: 国产欧美自拍视频| 色婷婷狠狠干| 亚洲AV一二三区无码AV蜜桃| 特级欧美视频aaaaaa| 亚洲IV视频免费在线光看| 免费A级毛片无码免费视频| 久久这里只有精品23| 成人va亚洲va欧美天堂| 精品视频一区在线观看| 欧美日韩一区二区在线免费观看| 欧美午夜在线视频| AV不卡国产在线观看| 都市激情亚洲综合久久| 国产偷倩视频| 精品国产电影久久九九| 有专无码视频| 2021国产v亚洲v天堂无码| 污污网站在线观看| 欧美区国产区| 韩日无码在线不卡| av一区二区三区在线观看| 日韩在线成年视频人网站观看| 午夜人性色福利无码视频在线观看| 亚洲综合欧美在线一区在线播放| 54pao国产成人免费视频| 一本大道香蕉高清久久| 日本午夜影院| AV老司机AV天堂| 一本色道久久88综合日韩精品| 日本91在线| 欧美黄色a| 欧美日韩激情在线| 精品中文字幕一区在线| 制服丝袜在线视频香蕉| 成人在线天堂| 国产97视频在线| 女人18毛片一级毛片在线| 伊人无码视屏| 一本综合久久| 福利在线不卡| 亚洲丝袜第一页| 亚洲国产成熟视频在线多多 | 青青草国产免费国产| 亚洲男人天堂网址| 91尤物国产尤物福利在线| 国产91久久久久久| 欧美精品亚洲精品日韩专| 欧美在线综合视频| 国产女人18水真多毛片18精品 | 国产99视频精品免费观看9e| 亚洲欧洲日韩久久狠狠爱| 欧美日本激情| 国产内射一区亚洲| 亚洲黄网视频| 亚洲伊人久久精品影院| 99久久成人国产精品免费| 午夜不卡视频| 亚洲精品欧美重口| 国产精品原创不卡在线| 日韩精品一区二区三区免费在线观看| 欧美国产日产一区二区| 国产精品人成在线播放| 97视频精品全国在线观看| 91久久青青草原精品国产| 欧美视频在线播放观看免费福利资源| 青青草a国产免费观看| 永久免费AⅤ无码网站在线观看| 潮喷在线无码白浆| 毛片网站在线看| 欧美福利在线| 日韩在线中文| 日韩人妻少妇一区二区| 男女精品视频| 麻豆AV网站免费进入| 成年人国产网站| V一区无码内射国产| 国产成人狂喷潮在线观看2345| 在线看AV天堂| 亚洲人成日本在线观看| 无码专区在线观看| 国产麻豆永久视频| 欧美成人看片一区二区三区|