999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于層次聚類法的微博新聞用戶聚類研究

2021-08-19 08:24:26劉惠
現代計算機 2021年21期
關鍵詞:特征用戶

劉惠

(福州大學經濟與管理學院,福州350116)

0 引言

隨著互聯網技術的飛速發展以及通訊媒介的大眾化普及,諸如微博、微信這些社交平臺得到了廣泛的關注和應用,已經成為網民活躍的主要平臺之一。微博平臺的廣泛流行,使得新聞媒體的交流互動變得更加快捷,甚至個人也可以成為新聞發布人,微博已經成為了大眾獲取新聞時事,跟進新聞后續進展的重要媒介。對微博新聞用戶進行聚類研究,可以幫助微博新聞用戶加強自身平臺內容的建設,提供更好的信息服務。

針對微博平臺的研究引起了學者們的廣泛關注。張海濤等人基于多維度的用戶屬性對微博用戶進行聚類分析[1];席運江等人在用戶興趣的基礎上基于譜聚類算法對企業微博用戶進行聚類分析[2];張琳等人采用SPSS軟件對微博用戶特征變量的分布狀態進行檢驗,采用聚類分析法實現用戶聚類,以此探討微博用戶的特征[3];林燕霞等人利用主題模型挖掘得到用戶偏好主題的概率分布,計算用戶相似度實現用戶聚類,進而提取并分析其類別特征屬性[4]。Yamaguchi等人基于推特用戶標簽對用戶興趣識別以此實現推特用戶的聚類[5]。通過對相關研究的梳理,發現微博用戶的聚類研究主要基于用戶的基礎屬性、興趣標簽[6]、行為特征[7]、主題偏好等方面進行用戶聚類,考察內容集中于微博用戶影響力、微博輿論控制、微博內容管理、微博營銷等方向,而針對新聞微博用戶的聚類研究并不多見。基于此,采用爬蟲軟件爬取微博新聞用戶數據,基于層次聚類方法對樣本數據聚類分析,根據聚類結果對群體特征進行分析并給出相關建議。

1 微博新聞用戶聚類模型構建

為實現基于層次聚類法的微博新聞用戶的聚類研究,將研究分為兩個階段。第一階段是實現微博新聞用戶的聚類,第二階段是基于微博新聞用戶的聚類結果提出相應建議。在第一階段中,首先構建微博新聞用戶聚類模型,如圖1所示。

1.1 數據預處理和聚類變量的確定

為了提高聚類效果,首先需要對收集到的數據進行數據清洗。數據清洗是指對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。根據研究需要,將數據預處理過程分為以下3個步驟。

(1)剔除缺失及無效樣本數據。原始數據中難免會存在異常的樣本數據,例如存在不符合的樣本,樣本中的變量數據存在較多的缺失值等異常情況,這類樣本一定程度上會影響聚類結果的有效性,因此將這些不符合的樣本數據進行剔除。

(2)數據的格式轉換。初始數據集中的數據類型還存在字符串類型數據,為了使其能在SPSS聚類分析中進行變量聚類分析,要對字符串類型數據進行統一的數值轉換。

(3)數據的標準化處理。聚類分析之前,要考慮數據單位的統一性,對不同單位的數據進行標準化處理,有利于聚類過程中相似對象的劃分和進行聚類結果的特征值分析。

對數據進行預處理之后,得到用于聚類分析的數據集,為了確保得到的聚類結果能夠準確有效,還需要進一步篩選聚類變量,因此需要結合實際考察變量的含義,對無關的變量數據予以剔除,篩選能夠反映微博新聞特征的變量。

1.2 層次聚類算法設計

聚類分析作為數據挖掘中常用的一種工具,能夠根據對象的客觀特征和屬性,探查數據間隱藏著的某種關系,并將對象劃分為簇,進而揭示對象之間、特征之間、對象與特征之間存在的關系。聚類算法在廣義上可以分為兩種:劃分算法和層次算法,其中層次聚類算法無需事先確定簇的數目,可以根據已有的數據特征較為客觀地對數據進行聚類。結合層次聚類算法的優點[8]以及研究數據的特點,選取層次聚類法作為本文的聚類方法。

層次聚類算法分為兩類:凝聚層次聚類和分裂層次聚類。其中最常用是凝聚層次聚類,其基本思想是自底向上地進行聚類,在聚類前將每一個對象作為單獨的一個簇,然后對其進行最佳配對合并為新的簇,重復進行向上聚類直至最頂部為止。凝聚層次聚類的最大優點在于不需要提前設定聚類個數,排除過多的人為因素干擾,通過較少的定義就可以得到聚類對象中潛在的關系簇,聚類結果較為穩定,同時也可以發現類之間的層次關系,因此采用層次聚類算法對進行聚類分析。具體算法流程如下所示:

(1)將樣本數據中的每一個對象看作是單獨的聚類,即初始聚類個數為n。

(2)采用平均鏈接聚類算法定義兩個聚類之間的距離為兩類元素之間距離的平均值。

(3)計算每兩個聚類之間的距離,將距離最近的兩個聚類合并為一個聚類。

(4)重復以上步驟,并設定距離上限,當在某一輪迭代中,所有的組件距離超過該閾值時,停止聚類。

2 微博新聞用戶的聚類實現及建議

2.1 數據采集和預處理

采用火車頭采集器爬取微博新聞用戶的基本數據。通過新浪微博網頁上的找人功能,設定其查找關鍵字為“新聞”,可以查找出相應的微博用戶,再通過采集軟件對查找到的微博新聞用戶的變量數據進行抓取。因此,首先登錄火車頭采集器軟件,自定義好需要獲取數據的網頁信息及數據采集規則,為保證采集的數據具有一定的代表性,因此設定為隨機采集搜索到的微博新聞用戶數據信息,最終采集到267條樣本數據,最后將爬取到的數據導出到Excel中保存。隨后進行數據預處理工作,主要包括以下幾個步驟:

(1)剔除缺失及無效樣本數據。對采集到的267條原始樣本數據進行人工異常數據的清理操作,將其中的亂碼、空白、缺失數據進行清除,并觀察數據集中是否存在非新聞用戶的樣本信息,將這些無關樣本刪除,共剔除62條異常樣本,56條非新聞用戶樣本。

(2)數據的格式轉換。這一過程中需要將獲取的數據類型進行數值轉換,使其能夠在SPSS軟件中進行聚類操作。首先對微博認證變量進行數值轉換,微博認證的類型有{普通會員;微博會員;微博達人;藍色V;銀色V;金色V},根據新浪微博認證類型和認證難度,將其轉換為對應數值{0;1;2;3;4;5;6};性別的取值為{男;女},將其對應轉換為數值{-1;1};關注人數、粉絲數、微博數的數據類型為數值型,因此無需對其進行格式轉換。

(3)數據的標準化處理。在獲取到的微博新聞用戶的樣本中,得到的數據是多個維度的,即一個用戶樣本存在著多個特征表述,這些特征對用戶特征的影響程度是不同的,通過標準化處理,使得不同的特征具有相同的尺度。采用SPSS軟件中的描述統計板塊功能,在聚類分析之前直接對數據進行標準化處理,再對標準化的數據進行聚類分析。

2.2 聚類變量的篩選和確定

在原始數據中,采取到的樣本數據有用戶ID、微博認證、用戶名、性別、地區、用戶鏈接、介紹、關注人數、粉絲數、微博數、簡介、標簽、教育信息、職業信息、頭像圖片鏈接、當前時間、頁面網址共17個變量。其中用戶ID和用戶名都可作為標志用戶的變量,用戶鏈接、介紹、簡介、標簽、教育信息、職業信息、頭像圖片鏈接、當前時間、頁面網址這些變量在聚類中不能通過距離進行聚類比較,因此這些變量信息將體現在對聚類結果的描述上。基于此,聚類變量確定為微博認證、性別、關注人數、粉絲數、微博數5個變量。

2.3 基于層次聚類算法的微博新聞用戶聚類實現

利用SPSS層次聚類的Q型聚類功能對149個微博新聞用戶樣本進行聚類研究。首先將5個確定好的變量添加進系統聚類分析的變量列表中,用戶名作為個案標注,個體距離采用平方歐式距離,聚類方法選擇組內鏈接。由于數據中存在數量級上的差異,因此需要標準化處理,這里采用SPSS層次聚類下的數據標準化功能處理數據,最后輸出該數據集的層次聚類分析樹狀圖,結果如圖2所示。

圖2 層次聚類分析樹狀圖

確定聚類個數是聚類分析的關鍵。從得出的樹狀圖中,可以較為清楚的觀察到各個樣本的聚類過程,為了幫助確定最終的聚類個數,根據SPSS聚類分析中輸出的詳細聚類表,以聚類個數為橫軸,聚合系數為縱軸,繪制出兩者的折線圖,如圖3所示。

圖3 聚合系數和聚類個數相關性的折線圖

觀察圖3可以發現,隨著聚類個數的不斷凝聚,類數目的不斷減少,聚合系數也在逐漸減小。當聚類個數為3時,曲線第一次出現明顯的拐點,表示聚合系數減小的趨勢有所變緩,綜合考慮層次聚類得到的樹狀圖聚類個數范圍,最終確定將樣本分為3個大類。

2.4 聚類結果分析和建議

基于以上聚類結果,通過SPSS軟件的數據描述功能對各類的特征值進行描述統計,并結合變量特征含義,對三類不同的微博新聞用戶進行和給出相應的建議,具體如表1所示。

表1 149個微博新聞用戶聚類分析的各類特征描述統計量

活躍型新聞端。這類新聞用戶的關注人數、粉絲數和微博數都是這三類用戶中最高的,從樣本中看,這類新聞端主要是央視新聞、頭條新聞等主流的新聞媒體,這些新聞媒體的觀點在一定程度上影響著大眾輿論的發展方向,粉絲數量較多,微博內容的傳播速度也會相對較快。因此,這類新聞端應加強對新聞媒體內容上的管理,提高觀點質量,向社會傳播更有正能量的信息,向大眾推送更有價值、準確的新聞資訊。

敬業型新聞端。同樣具有較高的微博數,可以反映出該類新聞用戶推送新聞的數量比較多,傾向于新聞資訊數量上的發布,但在粉絲數量上則不是很占優勢,關注的人數不是很多,在微博上的活躍度一般,對這類的樣本進行觀察分析,發現其新聞內容集中于實時話題上。基于此,這類新聞端可以把重點放到新聞話題上,挖掘更有價值的新聞話題,積極向活躍型新聞端轉化。

草根型新聞端。這類新聞用戶的粉絲數、微博數、關注數都是三類中最少的,觀察聚類樣本數據,發現這類新聞端大部分是由個人或者小企業管理的新聞平臺。對這類新聞端的建議是可以多推送一些互動類、生活娛樂類的新聞,加強和粉絲的交流溝通,吸引話題相關、興趣愛好類同的粉絲,進一步擴大粉絲數量。

3 結語

基于微博平臺具有良好的交互性、共享性等特點,以及微博平臺上的新聞用戶呈現多樣化和逐年增長的趨勢。首先構建了基于層次聚類算法的用戶聚類模型,再通過SPSS軟件對微博新聞用戶進行層次聚類分析,將用戶分為了活躍性新聞端、敬業型新聞端、草根型新聞端三類,并基于描述統計結果,結合各項特征值實際含義,對三類微博新聞用戶進行了分析,針對各類媒體特點提出建議。研究也存在需要改進之處,例如樣本的大小、聚類方法的改進。

猜你喜歡
特征用戶
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 人妻丝袜无码视频| 中文字幕2区| 欧美www在线观看| 2021最新国产精品网站| 亚洲国产91人成在线| 老司国产精品视频91| 四虎在线高清无码| 中文字幕调教一区二区视频| 视频二区中文无码| 黄色网站在线观看无码| 71pao成人国产永久免费视频| 亚洲日韩高清在线亚洲专区| 欧美α片免费观看| 日韩视频免费| 日韩视频福利| 成人永久免费A∨一级在线播放| 日本黄色不卡视频| 亚洲一区毛片| 亚洲专区一区二区在线观看| 毛片在线播放网址| 亚洲中文精品久久久久久不卡| 永久在线精品免费视频观看| 666精品国产精品亚洲| 91在线视频福利| 国产原创演绎剧情有字幕的| 97国产在线视频| 青青操国产| 国产第一色| 欧美激情二区三区| 99在线视频免费观看| 成人国产精品2021| 免费看黄片一区二区三区| 国产精品久久久免费视频| 精品视频在线一区| 狠狠做深爱婷婷久久一区| 成人综合网址| 少妇极品熟妇人妻专区视频| 久久精品电影| 囯产av无码片毛片一级| 日本中文字幕久久网站| 久久精品一品道久久精品| 制服丝袜国产精品| 全部免费特黄特色大片视频| 亚洲欧洲自拍拍偷午夜色| 国产无码制服丝袜| 网久久综合| 99热这里都是国产精品| 91毛片网| 日韩欧美中文字幕在线精品| 99久久精品国产综合婷婷| 免费一级毛片不卡在线播放| 9cao视频精品| 国产精品一线天| 久久久无码人妻精品无码| 国产精品视频免费网站| 亚洲 欧美 日韩综合一区| 手机在线免费毛片| 91破解版在线亚洲| 在线观看国产精美视频| 在线不卡免费视频| 97青草最新免费精品视频| 久久人人爽人人爽人人片aV东京热 | 精品久久久无码专区中文字幕| 在线观看精品国产入口| 97一区二区在线播放| 国产欧美网站| 国产人碰人摸人爱免费视频| 18禁影院亚洲专区| 精品无码一区二区三区电影| 亚洲乱码精品久久久久..| 亚洲AV成人一区二区三区AV| 精品亚洲欧美中文字幕在线看| 国产人免费人成免费视频| 97视频精品全国免费观看| 人人艹人人爽| 国产91麻豆免费观看| 国产在线自揄拍揄视频网站| 99久久国产精品无码| 亚洲二区视频| 欧美一级99在线观看国产| 亚洲男人的天堂在线| 香蕉视频在线精品|