◆魏利梅
微博社交網(wǎng)絡(luò)數(shù)據(jù)挖掘與用戶(hù)權(quán)重分析
◆魏利梅
(山西警察學(xué)院 山西 030000)
信息技術(shù)水平的不斷進(jìn)步使得信息的獲取方式也越來(lái)越豐富,但是在目前的信息領(lǐng)域中網(wǎng)絡(luò)爬蟲(chóng)以及網(wǎng)頁(yè)信息解析仍然是應(yīng)用最為廣泛的兩種信息獲取方式。而如果將這兩種信息獲取方式應(yīng)用在微博方面,則很難保證數(shù)據(jù)信息獲取的速率,這主要是因?yàn)槲⒉┍旧砭哂旋嫶蟮挠脩?hù)群體,隨時(shí)隨地都有用戶(hù)在進(jìn)行信息更新,導(dǎo)致整體的信息更新量以及更新速率都非??欤又脩?hù)之間的信息交流量也比較大,因此,常規(guī)的信息獲取方式已經(jīng)不再適用。目前,微博在信息獲取方面主要使用的是API接口,這種接口主要是相關(guān)的服務(wù)提供商針對(duì)微博的大數(shù)據(jù)量以及數(shù)據(jù)信息交流量而應(yīng)用的一種數(shù)據(jù)查詢(xún)和獲取的方式。
數(shù)據(jù)采集;特性;數(shù)據(jù)挖掘
對(duì)于所有微博用戶(hù)的數(shù)據(jù)以及微博本身產(chǎn)生的數(shù)據(jù)量,服務(wù)商都可以獲取,而這些數(shù)據(jù)本身都是非常重要的數(shù)據(jù)形式,雖然利用API能夠?qū)崿F(xiàn)微博的大數(shù)據(jù)量獲取和查詢(xún),但是其作為一種服務(wù)器,本身存在一定的負(fù)荷極限,鑒于這種情況,必須要針對(duì)各個(gè)API的結(jié)構(gòu)設(shè)置相應(yīng)權(quán)限,這樣才能充分保證其在運(yùn)行的過(guò)程中不會(huì)出現(xiàn)崩潰或者數(shù)據(jù)丟失的現(xiàn)象。
目前,充分利用API開(kāi)放接口能夠完全滿足微博運(yùn)行中的數(shù)據(jù)采集工作,但在此基礎(chǔ)上還必須要有效解決用戶(hù)身份認(rèn)證的核心問(wèn)題。用戶(hù)使用微博必須要經(jīng)過(guò)嚴(yán)格的身份認(rèn)證,而在認(rèn)證過(guò)程中產(chǎn)生的用戶(hù)信息應(yīng)該要受到保護(hù),用戶(hù)的賬戶(hù)以及密碼要堅(jiān)決杜絕出現(xiàn)第三方獲悉的情況,也不能出現(xiàn)第三方查看用戶(hù)個(gè)人信息的現(xiàn)象。為了實(shí)現(xiàn)對(duì)用戶(hù)的身份認(rèn)證信息的保護(hù),新浪微博使用的OAUTH認(rèn)證,這種認(rèn)證方式具有較高的安全性,而且其本身的結(jié)構(gòu)比較簡(jiǎn)單,實(shí)用性也比較強(qiáng),目前新浪微博針對(duì)API的用戶(hù)驗(yàn)證協(xié)議主要使用的就是這種認(rèn)證方式。用戶(hù)在注冊(cè)微博賬戶(hù)的時(shí)候,首先必須要經(jīng)過(guò)OAUTH授權(quán),在申請(qǐng)過(guò)程中,API會(huì)結(jié)合用戶(hù)實(shí)際發(fā)送出來(lái)的申請(qǐng)請(qǐng)求,產(chǎn)生XML或者JSON文件并將其發(fā)送給用戶(hù),將上述兩種類(lèi)型的文件進(jìn)行解析之后,就能快速獲取到原始的數(shù)據(jù)[2]。
每一個(gè)微博用戶(hù)個(gè)體實(shí)際受到的關(guān)注程度存在很大的差異,為針對(duì)用戶(hù)的受關(guān)注程度主要是根據(jù)其微博的恢復(fù)以及轉(zhuǎn)發(fā)數(shù)據(jù)統(tǒng)計(jì)來(lái)進(jìn)行評(píng)價(jià)。微博用戶(hù)在發(fā)布相關(guān)的微博信息后,別的微博用戶(hù)主要利用以下三種方式來(lái)進(jìn)行關(guān)注:首先是通過(guò)直接回復(fù)博主的信息進(jìn)行關(guān)注,他人的信息回復(fù)會(huì)讓微博的評(píng)論數(shù)增加一條;其次是對(duì)微博進(jìn)行轉(zhuǎn)達(dá)來(lái)關(guān)注,這種操作會(huì)使得微博的轉(zhuǎn)發(fā)數(shù)量增加一條;最后是同時(shí)進(jìn)行回復(fù)和轉(zhuǎn)發(fā),這種關(guān)注方式會(huì)使得微博的回復(fù)數(shù)以及轉(zhuǎn)發(fā)數(shù)同時(shí)增加。由此可見(jiàn),微博的回復(fù)和轉(zhuǎn)發(fā)既存在一定的聯(lián)系,也存在一定的區(qū)別。
與其他的社交平臺(tái)相比較,新浪微博具備的功能更加全面,多媒體信息就是微博本身所具備比較重要的一種功能。根據(jù)相關(guān)的數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),與單純的發(fā)布文字信息相比較,圖片以及其他多媒體形式的信息會(huì)對(duì)其他用戶(hù)形成更大的吸引力,也會(huì)進(jìn)一步增加微博的回復(fù)量以及轉(zhuǎn)發(fā)量。另外,除了多媒體信息的發(fā)布之外,提及關(guān)系的信息發(fā)布會(huì)受到更多的關(guān)注,而關(guān)注度本身會(huì)隨著提及關(guān)系用戶(hù)的數(shù)量的增加而進(jìn)一步增加。
與世界知名的Facebook相同,微博也是一種社交網(wǎng)絡(luò),但是微博在本質(zhì)上與其還存在較大的差異,具備了自身獨(dú)特的特點(diǎn)。例如,微博能夠?qū)崿F(xiàn)用戶(hù)友好關(guān)系的雙向發(fā)展,A用戶(hù)在關(guān)注B用戶(hù)的時(shí)候,不需要通過(guò)其審核,在這種關(guān)注關(guān)系中,B用戶(hù)如果本身不存在關(guān)注A用戶(hù)的意愿,那么在B用戶(hù)的關(guān)注名單中并不會(huì)因?yàn)锳用戶(hù)的關(guān)注而出現(xiàn),那么兩個(gè)用戶(hù)之間的關(guān)系會(huì)呈現(xiàn)出一種復(fù)雜的狀態(tài),兩者之間并不是普通的好友關(guān)系,由于A用戶(hù)關(guān)注了B用戶(hù),但是A用戶(hù)并沒(méi)有受到B用戶(hù)的關(guān)注,因此,A用戶(hù)就成為B用戶(hù)的粉絲。在這種社交網(wǎng)絡(luò)中,可以用G=( U,E)來(lái)表達(dá)這種網(wǎng)絡(luò)結(jié)構(gòu),U代表是整個(gè)社交網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn),就也就是微博的每一個(gè)用戶(hù),E代表的是不同用戶(hù)之間產(chǎn)生的一種有向聯(lián)系關(guān)系[3]。利用這種網(wǎng)絡(luò)拓?fù)潢P(guān)系來(lái)表達(dá)用戶(hù)之間的聯(lián)系,需要對(duì)其出度以及入度都進(jìn)行設(shè)定,出度主要是用來(lái)表示用戶(hù)實(shí)際關(guān)注的好友數(shù)量,而入度則表示的是用戶(hù)實(shí)際擁有的粉絲數(shù)量,出入度共同構(gòu)成了整個(gè)社交網(wǎng)絡(luò)節(jié)點(diǎn)度的分布特性。
微博針對(duì)用戶(hù)設(shè)置了不同的等級(jí),通過(guò)對(duì)新浪微博數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),用戶(hù)在認(rèn)證過(guò)程中會(huì)被劃分能普通用戶(hù)以及認(rèn)證用戶(hù)。而隨著微博版本的不斷更新,針對(duì)認(rèn)證用戶(hù)也實(shí)現(xiàn)了進(jìn)一步精細(xì)分類(lèi)。通過(guò)分析可以知道,認(rèn)證用戶(hù)通常擁有的粉絲數(shù)量更多,而且微博的回復(fù)以及轉(zhuǎn)發(fā)數(shù)量也明顯要超過(guò)普通用戶(hù),由此可見(jiàn),微博的傳播在很大程度上取決于認(rèn)證用戶(hù)。對(duì)于微博認(rèn)證用戶(hù)來(lái)說(shuō),其微博的回復(fù)量以及轉(zhuǎn)發(fā)量在很大程度上都取決于其粉絲數(shù)量,粉絲數(shù)量與微博回復(fù)以及轉(zhuǎn)發(fā)量之間存在一種緊密的關(guān)聯(lián),但是通過(guò)研究發(fā)現(xiàn)這種關(guān)系呈現(xiàn)出模糊的狀態(tài)。
用戶(hù)使用微博的時(shí)候,關(guān)注好友的最新微博動(dòng)態(tài)是首先呈現(xiàn)出來(lái)的,這些動(dòng)態(tài)信息會(huì)按照時(shí)間進(jìn)行排列。而用戶(hù)將頁(yè)面向下滑動(dòng)的時(shí)候會(huì)呈現(xiàn)出更多的微博信息,因此,每次使用微博都會(huì)呈現(xiàn)大量的信息,而這些信息在用戶(hù)進(jìn)行簡(jiǎn)單的瀏覽之后,大多數(shù)都會(huì)被忽略。而用戶(hù)實(shí)際情況的不同也會(huì)導(dǎo)致其微博的關(guān)注度受到影響,當(dāng)在微博用戶(hù)活躍時(shí)間段來(lái)更新微博,那么這些信息在很可能會(huì)被用戶(hù)關(guān)注,而在用戶(hù)不活躍時(shí)間段更新信息則會(huì)很少被關(guān)注,由此可見(jiàn),微博的傳播在一定程度上會(huì)受到用戶(hù)活躍時(shí)間特性的影響[4]。
人與人的相互關(guān)系是社會(huì)網(wǎng)絡(luò)中重要的一個(gè)因素,因此,如果微博的作者本身具備較強(qiáng)的權(quán)威性,其微博信息也會(huì)被廣泛傳播。由上述的分析可以知道,微博用戶(hù)的權(quán)重會(huì)受到用戶(hù)自身影響力、活躍度等多種因素的影響。HITS算法嚴(yán)格的來(lái)講是一種權(quán)重排序法,互聯(lián)網(wǎng)領(lǐng)域?qū)Υ说膽?yīng)用非常廣泛,在網(wǎng)頁(yè)中會(huì)同時(shí)存在指向所有網(wǎng)頁(yè)authority值的hub值,以及指向某一個(gè)網(wǎng)頁(yè)的所有的網(wǎng)頁(yè)的hub構(gòu)成的該網(wǎng)頁(yè)的authorty值。分析互聯(lián)網(wǎng)網(wǎng)頁(yè)信息可以知道,很多情況下一些權(quán)威性的網(wǎng)頁(yè)通常都會(huì)值相加未知網(wǎng)頁(yè),而且未知網(wǎng)頁(yè)也有極大的可能會(huì)指向權(quán)威性網(wǎng)頁(yè)[5]。
互聯(lián)網(wǎng)中的網(wǎng)頁(yè)基本上包含很多各型各色的連接,例如,一些權(quán)威性網(wǎng)頁(yè)中也經(jīng)常會(huì)包含著一些廣告連接,在這種情況下,權(quán)威性網(wǎng)頁(yè)本身就很可能會(huì)賦予了廣告權(quán)威性;又如當(dāng)用戶(hù)瀏覽某一個(gè)主體網(wǎng)頁(yè)的時(shí)候,經(jīng)常會(huì)出現(xiàn)一些與本出題沒(méi)有任何關(guān)聯(lián)的頁(yè)面,但是這個(gè)頁(yè)面很可能本身具有較高的權(quán)威性,這種情況的大量出現(xiàn)必然會(huì)對(duì)HITS算法公正性形成一定的影響。而微博用戶(hù)個(gè)體本身的差異性比較大,研究微博的傳播可以知道,如果具有較高權(quán)威性的微博用戶(hù)實(shí)際關(guān)注的用戶(hù)越多,那么其關(guān)注好友通常情況下重要性也有待考究,而如果少量關(guān)注好友,則表示其關(guān)注好友很重要。由于微博好友具有雙向性的特征,因此,為了避免用戶(hù)自身權(quán)威性的無(wú)限傳遞,那么久必須要針對(duì)HITS算法進(jìn)行一定的改進(jìn),結(jié)合微博雙向關(guān)系與互聯(lián)網(wǎng)網(wǎng)頁(yè)連接的相似性,在針對(duì)HITS算法進(jìn)行改進(jìn)的時(shí)候就可以充分參照互聯(lián)網(wǎng)的方式。
互聯(lián)網(wǎng)技術(shù)在當(dāng)今社會(huì)科技不斷發(fā)展的形式取得了巨大的進(jìn)步,微博等一些社交網(wǎng)絡(luò)在人們的日常生活中已經(jīng)逐漸成為一種必不可少的部分。社交的網(wǎng)絡(luò)的信息傳播速度以及傳播范圍都比傳統(tǒng)網(wǎng)絡(luò)會(huì)好很多,而且微博本身的特征也更加復(fù)雜,因此,針對(duì)微博等社交網(wǎng)絡(luò)不能利用傳統(tǒng)研究理論和模型進(jìn)行分析,必須要針對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)信息獲取和傳播進(jìn)行研究具有更高的價(jià)值。
在針對(duì)API接口在微博的實(shí)際應(yīng)用進(jìn)行研究,對(duì)微博的數(shù)據(jù)采集等幾個(gè)方面進(jìn)行分析,揭示了影響微博用戶(hù)權(quán)威性和微博傳播的一些因素。對(duì)于微博來(lái)說(shuō),具備了自身的一些特征,因此信息的發(fā)布會(huì)受到發(fā)布內(nèi)容、發(fā)布人權(quán)威性等因素的影響。
[1]孫萌.面向社交網(wǎng)站的數(shù)據(jù)挖掘應(yīng)用研究—用戶(hù)關(guān)系分析[D].南京郵電大學(xué),2014.
[2]李鵬宇.微博社交網(wǎng)絡(luò)中的學(xué)生用戶(hù)抑郁癥識(shí)別方法研究[D].哈爾濱工業(yè)大學(xué),2014.
[3]張劭捷.基于微博社交網(wǎng)絡(luò)的輿情分析模型及實(shí)現(xiàn)[D].華南理工大學(xué),2011.