999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網絡中的用戶行為分析

2017-04-14 10:34:43
軟件 2017年2期
關鍵詞:分類特征文本

海 昕

社交網絡中的用戶行為分析

海 昕

(北京郵電大學 數學專業,北京 海淀 100876)

近年來,國內人民的生活水平在不斷的提高,互聯網迅速的發展起來,并且出現在人們生活的各個領域中,導致網絡用戶的數量大大增加。本文通過對網絡用戶的行為進行分析,運用信息檢索的方式來對網絡用戶進行分類,進而分析網絡用戶的行為特征。采用CHI特征選擇算法對特征進行提取,通過整合特征詞將網絡用戶分類,然后采用TF-IDF算法對特征進行加權運算,分析了算法的不足并為相關的特征詞分配了適當的權重,然后對這些網絡的身份進行識別。最后本文進行擴展,通過特殊舉例用戶的網絡數據,用余弦定理進行相似度比較,這樣可以了解這些用戶之間擁有多少相同的話題和愛好,大大增加了彼此之間成為好友的可能性。這種方法在以后也可以應用在用普通的文本搜索相似的文章中。

特征詞;CHI算法;TF-IDF算法;余弦定理

0 引言

網絡用戶行為分析涉及到對用戶進行分類,盡管網絡信息具有多種多樣的形式,但文本信息仍然占有很重要的地位,糅雜在這些千千萬萬信息中有部分有效且對于自己有用的信息,要如何精確的對這部分信息進行篩選和定位,是本文研究的重點的目的。根據文本的相關內容確定文本所在的位置是常用的文本分類方法,這種方法在解決一些方面的問題具有重要的作用和意義,例如對于用戶所需要的信息可以準確定位和分類。目前文本分類技術通過使用自動文本分類方法,人們的生活得到了大大的改善,人們在網絡中可以通過整個方法迅速準確地對繁冗復雜對信息分類,從中尋找出自己真正所需求地信息。而在這個自動文本分類方法中,特征選擇和特征加權就作為了重要地技術,這些技術可以排除很多無意義地關鍵詞和一些無關特征,使得最后生產地文本表示出地模型更加簡潔,這樣下來,分類的性能得到了大大的提升,分類的效果和準確率也得到了突飛猛進的改進。文章運用信息檢索的方式來對網絡用戶進行分類,進而分析網絡用戶的行為特征,在進行了相關的數據預處理的基礎上對相關網絡用戶的特征和喜好加以分析。分析采用了CHI特征選擇法,非常有效地去分類和規整相關的網絡用戶,在提取特征時采用了TF-IDF算法,這樣能夠保證數據在權重分配相當的基礎上有效的識別網絡身份。本文主要研究TF-IDF這個經典的特征加權方法,通過閱讀文獻查閱資料,分析了這個算法的一些缺陷。本文最后在用戶分類方面受到了啟發,利用余弦定理這個新聞相關搜索的方法對用戶進行相似性比較,從而可以通過使用余弦定理幫助這些用戶尋找出彼此之間有多少共同的話題和愛好,在以后也可以應用在用普通的文本搜索相似的文章中。

1 主要算法介紹

1.1卡方統計量(CHI)特征提取算法

x2統計量(Chi-square Statistic,簡記為CHI)的概念來自列聯表檢驗(Contingency Table Test),這種方式對于t、c的相關性能夠給出一個比較明確的表示,這樣即能夠實現去驗證理論值是否正確。首先在運用這種方法時我們在對照了理論值和實驗值的基礎上,充分的去探究其存在的差異并得出驗證結果。識別網絡用戶的身份時c指代用戶,t是這些用戶的相關特征,t與c關系滿足一階自由度2x分布,運用數學規律計算對相關程度進行檢驗,相關程度與成正比,即相關程度高時該值則更大,同時,(t)=max x2(t,c)也越大,t和c分別表示i特征和類別,(t)=max x2(t,c)表示該特征所攜i帶的信息。

CHI卡方統計量方法可以由以下公式表示:

其中,A,B,C,D分別表示不同的樣本數。在這些樣本ABCD中,只有AC屬于用戶c,AB包含特征t。CHI(t ,c)表示用戶c與該特征t的關聯程度。CHI(t ,c)=0時,二者屬于獨立關系;而當CHI(t ,c) ≠0時,二者即相關,相關性是在CHI(t ,c)的增大的情況下變強的,因此,根據CHI(t ,c)的大小,可以對特征t于用戶c的關系密切程度排序,按照高低順序,則能夠比較直接的了解哪些特征與用戶相關。

特征出現次數多少可以在應用卡方統計進行量算的時候忽略,不過我們需要對相關的特征展開其他的加權計算才能夠對其在用戶識別過程中具體發揮的作用和功效進行評估。我們一般采用TF-IDF函數來進行加權運算。

1.2TF-IDF算法

1.2.1 TF-IDF算法介紹

TF-IDF這種統計方法經常見于對一個字、詞或者文集在一個文件中重要與否,重要程度是多少的評估計算中。所需要評估的字詞出現次數越多,那么其在文章中就越重要,不過其在語料庫出現頻率則會與其出現次數呈負相關。在搜索引擎中應用這種統計方式能夠對使用相關搜索引擎的用戶查詢文件的相關程度大小進行評估。TF-IDF主要包含兩個方面:

(1)TF(term frequency),單文本詞頻

1. 設N為查詢項中關鍵詞的個數,1W,2W…,, WN,它們在一個特點網頁中的詞頻分別是:TF2,TF2,…,TFN,那么這個查詢的相關性就是:TF1+TF2+…+TFN;

2. TF漏洞:例如“北郵的學生”,詞“的”對查詢幾乎無用,稱為“停止詞”,在度量相關性時不應考慮它們的頻率;

3. 忽略停止次后,查詢的相關性變成“北郵”(專業詞),“學生”(通用詞),需要給予權重。

(2)IDF(inverse document frequency),逆文本頻率

1. 在信息檢索中,使用最多的權重是IDF,公式:logD/Dw,其中D是全部文本數,Dw數越大,IDF值越小,權重就越小,反之;

2. 利用IDF,由原先詞頻的簡單求和變成了加權求和,即:

3. TF-IDF的經典計算公式為:

其中TFti表示特征ti在文檔d中的頻度TF,用tfi(d)來計算。

1.2.2 TF-IDF算法的缺陷

TF-IDF函數能夠比較好的顯示出相關特征項重要與否,與特征項的重要性相關的兩個重要因素是詞頻TF(單文本頻率)和IDF(逆文本頻率)。特征項出現于相關文本中的次數可以代表其出現的頻率,在根據相關的詞頻計算函數就能夠展開相關的計算。常用的TF因子主要有原始TF因子,對數TF因子,二元TF因子等,大規模測試表明,對數TF因子的效果最好。

雖然上述這種TF-IDF算法在操作方面比較容易,不過這種傳統的函數計算方法在某些比較特定的計算中就會展露出其缺陷,例如C類中包含了t特征的文本,文本數為m,設包含該特征的文本總數是n,即在計算中s是m和n的總和。從結論中我們可以看出m和s是成正向相關的,通過計算我們發現當m和s的數值都比較大的時候IDF值小,自然的TF-IDF的值也會縮小,在這種情況下相關詞語t的類別區分能力就比較弱。但是在實際情況中m數值大還意味著t在C這個文本當中出現的次數比較多,比較能夠說明C文本的屬性,也就是要應該被賦予較高地權重。從另一個角度來看,t在比較稀有的情況下,包含該特征的文本數s值小,那么相應的IDF和TF-IDF值相對較大,那么t則具有強的區分能力,不過要排除t均勻分布與各間類的情況。如果是均勻分布的情況下那么t對于文檔屬性仍然不能很好的區分,可能大部分文件中都含有t特征,并且t作為了一個無用詞,所以此時t應該被賦予較小的權重。

該問題的發生幾率很大程度上使取決于IDF部分對相關的特征在類間具體分部的情況反映是否充分。

當m很大,s很小的時候,就說明特征t在C類內大量出現,而在其它類別中很少出現,因為此時n很小,顯然這種特征項具有很強的類別區分能力,算是類別的獨特特征詞,應該被賦予較高的權重。但是根據IDF的定義以及運算公式可知,若特征項在較多的文檔中出現,則IDF的值很小,導致此時TF-IDF的數值變小,理論上特征t要被賦予較小的權重。

而這種不合理的情況時由于IDF沒有考慮特征在類內的分布情況所導致的。

2 拓展和假設

論文的最后提出了一種假設,在網頁中瀏覽新聞的時候,往往會出現一系列新聞,這些新聞都有一個共同點,那就是它們包含了你所搜索或者關注的一些特征詞,這樣它們有可能會成為你喜歡的或者來說可能感興趣的新聞。

在新聞檢索中會出現相似信息的這種方法,稱之為數學中的余弦定理。在此基礎上我們可以做出大膽假設,在日益盛行的社交網絡平臺中,可以利用這種方法來尋找適合自己的網友,這樣彼此之間會擁有更多相同的愛好和話題。比如收集一些陌生網民固定數量的微博博文,提取特征詞,然后利用余弦定理進行運算,以此結果來判斷以后成為好友的可能性,。下面將為大家做出這種假設,雖然存在不足,但是我們可以通過假設在日后進行研究,使其完善。

舉一個簡單的例子:有A和B兩個人,發了兩條微博。

A:我喜歡打籃球,不喜歡打羽毛球;

B:我不喜歡打籃,也不喜歡打羽毛球。

第一步,提取特征詞,進行分詞:我,喜歡,打,籃球,羽毛球,不,也;

第二步,計算詞頻:

A:1,2,2,1,1,1,0,

B:1,2,2,1,1,2,1;

第三步,寫出詞頻向量:

A:[1,2,2,1,1,1,0],

B:[1,2,2,1,1,2,1]。

很多文獻和資料通過嚴謹的數學證明,已經發現余弦定理定理同樣適用于N緯的向量空間,因此我們可以放心大膽的使用。通過計算得到上面例子中句子A和句子B夾角的余弦為0.938,而余弦值越接近1,夾角越接近0度,這就表示出兩向量越相似,我們稱之為“余弦相似性”。所以,上面的句子A和句子B是很相似的,事實上它們的夾角大約為20.3度。由此,我們就得到了“找出相似”的一種算法。這種算法不僅可以應用到社交網絡中尋找相同話題的網友,也可以應用在用普通的文本搜索相似的文章。歸納出簡要步驟一般為:

第一步,使用TF-IDF算法,找出兩篇文章的關鍵詞;

第二步,每篇文章各取出若干個關鍵詞,合并成一個集合,計算這個集合的詞相對應各自文章的詞頻;

第三步,生成兩篇文章各自的詞頻向量;

第四步,計算兩個向量的余弦相似度,數值越大就表示越相似。

3 總結

本文通過對網絡用戶的行為進行分析,運用信息檢索的方式來對網絡用戶進行分類,進而分析網絡用戶的行為特征。在此過程中,先采用CHI特征選擇算法對特征進行提取,通過整合特征詞將網絡用戶分類,然后采用TF-IDF算法對特征進行加權運算。本文著重分析了算法的不足,日后進行優良的改進,使其完善。本文的最后提出了一些想法和假設,余弦定理是新聞檢索中應用的尋找相似信息的方法,在日益盛行的社交網絡平臺中,不僅可以利用這種方法來尋找和自己擁有相同話題和愛好的網友,也可以應用在用普通的文本搜索相似的文章中。

[1] 任文君. 基于網絡用戶行為分析的問題研究. [學位論文]北京, 北京郵電大學, 2013.

[2] 趙小華, 馬建芬. 文本分類算法中詞語權重計算方法的改進[J]. 電腦知識與技術, 2009, 5(36):10626-10628.

[3] 路永和, 李焰峰. 改進TF-IDF算法的文本特征項權值計算方法[J]. 國書情報工作, 2013, 57(3): 90-95.

[4] DENG Z H, TANG S W, YANG D Q, et al. A Linear Text Classification Algorithm Based on Category Relevance Factors[C]. International Conference on Asian Digital Libraries: People, 2002, 2555:88-98.

[5] HOW B C, NARAYANAN K. An Empirical Study of Feature Selection for Text Categorization Based on Term Weightage[C]. IEEE WIC ACM International Conference on Web Intelligence, 2004, 599-602.

[6] BERGER A, CARUANA R, COHN D, et al. Bridging the Lexical Chasm: Statistical Approaches to Answer Finding. International Acm Sigir Conference on Research and Development in Information Retrieval, 2002, 192-199.

[7] SHANG W, QU Y, ZHU H, et al. An Adaptive Fuzzy KNN Text Classifier Based on Gini Index Weight[C]. IEEE Symposium on Computers and Communications, 2006, 448-453.

[8] XIN T, LIFSET R. International Copper Flow Network: A Blockmodel Analysis. Ecological Economics, 2007, 61(2-3): 345-354.

[9] DUSTDAR S, HOFFMANN T. Interaction Pattern Detection in Process Oriented Information System, Data&Knowledge Engineering, 2007, 62(1): 138-155.

Analysis of User Behavior in A Social Network

HAI Xin
(College of Mathematics, Beijing University of Posts and Telecommunications, Haidian District, Beijing)

Recently, the people's living standard in China is constantly improving, the Internet is rapidly developed, and in all areas of people’s life, leading to the number of Internet users has greatly increased. This paper based on the analysis of the behavior of network users, using the method of information retrieval to classify some netizens, and then analyzing the behavioral characteristics of Internet users. This paper utilizes the CHI feature selection algorithm to extract the characteristics, then this paper analyze the defects of the TF-IDF algorithm and use the algorithm to carry on the weighted calculation so as to assign proper weights for these characteristic words and recognize these network identities. Finally this paper extends through the network data for netizens and compare with the cosine similarity. Thus it can understand that how much the same topics and interests among these netizens easily and increase the possibility of becoming friends greatly. This method can also be used later in the search for similar articles in plain text.

Feature words; CHI algorithm; TF-IDF algorithm; Cosine theorem

TP391.1

: A

10.3969/j.issn.1003-6970.2017.02.011

國家自然科學基金(11471051);國家自然科學基金(11371362)

海昕(1992-),北京郵電大學研究生。

本文著錄格式:海昕. 社交網絡中的用戶行為分析[J]. 軟件,2017,38(2):47-50

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 色成人综合| 青青草a国产免费观看| 国产香蕉97碰碰视频VA碰碰看 | 中美日韩在线网免费毛片视频| 国产亚洲精品无码专| 日韩无码黄色| 91po国产在线精品免费观看| 国产精品2| 日韩成人在线网站| 亚洲综合18p| 综合久久五月天| 亚洲人成网址| 日韩大片免费观看视频播放| av在线人妻熟妇| 国产激爽爽爽大片在线观看| 一级毛片免费不卡在线| 亚洲人成网站18禁动漫无码| 日韩天堂视频| 国产正在播放| 国产另类视频| 久久伊人色| 91精品专区国产盗摄| 亚洲欧美日韩色图| 欧美激情综合一区二区| 成人午夜在线播放| 欧美国产在线看| 免费一级大毛片a一观看不卡| 99热这里只有精品免费国产| 精品一区二区三区四区五区| 国产精品嫩草影院视频| 亚洲人成色77777在线观看| 久久天天躁狠狠躁夜夜2020一| 久久五月视频| 午夜福利无码一区二区| 色天堂无毒不卡| 91精品久久久久久无码人妻| 国产欧美中文字幕| 亚洲伊人天堂| 久久精品66| 久久综合伊人77777| 亚洲综合婷婷激情| 日韩精品成人在线| 欧美精品1区| 原味小视频在线www国产| 四虎永久在线视频| 四虎综合网| 亚洲国产在一区二区三区| 青青青国产视频| 国产成人高清亚洲一区久久| 欧美激情首页| 国产精品yjizz视频网一二区| 亚洲人成网址| 国产第一页第二页| 日韩在线视频网站| 亚洲日韩AV无码一区二区三区人| 伊人久久精品无码麻豆精品| 久久精品国产91久久综合麻豆自制| 国产激爽爽爽大片在线观看| 国产欧美日韩精品综合在线| 国产欧美一区二区三区视频在线观看| 男人的天堂久久精品激情| 国产午夜一级毛片| 日本人妻一区二区三区不卡影院| 国产尤物在线播放| 四虎成人精品在永久免费| 日本免费a视频| 亚洲无码91视频| a级毛片免费播放| 欧美三级不卡在线观看视频| 国产乱人视频免费观看| 欧美精品v欧洲精品| 国产在线八区| 在线观看国产精美视频| 国产福利在线观看精品| 亚洲国产精品无码久久一线| 性欧美精品xxxx| 特级做a爰片毛片免费69| 国产香蕉97碰碰视频VA碰碰看| 精品视频免费在线| 久久青青草原亚洲av无码| 福利在线免费视频| 99热这里只有精品5|