999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于復雜網絡及神經網絡挖掘用戶興趣的方法

2016-02-23 12:12:00張興蘭
計算機技術與發展 2016年12期
關鍵詞:重要性用戶

張興蘭,劉 煬

(北京工業大學 計算機學院,北京 100124)

基于復雜網絡及神經網絡挖掘用戶興趣的方法

張興蘭,劉 煬

(北京工業大學 計算機學院,北京 100124)

按照用戶的興趣提供個性化服務是提高企業商業價值最有效的方案。針對目前從用戶行為中挖掘用戶興趣方法的不足,提出一種依據用戶使用軟件的時間序列構建復雜網絡及依據神經網絡聚類挖掘用戶興趣軟件的方法。在計算用戶對于軟件的興趣度時,綜合考慮用戶使用軟件的時長以及復雜網絡中相鄰節點的貢獻度,包括節點的度、節點介數、聚集系數來判斷節點的重要性,挖掘用戶對于軟件的興趣度,形成軟件興趣社區。再利用神經網絡算法對用戶興趣社區中的軟件進行聚類,形成用戶的興趣軟件集。實驗結果表明,該方法能夠較準確地挖掘用戶感興趣的軟件集,并且在精確率和召回率上較其他方法有一定的提高。

用戶行為;興趣挖掘;復雜網絡;word2vec

0 引 言

近年來,機器學習領域吸引了越來越多的關注和研究。隨著信息科技的進步、人類行為學的發展,國內外的研究學者已經將用戶行為分析挖掘的理論進行了實踐研究,并逐步轉入商業應用的階段,取得了良好成效。大量的研究表明,根據用戶行為日志挖掘用戶興趣具有一定的研究意義和應用價值。其中,Ford等[1]采用AprioriAll序列規則挖掘算法對用戶訪問站點的日志進行研究分析,獲取用戶的訪問興趣,并根據用戶的興趣設置廣告投放,提高了網站的商業價值,但是AprioriAll算法只適用于挖掘用戶感興趣的關聯序列,不適用于挖掘用戶興趣的排列順序。李建廷等[2]提出了基于用戶瀏覽動作分析用戶興趣度的計算方法,充分考慮了用戶訪問次數、訪問動作、訪問速度三種訪問模式下的用戶興趣度的計算方式,并利用BP神經網絡將這三種模式下的用戶興趣度進行融合,取得了良好的實驗效果。這對用神經網絡算法研究用戶興趣度的融合以及聚類提供了幫助,但是BP神經網絡對于網絡的初始權重十分敏感,不同的初始化值往往會造成不同的訓練結果,這很容易造成偏差。王微微等[3]提出了一種基于用戶行為日志挖掘用戶興趣的模型,結合用戶的瀏覽內容和行為模式建立用戶興趣向量,再根據期望最大化的計算方法實現用戶聚類,建立最終的用戶興趣模型。該模型雖然可以識別用戶的購買興趣,卻沒有充分考慮用戶行為之間的順序,即行為的時間序列關系。王梓等[4]提出了一種基于復合關鍵詞向量空間的方法,最大限度地將用戶感興趣的關鍵詞建立關聯關系,但其選用的關鍵詞是基于產品屬性的,其方法不具有普遍適用性。

復雜網絡技術是大數據處理技術的一種,是從復雜性科學角度出發,探索隱藏在大數據中真正的數據價值。復雜網絡主要是依靠一切事務都具有相互作用的表現(例如WWW中網頁之間的鏈接關系、文章之間的引用關系和超市中啤酒尿布的關聯關系),利用網絡的視角建立數據模型,挖掘數據規則,并通過復雜網絡的小世界效應和無標度特性計算網絡中節點的重要性,形成網絡節點的重要性序列。聚類是數據挖掘中的一個重要組成部分,是通過度量樣本間的相似性,發現隱藏在底層的關聯性數據的又一種常見方法。

為了從用戶使用軟件的行為日志中獲取用戶感興趣的軟件,應用復雜網絡中的理論知識以及神經網絡聚類的方法,先形成用戶的興趣軟件集,然后再應用神經網絡算法對興趣軟件集中的軟件進行聚類,計算用戶的興趣軟件集。

1 用戶行為日志預處理

現實世界中數據大體上都是不完整、不一致的臟數據,無法直接將數據應用到系統統計中,或者應用效果差強人意。文中的用戶行為日志亦是如此,在用戶行為日志的采集、打包、發送的過程中,可能會發生結構異常的現象甚至是數據丟失的情況。為了提高數據質量,需要對數據進行預處理。文中行為日志的預處理主要是清洗噪聲數據,包括兩方面的工作:

(1)刪除異常行為:在用戶行為日志中,存在某些行為數據結構異常,如數據中沒有用戶的ID或者沒有軟件名稱,此類數據不具有分析價值,在清洗過程中進行刪除。

(2)補全缺失行為:在用戶行為日志中,某些用戶行為日志的數據并不完善甚至是行為不匹配,如只有軟件打開的行為沒有軟件關閉的行為,或者沒有用戶的開關機行為卻存在軟件使用的行為。因此首先需要對缺失行為進行補全,行為的缺失類型主要包括無頭無尾型、有頭無尾型、無頭有尾型。

無頭無尾的缺失存在于沒有用戶開關機行為卻存在該用戶軟件使用行為的數據中。對于此類數據,將該用戶的開機行為用該用戶最早的軟件使用行為補全,關機行為用該用戶當日最后一個軟件關閉行為補全,將所有行為確定為在同一個開關機會話中發生的。有頭無尾、無頭有尾的缺失存在于連續收集到用戶兩次開機的行為而沒有關機行為的數據中。這種缺失類型使用補中間值的方法,用兩頭數據的中間值進行補全,誤差較小。若兩頭無數據時,使用相關的整數值進行補全。噪聲數據的處理流程如圖1所示。

圖1 噪聲數據的處理流程

2 構建復雜網絡模型

(1)

weight(vi,vj)=Ti*strength(vi,vj)

(2)

其中,strength(vi,vj)(i,j為整數且0≤i的權重;Ti表示軟件節點vi的使用時長。

3 節點重要性統計特性

在該方法的用戶行為日志中,用戶使用軟件的時長在一定程度上能夠反映軟件的重要性,只需要將復雜網絡中節點的重要性進行修正即可。根據傳播動力學的知識衡量網絡中節點的重要性,將網絡中的節點作為傳播源,通過計算目標節點的傳播范圍來衡量節點在傳播過程中的影響力以及號召力。在一個網絡中,節點刪除前后網絡圖聯通性的變化能夠充分說明該節點是否有足夠的能力破壞網絡,體現節點的重要性。所以綜合考慮復雜網絡特性[6]、實用性以及行為數據本身的概率特性,選取節點聚集系數[7]、節點介數[8]和節點度數[9]作為評價節點重要性[10]的指標特性。

3.1 節點聚集系數

節點Vi的聚集系數是與該節點相鄰的節點之間的連接數和它們之間所有可能存在的連接數的比值,表示所有相鄰節點形成一個小團簇的緊密程度。節點的聚集系數為:

(3)

3.2 節點介數

節點Vi的介數是任意兩個節點的最短路徑中經過節點Vi的路徑數與最短路徑的總數形成的比值,反映該節點在網絡中的影響力,計算公式為:

(4)

其中,nd(ij)表示Vi和Vj間最短路徑的數目;nd(ijk)表示Vi和Vj經過Vk的最短路徑的數目。

3.3 節點度數

節點的度數表示與該節點相連接的邊的個數,度的大小直接反映了該節點對于復雜網絡中其他節點的影響力,計算公式為:

(5)

(6)

gi=clu(vi)+bet(vi)+gre(vi)

(7)

其中,gi表示復雜網絡G中節點vi的重要性系數的綜合值;clu(vi)表示節點vi的聚集系數;bet(vi)表示節點vi的介數;gre(vi)表示節點vi的度;Ti表示節點vi的使用時長;β表示指標調參(經過實驗,β取0.6效果較好)。

綜上所述,式(7)是綜合軟件的時長特性和節點在復雜網絡中的重要性的綜合性指標,是多個判定指標標準化處理后再合并的結果,成為評判軟件重要性的綜合指標。

4 神經網絡聚類

CBOW和Skip-gram模型是基于問答模式計算詞向量的,一個問題出現某種答案的現象,也能夠表示成一個問題與某種答案構成共現關系的現象。該方法使用word2vec工具[11-13]融合CBOW模型和Skip-gram模型,將軟件看成詞項,基于前期工作中網絡拓撲結構中的共現關系、日志中軟件的使用順序構成的序列上下文形式,計算各個軟件的詞向量,然后根據向量余弦距離計算軟件相似性,在該方法中取距離最近的軟件形成聚類。其中,余弦距離公式為:

(8)

5 實驗分析

為了驗證該方法對用戶興趣軟件的挖掘效果,收集了1 000名測試用戶在15天之內(2015年8月5日-2015年8月19日)使用電腦軟件的行為日志,并人工采集用戶選定的興趣軟件與最終的實驗結果進行比對。采用精確度P、召回率R、F1值對結果進行評測,其中精確度表明算法挖掘的準確性,召回率表明算法挖掘的覆蓋性,F1值是對精確度和召回率兩個指標的綜合評估率的說明,計算公式為:

(9)

(10)

(11)

其中,Nminingright表示算法挖掘出用戶興趣中正確興趣的數量;Nmining表示算法挖掘用戶興趣的總數;Nsample表示用戶標注的興趣總數。

將該方法與基于關鍵詞提取用戶興趣模型的算法[14](TextRank)進行比對,結果表明該方法在精確度、召回率、F1值上都有所提高。算法平均值結果對比如表1所示。

表1 算法平均值結果對比

6 結束語

文中利用復雜網絡對用戶使用電腦軟件的行為日志進行分析建模,并依據復雜網絡節點的統計特性計算軟件對于用戶的重要性,獲取用戶感興趣的軟件,再利用神經網絡聚類對獲取的用戶興趣軟件進行聚類,形成最終的用戶興趣軟件集。文中是復雜網絡建模與神經網絡聚類相結合獲取用戶興趣的方法,與其他算法相比,在準確率和召回率上都有一定程度的提高。但是在計算用戶興趣軟件時,是根據用戶使用軟件的時間序列信息形成的軟件詞向量,并依據向量的距離形成聚類,沒有考慮軟件類型之間的聯系,而軟件的類型往往也是判斷軟件相似性的一方面,這是文中方法的不足之處。同時如何根據軟件使用的時間序列信息以及軟件的類型形成軟件聚類,也將是下一步的研究工作。

[1]GaolFL.Exploringthepatternofhabitsofusersusingweblogsquentialpattern[C]//2010secondinternationalconferenceonadvancesincomputing,control,andtelecommunicationtechnologies.[s.l.]:IEEEComputerSociety,2010:161-163.

[2] 李建廷,郭 曄,湯志軍.基于用戶瀏覽行為分析的用戶興趣度計算[J].計算機工程與設計,2012,33(3):968-972.

[3] 王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].計算機工程與應用,2012,48(8):148-151.

[4] 王 梓,高金萍,陳 釗.基于復合關鍵詞向量空間的林產品貿易網站用戶興趣模型[J].計算機工程與科學,2013,35(5):154-160.

[5]FerrerICR,SoléRV.Thesmallworldofhumanlanguage[J].ProceedingsoftheRoyalSocietyBBiologicalSciences,2001,268(1482):2261-2266.

[6] 陳彥萍,張冠男.基于復雜網絡的軟件方法重要性評估指標[J].計算機應用研究,2016,33(5):1395-1398.

[7] 張 睿.基于點聚集系數和邊聚集系數的社區發現算法[D].昆明:云南大學,2013.

[8] 熊金石,李建華,沈 迪,等.基于邊介數的信息系統網絡節點重要性評估方法[J].科技導報,2013,31(14):53-55.

[9] 任卓明,邵 鳳,劉建國,等.基于度與集聚系數的網絡節點重要性度量方法研究[J].物理學報,2013(12):522-526.

[10] 劉 通.基于復雜網絡的文本關鍵詞提取算法研究[J].計算機應用研究,2016,33(2):365-369.

[11]MikolovT,SutskeverI,ChenK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[J].AdvancesinNeuralInformationProcessingSystems,2013,26:3111-3119.

[12]GoldbergY,LevyO.word2vecExplained:derivingMikolovetal.'snegative-samplingword-embeddingmethod[DB/OL].2014.arXivpreprintarXiv:1402.3722,2014.

[13]XinRong.Word2vecparameterlearningexplained[DB/OL].2014.arXivpreprintarXiv:1411.2738,2014.

[14] 段 準,劉功申.基于TextRank的用戶模板構建方法[J].計算機技術與發展,2015,25(10):1-6.

Method of Mining User Interest Based on Complex Network and Neural Network

ZHANG Xing-lan,LIU Yang

(College of Computer Science,Beijing University of Technology,Beijing 100124,China)

Providing personalized service according to the user’s interest is the most effective solution to improve the commercial value.Aiming at the problem of mining user’s interest method from user behavior,a method of constructing complex network based on time series and neural network clustering is proposed,which is based on the user’s software.In the calculation of user interest in software,the using time and adjacent nodes are considered including node degree,betweenness and clustering coefficient to determine the node importance for mining user for the degree of interest for the software,forming of interest community.Then the neural network is used to cluster the software in the user interest community.The experiments show that this method can be more accurate than other methods to mine the user’s interest,and the accuracy rate and recall rate of the algorithm is improved.

user behavior;interest mining;complex network;word2vec

2016-02-04

2016-05-11

時間:2016-11-22

北京市教育科研項目(PXM2015_014204_500251)

張興蘭(1970-),女,教授,研究方向為密碼協議形式化方法和可信計算;劉 煬(1990-),女,碩士研究生,研究方向為數據挖掘、信息安全。

http://www.cnki.net/kcms/detail/61.1450.TP.20161122.1227.004.html

TP31

A

1673-629X(2016)12-0022-04

10.3969/j.issn.1673-629X.2016.12.005

猜你喜歡
重要性用戶
土木工程中建筑節能的重要性簡述
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
論七分飽之重要性
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
主站蜘蛛池模板: 欧美一级一级做性视频| 亚洲中文字幕在线观看| 啪啪啪亚洲无码| 欧美成人午夜影院| 国产真实乱子伦精品视手机观看| 一级毛片在线播放| 国产日本一区二区三区| 中文字幕在线播放不卡| 亚洲欧美综合另类图片小说区| 狠狠色丁婷婷综合久久| 91精品国产一区自在线拍| 亚洲精品777| 亚洲国产综合自在线另类| 亚洲AV无码精品无码久久蜜桃| 亚洲国产精品成人久久综合影院| 亚洲成A人V欧美综合| 色国产视频| 国产精品久久久久久久伊一| 亚洲第一黄色网址| 97se亚洲综合在线韩国专区福利| 国产精品va| 欧美成人手机在线视频| 久久久久青草线综合超碰| 久久精品最新免费国产成人| 高潮毛片免费观看| 欧美国产菊爆免费观看| 四虎在线观看视频高清无码| 一级香蕉视频在线观看| 91免费国产在线观看尤物| 免费不卡视频| 欧美第九页| 亚洲性一区| 伊人久久久大香线蕉综合直播| 一级毛片免费高清视频| 亚洲欧美自拍视频| 乱码国产乱码精品精在线播放| 亚洲人成网18禁| 久久夜夜视频| 国产资源站| 日本国产一区在线观看| 久久综合亚洲鲁鲁九月天| 亚洲天堂色色人体| 国产理论最新国产精品视频| 亚洲综合天堂网| 欧美另类视频一区二区三区| 一本一道波多野结衣一区二区 | 91成人在线免费观看| 成年人免费国产视频| 国产精品久久精品| 在线观看视频99| 精品第一国产综合精品Aⅴ| 老司国产精品视频91| 久久国产亚洲偷自| 欧洲精品视频在线观看| 国产精品毛片一区| 欧美日韩导航| 综合色区亚洲熟妇在线| 91欧洲国产日韩在线人成| 欧美成人午夜视频免看| 中文字幕亚洲电影| h网址在线观看| 91精品啪在线观看国产| 在线a网站| 欧美黄网站免费观看| 国产女人在线| 国产在线视频福利资源站| 色欲色欲久久综合网| 久草视频福利在线观看| 久久久久夜色精品波多野结衣| 免费毛片在线| 国产鲁鲁视频在线观看| 国产h视频在线观看视频| 久久综合丝袜日本网| 亚洲综合日韩精品| 天堂在线视频精品| 在线无码av一区二区三区| 亚洲女同欧美在线| 成人免费一区二区三区| 女同久久精品国产99国| 国产麻豆精品在线观看| 国产微拍一区| 国产成人亚洲无码淙合青草|