999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進(jìn)的支持向量機(jī)在微博熱點話題預(yù)測中的應(yīng)用

2017-04-07 22:14:13饒浩文海寧林育曼陳曉鋒
現(xiàn)代情報 2017年3期

饒浩++文海寧++林育曼++陳曉鋒

〔摘要〕為了提高微博輿情的預(yù)測精度,針對不同單一核函數(shù)的局限,用線性擬合確定兩種核函數(shù)的權(quán)重提出改進(jìn)的支持向量機(jī)模型。首先利用馬爾科夫模型矩陣的稀疏程度提取影響因子指標(biāo),得到微博傳播的增減趨勢;然后用改進(jìn)的支持向量機(jī)對實時數(shù)據(jù)按照4∶1的比例劃分測試集和訓(xùn)練集,進(jìn)行實時預(yù)測與警示。實驗結(jié)果表明:應(yīng)用馬爾科夫模型進(jìn)行微博輿情的主成分提取效果較佳,改進(jìn)的支持向量機(jī)構(gòu)造了新的組合核函數(shù),比傳統(tǒng)的預(yù)判效果更佳。

〔關(guān)鍵詞〕馬爾科夫模型;組合支持向量機(jī);微博;輿情;熱點話題;預(yù)測

DOI:10.3969/j.issn.1008-0821.2017.03.009

〔中圖分類號〕G206〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2017)03-0046-06

〔Abstract〕In order to improve the prediction accuracy of Microblog public opinion and make up for performance deficiency of single kernel function,the weight coefficients of two kernel functions have been calculated by linear fitting.The Markov matrix was used to determine the weights of the impact factors and the trend of Microblog public opinion.Improved support vector machine was used to divide real time data into training set and test set according to the proportion of 4∶1.Experiment showed that the features which affected micro blogging publica opinion,had been mined better by using Markov model;Optimized SVM model constructed a new combined kernel function,and the forecasting results were better.

〔Key words〕Markov model;combination support vector machine;microblog;public opinion;hot topic;prediction

目前我國針對輿情分析指標(biāo)的研究有很多,按照功能的完善程度分為告警和預(yù)警。告警模型如李綱等在突發(fā)公共事件大背景下,對突發(fā)公共事件、公共衛(wèi)生事件、社會安全事件等指標(biāo)進(jìn)行分析,結(jié)合信息空間模型分析微博輿情傳播的過程,構(gòu)建微博輿情監(jiān)測指標(biāo)[1]。易臣何分析微博輿情的傳播特點,在此基礎(chǔ)上研究演化規(guī)律[2]。預(yù)警模型如朱衛(wèi)紅等采用離散的時間序列和地圖定位做生態(tài)畫像,根據(jù)標(biāo)簽特征進(jìn)行提取、分析并提前一定的時間周期告警實現(xiàn)預(yù)警目標(biāo)[3]。葉金印等建立了多條預(yù)判擬合函數(shù)進(jìn)行分類和預(yù)測,用MAE等誤差指標(biāo)尋優(yōu)[4]。

針對微博輿情預(yù)測算法的研究,不同算法有不同的業(yè)務(wù)場景的優(yōu)點,例如局部最優(yōu)、全局最優(yōu)等的差別。例如杜智濤等用灰色預(yù)測方法,用微分方程解法做時間序列回歸模型[5]。張華基于BP-神經(jīng)網(wǎng)絡(luò)算法對其經(jīng)典模型進(jìn)行優(yōu)化,對輸入層與隱含層的矩陣、隱含層與輸出層的矩陣權(quán)值的稀疏性處理較好[6]。魏德志提出用混沌理論解決非線性的函數(shù),一改用線性函數(shù)進(jìn)行擬合的前提假設(shè),并且改進(jìn)了徑向基核函數(shù),使得神經(jīng)網(wǎng)絡(luò)發(fā)揮了在具體輿情預(yù)測中的優(yōu)點以提高數(shù)據(jù)準(zhǔn)確性[7]。

微博話題的影響因子與權(quán)值矩陣的處理是預(yù)測準(zhǔn)確度提升的保證。雖然微博話題的影響因子有很多,但是許多學(xué)者的研究主要在于確定影響因子之間內(nèi)在邏輯,往往難以分離各個指標(biāo)確定各自的權(quán)重而進(jìn)行定量分析。也有一些學(xué)者涉及定量的研究,但是用戶能獲取到的微博指標(biāo)權(quán)限有限,實際操作無法進(jìn)行。因此,本文基于容易獲取到的一些指標(biāo),進(jìn)行兩個算法過程的預(yù)測與驗證,分別從不同角度預(yù)測趨勢,得到較好的預(yù)測效果,供輿情部門參考。

1馬爾科夫模型的增減趨勢預(yù)判

馬爾科夫區(qū)別于回歸模型,在于將問題看作是離散隨機(jī)過程,并非連續(xù)函數(shù),且強(qiáng)調(diào)下一個時間節(jié)點的狀態(tài)與上一個無關(guān)(即相鄰兩個時間節(jié)點的數(shù)據(jù)無法互相影響)[8]。而這恰恰更適合預(yù)測隨機(jī)波動大的動態(tài)過程,可彌補(bǔ)灰色預(yù)測的局限[9]。

馬爾科夫模型要求數(shù)據(jù)具有馬爾科夫鏈和平穩(wěn)過程等均值的特點,而現(xiàn)實生活的預(yù)測問題大都是隨時間變化或呈某種變化趨勢的非平穩(wěn)過程。若用灰色GM(1,1)模型對滿足時間序列的數(shù)據(jù)進(jìn)行擬合,可用變化趨勢彌補(bǔ)馬爾科夫鏈預(yù)測的局限;而在灰色預(yù)測的基礎(chǔ)上進(jìn)行馬爾科夫預(yù)測,又可彌補(bǔ)灰色預(yù)測對隨機(jī)波動大的數(shù)據(jù)預(yù)測準(zhǔn)確度低的缺陷。從而得出兩種模型結(jié)合,能較準(zhǔn)確地預(yù)測微博熱點話題。

圖1是從MySQL主表界面得到的隨著時間分段不同獲取的單位時間內(nèi)中文分詞的關(guān)鍵詞出現(xiàn)的時間段的情況(其中“Null”代表空)。

從MySQL里獲取的分詞數(shù)據(jù),將3月上旬的時間劃分為30個等距時間間隔,及8個小時為1個獲取時間周期。以每個時間點檢測獲取到的關(guān)鍵詞不同作為劃分標(biāo)準(zhǔn),沒有出現(xiàn)的地方顯示為“Null”,以選取的16條記錄為例,計算每項出現(xiàn)關(guān)鍵詞的時間段個數(shù),作為馬爾科夫模型中每種關(guān)鍵詞的詞頻。

2改進(jìn)的支持向量機(jī)的熱點話題預(yù)測

21算法實現(xiàn)偽代碼

Step 1:數(shù)據(jù)的提取和預(yù)處理

1)將半年微博數(shù)據(jù)用Java提取四列數(shù)據(jù),即:時間節(jié)點、點贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)。

2)將原始數(shù)據(jù)進(jìn)行歸一化(mapminmax為matlab自帶的映射函數(shù),對點贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)進(jìn)行歸一化處理,公式為:y=(ymax-ymin)*(x-xmin)/(xmax-xmin)+ymin;并對點贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)進(jìn)行轉(zhuǎn)置,以符合libsvm工具箱數(shù)據(jù)格式要求。

Step 2:確定核函數(shù)的各項參數(shù):

1)寫調(diào)用函數(shù)kernel(ker,x,y)。

2)對比各個經(jīng)典核函數(shù)模型的誤差率,確定各自的優(yōu)缺點。

3)確定怎樣分配比例使得組合模型能實現(xiàn)最佳預(yù)測。

Step 3:利用回歸預(yù)測分析最佳的參數(shù)進(jìn)行SVM網(wǎng)絡(luò)訓(xùn)練

22多項式核、高斯核、線性與非線性核函數(shù)的對比使用支持向量機(jī)算法要從常用的3種函數(shù)模型中選擇最優(yōu)的作改進(jìn),經(jīng)過對比分析確定一種核函數(shù)為指標(biāo)的最佳核函數(shù)[10-11],目的是將高維空間的內(nèi)積運算轉(zhuǎn)化為低維空間的函數(shù)運算。

對核函數(shù)的選擇,目前沒有成熟完善的指導(dǎo)原則,必須根據(jù)各種測試數(shù)據(jù)的觀察結(jié)果來確定[12-13]。某些問題用某些核函數(shù)效果很好,用另一些很差。多項式核是典型的全局核函數(shù),相距很遠(yuǎn)的點對核函數(shù)的值均有影響,不論函數(shù)中的階數(shù)從1~5增加,其周邊的數(shù)據(jù)點都對多項式核函數(shù)的值產(chǎn)生影響;而高斯核函數(shù)是典型的局部核函數(shù),只有當(dāng)落在某個寬度之間時才會對核函數(shù)值有影響,只有在一定的范圍內(nèi)取值對高斯核函數(shù)有效。

23組合核函數(shù)的確定

24結(jié)果與分析

241改進(jìn)的馬爾科夫模型

列舉16個中文分詞得到的關(guān)鍵詞,以及統(tǒng)計的出現(xiàn)時間段次數(shù),T1~T15表示15個等距時間段,表中數(shù)字代表增長速率,使得快速上升(≥03)在程序中用“2”表示;緩慢上升(0,003),用“1”表示;相對不變用“0”表示;緩慢下降(-003,0)用“-1”表示;快速下降(≤-003)用“-2”表示,從而得到各個關(guān)鍵詞在不同時段的相對值A(chǔ)i(i=1,2,…,30)。

以第一個關(guān)鍵詞“以后”為例,T1~T15這15個等距時間段中,取前14個等距時間段的增長率參加計算,第15個增長率與模型的預(yù)測率進(jìn)行比對,從而驗證模型的準(zhǔn)確性。

先算出增長率,使用概率轉(zhuǎn)移矩陣完成馬爾科夫預(yù)測。由于微博爆發(fā)趨勢受到多重因素的影響,若籠統(tǒng)地采用擬合計算分析,會使誤差率增加;而用概率矩陣轉(zhuǎn)移,則是根據(jù)下一次的爆發(fā)趨勢所出現(xiàn)的狀態(tài)的最大可能概率進(jìn)行預(yù)測,可靠性高。

Key1:“以后”

10200010200010102000104000110212210216710087210236710247211024181021981009801024351019691102432102238101030102481101818110245310224010104610248810177311024571022431010501024911017591102458102243101052102492101755用1個關(guān)鍵詞為例,可知:列數(shù)表示5個狀態(tài)下對應(yīng)的概率,行數(shù)表示預(yù)測的時段個數(shù),輸出數(shù)據(jù)的每一行的最大的概率值表示相應(yīng)時間段最可能出現(xiàn)的增長狀態(tài)。下面為關(guān)鍵詞1:“以后”的算法數(shù)值,其中D1~D5分別表示“先迅速增長”、“先緩慢增長”、“先相對不變”、“先緩慢下降”、“先快速下降”。如表3:

如果目前微博熱點預(yù)測的話題處于狀態(tài)Bi(i=1,2,3,4,5),這時Eij描述目前狀態(tài)Bi在將來轉(zhuǎn)移狀態(tài)Bj(j=1,2,3,4,5)的可能性。按照最大概率原則,即選{Ei1,Ei2,Ei3,Ei4,Ei5}中最大者對應(yīng)的狀態(tài)即為預(yù)測結(jié)果。

由于通過計算得到的關(guān)鍵詞“以后”的增長率狀態(tài)為E3,即相對穩(wěn)定。由上面的轉(zhuǎn)移矩陣可知:由一次轉(zhuǎn)移到5種狀態(tài)的概率分別為:E31=0833,E32=02083,E33=06250,E34=00833,E35=0,Max={Ei1,Ei2,Ei3,Ei4,Ei5}=E33=06250,且E31、E32、E34、E35比E33對比,均差距很大。

因此,預(yù)測的結(jié)果顯示:在T11~T30時間段內(nèi)的微博熱點話題的熱度將繼續(xù)保持穩(wěn)定,且增長幅度為1,將預(yù)測結(jié)果與實際結(jié)果表對比可知:實際微博繼續(xù)保持緩慢上升,因預(yù)測結(jié)果是準(zhǔn)確的。

改進(jìn)的支持向量機(jī)模型綜合了兩個經(jīng)典核函數(shù)的優(yōu)點,對實際數(shù)據(jù)出現(xiàn)的稀疏矩陣問題采用核函數(shù)映射,歸一化處理后將其映射到[0,1]區(qū)間,解決誤差大造成的預(yù)測影響。最后反歸一化回去,得到實際預(yù)測數(shù)值。

由此可以得出,改進(jìn)的支持向量機(jī)模型可以解決局部樣本最優(yōu)問題,得到的趨勢誤差較小,可以代替全局最優(yōu)函數(shù)用逼近法逼近,逐步減小誤差。

242組合核函數(shù)模型

新構(gòu)造的組合核函數(shù),即加入各種核函數(shù)的權(quán)重,構(gòu)建組合核函數(shù)來適應(yīng)數(shù)據(jù)的特點。其近期樣本重要性遠(yuǎn)大于前期樣本,體現(xiàn)最近時間樣本點最重要的原則,增強(qiáng)預(yù)測準(zhǔn)確度。

由于采集的是點贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù),分別記為y1、y2、y3,對其一一進(jìn)行訓(xùn)練與測試,得到擬合與預(yù)測曲線。表4以預(yù)測部分的10分鐘為例:

其中4058759664-4058760602是2016/3/15 15∶00~2016/3/15 15∶10的10分鐘數(shù)據(jù),Matlab中調(diào)用函數(shù)將標(biāo)準(zhǔn)時間(時間格式)轉(zhuǎn)為時間戳(字符格式),預(yù)測數(shù)據(jù)(藍(lán)色)與真實數(shù)據(jù)(黑色)的對比,每分鐘獲取一次數(shù)據(jù),經(jīng)過測試尋優(yōu),確定訓(xùn)練集與測試集的比例為4∶1時最佳的數(shù)據(jù)。后面1/5的數(shù)據(jù)即為表4所示。圖3中是50分鐘的數(shù)據(jù),分為40分鐘實際數(shù)據(jù)與10分鐘預(yù)測數(shù)據(jù)。藍(lán)色實際值的離散點與擬合、預(yù)測紅色曲線很接近,走向趨勢也保持一致,表明擬合與預(yù)測效果較佳。

其中程序展示最優(yōu)化正則參數(shù)與最優(yōu)核參數(shù)的檢驗結(jié)果,省略展示R2、MSE、MAE、MAPE等誤差類的統(tǒng)計驗證,且采用快速留一的交叉驗證方法,不斷迭代降低誤差。得到組合模型預(yù)測效果較佳。

3結(jié)束語

本研究結(jié)合馬爾科夫與改進(jìn)的支持向量機(jī)來構(gòu)建微博話題預(yù)測趨勢預(yù)測,通過實例來驗證模型的準(zhǔn)確性。此外,該模型也會存在著一些缺點。首先是獲取到的指標(biāo)參數(shù)有限,后選取時間序列和轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)的指標(biāo)用于預(yù)測。另外,獲取到的是2015年上半年的數(shù)據(jù)訓(xùn)練,用4∶1的比例做訓(xùn)練預(yù)測,和實時情況中組合模型取最近的權(quán)重最大,沒有進(jìn)行歷史數(shù)據(jù)按天同期的統(tǒng)計,不可避免地存在特定日期等情況時輿情暴增帶來的誤差。因此需要人工處理這種趨勢帶來的例外。該模型的預(yù)測結(jié)果的準(zhǔn)確性依賴于數(shù)據(jù)的邏輯聯(lián)系與誤差的迭代。研究所得到的結(jié)果可以為輿情的管理提供有效的指導(dǎo)。

參考文獻(xiàn)

[1]李綱,陳璟浩.突發(fā)公共事件網(wǎng)絡(luò)輿情研究綜述[J].圖書情報知識,2014,(3):117-123.

[2]易臣何.突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律與政府監(jiān)控[D].湘潭:湘潭大學(xué),2014.

[3]朱衛(wèi)紅,苗承玉,鄭小軍.基于3S技術(shù)的圖們江流域濕地生態(tài)安全評價與預(yù)警研究[J].生態(tài)學(xué)報,2014,(1):119-121.

[4]葉金印,李致家,常露.基于動態(tài)臨界雨量的山洪預(yù)警方法研究與應(yīng)用[J].氣象雜志,2014,(1):114-116.

[5]杜智濤,謝新洲.利用灰色預(yù)測與模式識別方法構(gòu)建網(wǎng)絡(luò)輿情預(yù)測與預(yù)警模型[J].圖書情報工作,2013,(8):76-81.

[6]張華.基于優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的微博輿情預(yù)測模型研究[D].武漢:華中師范大學(xué),2014.

[7]魏德志,陳福集,鄭小雪.基于混沌理論和改進(jìn)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)測方法[J].物理學(xué)報,2015,(4):93-95.

[8]徐揚,孟文霞,李廣建.基于灰色預(yù)測模型的情報學(xué)熱點主題發(fā)展預(yù)測[J].情報科學(xué),2016,(7):3-6.

[9]楊怡.銷量的多因素灰色預(yù)測和馬爾柯夫鏈模糊修正模型研究[J].工業(yè)工程與管理,2014,(5):90-93.

[10]王和勇,崔蓉.在線用戶評論的主題發(fā)現(xiàn)研究[J].現(xiàn)代情報,2015,(9):63-69.

[11]商麗媛,譚清美.基于支持向量機(jī)的突發(fā)事件分級研究[J].管理工程學(xué)報,2014,(1):119-123.

[12]曹云忠,邵培基,李良強(qiáng).微博網(wǎng)絡(luò)中用戶關(guān)注行為預(yù)測[J].系統(tǒng)工程,2015,(7):146-152.

[13]章成志,李蕾.社會化標(biāo)簽質(zhì)量自動評估研究[J].現(xiàn)代圖書情報技術(shù),2015,(10):2-12.

(本文責(zé)任編輯:孫國雷)

主站蜘蛛池模板: 91精品在线视频观看| 国产成在线观看免费视频| 久久精品中文字幕少妇| 国产成人精品在线| 亚洲无线视频| 亚洲日本中文字幕乱码中文| 亚洲高清中文字幕| 欧美性久久久久| 色妞永久免费视频| 国产一区二区精品福利| 91丝袜乱伦| 欧美精品在线视频观看| 特级毛片免费视频| 久久人人爽人人爽人人片aV东京热 | 成人午夜视频在线| 亚洲天堂网2014| 欧洲欧美人成免费全部视频| 国产资源站| 夜夜拍夜夜爽| 经典三级久久| 精品丝袜美腿国产一区| 成AV人片一区二区三区久久| 日韩高清中文字幕| 青青青草国产| 国产又大又粗又猛又爽的视频| 欧美亚洲激情| 亚亚洲乱码一二三四区| 日本成人一区| 国产美女在线观看| 午夜免费视频网站| 国内自拍久第一页| 国产亚洲视频中文字幕视频| 影音先锋丝袜制服| 精品视频免费在线| 国产精品亚洲va在线观看| 99热这里只有精品5| 精品成人一区二区| 久久永久免费人妻精品| 青青草国产在线视频| 亚洲欧美成aⅴ人在线观看| 色老二精品视频在线观看| 中文无码精品a∨在线观看| 成人福利免费在线观看| 久久亚洲综合伊人| 国产免费精彩视频| 制服丝袜国产精品| 亚洲欧美日韩视频一区| 91小视频在线| 色综合狠狠操| 538国产在线| 久久久四虎成人永久免费网站| 丰满人妻一区二区三区视频| 99re精彩视频| 亚洲女人在线| 亚洲无码熟妇人妻AV在线| 成人午夜免费观看| 极品尤物av美乳在线观看| 日韩福利视频导航| 乱系列中文字幕在线视频| 欧美午夜在线观看| 国产精品嫩草影院视频| 无码人妻热线精品视频| 99久久精品久久久久久婷婷| 日本黄色不卡视频| 亚洲天堂视频在线免费观看| 国产成人亚洲无吗淙合青草| 国产黄在线免费观看| 亚洲一区毛片| 国模私拍一区二区| 国产精品永久久久久| 欧美日本视频在线观看| 四虎影视库国产精品一区| 久久久久亚洲AV成人网站软件| 伊伊人成亚洲综合人网7777| 亚洲天堂免费| 欧美一区二区三区国产精品| 日韩二区三区无| 精品免费在线视频| 精品国产亚洲人成在线| 欧美日韩精品一区二区在线线 | 国产自视频| 国产97视频在线观看|