999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

W eb輿情的長期趨勢預測方法

2011-02-10 05:45:28王沙沙
電子科技大學學報 2011年3期
關鍵詞:方法模型

高 輝,王沙沙,傅 彥,

(1. 電子科技大學計算機科學與工程學院 成都 610054;2. 電子科技大學軟件學院 成都 610054)

輿情是在一定時期、一定范圍內民眾對社會現實的主觀反映,是群體性的思想、心理、情緒、意見和要求的綜合表現[1]。隨著互聯網的快速發展,網絡媒體作為一種新的信息傳播形式已經深入人們的日常生活,公眾在網絡上的言論活躍程度也達到了前所未有的地步。不論是國內還是國際重大事件,都能迅速在網絡上傳播開來,并引起公眾的極大關注和熱烈討論,進而產生巨大的輿論壓力,達到任何部門和機構都無法忽視的地步。

網絡的特性決定了Web輿情表達快捷、信息多元、方式互動的特點,也從根本上改變了傳播者與受傳者之間的關系,具備傳統媒體無法比擬的優勢。一種新的輿情類型——Web輿情逐漸形成,但互聯網的虛擬性、隱蔽性、發散性、滲透性、隨意性、即時性等特點決定了Web輿情的直接性、突發性和偏差性。文獻[2-4]分別根據網絡輿情的概念、特點、表達及傳播方式,對輿情的變動規律和我國網絡輿情的研究與發展現狀進行了分析。

Web輿情的產生,不僅打破了傳統媒介對社會輿論的相對壟斷,改變了傳統的輿論形態,而且還迅速顯現出其強勢。可以說,互聯網已成為思想文化信息的集散地和社會輿論的放大器,如果引導不善,負面的Web輿情將會對社會公共安全形成較大威脅。對相關政府部門來說,加強對網絡輿情的及時監測和有效引導,提前預測網絡輿情的發展趨勢,以積極化解網絡輿論危機,對維護社會穩定和促進國家發展具有重要的現實意義;加強對網絡輿情的監測和引導也是創建和諧社會的應有內涵。

近幾年,預測方法被廣泛應用于各個領域并且起到了很好的作用。較早期的預測方法主要有自回歸模型(AR)、滑動平均模型(MA)、自回歸滑動平均模型(ARMA)、歷史平均模型(HA)和Box-Cox法等。隨著研究的逐漸深入,又出現了一批更復雜、更精確的預測方法,總體可以分為兩類:1) 以現代科學技術和方法為主要研究手段而形成的預測模型,包括非參數回歸模型、KARIMA算法、基于小波理論的方法、基于多維分形的方法、譜分析方法、狀態空間重構模型和多種與神經網絡相結合的預測模型等,這類模型的共同特點是采用模型和方法,不追求嚴格意義上的數學推導和明確的物理意義,更重視對真實數據的擬合效果;2) 以數理統計和微積分等傳統的數學和物理方法為基礎的預測模型,包括時間序列模型、卡爾曼濾波模型、參數回歸模型、指數平滑模型等。

隨著互聯網的快速發展,公眾在網絡上發表言論的活躍程度達到了前所未有的地步,對容易滋生社會輿情的Web輿情事件的發展態勢做出及時準確的預測顯得越來越重要。準確的長期趨勢預測可為相關部門制定相應的應對措施,并為各大主流網站做出正確的輿論引導贏得寶貴時間。但是,目前我國對于網絡輿情的預測還處于探索階段[5-6],主要是將現有成熟的時間序列預測和人工智能技術應用于Web輿情的趨勢分析[7]。時間序列短期趨勢預測方法在網絡輿情中的應用效果不錯,但是該方法很難做出長期趨勢預測,尤其是對拐點的預測,并且預測時需要假設所選預測模型滿足某一函數分布,比如多項式回歸中多項式最高次數的選擇等。

針對傳統預測方法無法有效預測Web輿情長期趨勢拐點的不足,本文提出一種長期趨勢預測方法。該方法首先通過周期分析和層次聚類為每類已發生輿情事件的發展趨勢建立類模型庫,然后通過對預測輿情事件已知發展趨勢進行自適應變換后,應用最小二乘法從相應事件類別的類模型庫中選取均方誤差和最小的模型預測事件未來的發展趨勢。

1 預測模型

模型預測允許預測人員對預測條件做一定程度的假設,本文提出的事件長期趨勢預測模型是基于歷史會重演的假設。研究發現,不僅同一類事件的發展趨勢有較高的相似性,而且同一事件的發展會經歷不同的周期。為了進一步提高模型的擬合精度和預測效果,本文首先對事件進行分類和切取周期處理,然后為每類事件按周期建立類模型并形成類模型庫,再從中挑取與待預測事件均方誤差和最小的類模型進行長期預測。

模型的建立需要數據的支撐,為了獲取歷史事件的時間序列,首先使用網絡爬蟲從網絡上獲取數據,并將數據存儲到數據庫中;通過使用基于向量空間的LP聚類算法[8]對數據庫中描述同一個事件的數據進行自動標記,形成事件集;根據輿情的特點,通過分類方法[9-10]將事件分為刑事案件、恐怖襲擊、經濟安全、自然災難、公共衛生事件和社會安全事件等事件類別;根據預測的需要,可獲取數據庫中某事件類別包含的所有事件對應的時間序列。時間序列的過去值會影響將來值,影響的大小及影響的方式可由時間序列中的趨勢、周期及非平穩等特征來刻畫,因此可采用一個事件的時間序列進行預測。

時間序列的獲取可以根據實驗條件選取。本文所處理的時間序列值來源于Google trends所統計的數據。所謂Google trends數據并不是原始的搜索量,而是在過去的一段時間里,相對于在Google上執行的總搜索量即某個字詞被搜索了多少次,經過標準化并以0~100的縮放結果值表示。Google trends所有的數據都從2004年1月4日開始,建模的具體流程如圖1所示。

圖1 建模流程圖

1.1 時間序列的預處理

現有的預測方法在進行短期預測時都取得了一定的成效,但均無法預測長期趨勢中的拐點,影響長期預測的效果。研究發現,一個事件的發展可能會經歷幾個周期的循環,因此,為了更好地預測長期趨勢中的拐點,以進行較準確的長期趨勢預測,在對曲線進行平滑處理后,應對每條曲線進行切取周期處理,以獲取事件發展的不同周期。本文提出的切取周期的方法為:

1) 遍歷原始曲線,保留明顯的關鍵轉折點,用直線把這些關鍵轉折點連接起來形成折線圖。選擇關鍵轉折點的具體做法是:將曲線開始和結尾的點選為關鍵轉折點,然后從第一個關鍵轉折點開始,嘗試用直線連接它和它后面的每一個點,直到中間有點與該直線的距離超過給定范圍值d,該超出給定范圍值的點就被認為是一個新的關鍵轉折點。再從該新的關鍵轉折點開始,重復上面的過程,直到曲線的最后一個點。

2) 采用遍歷折線圖上各關鍵轉折點的方法尋找每個周期T的開始和結束的位置,以避免無關起伏的干擾。周期開始的判斷標準為:從第一個關鍵轉折點開始,當折線圖中相鄰兩個關鍵轉折點構成的線段的斜率超過人為給定的閾值(如本文實驗中取為3,可以根據具體的實驗數據進行調整)時,就判定周期開始。周期結束的判斷標準為:周期開始后,滿足下列兩個條件之一,就判斷周期結束。① 趨勢的起伏在一個給定的范圍值d內,即在給定范圍值d內選擇關鍵轉折點,并且該關鍵轉折點距周期開始的時間跨度至少為min T,曲線的當前高度不超過周期開始時的2倍;② 周期的長度已經超過給定的最大時間跨度max T。

預處理的最后一步工作就是對切取的周期曲線的時間長度進行規范化處理。根據建立類模型庫需確保度量一致性的原則,將所有周期曲線的時間長度統一規范化為max T。因此需要對周期曲線進行插值處理,具體的插值方法為:假設某周期曲線對應的時間序列為長度為len(x),時間序列 經過插值后,時間長度規范化為max T的時間序列則有:

1.2 類模型庫的建立

對某事件類別包含的所有事件進行預處理后,可獲得規范化的周期曲線,再使用層次聚類算法將規范化的周期曲線進行聚類。確定數據集的聚類數目是聚類分析中一項基礎性的難題,文獻[12]提出了一種基于層次聚類思想的計算方法,不需要對數據集進行反復的聚類,其主要步驟為:

1) 首先掃描數據集獲得聚類特征統計值。

2) 然后自底向上地生成不同層次的數據集劃分,增量地構建一條關于不同層次劃分的聚類質量曲線,該曲線極值點所對應的劃分用于估計最佳的聚類數目。

將周期曲線聚類后得到的各個聚類簇視為小類,對于每一小類的類模型,應用最小二乘法求出與該小類包含的所有周期曲線均方誤差和最小的類模型。具體方法為:設某小類包含的周期曲線集為{y1,y2,…,yn},每個周期曲線yi對應的時間序列為{yi1,yi2,…,yim},其中1≤i≤n。定義所求的該小類的類模型為:

將式(3)代入式(4)后,式(4)可視為關于a0、a1、…、ak的多元函數,根據多元函數求極值的方法,分別對a0、a1、…、ak求一階偏導,并令其等于零得到非齊次線性方程組:

解該非齊次線性方程組可以求出所有駐點(a0,a1,…,ak),并與邊界值上的最大值和最小值進行比較,最小值所對應的駐點即為所求類模型式(4)中的各個系數,從而可建立該小類的類模型。采用同樣的方法,可建立其他小類的類模型,從而建立該事件類別的類模型庫。

1.3 長期趨勢預測

當新的輿情事件發生時,首先確定該事件所屬的事件類別,并獲取該事件已發生的時間序列;將該時間序列進行自適應縮放變換后,逐一與其所屬事件類別對應的類模型庫中的類模型進行匹配,選取類模型庫中與待預測事件已知時間序列均方誤差和最小的類模型作為待預測事件的長期預測模型,從而實現對新輿情事件的長期預測,具體流程如圖2所示。

圖2 趨勢預測流程

為了提高周期性長期預測的準確率和有效性,當識別到新的輿情事件發生時,按一定的時間間隔采集其現有的時間序列Y,并對時間序列Y對應的曲線的斜率進行分析,如果斜率大于或等于某閾值,說明該事件已經開始被廣泛關注,開始將該事件已有的時間序列Y與其所屬事件類別的類模型庫里的類模型進行匹配,設時間序列Y的長度為len(Y)。具體方法為:

1) 對時間序列Y對應曲線的橫坐標和縱坐標分別按照比例k1和k2進行縮放變換。為了尋找合適的縮放比例k1和k2,采用雙重循環進行遍歷查找,設1≤k1≤100,1≤k2≤100,循環遍歷的步長為0.1。每一次循環,對時間序列Y對應曲線中的橫坐標和縱坐標進行縮放調整,經過縮放變換以后曲線的橫坐標xi和縱坐標yi分別為:

2 實驗部分

本部分預測實驗針對屬于公共衛生類的豬流感事件,選取的測試數據為從Google趨勢上獲取的“豬流感”在2009年3月~2009年7月期間的Google trends時間序列。

2.1 實驗效果

對公共衛生類事件的預測需要以該類事件的類模型庫為基礎,為了構建類模型庫,需要對相似性較高的該類事件的曲線進行聚類并為各小類建立類模型。對已有公共衛生類其他事件聚類和建模的效果圖如圖3所示,其中用虛線分開的4個區域分別表示該類事件按層次聚類方法所聚的4個小類,每個區域中位于上方的圖為該小類曲線聚類的結果,位于下方的圖為該小類按前面介紹的多元函數求極值的方法所建的類模型。

圖3 聚類和建模效果圖

為驗證本文所提長期趨勢預測方法的有效性,取從Google趨勢上獲取的豬流感時間序列前10天的數據作為訓練數據,10天以后的數據作為測試數據,進行長期預測,具體過程為:

1) 對采集到的豬流感前10天的數據進行自適應縮放變化。鑒于Google trend數據最大標準化值為100,設定橫坐標縮放比例k1和縱坐標縮放比例k2的取值區間均為[1,100],步長為0.1。當k1=1.5,k2=1時,從公共衛生事件類模型庫中選取的第4小類模型(即圖4中的實曲線)與進行縮放后的豬流感數據的均方誤差和最小。

2) 選定類模型后,對該類模型的橫坐標和縱坐標分別按1/k1和1/k2進行縮放變換,并將縮放后的前10天的數據替換為豬流感事件給定的前10天的數據,得到豬流感事件的長期趨勢預測曲線,即圖4中的虛曲線,圖4中的實曲線表示從Google趨勢上獲取的豬流感的實際數據。

圖4 預測效果圖

從圖4的預測效果來看,本文方法能在事件發生初期較好地預測事件長期發展趨勢的拐點。

2.2 對比分析

建立預測模型后,必須檢驗模型預測的有效性。現有檢驗方法中的關聯度檢驗法被廣泛用于衡量模型預測的精度。因此,本文采用關聯度分析檢驗預測模型的精度,并將本文提出的預測方法與幾種傳統的預測方法進行對比。關聯度檢驗法主要是比較實際時間序列和各預測時間序列中實際值與各預測值的相對大小,找出差別的最大值和最小值,進而求得實際數據與各預測數據之間的關聯度。

表1 關聯度對比

選取10個不同事件的前10天的數據,分別采用式(8)對本文所提出的預測方法與傳統預測方法(包括多項式回歸模型、自回歸模型和灰色理論模型)進行關聯度對比分析,關聯度對比結果如表1所示。

從表1所示的實驗結果來看,本文所提出的預測方法的關聯度均大于經驗閾值0.6,說明該方法預測的結果是有效的。并且,本文所提出的預測方法的平均關聯度比其他3種傳統預測方法的最大平均關聯度高出40%,因此使用本文提出的預測方法比較適用于事件的長期趨勢預測。

3 總 結

互聯網的迅猛發展使得社會輿情有了新的載體,網絡輿情對社會政治、經濟和文化的平穩發展產生了較大的影響,因此有必要利用現有的人工智能和數據挖掘技術實現對輿情的分析和預測,為進一步治理和正面引導網絡輿情的發展奠定基礎。

本文提出了一種Web輿情長期趨勢預測方法。該方法首先通過周期分析和層次聚類為每類已發生輿情事件的發展趨勢建立類模型庫。當待預測輿情事件發生時,首先確定其所屬事件類別并獲取已有的時間序列,將其進行自適應縮放變換后,應用最小二乘法從其所屬事件類別的類模型庫中選取均方誤差和最小的模型預測該事件未來的發展趨勢。實驗結果顯示,本文提出的預測方法比傳統方法更適合對輿情事件的長期趨勢預測,可以彌補現有預測技術無法預測情事件發展趨勢拐點的缺陷,更好地幫助政府和監管部門采取及時有效的措施,提高網絡輿情監管的功效。

[1] 王來華. 輿情研究概論——理論、方法和現實熱點[M].天津: 天津社會科學院出版社, 2007.WANG LaiHua. Public opinion study—theory, method and reality hotspot[M]. Tianjin: Tianjin Social Sciences Press,2007.

[2] 劉毅. 略談網絡輿情的概念、特點、表達與傳播[J]. 理論界, 2007, (1): 11-12.

LIU Yi. Talk about web sentiment’s concept, characteristic,expression and communication[J]. Theory Horizon, 2007,(1): 11-12.

[3] 彭丹, 許波, 宋仙磊. 基于網絡評論的網絡輿情研究[J].現代情報, 2009, 29(12): 4-7.

PENG Dan, XU Bo and SONG XianLei. Web sentiment study based on web comment [J]. Modern Information, 2009,29 (12): 4-7.

[4] 曾潤喜. 我國網絡輿情研究與發展現狀分析[J]. 圖書館學研究, 2009, 19(1): 24-37.

ZENG Run-xi. Study our country’s web sentiment and analyze its state-of-the-art[J]. Study of Library Science,2009, 19(1): 24-37.

[5] 騰達. 基于趨勢分析的網絡輿情監控系統(TANCMS)的研究與實現[D]. 長沙: 國防科學技術大學, 2008.

TENG Da. Research and realization of TANCMS based on trend analysis[D]. Changsha: National University of Defense Technology, 2008.

[6] 程輝. 基于時間序列的網絡輿情預測模型[J]. 網際網路技術學刊, 2008, 9(5): 16-17.

CHENG Hui. The prediction model of public opinion based on trend analysis[J]. Journal of Internet Technology, 2008,9(5): 16-17.

[7] 張玨. 網絡輿情預測模型與平臺的研究[D]. 北京: 北京交通大學, 2009.

ZHANG Jue. Research on forecasting models and platform of online public opinion[D]. Beijing: Beijing Jiaotong University, 2009.

[8] RAMAGE D, HEYMANN P, CHRISTOPHER D. Manning.Clustering the tagged web[C]//WSDM ’09 Proceedings of the Second ACM International Conference on Web Search and Data M ining. New York, USA: ACM, 2009: 54-63.

[9] COUTO T, ZIVIANI N, CALADO P, et al. Classifying documents w ith link-based bibliometric measures[J].Information Retrieval, 2009, 13(4): 355-363.

[10] WANG Pu, HU Jian, ZENG Hua-jun, et al. Using w ikipedia know ledge to improve text classification[J].Know ledge and Information Systems, 2008, 19(3):265-281.

[11] TERRADO M, BARCELO D, TAULER R. Quality assessment of the multivariate curve resolution alternating least squares method for the investigation of environmental pollution patterns in surface water[J]. Environ Sci Techno,2009, 43(14): 5321-5326.

[12] 陳黎飛, 姜青山, 王聲瑞. 基于層次劃分的最佳聚類數確定方法[J]. 軟件學報, 2008, 19(1): 24-37.

CHEN Li-fei, JIANG Qing-shan, WANG Sheng-rui, A hierachical method for determining the number of cluster[J]. Journal of Software, 2008, 19(1): 24-37.

編 輯 蔣 曉

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 人妻少妇乱子伦精品无码专区毛片| 亚洲狼网站狼狼鲁亚洲下载| 毛片免费在线视频| 国产精品999在线| 制服丝袜在线视频香蕉| 色婷婷在线播放| 99精品伊人久久久大香线蕉 | 日韩欧美国产精品| 啪啪国产视频| 国产免费一级精品视频| 欧美一级视频免费| 在线精品视频成人网| 四虎综合网| 免费毛片视频| 亚洲美女高潮久久久久久久| 亚洲一级毛片在线观播放| 中文字幕亚洲乱码熟女1区2区| 99精品视频在线观看免费播放| 亚洲中文制服丝袜欧美精品| 欧美在线三级| 亚洲啪啪网| 国产无人区一区二区三区| 欧美一区福利| 色综合国产| 久久精品中文无码资源站| 久久久久人妻一区精品| 澳门av无码| 国产精品视频猛进猛出| 亚洲精品久综合蜜| 美女被操91视频| 国产午夜一级淫片| 成人亚洲视频| 日本a∨在线观看| 国产无码性爱一区二区三区| 欧美日韩国产精品综合| 婷婷六月色| 黄色一及毛片| 亚洲国产日韩一区| 国产97视频在线| 国产美女丝袜高潮| 91欧美亚洲国产五月天| 亚洲精品手机在线| 中文字幕无码制服中字| 小说区 亚洲 自拍 另类| 欧美啪啪精品| 91色爱欧美精品www| av大片在线无码免费| www.亚洲天堂| 99精品福利视频| 国产精品免费入口视频| 欧美丝袜高跟鞋一区二区| 国产精品一区在线观看你懂的| 在线观看免费人成视频色快速| 高清乱码精品福利在线视频| 久久成人免费| 天天操天天噜| 毛片手机在线看| 国产午夜无码专区喷水| 欧美中文字幕在线视频| 久久夜色精品国产嚕嚕亚洲av| 国产综合色在线视频播放线视| 久久综合AV免费观看| 久草性视频| 欧美亚洲香蕉| 久久国产亚洲偷自| 免费看av在线网站网址| 亚洲高清中文字幕| 天天躁夜夜躁狠狠躁图片| 黄色网址免费在线| 精品无码一区二区三区在线视频| 日韩高清成人| 国产精品女主播| 国产h视频免费观看| 国产一区二区三区夜色| 国产精品视频第一专区| 国产成人高清精品免费软件| YW尤物AV无码国产在线观看| 成年av福利永久免费观看| 亚洲免费毛片| 日本五区在线不卡精品| 免费毛片在线| 国产精品2|