999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于微博信息數據分析研究綜述

2012-12-31 00:00:00劉世勇羅美淑
中國校外教育(下旬) 2012年12期

基于微博信息數據分析研究進行系統梳理,提出三大研究方法,即適于演化的微博信息的數據表達模型研究;基于譜聚類的適于微博信息的大規模數據集劃分方法研究;基于多特征演化聯合聚類的在線微博信息劃分方法研究。數據表達模型微博信息數據分析微博是基于用戶關系內部成員的心情共享與話題傳輸的媒介,此媒介擁有包羅萬象的內容,其中最為典型的內容是,微博會員對社會現象的觀點與立場,以及涵蓋科技軍事、娛樂八卦等討論話題。所以,關于興趣愛好的話題、焦點與熱點的話題、輿情預警等方面的微博信息數據分析擁有廣闊的研究前景。而對于研究前景實踐的前提是建立標準的數據表達與數據類型劃分的方法。一、適于演化的微博信息的數據表達模型研究在當今信息大爆炸的時代,從海量的信息提取精煉的有效信息,并分析出信息間的關聯性是十分重要的。對于微博而言,一方面,從單純的架構角度分析,微博是一種無結構的文本;但從信息與信息傳輸角度分析,微博的實質即為擁有廣泛內容的結構化網絡信息,信息的結構聯系為分析信息間的關聯性起到輔助性作用。另一方面,每條微博信息為一個文本片段(一段話或一句話),攜帶的信息量比較小,多條微博信息觸及到多種話題且信息量小,這為信息的升華與分析增加了難度。通過以上兩點分析可以看出,在微博信息中提取精煉的有效信息,不能套用傳統的簡單文本信息提取的方法。為此,對于要分類的微博信息,首先要進行預處理,從微博中收集短信息文本集,其中可以包含部分評論、觀點描述等內容,去除標簽后,進行中文語義、詞性、詞語分類的標注,并將禁用詞刪掉。經過預處理之后的短信息文本集中的每一個詞需要用建構的數學模型加以表示,過去傳統的文本類別劃分基本利用向量空間模型表示法,模型構建的過程中多以關鍵詞為首要特征,該方法比較簡單、方便,但卻容易引起高維稀疏問題且通常沒有語義聯系。所以,我們采用基于語義概念的表示方法,把傳統的具體關鍵詞抽象的映射到概念范疇,然后對原始的關鍵詞的語義進行拓展,從而解決短信息文本集中文本數據分類中存在的概念的層次、一義多詞、一詞多義的問題。二、基于譜聚類的適于微博信息的大規模數據集劃分方法研究層次方法是在眾多聚類方法中的一種極其重要的聚類方法。它的基本思想是對數據進行遞歸分裂或合并,將數據集合劃分為嵌套式的類譜系圖類或層次結構。它具有下列優勢:第一,建立在更合理的假設之上,考慮到了來自不同層次的變量信息和隨機誤差的多層線性模型,能提供更加有效的區間估計、更加精確的標準誤估計和假設檢驗。第二,任何水平上測量的協方差運用多層線性模型可計算。例如,可以通過計算在總變異中不同水平變異占的比率,來確定不同水平對因變量的影響及影響程度程度,例如研究者可以探討班級和學生的其他特征對因變量變異的作用到底有多大。還可以分析不同水平上變量之間的交互作用。第三,可以結合所得回歸方程形式及數值,得出截距和斜率之間的相關關系,從而更好地解釋自變量和因變量之間變化的規律。基于網格的方法是眾多的聚類算法中比較常用的方法,被廣泛用于空間數據離化等問題。它是以網格為單位學習聚簇,具有速度快、效率高、且能很好地處理高維數據的特點。該方法的缺點是過于依賴密度閾值的選擇,并且因為整體構造擁有的是呈現出鋸齒狀聚簇邊界,它不能精確地識別平滑邊界曲面。基于網格的聚類算法,利用統一大小的網格劃分問題的空間,數據的統計信息皆保存在每個網格中,最終以在網格上進行聚類操作達到目標。網格的數量遠遠小于數據點的數量,所以,在計算與分類過程中,運行速度非常快。網格的大小影響了整個指標的多少,進而決定了聚類的最終效果。網格聚類算法,運行速度以及計算速度主要由網格分割的時間決定,不是由數據集的大小來決定,所以,網格聚類算法適用于有限空間范圍內的大量數據活高密度數據集中的處理,這是該方法的最大優點。三、基于多特征演化聯合聚類的適于在線微博信息數據劃分方法研究聚類是人類認知過程中一項比較重要的活動。數據的聚類分析,即對物理或抽象的數據進行匯總與分組,將測度指標一致或者性質相近的數據劃分并組合成多個類的分析過程。數據的聚類分析在模式識別、統計、生態模型以及網絡結構的架構建設等多個領域中都具有廣泛的應用。在微博信息數據的劃分中,文本聚類技術按照一定的關聯性將微博信息的大量文本進行自動化歸類。有助于微博會員能夠更快更好的瀏覽與查找相關的信息。但是與結構化的數據信息不同的是,文本聚類技術是以半結構化或非結構化的文本性數據為數據處理對象,文本性數據的突出特點即為其稀疏性。基于微博信息數據的特殊性,文章嘗試從不同階段的聚類過程的入手,提取微博信息數據之間的關聯性以及關系,并將其作為微博信息數據聚類過程的指導。在微博信息數據預處理階段,Bag—of—words—Model模型是比較常用的一種表示方法。微博信息的每個詞句或符號均被用來表示微博信息文檔的內容指標。為避免標準的演化算法演化速度慢,易收斂到局部極值的缺點,融合對梯度的隨機模擬,免疫算子,模擬退火算法的思想,提出多特征演化聯合聚類。多特征演化聯合聚類,第一步將在每個時間步確定聚簇數k,利用SCAM算法算出當前的聚類模型,第二步將時間步確定聚簇數k與聚類模型進行比較分析。如果在此過程中有異樣效果出現,就說明整個過程發生了演化事件。GADEFCM算法利用完善后的掩碼方式動態來計算信息數據聚類中心數目,將數據信息的集合體劃分為兩個小群,然后分別用遺傳算法和差異演化算法對兩個小群進行計算演化,小群中的個體執行FCM操作并按規則進一步將算法收斂速度加快。兩個小群在演化過程中處于相互協作的狀態,并且基于不同的間隔遷移策略,充分利用差異演化算法的局部搜索能力與遺傳算法的全局探索能力,兩個小群之間進行優良個體引導搜索過程的交換。四、結束語綜上所述,微博信息數據分析的應用表現出明顯的的時間異步、空間分散的異構以及異質數據流。信息數據間的演化聚類分析,將會是我們進一步進行研究的方向。我們繼續研究如何實現在給定一定的聚類數限制下,自動確定聚類數。基于多特征演化聯合聚類的在線微博信息劃分方法研究使其更好更準確地劃分動態的微博輿情。

參考文獻:

[1]王永恒,賈焰,楊樹強.大規模文本數據庫中的短文本分類方法[J].計算機工程與應用,2006,(22).

[2]甄彤.基于層次與劃分方法的聚類算法研究[J].計算機工程與應用,2006,42(8).

[3]曹洪其,余嵐,孫志揮.基于網格聚類技術的離群點挖掘算法[J].計算機工程,2006,(6).

[4]孫玉芬.基于網格方法的聚類算法研究[J].華中科技大學,2006.基金項目:黑龍江省2012年度科學技術研究(面上)項目“基于演化的微博輿情劃分方法研究(項目編號:12521578)”的研究成果之一。

主站蜘蛛池模板: 亚洲日本一本dvd高清| 国产福利在线免费观看| 国产一级妓女av网站| 蜜桃视频一区二区| 日韩欧美国产精品| 幺女国产一级毛片| 久久久久夜色精品波多野结衣| 天天综合天天综合| 日本一区二区三区精品视频| 日韩免费毛片视频| 久久男人资源站| 亚洲午夜18| 一级毛片基地| 国产一级精品毛片基地| 日韩在线网址| 国产精品部在线观看| 日韩激情成人| 成人蜜桃网| 免费在线播放毛片| 国产精品九九视频| 欧美日韩一区二区三区四区在线观看| 亚洲乱码在线视频| 国产小视频网站| 免费AV在线播放观看18禁强制| 免费一级毛片在线观看| 日韩无码视频播放| 欧美伊人色综合久久天天| 青青草原偷拍视频| 免费在线一区| 免费人欧美成又黄又爽的视频| 精品国产一二三区| 99视频只有精品| 国产福利不卡视频| 国产欧美自拍视频| 中文字幕亚洲专区第19页| 永久免费AⅤ无码网站在线观看| 亚洲色图欧美激情| 无码内射在线| 亚洲美女久久| 自偷自拍三级全三级视频| 亚洲第一成年网| 国产综合日韩另类一区二区| 午夜福利网址| 色婷婷久久| 免费在线成人网| 99久久国产综合精品2023| 国产高清精品在线91| 国产理论一区| 黑色丝袜高跟国产在线91| 欧美日韩91| 国产极品美女在线观看| 日韩中文字幕亚洲无线码| 亚洲无码A视频在线| 中文字幕在线一区二区在线| 欧美色丁香| 亚洲AV无码一区二区三区牲色| 成人国内精品久久久久影院| 18禁黄无遮挡网站| 婷婷伊人五月| 在线观看亚洲人成网站| 亚洲视频在线青青| 久久久久免费精品国产| 亚洲一区二区三区国产精华液| 538国产视频| 97影院午夜在线观看视频| 日韩黄色在线| 中文字幕在线日韩91| 亚洲欧美日韩成人在线| 中文字幕1区2区| 777午夜精品电影免费看| 国产一区二区网站| 国产成人精品视频一区二区电影| 色久综合在线| 精品国产欧美精品v| 真实国产精品vr专区| 久久久受www免费人成| 久久久久国产精品熟女影院| 免费一级无码在线网站 | 国产性精品| 国产91丝袜在线播放动漫| 亚洲精品你懂的| 午夜无码一区二区三区在线app|