999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web信息聚類分析與算法研究

2014-06-18 15:52:09楊冰
新媒體研究 2014年6期
關鍵詞:數據挖掘大數據

楊冰

摘 要 Web信息聚類分析是這些年來新興的方向,盡管是新的概念,但是使用傳統的聚類算法就可以取得很好的效果。文章對web信息聚類分析與算法進行了探討,研究認為,web信息聚類首先要經過預處理,將復雜多樣的web信息轉化為簡潔統一的形式,便于算法處理。在算法的選擇上使用經典的K-means或凝聚層次聚類能夠達到很高的精度,若能將算法進一步優化,其聚類結果會更加準確。

關鍵詞 數據挖掘;聚類分析;web信息;大數據

中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)06-0053-01

伴隨著信息技術水平的高速發展,因特網蘊含的信息量越來越大,互聯網已經成為信息傳播的主流平臺。與此同時,由數據量過大引起的問題開始凸現出來,人們淹沒在數以億計的web頁面中而難以快速制定合適的決策。即使是通過搜索引擎有的放矢的搜索,得到的往往也是無序的結果,難以令人滿意。如何在海量的web數據中產生層次結構,讓信息分門別類地展示在用戶面前,從而令用戶提取自己需要的信息成為一個亟待解決的熱門問題。

1 數據挖掘技術與聚類分析概述

1)數據挖掘概述。簡而言之,數據挖掘是用于將海量的原始數據轉化為簡潔直觀的信息的一種技術。它結合了傳統數據分析方法和大數據處理算法的優點,可以進行聚類分析、分類預測、關聯規則分析等工作。一般步驟包括預處理、數據挖掘、后處理。能夠用于處理各種高維和海量的數據。高維海量正是web信息所具有的兩個特點,故而數據挖掘技術對于web信息處理具有良好效果。

2)聚類分析概述。聚類分析是數據挖掘中的方法之一,它可以將數據自動劃分為有聯系的組或者簇,而且使得同一組中對象間的相似度最大化,不同組中對象間的相似度極小化,換言之,一個簇就是由彼此相似的一組對象所構成的集合,不同簇中的對象通常不相似或相似度很低。

聚類又可被稱作非監督分類 ,它與監督分類的區別在于監督分類的類標號已知,通過已知類標號的訓練集建立模型并預測新數據對象的類標號,而聚類則不需要事先知道訓練集的類標號,在聚類過程中會自動導出類標號。

2 聚類分析算法

常用的聚類算法包括基于原型的、劃分的K-means算法、基于圖和原型的凝聚層次聚類算法、基于密度的DBSCAN算法。

1)K-means。K-means聚類算法以距離值的平均值對聚類成員進行分配。如果一個對象屬于一個類,則該數據一定比較靠近類的中心,距離可以通過使用歐幾里得距離進行度量。算法的基本步驟是:首先選取K個初始質心,K由用戶自行指定,代表的是最終得到的簇的個數。每個點根據距離大小分配到離自己最近的質心所在的簇中。然后根據每個簇內點的分布情況重新計算質心,指派每個簇新的質心。重復上述兩個步驟直到質心不再改變為止。

K-means聚類算法原理簡單,對于很多數據類型都具有良好效果。但是它無法處理非球形簇和密度不均勻的簇

2)凝聚層次聚類。凝聚的層次聚類采取的是自底向上的方法,首先將每個對象單獨作為一個簇,然后每一步都按照某種標準合并最近的兩個簇,直到所有的對象都在一個簇中,或者達到某個終結條件。比起K-means算法,層次聚類算法最大的優勢就是不需要事先指定簇的個數,簇的個數是根據對象的分布情況動態生成的,這樣使得簇的個數更加靈活,最終的結果也具有說服力。

層次聚類盡管更加靈活,但是時間復雜度和空間復雜度都很高,故而不太適合處理數據量太大的數據集。

3)DBSCAN。DBSCAN是一種有效的基于密度的聚類算法,假定聚類對象是點,根據點集密度的大小,我們可以將點分為三類:稠密區域內的點是核心點;稠密區域邊上的點是邊界點;稀疏區域內的點是噪聲點。在這三種點的定義的基礎上我們可以對算法作如下描述:任意兩個核心點的距離若在給定的范圍之內,則二者屬于同一個簇;任意與核心點距離足夠近的邊界點和該核心點屬于同一個簇;噪聲點不屬于任何簇,在聚類過程中被丟棄。

DBSCAN比K-means的抗噪能力強,它可以處理任意形狀和大小的簇(包括K-means不能處理的球形簇)。但是對于密度不均勻的簇DBSCAN效果也不能令人滿意。

3 Web信息聚類過程

1)數據預處理。互聯網上的web頁面格式各種各樣,無法直接用于聚類,首先必須對它們進行預處理,構建特征向量。預處理的過程一般包括分詞、特征降維、相似度計算等。分詞是為了構建特征集,但是容易導致維度過高,影響聚類效果。此時需要進行特征降維,選取原始特征集的子集進行聚類,這樣不僅能夠提高算法運行速度,還可以提高聚類精度。經過預處理之后,web頁面信息量得到簡化,同時改善了頁面表示效果,提高了頁面間的區分度,更有利于聚類。

2)聚類。選用合適的聚類方法如K-means或凝聚層次聚類,利用第一步構建的特征向量進行聚類。頁面之間的距離可以通過余弦相似度進行度量。聚類的結果具有層次結構,比如,如果原始網頁集合是關于電影的網頁,那么聚類之后會把這些網頁分別歸類。影評類網頁屬于一類,電影視頻網頁屬于一類,影星介紹屬于一類。這些類均可以進一步細分,最終達到用戶想要的效果。

4 總結

綜上所述,在21世紀的今天,計算機信息技術更新速度加快。特別是最近幾年,針對web信息處理的研究越來越火熱,由于web信息的復雜性,簡單的聚類算法效果也許并不理想。另外,由于網絡信息資源的迅速膨脹,網絡文本規模也越來越大,對于聚類算法在空間復雜度上的要求也越來越高。而以上三種聚類算法都有各自的優缺點,因此,如何進一步優化聚類算法,降低算法的時間和空間代價,提高算法對于不同數據集的適應能力,提升算法的抗噪性,最終提高對web信息的聚類效果還需要進行更加深入的分析研究。

參考文獻

[1]Tan,Pang-Ning, Michael Steinbach, and Vipin Kumar.數據挖掘導論,2006.

[2]張樹魁.網絡文本信息聚類算法研究與應用[D].北京:北京交通大學,2009.

[3]邱韜奮.基于聚類算法的Web信息抽取技術研究[D].暨南大學,2011.

[4]張世博,周義明.一種優化初始化中心的k均值web信息聚類算法[J].北京石油化工學院學報,2012:55-58.

[5]孫學剛,陳群秀,馬亮.基于主題的Web文檔聚類研究[J].中文信息學報,2003:21-26.endprint

猜你喜歡
數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 无码av免费不卡在线观看| 亚洲伊人天堂| 国产黄色爱视频| 国产杨幂丝袜av在线播放| 国产亚洲男人的天堂在线观看| 日韩精品亚洲人旧成在线| 国外欧美一区另类中文字幕| 国产成人免费| 99在线视频免费观看| 亚洲一区二区三区中文字幕5566| 伊人久久婷婷| 精品视频一区在线观看| 国产无人区一区二区三区| 亚洲无线观看| 综合人妻久久一区二区精品| 欧美日韩精品一区二区视频| 国产成人综合亚洲欧美在| 久久免费看片| 亚洲 欧美 偷自乱 图片| 国产浮力第一页永久地址 | 久久久久亚洲AV成人人电影软件| 思思99热精品在线| 亚洲性视频网站| 欧美专区在线观看| 九九九久久国产精品| 亚洲中文字幕国产av| 青青草原偷拍视频| 国产一区二区在线视频观看| 国产网站免费| 最新国产精品第1页| 日本a级免费| 91精品国产综合久久香蕉922| 在线观看热码亚洲av每日更新| 欧美中文字幕第一页线路一| 92精品国产自产在线观看| 夜夜操狠狠操| 国产成人AV男人的天堂| 欧美日韩在线观看一区二区三区| 欧美午夜在线播放| 国产女人在线观看| 精品少妇人妻一区二区| 久久久久人妻精品一区三寸蜜桃| 美女一区二区在线观看| 亚洲美女一区| 国产日韩久久久久无码精品| 中日韩一区二区三区中文免费视频 | 色网站免费在线观看| 综合社区亚洲熟妇p| 精品国产成人三级在线观看| 国产一国产一有一级毛片视频| 欧美成人国产| 91网在线| 亚洲久悠悠色悠在线播放| 久久窝窝国产精品午夜看片| 色婷婷狠狠干| 精品中文字幕一区在线| 小说区 亚洲 自拍 另类| 男女男免费视频网站国产| 在线观看无码av免费不卡网站| 999国产精品永久免费视频精品久久| 免费亚洲成人| 欧美不卡视频在线| 亚洲国内精品自在自线官| 国产欧美专区在线观看| 国产精品网曝门免费视频| 亚洲欧美日韩中文字幕在线一区| 少妇高潮惨叫久久久久久| 久久一色本道亚洲| 亚洲黄网在线| 国产1区2区在线观看| 97超爽成人免费视频在线播放| 亚洲AⅤ无码国产精品| 97久久精品人人做人人爽| 久久亚洲综合伊人| 中国国语毛片免费观看视频| 日本亚洲国产一区二区三区| 欧美三级自拍| 亚洲伊人久久精品影院| 国产欧美视频在线| 日韩美女福利视频| 伊在人亚洲香蕉精品播放| 亚洲一区波多野结衣二区三区|