999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談數(shù)據(jù)挖掘

2019-12-20 03:02:11陳俟伶謝鵬
科教導(dǎo)刊·電子版 2019年29期
關(guān)鍵詞:數(shù)據(jù)挖掘

陳俟伶 謝鵬

摘 要 本文是基于數(shù)據(jù)挖掘的微信公眾號(hào)關(guān)注趨勢(shì)分析。數(shù)據(jù)挖掘技術(shù)能夠在海量的數(shù)據(jù)信息中搜尋出更加有價(jià)值的信息,實(shí)現(xiàn)數(shù)據(jù)信息的價(jià)值。微信公眾平臺(tái)是微信旗下推出進(jìn)行信息推送與接收的平臺(tái),是自媒體時(shí)代的產(chǎn)物,依靠著微信這個(gè)大平臺(tái)展示出了良好的傳播效果,其傳播路徑和方式與以前的媒體形式有所不同。利用數(shù)據(jù)分析工具對(duì)這些數(shù)據(jù)進(jìn)行可視化展示,對(duì)產(chǎn)生的結(jié)果進(jìn)行分析。

關(guān)鍵詞 大數(shù)據(jù)時(shí)代 數(shù)據(jù)挖掘 微信公眾號(hào)

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A

0緒論

(1)數(shù)據(jù)挖掘的意義。

在這個(gè)大數(shù)據(jù)的時(shí)代,每個(gè)人都可以被稱為是生產(chǎn)者或是傳播者,因此很多互聯(lián)網(wǎng)信息中都帶有這關(guān)于潛在消費(fèi)者的信息,通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘利用,就能夠更加清楚的得知這些潛在客戶的真實(shí)需求。數(shù)據(jù)挖掘技術(shù)具有比較復(fù)雜的特征,無(wú)論是應(yīng)用對(duì)象還是應(yīng)用過(guò)程,都涉及到大量因素。因?yàn)閿?shù)據(jù)挖掘技術(shù)的特殊性,所以最終得到的結(jié)果也是存在特殊性質(zhì)的信息。

(2)數(shù)據(jù)挖掘的包含方面。

數(shù)據(jù)挖掘一般包含數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、后處理這三個(gè)方面。

預(yù)處理的存在是為了提前將一些無(wú)用的數(shù)據(jù)剔除出去,這些“廢物”的存在很可能導(dǎo)致數(shù)據(jù)模型計(jì)算的失敗,所以說(shuō)數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過(guò)程中不可缺失的一部分,雖然這部分會(huì)占據(jù)數(shù)據(jù)挖掘的大部分時(shí)間,但還是值得我們認(rèn)真去完成。當(dāng)我們完成數(shù)據(jù)的預(yù)處理后,接下來(lái)的數(shù)據(jù)挖掘和后處理就變得簡(jiǎn)單很多,只需要將特定的數(shù)據(jù)放到特定的模型中去計(jì)算,將最合適的移交給后處理。

1算法介紹

1.1數(shù)據(jù)挖掘的算法

1.1.1經(jīng)典算法

在如今的國(guó)際上認(rèn)同的算法有:

C2.5算法;Apriori算法;PageRank算法;AdaBoost算法;KNN算法;CART算法;SVM算法;EM算法;K-Means算法;NaiveBayes算法。

1.1.2算法舉例

(1)聚類:K均值(Kmeans)、最近鄰算法(KNN)、期望最大值算法(EM)、隱含狄利克雷分布(LDA)。

(2)分類:支持向量機(jī)(SVM)、邏輯回歸(LR)、梯度下降樹(shù)(GBDT)、隨機(jī)森林(RF)、樸素貝葉斯(NB)、深層神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、LSTM(Long Short-Term Memory)。

(3)回歸:普通最小二乘回歸(OLS)、梯度下降樹(shù)(GBDT)。

(4)降維:主成分分析(PCA)、因子分析(FA)、LDA。

(5)時(shí)間序列:自回歸模型(AR)、滑動(dòng)平均模型(MA)、自回歸移動(dòng)平均模型(ARMA)。

①Adaboost。Adaboost是將不同的幾個(gè)弱的分類器相互結(jié)合在一起成強(qiáng)分類器算法然后來(lái)加快算法的速度。

②PageRank。PageRank的核心最主要的思想是在從一些優(yōu)質(zhì)的網(wǎng)頁(yè)基礎(chǔ)上鏈接過(guò)來(lái)的網(wǎng)頁(yè),所以還是優(yōu)質(zhì)網(wǎng)頁(yè)的回歸關(guān)系,來(lái)判定所有網(wǎng)頁(yè)的重要性。

1.2微信公眾號(hào)數(shù)據(jù)的獲取

1.2.1爬蟲(chóng)抓取數(shù)據(jù)

微信在數(shù)據(jù)方面來(lái)說(shuō)是一個(gè)比較封閉的一個(gè)平臺(tái),首先從微信的客戶端入手,然后通過(guò)抓包來(lái)進(jìn)行數(shù)據(jù)的分析請(qǐng)求,再者使用 Fiddler、Charles 代理工具來(lái)進(jìn)行抓包分析請(qǐng)求的構(gòu)造原理,然后 Requests 等網(wǎng)絡(luò)請(qǐng)求的板塊來(lái)模擬微信向服務(wù)器發(fā)出請(qǐng)求從而獲得響應(yīng)式數(shù)據(jù),接著把抓出來(lái)的數(shù)據(jù)過(guò)濾和清潔,最后就可以用 Pandas 來(lái)進(jìn)行數(shù)據(jù)分析然后就可視化展示出來(lái)了。

1.2.2數(shù)據(jù)挖掘的流程

(1)數(shù)據(jù)集選擇。一般來(lái)說(shuō)數(shù)據(jù)集就是可獲得或者已存在的 (在網(wǎng)上過(guò)濾抓取需要的數(shù)據(jù)或者訪問(wèn)網(wǎng)上的一些資料庫(kù)和使用軟件進(jìn)行主動(dòng)收集的數(shù)據(jù)等)。數(shù)據(jù)集的選擇對(duì)數(shù)據(jù)挖掘起著非常至關(guān)重要的作用。

(2)數(shù)據(jù)預(yù)處理。在數(shù)據(jù)集選取了后,接著就可以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,這樣可以讓數(shù)據(jù)可以被我們使用。數(shù)據(jù)預(yù)處理大大的提高了數(shù)據(jù)的質(zhì)量。

①數(shù)據(jù)清理。首先不看元祖,然后主動(dòng)填寫(xiě)缺失的值,使用屬性的中心度量的填充,給定同一類所有樣本的屬性均值或中位數(shù)填充,最可能的值填充。

②數(shù)據(jù)集成。實(shí)體識(shí)別,冗余和相關(guān)分析(卡方檢驗(yàn),相關(guān)系數(shù),協(xié)方差等,用spss比較方便)。

③數(shù)據(jù)歸約。維規(guī)約(小波變換和主成分分析,最常用),數(shù)量規(guī)約(較小的數(shù)據(jù)替代原始數(shù)據(jù)),數(shù)據(jù)壓縮(有損無(wú)損兩種,尤其對(duì)于圖像視頻等多媒體常用)。

(3)數(shù)據(jù)分析算法。最經(jīng)典的莫過(guò)于頻繁模式挖掘了,對(duì)象為事物出現(xiàn)的次數(shù)。如著名的啤酒尿布。其中最典型的算法為Apriori算法,包括連接和剪枝。其中有置信度,支持度,頻繁項(xiàng)集最小置信度閾值等重要概念,到相關(guān)分析中還有提升度,全置信度,Kulczy和余弦等判斷標(biāo)準(zhǔn)和零不變度量考慮。

2結(jié)論

通過(guò)對(duì)微信公眾號(hào)推送內(nèi)容進(jìn)行數(shù)據(jù)分析,企業(yè)可以編輯與自己企業(yè)文化相關(guān)的內(nèi)容發(fā)布到微信公眾號(hào)上,同時(shí)也要滿足用戶的需求,推送用戶喜歡的內(nèi)容,正確認(rèn)識(shí)用戶的需求,以恰當(dāng)?shù)姆绞秸归_(kāi)工作,結(jié)合讀者的需求為其推送更有價(jià)值的文章。同時(shí)從根本上提高微信公眾號(hào)的專業(yè)性,以此發(fā)揮微信公眾號(hào)的作用。

參考文獻(xiàn)

[1] JiaweiHan, MichelinKamber, JianPei,et al.數(shù)據(jù)挖掘:概念與技術(shù)(第三版)[M].機(jī)械工業(yè)出版社, 2012.

[2] 胡可云,田鳳,董偉峰.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社, 2008.

[3] 王學(xué)鳴,黃秋波.微信公眾號(hào)的現(xiàn)狀、類型及發(fā)展趨勢(shì)研究[J].無(wú)線互聯(lián)科技,2018(05):60-61.

[4] 李平榮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報(bào),2014(03): 45-47.

[5] 黃楚新,王丹.微信公眾號(hào)的現(xiàn)狀、類型及發(fā)展趨勢(shì)[J].新聞與寫(xiě)作,2015(07): 5-9.

[6] 中國(guó)產(chǎn)業(yè)信息網(wǎng). 2017年中國(guó)微信公眾號(hào)發(fā)展現(xiàn)狀及發(fā)展趨勢(shì)分析【圖】[EB/OL]. http://www.chyxx.com/industry/201807/656197.html, 2018-07-06.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
主站蜘蛛池模板: 亚洲中文字幕在线观看| 国产成人综合欧美精品久久| 综合人妻久久一区二区精品 | 亚洲国产中文精品va在线播放 | 粉嫩国产白浆在线观看| 97精品伊人久久大香线蕉| 视频二区中文无码| 91无码视频在线观看| 亚洲精品色AV无码看| 国精品91人妻无码一区二区三区| 91福利在线看| 亚洲天堂精品视频| 久久免费观看视频| 国产精品视频第一专区| 精品视频一区二区三区在线播| 99久久人妻精品免费二区| 色天堂无毒不卡| 香蕉蕉亚亚洲aav综合| 91福利国产成人精品导航| 国产精品无码翘臀在线看纯欲| 国产无码精品在线播放 | 456亚洲人成高清在线| 欧美一级黄色影院| 自拍亚洲欧美精品| 国产精品亚洲专区一区| 91黄视频在线观看| 日韩二区三区无| 91丝袜美腿高跟国产极品老师| 午夜综合网| 欧美人在线一区二区三区| 午夜a级毛片| 干中文字幕| 国产精品污视频| 欧美性猛交一区二区三区| 澳门av无码| 中文一级毛片| 日韩在线永久免费播放| 全部无卡免费的毛片在线看| 亚洲黄网视频| 丰满人妻一区二区三区视频| 国产av剧情无码精品色午夜| 亚洲成人免费看| www.狠狠| 99久久国产综合精品2020| 国产jizz| 最新国产精品鲁鲁免费视频| 免费人成视网站在线不卡| 久久中文电影| 玖玖精品视频在线观看| 伊人久热这里只有精品视频99| 国产在线观看第二页| 美女被躁出白浆视频播放| 久久免费成人| 欧美日韩国产综合视频在线观看 | 性视频一区| 国产乱人伦偷精品视频AAA| 日韩欧美国产中文| 亚洲中文字幕无码mv| 亚洲国产清纯| 久久婷婷六月| 国产精品午夜电影| 久久亚洲国产最新网站| 亚洲成网777777国产精品| 成人国产精品2021| 97综合久久| 99资源在线| 91福利片| 无码AV高清毛片中国一级毛片| 亚洲欧洲日本在线| 欧美成人看片一区二区三区 | 啪啪啪亚洲无码| 国产欧美日韩综合一区在线播放| 一本大道香蕉高清久久| 国产一级做美女做受视频| 亚洲视频在线青青| 中文字幕第1页在线播| 国产精品手机在线观看你懂的| 国产精女同一区二区三区久| 国产成人无码Av在线播放无广告| 亚洲第一视频区| 国产欧美日韩资源在线观看| 人妻中文字幕无码久久一区|