999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于信息論的文本數(shù)據(jù)挖掘算法

2017-07-05 17:10:45方玉峰
電子技術(shù)與軟件工程 2017年12期
關(guān)鍵詞:數(shù)據(jù)挖掘

方玉峰

摘 要隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和應(yīng)用,很多領(lǐng)域已經(jīng)積累了海量數(shù)據(jù)資源,文本數(shù)據(jù)占據(jù)了85.6%,因此文本數(shù)據(jù)挖掘和分析成為人們研究的熱點,并且引起了百度、Google、京東、騰訊等互聯(lián)網(wǎng)公司關(guān)注。可以在文本數(shù)據(jù)挖掘中引入支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)、K均值算法,但是這些算法需要依賴經(jīng)驗知識,不能夠從多維度挖掘文本數(shù)據(jù)。因此,為了解決上述問題,本文提出構(gòu)建一種基于信息論的文本數(shù)據(jù)挖掘算法,該算法可以從海量文本數(shù)據(jù)集中發(fā)現(xiàn)潛在的有價值的信息,提高文本分類的準(zhǔn)確度。

【關(guān)鍵詞】信息論 文本數(shù)據(jù) 數(shù)據(jù)挖掘 準(zhǔn)確度

1 引言

文本數(shù)據(jù)挖掘包括兩個大類別,一種是有監(jiān)督學(xué)習(xí)方法,比如BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、貝葉斯理論;一種是無監(jiān)督學(xué)習(xí)方法,比如譜聚類、密度聚類、K均值、信息論等方法。有監(jiān)督文本數(shù)據(jù)挖掘方法需要利用人們的經(jīng)驗,預(yù)先構(gòu)建一個分析模型,然后盡可能地提高這個學(xué)習(xí)模型的準(zhǔn)確性,從而保證文本數(shù)據(jù)挖掘的精確度;無監(jiān)督學(xué)習(xí)方法卻不需要任何先驗知識,系統(tǒng)自動地將文本數(shù)據(jù)按照不同的關(guān)注角度進(jìn)行分類。

2 文本數(shù)據(jù)處理發(fā)展現(xiàn)狀

文本數(shù)據(jù)處理自從誕生之后,從簡單的人工標(biāo)注發(fā)展到當(dāng)前的自動挖掘,文本數(shù)據(jù)挖掘取得了顯著的應(yīng)用成效。本文結(jié)合筆者實踐知識,簡要介紹BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、K均值三種具有代表性的文本數(shù)據(jù)挖掘算法。BP神經(jīng)網(wǎng)絡(luò)能夠按照統(tǒng)計學(xué)規(guī)則,實現(xiàn)文本數(shù)據(jù)處理,輸入層可以接收所有數(shù)據(jù),并且將這些數(shù)據(jù)傳輸給中間層的神經(jīng)元,神經(jīng)元負(fù)責(zé)數(shù)據(jù)信息處理、變換,并且能夠根據(jù)信息變化能力的需求,改變和整合中間層結(jié)構(gòu)。文本數(shù)據(jù)流經(jīng)過識別和處理之后,就可以從中間層分發(fā)到輸出層,這樣就可以完成一次學(xué)習(xí)過程,將BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為一個準(zhǔn)確度非常高的模型,還可以通過誤差梯度下降等修正各個層次的權(quán)值,向隱藏層逐級反饋,實現(xiàn)反向傳播和修正,提高文本數(shù)據(jù)識別精確度。支持向量機(jī)是一種基于統(tǒng)計學(xué)習(xí)理論的模式識別算法,是一個二類分類模型,在文本數(shù)據(jù)分析過程中,可以將文本數(shù)據(jù)劃分為正常數(shù)據(jù)或非法數(shù)據(jù),并且可以對文本數(shù)據(jù)進(jìn)行深度分析。支持向量機(jī)是一種性能強(qiáng)大的文本數(shù)據(jù)分析技術(shù),其可以解決樣本數(shù)量較少、非線性或高維模式數(shù)據(jù)分析的問題,比如推廣到函數(shù)擬合的其他類型數(shù)據(jù)分析問題中,可以更好地分析數(shù)據(jù)、識別模式,用于分類和回歸分析。K均值(K-means)算法是一種基于距離的聚類算法,其可以把距離作為相似性評價和度量指標(biāo),采用無監(jiān)督學(xué)習(xí)模式,通常兩個文本數(shù)據(jù)對象的距離越近,這兩個文本數(shù)據(jù)對象的相似性就會越高,不需要指定數(shù)據(jù)的類別標(biāo)簽就可以獲取文本內(nèi)部結(jié)構(gòu),將文本數(shù)據(jù)匯聚在一起,實現(xiàn)數(shù)據(jù)解釋。

3 一種基于信息論的文本數(shù)據(jù)挖掘算法設(shè)計

在信息論中,熵是最基本的概念之一,熵可以用來度量隨機(jī)變量中的各種不確定性,服從p(x)分布的離散隨機(jī)變量X的熵H(X)的計算過程如公式1所示。

(1)

互信息可以描述任意兩個概率分布之間的信息量,假設(shè)給定了任意兩個隨機(jī)變量(X,Y)服從概率分布p(x,y),同時變量X的邊緣概率分布p(x)=∑Y p(x,y),變量Y的邊緣概率分布p(y)=∑X p(x,y),則隨機(jī)變量X和隨機(jī)變量Y之間包含的互信息如公式2所示。

(2)

其中,如果隨機(jī)變量X和隨機(jī)變量Y之間是相互獨立的,則兩個隨機(jī)變量之間的互信息I(X;Y)=0。

在使用文本數(shù)據(jù)挖掘算法的過程中,可以使用變量X描述文本數(shù)據(jù)對象集合,x可以具體指代某一篇文檔;使用變量Y描述單詞特征變量集合,y可以具體指代某一篇文檔的單詞特征。基于互信息的文本信息處理算法從X和Y兩個方向開始聚類,詳細(xì)描述如下:

從X方向挖掘文本數(shù)據(jù)過程中,可以將Y作為相關(guān)信息;從Y方向挖掘特征數(shù)據(jù)過程中,可以將X作為相關(guān)信息;X和Y在聚類過程中都是動態(tài)地減少,如果將所有的文本數(shù)據(jù)劃分為多層聚類模式,就可以更加準(zhǔn)確地挖掘數(shù)據(jù)內(nèi)容,實現(xiàn)對數(shù)據(jù)的操作和處理。具體地,為了能夠度量文本數(shù)據(jù)挖掘的內(nèi)容,可以把互信息作為信息保存的量進(jìn)行設(shè)置,如果互信息損失達(dá)到閾值,則可以停止算法執(zhí)行。

為了能夠驗證本文算法的有效性,采用Lang收集2000篇信息文檔進(jìn)行實驗,分為9個子數(shù)據(jù)集,每一個文本數(shù)據(jù)集包含了500篇文檔,Binary_1,2,3表示擁有兩個真實類別的文檔數(shù)據(jù)集;Multi5_1,2,3可以描述擁有五個真實類別文檔數(shù)據(jù)集;Multi10_1,2,3可以描述擁有十個真實類別文檔數(shù)據(jù)集。通常情況下,文本數(shù)據(jù)挖掘采用精確度作為評價算法運行結(jié)果的標(biāo)準(zhǔn),算法運行結(jié)果精確度評價公示如公式3所示。

(3)

其中,t∈T,其可以描述相關(guān)的數(shù)據(jù)對象;c∈C,其可以描述相關(guān)的類別號或簇標(biāo)號;A1(c,T)可以描述相關(guān)的已經(jīng)正確分配到c中的文檔或元組的數(shù)量;A2(c,T)可以描述相關(guān)的算法不正確的分配到c中的文檔或元組的數(shù)量;A3(c,T)可以描述相關(guān)的不正確的沒有分配到c中的文檔或元組的數(shù)量。

4 結(jié)束語

實驗結(jié)果顯示,本文提出的基于信息論的文本數(shù)據(jù)挖掘算法可以精準(zhǔn)發(fā)現(xiàn)文檔類別,文本數(shù)據(jù)挖掘精確度達(dá)到了96.7%,能夠根據(jù)用戶的輸入請求推薦更加準(zhǔn)確地挖掘結(jié)果,可以為百度搜索、搜狗、騰訊、京東等網(wǎng)站的搜索引擎提供服務(wù),具有重要的作用和意義。

參考文獻(xiàn)

[1]黃蓉.基于聚類分析的數(shù)據(jù)挖掘方法研究[J].山東農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),2017,48(01).

[2]張軍,劉文杰.一種新的基于鄰居樣本分布特征的異常值檢測算法研究[J].科技通報,2017(01):86-88.

[3]尹治華,張大鵬,譚明,等.一種改進(jìn)的基于FP-Tree的高效挖掘最大頻繁項目集算法[J].濟(jì)南大學(xué)學(xué)報:自然科學(xué)版,2017,31(02).

作者單位

云南科技信息職業(yè)學(xué)院 云南省昆明市 650224

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 国产无吗一区二区三区在线欢| 任我操在线视频| 蜜臀AVWWW国产天堂| 久久综合色视频| 福利片91| 97在线免费| 国产成人高精品免费视频| 亚洲首页国产精品丝袜| 国产精品久久久久婷婷五月| 国产色婷婷视频在线观看| 亚洲天堂精品在线| 在线毛片网站| 五月激情婷婷综合| 热re99久久精品国99热| 亚洲人成网站日本片| 成人中文在线| 国产精品白浆在线播放| 国产精品第一区| 日韩欧美视频第一区在线观看| 久久semm亚洲国产| 午夜一区二区三区| 欧美精品1区2区| 91福利一区二区三区| 亚洲成人77777| 2021国产精品自产拍在线观看| 国产色伊人| 亚洲欧洲日产国码无码av喷潮| 国产精品午夜电影| 免费又爽又刺激高潮网址 | 98超碰在线观看| 91人妻在线视频| 国产主播在线观看| 欧美成人精品一区二区| 亚洲精品午夜天堂网页| 亚洲欧美另类日本| 国产网站一区二区三区| 四虎影视无码永久免费观看| 国产高潮视频在线观看| 午夜精品区| 狠狠色婷婷丁香综合久久韩国| 手机精品视频在线观看免费| 久热99这里只有精品视频6| 久久窝窝国产精品午夜看片| 亚洲色大成网站www国产| 美女无遮挡免费视频网站| 日韩午夜伦| 国产视频久久久久| 国产精品永久在线| 国产免费怡红院视频| 亚洲av无码人妻| 91在线高清视频| 欧美黄网站免费观看| 一级毛片在线播放免费| 在线综合亚洲欧美网站| 久久精品无码一区二区日韩免费| 国产在线自乱拍播放| 国产美女在线观看| V一区无码内射国产| 亚洲中文精品久久久久久不卡| 精品久久久久久成人AV| 久久国产黑丝袜视频| a级毛片毛片免费观看久潮| 亚洲欧美日本国产综合在线 | 午夜福利在线观看成人| 91热爆在线| 超碰免费91| 国产日韩欧美精品区性色| 欧美午夜精品| 中文纯内无码H| 欧美成人日韩| 亚洲中文制服丝袜欧美精品| 亚洲不卡影院| 国产一在线观看| 亚洲一本大道在线| 国产丝袜第一页| 狂欢视频在线观看不卡| 亚洲天堂色色人体| 在线欧美国产| 四虎精品国产AV二区| 熟妇无码人妻| 久久精品丝袜| 欧美黑人欧美精品刺激|