999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義文本挖掘算法優(yōu)化研究

2018-03-30 11:58:18劉建君
山東工業(yè)技術(shù) 2018年7期
關(guān)鍵詞:分類文本優(yōu)化

摘 要:本文介紹了語義文本挖掘的相關(guān)理論及學(xué)術(shù)概念,闡述了文本挖掘過程及貝葉斯算法等概念,針對(duì)文本算法“貝葉斯算法”在文本分類領(lǐng)域的應(yīng)用算法進(jìn)行了優(yōu)化并通過對(duì)newsgroup文檔集進(jìn)行了實(shí)驗(yàn)而給出了優(yōu)化結(jié)果。探索了對(duì)樸素貝葉斯算法的優(yōu)化。

關(guān)鍵詞:文本挖掘;貝葉斯算法、特征詞、文本分類、newsgroup文檔集;優(yōu)化

DOI:10.16640/j.cnki.37-1222/t.2018.07.222

1 研究背景

伴隨著信息技術(shù)的飛速發(fā)展,在人類的生活中,通信、網(wǎng)絡(luò)和計(jì)算機(jī)相關(guān)技術(shù)可以說是已經(jīng)無處不在,大量的“信息”通過電子文本形式存儲(chǔ),而且數(shù)量急劇增長(zhǎng);新聞、用戶評(píng)論、電子郵件等等,這些都是以電子文本的形式存儲(chǔ)在網(wǎng)絡(luò),但是面對(duì)如此龐大的信息量,通常人們需要的僅僅只是其中的一小部分,那么如何從海量的電子文本中挖掘出自己感興趣或者說是有價(jià)值的信息,這是我們所面臨的嚴(yán)重挑戰(zhàn)。文本玩家技術(shù)就是為處理這類問題而誕生的一種重要的信息處理技術(shù),文本挖掘技術(shù)是從文本中識(shí)別有效信息的一個(gè)過程。而文本挖掘又包含:文本分類,文本挖掘,文本聚類分析等多個(gè)方向。而文本挖掘是指從海量的電子文本數(shù)據(jù)中分離抽取出事先不知,可理解,而最終可用的知識(shí)的過程,而運(yùn)用這些知識(shí)可以更好的組織信息幫助人們進(jìn)行預(yù)測(cè)或判斷以及計(jì)劃調(diào)整與優(yōu)化。

2 研究現(xiàn)狀

文本挖掘在國(guó)外的研究開展較早,50年代,H.P.Luhn在文本挖掘領(lǐng)域進(jìn)行了開創(chuàng)性的研究,他提出了詞頻統(tǒng)計(jì)以及自動(dòng)分類。眾多學(xué)者在這一領(lǐng)域進(jìn)行了研究工作。而研究的范圍主要有文本挖掘模型、文本特征提取、文本挖掘算法、文本挖掘工具等。

我國(guó)引入文本挖掘概念并開展中文的文本挖掘只是從最近幾年才開始的。目前我國(guó)文本挖掘研究還處于對(duì)國(guó)外相關(guān)理論和技術(shù)的實(shí)驗(yàn)和論證階段,文本挖掘理論實(shí)際應(yīng)用和適合中文的文本挖掘技術(shù)及算法研究都處于初步階段。目前還沒有形成完整的或成體系的適合針對(duì)中文信息處理的文本挖掘理論與技術(shù)框架。

3 文本挖掘

文本挖掘包含三個(gè)過程:文本預(yù)處理、特征信息提取以及數(shù)據(jù)挖掘。

(1)文本預(yù)處理。文本信息資源最初是各種不同來源的原始數(shù)據(jù)類型,而需要對(duì)原始數(shù)據(jù)進(jìn)行過濾和鑒別。根據(jù)數(shù)據(jù)來源的不同幾數(shù)據(jù)類型的特征,可以分為:結(jié)構(gòu)化信息數(shù)據(jù)和非結(jié)構(gòu)化信息數(shù)據(jù)。數(shù)據(jù)過濾需要對(duì)不同類型的數(shù)據(jù)提供不同的文本過濾方案。結(jié)構(gòu)化信息需要通過預(yù)處理,將不同形式的文本資源轉(zhuǎn)換成新的相同(或相似)的形式;而對(duì)于非結(jié)構(gòu)化穩(wěn)定,則需要通過文本預(yù)處理將非結(jié)構(gòu)化信息文本轉(zhuǎn)化為可以通過算法分析的形式,轉(zhuǎn)化為能夠進(jìn)行特征信息提取的文本格式。

(2)特征信息提取。特征信息提取是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成能夠在數(shù)據(jù)庫(kù)中存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),作為下一步文本挖掘處理的數(shù)據(jù)輸入。特征提取主要是識(shí)別出文本中有特點(diǎn)業(yè)務(wù)價(jià)值特征的詞。天氣的特征詞多數(shù)是信息文本中表示的概念,而這些概念包含了重要的業(yè)務(wù)信息,因此在做信息提取前就需要根據(jù)實(shí)際的業(yè)務(wù)識(shí)別出那些信息是需要被提取以及對(duì)于的提取策略。

(3)數(shù)據(jù)挖掘。通過預(yù)處理幾信息提取后,就可以對(duì)文本進(jìn)行挖掘分析了,而常用的挖掘分析技術(shù)有:文本結(jié)構(gòu)分析、文本分類、文本聚類以及文本關(guān)聯(lián)分析、趨勢(shì)預(yù)測(cè)等等。

4 基于文本分類應(yīng)用的貝葉斯算法的優(yōu)化

(1)文本分類。文本分類是利用計(jì)算機(jī)技術(shù)對(duì)文本信息按照特定的業(yè)務(wù)分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記。屬于一種分類體系的自動(dòng)分類,是樸素貝葉斯分類方法。

(2)貝葉斯算法優(yōu)化應(yīng)用。貝葉斯算法主要關(guān)注穩(wěn)定類別歸屬的概率。文本的類別歸屬概率=每個(gè)分類詞屬于對(duì)于類別的概率的綜合表達(dá)式。我們可以用這個(gè)詞在對(duì)應(yīng)分類文本中出現(xiàn)的次數(shù)來粗略統(tǒng)計(jì),這就體現(xiàn)了詞頻統(tǒng)計(jì)的計(jì)算成為可行。

樸素貝葉斯算法公式有很多。首先要計(jì)算分類樣本中每個(gè)統(tǒng)計(jì)原始的先驗(yàn)概率,然后需要計(jì)算出單個(gè)文本對(duì)于每個(gè)分類的概率,而其中概率值最高的分類才會(huì)被作為有效分類被收納。

(3)樸素貝葉斯算法對(duì)newsgroup文檔集做分類的結(jié)果。1)取newsgroup文檔中所有的特征詞(87554個(gè))通過交叉實(shí)驗(yàn)驗(yàn)證,可以看到平均的準(zhǔn)確率為0.7819,而需要23分鐘,準(zhǔn)確率的范圍為0.7565-0.8047。2)取newsgroup文檔中詞頻次數(shù)4次以上的特征詞(30095個(gè))通過交叉實(shí)現(xiàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果:評(píng)價(jià)準(zhǔn)確率為0.7791,而用時(shí)為22分鐘,準(zhǔn)確率范圍為0.7551-0.8026。

通過比較可以得知,樸素貝葉斯算法在實(shí)際的應(yīng)用過程中,詞頻的低的詞并沒有必要去除,因?yàn)樵~頻低的詞去除后會(huì)使分類統(tǒng)計(jì)的準(zhǔn)確率下降,但是又沒有明顯的縮短計(jì)算周期。通過多次的實(shí)驗(yàn),通過類條件概率優(yōu)化算法提升貝葉斯算法的分類準(zhǔn)確率:

類條件概率P(特征詞|分類)=(分類下特征詞在訓(xùn)練文檔集中出現(xiàn)的次數(shù)總和+0.001)/(分類特征詞總數(shù)+訓(xùn)練文檔集中不重復(fù)特征詞總數(shù)),分子當(dāng)特征詞沒有出現(xiàn)時(shí),只加0.001通過優(yōu)化,可以更為準(zhǔn)確的計(jì)算特征詞的分布規(guī)律,平均準(zhǔn)確率由原來的0.7791提升到0.8223,總體的優(yōu)化效果較為明顯。

5 結(jié)論

在分類方法中,不同分類都有各自不同的優(yōu)缺點(diǎn),而貝葉斯算法是基于概率分類統(tǒng)計(jì)的算法,特征詞詞頻越高,則代表該特征詞越具有業(yè)務(wù)價(jià)值,而在實(shí)際的文本分類應(yīng)用中,還是存在小概率情況的,有些特征詞雖然出現(xiàn)的頻率不高,但可能是更能體現(xiàn)信息類別特點(diǎn),但是這類詞出現(xiàn)的頻率不高,對(duì)于這類詞的通過貝葉斯概率計(jì)算就可能會(huì)被忽略,所以在該算法的應(yīng)用還需要通過更多的優(yōu)化或結(jié)合其他算法進(jìn)行綜合應(yīng)用才能逐漸提高文本分類的實(shí)際準(zhǔn)確性。

參考文獻(xiàn):

[1]傅京孫.模式識(shí)別應(yīng)用[M].北京:北京大學(xué)出版社,1990.

[2]魯宋,李曉黎,白碩.文檔中詞語權(quán)重計(jì)算方法的改進(jìn)[J].中文信息學(xué)報(bào),2000(146):6-13.

[3]張敏,耿煥同,王煦法.一種利用BC方法的關(guān)鍵詞自動(dòng)提取算法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2007(06):189-192.

[4]劉華.基于文本分類中特征提取的領(lǐng)域詞語聚類[J].語言文字應(yīng)用,2007(01):139-144.

[5]方清華.信息檢索加權(quán)理論與技術(shù):基于VSM模型的分析[J].情報(bào)雜志,2008(06):73-76.

作者簡(jiǎn)介:劉建君(1990-),男,江西吉安人,學(xué)士。

猜你喜歡
分類文本優(yōu)化
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
分類算一算
一道優(yōu)化題的幾何解法
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 亚洲AⅤ综合在线欧美一区| 国产精品久久精品| 日韩成人午夜| 亚洲中文字幕国产av| 国产欧美在线观看一区| 2021国产精品自拍| 欧美国产在线一区| 日本黄色不卡视频| 久久久噜噜噜| 香蕉网久久| 亚洲首页在线观看| 色婷婷在线影院| 午夜视频www| 亚洲av色吊丝无码| 美女高潮全身流白浆福利区| 小说区 亚洲 自拍 另类| 台湾AV国片精品女同性| 国内精品免费| 久久91精品牛牛| 精品一区二区三区自慰喷水| 国产网站在线看| 啪啪国产视频| 日本免费福利视频| 99视频免费观看| 19国产精品麻豆免费观看| 在线免费观看AV| 亚洲精品自产拍在线观看APP| 成人另类稀缺在线观看| 高清不卡毛片| 欧美专区日韩专区| 久久夜色撩人精品国产| 久久久久无码精品国产免费| 精品久久人人爽人人玩人人妻| 欧美一级在线看| 无码国产伊人| a免费毛片在线播放| 亚洲天堂区| 久久精品国产亚洲AV忘忧草18| 69视频国产| 2021最新国产精品网站| 国产成人亚洲精品蜜芽影院| 久久精品视频一| 97在线碰| 亚洲欧洲一区二区三区| 九九九精品成人免费视频7| 狠狠亚洲五月天| 亚洲无码熟妇人妻AV在线| 日本少妇又色又爽又高潮| 一区二区三区四区在线| 国产成人亚洲日韩欧美电影| 国产91丝袜在线播放动漫| 毛片免费在线视频| 精品撒尿视频一区二区三区| 97国产精品视频自在拍| 国产精品黑色丝袜的老师| 蜜芽一区二区国产精品| 欧亚日韩Av| 99热这里只有精品5| 亚洲精品国产成人7777| 中文字幕va| 欧美精品黑人粗大| 亚洲 成人国产| 国产aaaaa一级毛片| 视频在线观看一区二区| 国产成人精品日本亚洲| 亚洲天堂视频在线播放| 色综合久久88| 国产一区成人| 97av视频在线观看| 毛片免费观看视频| 亚洲激情区| 熟女视频91| 免费国产福利| 欧美亚洲国产精品第一页| 九色在线观看视频| 色男人的天堂久久综合| 免费jizz在线播放| 精品伊人久久久久7777人| 97无码免费人妻超级碰碰碰| 婷婷激情五月网| 亚洲女人在线| 国产一级做美女做受视频|