999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

卷積神經(jīng)網(wǎng)絡(luò)CNN算法在文本分類上的應(yīng)用研究

2019-03-13 01:21:38侯小培
科技與創(chuàng)新 2019年4期
關(guān)鍵詞:分類深度特征

侯小培,高 迎

(首都經(jīng)濟(jì)貿(mào)易大學(xué),北京 100070)

隨著互聯(lián)網(wǎng)科學(xué)技術(shù)的發(fā)展,大量的信息涌現(xiàn)出來,用戶如何從海量的信息中高效準(zhǔn)確地獲取有價值信息變得難上加難。文本分類通過利用自然語言處理、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù)手段對不同類型的文本數(shù)據(jù)進(jìn)行信息分類,目前眾多學(xué)者主要研究的分類算法包括支持向量機(jī)、樸素貝葉斯、決策樹以及隨機(jī)森林等。這些方法在一定程度上提高了文本分類的準(zhǔn)確率,但是容易出現(xiàn)局部最優(yōu)問題,忽略了詞語之間、句子之間的關(guān)系。深度學(xué)習(xí)模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種深度監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,與傳統(tǒng)機(jī)器學(xué)習(xí)手動提取特征相比,CNN能夠自動提取局部特征,權(quán)值共享,相比于傳統(tǒng)機(jī)器學(xué)習(xí)算法文本分類效果更優(yōu)。

1 傳統(tǒng)機(jī)器學(xué)習(xí)分類方法介紹

文本分類技術(shù)是一種高效的信息檢索與數(shù)據(jù)挖掘信息技術(shù)。基于機(jī)器學(xué)習(xí)的分類方法通過學(xué)習(xí)給定的訓(xùn)練集,訓(xùn)練出分類模型,然后使用訓(xùn)練模型來進(jìn)行文本分類,傳統(tǒng)機(jī)器學(xué)習(xí)分類方法有:隨機(jī)森林(RF)、樸素貝葉斯(NB)、邏輯回歸(LR)以及支持向量機(jī)(SVM)等。

樸素貝葉斯法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法,基于假定:給定目標(biāo)值時屬性之間相互條件獨(dú)立。其優(yōu)勢在于所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感。

隨機(jī)森林是利用多棵樹對樣本訓(xùn)練并預(yù)測的分類器,輸出類別由個別樹輸出類別的眾數(shù)決定。分類過程多次將訓(xùn)練數(shù)據(jù)集分裂成兩個子集完成特征分裂,優(yōu)點(diǎn)是分類速度快。邏輯回歸是廣義線性回歸分析模型,用于處理因變量為分類變量的回歸問題,常見二分類或二項分布問題,二分類概率與自變量關(guān)系圖形多是S形曲線,也可處理多分類問題。

支持向量機(jī)是在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法,SVM模型是將實(shí)例表示為空間中的點(diǎn),映射就使得單獨(dú)類別的實(shí)例被盡可能寬的明顯的間隔分開,將新的實(shí)例映射到同一空間,并基于它們落在間隔的哪一側(cè)來預(yù)測所屬類別。

2 深度學(xué)習(xí)-卷積神經(jīng)網(wǎng)絡(luò)CNN

2.1 卷積神經(jīng)網(wǎng)絡(luò)介紹

卷積神經(jīng)網(wǎng)絡(luò)是近年發(fā)展起來的高效識別方法。20世紀(jì)60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效降低反饋神經(jīng)網(wǎng)絡(luò)復(fù)雜性,繼而提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱 CNN)。它是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,對于大型圖像處理有出色表現(xiàn),同樣也可以應(yīng)用在文本分類。

2.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)主要包括三層:卷積層、池化層、全連接+Softmax層。

2.2.1 卷積層

每層卷積層由若干卷積單元組成,每個卷積單元的參數(shù)都是通過反向傳播算法優(yōu)化得到的。卷積運(yùn)算的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級的特征如邊緣、線條和角等層級,更多層的網(wǎng)絡(luò)能從低級特征中迭代提取更復(fù)雜的特征。

2.2.2 池化層

池化層也稱下采樣(Down sampling),與之相對的是上采樣(Up sampling),主要用于特征降維,壓縮數(shù)據(jù)和參數(shù)的數(shù)量,減小過擬合,同時提高模型的容錯性和訓(xùn)練速度。采樣方式有兩種:①最大值采樣(Max Pooling);②均值采樣(Mean Pooling)。

2.2.3 全連接+Softmax層

經(jīng)過多層的卷積、池化操作后,將得到的特征圖依次按行展開,連接成向量,輸入全連接網(wǎng)絡(luò),通常采用Softmax邏輯回歸作為特征分類器。

2.3 卷積神經(jīng)網(wǎng)絡(luò)的特征

2.3.1 局部感知

指的是卷積層的節(jié)點(diǎn)僅僅和前一層的部分節(jié)點(diǎn)相連接,用來學(xué)習(xí)局部特征,這種連接的方式大幅減少了參數(shù)數(shù)量,加快學(xué)習(xí)效率,在一定程度上降低了過擬合的可能性。

2.3.2 空間排列

輸出單元的大小由以下三個量控制:①深度(depth)。控制輸出單元深度(filter個數(shù))和連接同一塊區(qū)域的神經(jīng)元個數(shù)。②步幅(stride)。控制在同一深度相鄰兩個隱含單元,與它們相連接的輸入?yún)^(qū)域的距離。③補(bǔ)零(zero-padding)。通過在輸入單元周圍補(bǔ)零來改變輸入單元整體大小,從而控制輸出單元的空間大小。

2.3.3 權(quán)值共享

同一深度的平面稱為深度切片,同一個切片共享同一組權(quán)重和偏置,重復(fù)單元既能夠?qū)μ卣鬟M(jìn)行識別,不考慮它在可視域中的位置,幫助神經(jīng)網(wǎng)絡(luò)對輸入保持空間不變性。

3 實(shí)證分析

3.1 實(shí)驗數(shù)據(jù)及環(huán)境配置

數(shù)據(jù)來自新浪新聞2011年歷史數(shù)據(jù)篩選過濾,訓(xùn)練包括10個分類:體育,財經(jīng),房產(chǎn),家居,教育,科技,時尚,時政,游戲,娛樂。訓(xùn)練集5 000×10條,測試集1 000×10條數(shù)據(jù)。

基于TensorFlow深度學(xué)習(xí)框架以及Sklearn工具包,安裝Numpy、Pandas等一系列科學(xué)計算相關(guān)庫,采用Python環(huán)境進(jìn)行調(diào)試。

文本分類一般由三個步驟組成:文本預(yù)處理、文本分類模型和常用基準(zhǔn)語料評估。

3.2 評價指標(biāo)

評測標(biāo)準(zhǔn)采用文本分類的準(zhǔn)確率為指標(biāo),公式為:準(zhǔn)確率=分類正確的文檔/文檔的總數(shù)。

3.3 實(shí)驗結(jié)果

本文構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò)CNN文本分類模型,同時采用同一新聞數(shù)據(jù)語料對比4種傳統(tǒng)機(jī)器學(xué)習(xí)分類方法:隨機(jī)森林(RF)、樸素貝葉斯(NB)、邏輯回歸(LR)以及支持向量機(jī)(SVM)。實(shí)驗結(jié)果中4種傳統(tǒng)機(jī)器學(xué)習(xí)分類方法中線性SVM準(zhǔn)確率最高達(dá)到82.9%,而深度學(xué)習(xí)方法卷積神經(jīng)網(wǎng)絡(luò)算法CNN準(zhǔn)確率達(dá)到了88%,深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)算法CNN分類效果明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。結(jié)果對比圖如圖1所示。

圖1 結(jié)果對比圖

4 結(jié)束語

本文利用空間向量模型從文本信息中得到中文詞的詞向量,作為文本的特征表達(dá),以向量作為分類模型的輸入特征,采用深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)CNN進(jìn)行文本分類訓(xùn)練,結(jié)果表明CNN文本分類準(zhǔn)確率明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)分類方法,CNN算法的局部特征迭代學(xué)習(xí),使特征表達(dá)更加豐富,從而使文本分類效果得到一定程度的提升,高效、準(zhǔn)確的信息分類有助于實(shí)現(xiàn)新聞有序化、對新聞進(jìn)行挖掘,對于引導(dǎo)決策具有很大的研究意義。

猜你喜歡
分類深度特征
分類算一算
深度理解一元一次方程
如何表達(dá)“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
深度觀察
深度觀察
深度觀察
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 最新日韩AV网址在线观看| 韩国v欧美v亚洲v日本v| 国产微拍精品| 国产精品女同一区三区五区| 波多野结衣中文字幕一区| 午夜日b视频| 久久狠狠色噜噜狠狠狠狠97视色| 久久香蕉国产线看观看式| 精久久久久无码区中文字幕| 国产精品手机在线播放| 国产精品自拍合集| 再看日本中文字幕在线观看| 国产全黄a一级毛片| 亚洲国产日韩一区| 91视频区| 免费观看国产小粉嫩喷水| 五月天综合网亚洲综合天堂网| 国产精品va免费视频| 日韩欧美国产三级| 欧美在线导航| 19国产精品麻豆免费观看| 五月天久久婷婷| 亚洲毛片在线看| 40岁成熟女人牲交片免费| 中文字幕天无码久久精品视频免费| 免费看美女毛片| 狠狠做深爱婷婷久久一区| 国产真实乱子伦精品视手机观看| 国产亚洲视频免费播放| jizz在线免费播放| 国产精品永久不卡免费视频| 91毛片网| 日韩一二三区视频精品| 午夜在线不卡| 亚洲av综合网| 国产精品专区第一页在线观看| 中文字幕亚洲综久久2021| 中文字幕无码制服中字| 色国产视频| 亚洲欧洲日韩综合色天使| 国产真实二区一区在线亚洲| 免费一级α片在线观看| 91视频区| 制服丝袜一区| 欧美午夜在线播放| 午夜国产精品视频| 欧美丝袜高跟鞋一区二区| 色窝窝免费一区二区三区| 一级毛片基地| 亚洲日韩AV无码精品| 91视频精品| 播五月综合| 国产色爱av资源综合区| 午夜精品久久久久久久2023| 久久国产精品影院| 国产在线一区视频| 久久a毛片| 色哟哟国产精品| 国产精女同一区二区三区久| 亚洲无码四虎黄色网站| 亚洲天堂区| 亚洲无码四虎黄色网站| 色精品视频| 亚洲69视频| 无码 在线 在线| 亚洲国产中文综合专区在| 色精品视频| 国产成人区在线观看视频| 呦视频在线一区二区三区| 久久亚洲精少妇毛片午夜无码| 中文字幕在线观看日本| 亚洲成人黄色网址| 国产全黄a一级毛片| 高清亚洲欧美在线看| 91在线播放免费不卡无毒| 日韩小视频网站hq| 不卡视频国产| 一级香蕉视频在线观看| 亚洲欧美日韩中文字幕在线一区| 国产精品第三页在线看| 日日拍夜夜操| 国产福利免费视频|