999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

卷積神經網絡CNN算法在文本分類上的應用研究

2019-03-13 01:21:38侯小培
科技與創新 2019年4期
關鍵詞:分類深度特征

侯小培,高 迎

(首都經濟貿易大學,北京 100070)

隨著互聯網科學技術的發展,大量的信息涌現出來,用戶如何從海量的信息中高效準確地獲取有價值信息變得難上加難。文本分類通過利用自然語言處理、數據挖掘和機器學習等技術手段對不同類型的文本數據進行信息分類,目前眾多學者主要研究的分類算法包括支持向量機、樸素貝葉斯、決策樹以及隨機森林等。這些方法在一定程度上提高了文本分類的準確率,但是容易出現局部最優問題,忽略了詞語之間、句子之間的關系。深度學習模型卷積神經網絡(CNN)是一種深度監督學習下的機器學習模型,與傳統機器學習手動提取特征相比,CNN能夠自動提取局部特征,權值共享,相比于傳統機器學習算法文本分類效果更優。

1 傳統機器學習分類方法介紹

文本分類技術是一種高效的信息檢索與數據挖掘信息技術。基于機器學習的分類方法通過學習給定的訓練集,訓練出分類模型,然后使用訓練模型來進行文本分類,傳統機器學習分類方法有:隨機森林(RF)、樸素貝葉斯(NB)、邏輯回歸(LR)以及支持向量機(SVM)等。

樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法,基于假定:給定目標值時屬性之間相互條件獨立。其優勢在于所需估計的參數很少,對缺失數據不太敏感。

隨機森林是利用多棵樹對樣本訓練并預測的分類器,輸出類別由個別樹輸出類別的眾數決定。分類過程多次將訓練數據集分裂成兩個子集完成特征分裂,優點是分類速度快。邏輯回歸是廣義線性回歸分析模型,用于處理因變量為分類變量的回歸問題,常見二分類或二項分布問題,二分類概率與自變量關系圖形多是S形曲線,也可處理多分類問題。

支持向量機是在分類與回歸分析中分析數據的監督式學習模型與相關的學習算法,SVM模型是將實例表示為空間中的點,映射就使得單獨類別的實例被盡可能寬的明顯的間隔分開,將新的實例映射到同一空間,并基于它們落在間隔的哪一側來預測所屬類別。

2 深度學習-卷積神經網絡CNN

2.1 卷積神經網絡介紹

卷積神經網絡是近年發展起來的高效識別方法。20世紀60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經元時發現其獨特的網絡結構可以有效降低反饋神經網絡復雜性,繼而提出了卷積神經網絡(Convolutional Neural Networks,簡稱 CNN)。它是一類包含卷積計算且具有深度結構的前饋神經網絡,它的人工神經元可以響應一部分覆蓋范圍內的周圍單元,對于大型圖像處理有出色表現,同樣也可以應用在文本分類。

2.2 卷積神經網絡結構

卷積神經網絡主要包括三層:卷積層、池化層、全連接+Softmax層。

2.2.1 卷積層

每層卷積層由若干卷積單元組成,每個卷積單元的參數都是通過反向傳播算法優化得到的。卷積運算的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級的特征如邊緣、線條和角等層級,更多層的網絡能從低級特征中迭代提取更復雜的特征。

2.2.2 池化層

池化層也稱下采樣(Down sampling),與之相對的是上采樣(Up sampling),主要用于特征降維,壓縮數據和參數的數量,減小過擬合,同時提高模型的容錯性和訓練速度。采樣方式有兩種:①最大值采樣(Max Pooling);②均值采樣(Mean Pooling)。

2.2.3 全連接+Softmax層

經過多層的卷積、池化操作后,將得到的特征圖依次按行展開,連接成向量,輸入全連接網絡,通常采用Softmax邏輯回歸作為特征分類器。

2.3 卷積神經網絡的特征

2.3.1 局部感知

指的是卷積層的節點僅僅和前一層的部分節點相連接,用來學習局部特征,這種連接的方式大幅減少了參數數量,加快學習效率,在一定程度上降低了過擬合的可能性。

2.3.2 空間排列

輸出單元的大小由以下三個量控制:①深度(depth)。控制輸出單元深度(filter個數)和連接同一塊區域的神經元個數。②步幅(stride)。控制在同一深度相鄰兩個隱含單元,與它們相連接的輸入區域的距離。③補零(zero-padding)。通過在輸入單元周圍補零來改變輸入單元整體大小,從而控制輸出單元的空間大小。

2.3.3 權值共享

同一深度的平面稱為深度切片,同一個切片共享同一組權重和偏置,重復單元既能夠對特征進行識別,不考慮它在可視域中的位置,幫助神經網絡對輸入保持空間不變性。

3 實證分析

3.1 實驗數據及環境配置

數據來自新浪新聞2011年歷史數據篩選過濾,訓練包括10個分類:體育,財經,房產,家居,教育,科技,時尚,時政,游戲,娛樂。訓練集5 000×10條,測試集1 000×10條數據。

基于TensorFlow深度學習框架以及Sklearn工具包,安裝Numpy、Pandas等一系列科學計算相關庫,采用Python環境進行調試。

文本分類一般由三個步驟組成:文本預處理、文本分類模型和常用基準語料評估。

3.2 評價指標

評測標準采用文本分類的準確率為指標,公式為:準確率=分類正確的文檔/文檔的總數。

3.3 實驗結果

本文構建了卷積神經網絡CNN文本分類模型,同時采用同一新聞數據語料對比4種傳統機器學習分類方法:隨機森林(RF)、樸素貝葉斯(NB)、邏輯回歸(LR)以及支持向量機(SVM)。實驗結果中4種傳統機器學習分類方法中線性SVM準確率最高達到82.9%,而深度學習方法卷積神經網絡算法CNN準確率達到了88%,深度學習卷積神經網絡算法CNN分類效果明顯優于傳統機器學習算法。結果對比圖如圖1所示。

圖1 結果對比圖

4 結束語

本文利用空間向量模型從文本信息中得到中文詞的詞向量,作為文本的特征表達,以向量作為分類模型的輸入特征,采用深度學習卷積神經網絡CNN進行文本分類訓練,結果表明CNN文本分類準確率明顯優于傳統機器學習分類方法,CNN算法的局部特征迭代學習,使特征表達更加豐富,從而使文本分類效果得到一定程度的提升,高效、準確的信息分類有助于實現新聞有序化、對新聞進行挖掘,對于引導決策具有很大的研究意義。

猜你喜歡
分類深度特征
分類算一算
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 成人午夜免费观看| 91精品人妻一区二区| 永久在线播放| 久久精品中文字幕免费| 日韩欧美中文字幕一本| 国产一区二区精品福利| 亚洲不卡网| 青青久视频| 精品国产香蕉伊思人在线| 亚洲欧美人成电影在线观看| 毛片网站在线看| 久久精品无码一区二区国产区| 久久久久免费看成人影片 | 2021国产v亚洲v天堂无码| 精品久久久久久中文字幕女| 国产粉嫩粉嫩的18在线播放91| 国产高潮视频在线观看| 亚洲综合色区在线播放2019| 日韩福利视频导航| 五月天天天色| 国产a在视频线精品视频下载| 国产欧美日韩另类精彩视频| 欧美日韩国产精品综合| 国产精品毛片一区| 国产永久在线视频| 欧美a在线看| 91在线丝袜| 国产av一码二码三码无码| 亚洲国产精品无码AV| 人妻中文久热无码丝袜| 精品91视频| 国模视频一区二区| 亚洲综合中文字幕国产精品欧美| 国产麻豆va精品视频| 欧美精品1区2区| 尤物特级无码毛片免费| 午夜免费小视频| 日韩av资源在线| aⅴ免费在线观看| 久久久国产精品免费视频| 国产区人妖精品人妖精品视频| 日韩av手机在线| 国产91视频免费观看| 国产在线拍偷自揄拍精品| 国产综合另类小说色区色噜噜 | 欧美福利在线播放| www.亚洲国产| 亚洲三级电影在线播放| 国产精品免费露脸视频| 欧美一级大片在线观看| 亚洲成人在线免费观看| 久久国产精品国产自线拍| 国产丝袜无码精品| 亚洲国产精品美女| 欧美国产在线看| 波多野结衣爽到高潮漏水大喷| 国产成人综合网| 久久黄色小视频| 欧美亚洲一区二区三区导航| 亚洲男人天堂2018| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 色老二精品视频在线观看| 99久久人妻精品免费二区| 亚洲动漫h| 精品人妻一区无码视频| 青青青视频免费一区二区| 在线观看国产精品日本不卡网| 国产欧美日韩另类| 国产91高清视频| 亚洲午夜片| 在线观看国产黄色| 国产精品一区在线麻豆| 囯产av无码片毛片一级| 久久久久国产一级毛片高清板| 97视频精品全国免费观看| 国产真实乱子伦视频播放| 美女被狂躁www在线观看| 欧美一区二区自偷自拍视频| 色综合国产| 亚洲最新网址| 国产国模一区二区三区四区| 亚洲精品国产精品乱码不卞 |