999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的開放存取資源分類研究

2019-08-23 10:41:42
數(shù)字通信世界 2019年7期
關鍵詞:分類深度文本

邱 盼

(貴州財經(jīng)大學,貴陽 550000)

1 引言

隨著開放存取資源運動的迅速發(fā)展,開放存取資源逐漸成為建設數(shù)字圖書館不可或缺的數(shù)據(jù)源。其開放獲取模式也為研究者提供了獲取學術論文的新途徑,有效促進了學術資源的共享。為了促進科學信息的廣泛傳播,學術信息的交流與發(fā)布,提高科學研究的程度,確保科學信息的長期保存。

近年來,深度學習作為機器學習的另一個分支,得到了廣泛的研究和應用。 它通過使用由復雜結構或多個隱藏層感知器組成的多個處理層來替換具有高級數(shù)據(jù)抽象的手冊。在文本分類任務中,基于文本分布式詞向量表示的深度學習方法,卷積神經(jīng)網(wǎng)絡,循環(huán)神經(jīng)網(wǎng)絡等深度學習模型對文本進行分類可以獲得更高的準確率。

本文將重點介紹基于深度學習的開放存取資源分類過程和Bi-LSTM 模型和Text-CNN 模型。

2 開放存取資源文本分類實現(xiàn)

圖1

2.1 數(shù)據(jù)收集

現(xiàn)在的開放存取資源有多個平臺,本文選擇Worldlib 獲取數(shù)據(jù),worldlib 國外文獻整合平臺整合了國外各種開放數(shù)據(jù),文獻數(shù)量近千萬篇,以英語為主,學科覆蓋范圍為全學科。本文采用python 爬蟲來獲取開放存取資源。Python 爬蟲相對Java,C++是比較簡單易上手的。

2.2 數(shù)據(jù)標注

數(shù)據(jù)標注意味著人們判斷和標注數(shù)據(jù)集內的每一條數(shù)據(jù)根據(jù)數(shù)據(jù)分類規(guī)則,找到預測的目的目標y。標注的主要原因是基于深度學習的訓練和測試過程需要使用帶安全標注的數(shù)據(jù)。在訓練過程中,需要將訓練集的數(shù)據(jù)和數(shù)據(jù)類別作為學習材料,供計算機學習、處理和構造神經(jīng)網(wǎng)絡模型中的意義。測試過程相當于測試,數(shù)據(jù)分類是測試的答案,為了研究計算機的影響進行深度研究,需要輸入電腦不帶安全標注的數(shù)據(jù)時,計算機自動輸出數(shù)據(jù)的分類結果,計算機的輸出結果與答案相比,可以計算學習模型的準確性,因此,數(shù)據(jù)集的所有數(shù)據(jù)必須在類別標注中。一般來說,數(shù)據(jù)標注越準確,數(shù)據(jù)量越大,訓練模型越好。

2.3 文本分詞

在開放存取資源文本分類之前,我們要先開始對資源進行預處理,一般主要包含文本分詞和進行大量的詞向量訓練。本研究為了更好地進行分詞,提升分詞的準確性,構建了開放存取資源語料庫。由于本文的開放存取資源主要是英文,因此對于英文的數(shù)據(jù)預處理要做的工作主要是按照關鍵字分詞。

2.4 詞向量

自然語言模型訓練的產(chǎn)物,我們通常叫做詞向量,而詞匯由固定長度的向量來表示,通過大量收集的相關詞匯訓練,最終形成一個詞向量空間,而在空間中的每個點則代表一個詞匯。計算機通過大量的對開放存取資源的詞向量訓練,可以對資源進行分類識別,最終達到文本的可計算性。在對開放存取資源進行模型訓練時,如果沒有指定與之相對應的詞向量,自然語言模型則會選擇對開放存取資源詞匯進行相對的詞向量訓練,這是屬于隨機初始化的word2evc 向量,這個詞向量方法在深度學習領域中是常用的,在其他領域中也可以運用的到。

3 深度學習文本分類模型

目前常用的文本分類模型有很多種,特征提取的好壞直接影響到分類的效果,因此基于傳統(tǒng)分類模型的文本分類方法的工作重點主要集中在特征提取和選擇上,常用方法有 TF-IDF、詞頻、文檔頻次、N-Gram、互信息等。

隨著深度學習的不斷發(fā)展,學者們將文本分類的研究重點轉向了基于人工神經(jīng)網(wǎng)絡的分類模型。人工神經(jīng)網(wǎng)絡是模擬生物神經(jīng)網(wǎng)絡進行信息處理的數(shù)學模型。人工神經(jīng)網(wǎng)絡由多個連接權值可調的神經(jīng)元組成。其參數(shù)學習基于BP 算法,具有較強的非線性映射能力。神經(jīng)網(wǎng)絡處理文本分類的優(yōu)點之一,而不必花大量的時間在特征提取和選擇,將分布式說這個詞作為特征輸入到網(wǎng)絡,神經(jīng)網(wǎng)絡可以自動提取文本分類的有價值的信息,這些信息通常是通過卷積,點,非線性函數(shù),矩陣乘法操作等,和高度的信息編碼并不容易解釋。

隨著深度學習研究范圍的擴大,在很多領域中我們會發(fā)現(xiàn),在常見的圖像、音頻處理方面,我們也會經(jīng)常運用到深度學習方面的知識。由于本研究是針對開放存取資源進行的研究,屬于自然語言處理領域,因此,本文通過對自然語言處理相關的神經(jīng)網(wǎng)絡模型進行研究,選取Bi-LSTM 模型和Text-CNN 模型作為處理開放存取資源的深度學習模型。

3.1 Bi-LSTM 模型

(1)embedding 層

利戴工業(yè)技術服務(上海)有限公司客戶項目經(jīng)理趙慶山先生也以“智能工廠的整體解決方案”為題,介紹了工業(yè)服務體系在智能制造發(fā)展過程中扮演的角色及地位,同時也分享了其在上汽大眾動力總成有限公司等典型項目案例。這些項目不僅包括了加工設備的安裝調試和維護保養(yǎng),同時也涉及了智能制造的落地,為推動企業(yè)轉型升級發(fā)揮了積極作用。

該層,作為神經(jīng)網(wǎng)絡的第一層,它用作尋找輸入數(shù)據(jù)中的所有詞匯,并根據(jù)詞匯找到與其對應的詞向量,是用來將輸入數(shù)據(jù)中的所有詞語找到其對應的詞向量,最后再將所有得到的詞向量構造形成一個相應的矩陣。在這一層中,不需要添加訓練過的詞向量,并且詞向量在該層是隨機初始化的。

(2)bidirectional 層

在該層,通常采用雙向傳播的64個LSTM 神經(jīng)單元進行文本分類訓練。

(3)dropout 層

可以有效的防止過擬合。過擬合是學習過程中把樣本數(shù)據(jù)中的所有特征都記錄了下來。因此,在這個學習過程中,計算機學習了大量的局部特征,而這個特征會對測試集在測試時造成一定的干擾,造成干擾后,會降低測試集的精度,這種局部特征在測試集進行預測時造成干擾,從而使測試集準確率下降,誤差可以用于判斷測試集是否過擬合,測試集內的誤差不斷減少,促使測試集外誤差逐漸減小在逐漸變大。

(4)dense 層

改成在整個神經(jīng)網(wǎng)絡中起到了重要作用,主要負責的是分類的工作,這個過程是對數(shù)據(jù)集中的每條數(shù)據(jù)進行標記,在dense 層,也加入了sigmoid 激活函數(shù),該函數(shù)的主要作用是對數(shù)據(jù)的某一分類的類別概率進行預測該,并完成分類任務。

3.2 Text-CNN 模型

(1)輸入層

Text-CNN 模型的輸入層需要輸入一個定長的文本序列,我們需要通過分析語料集樣本的長度指定一個輸入序列的長度L,比L 短的樣本序列需要填充(自己定義填充符),比L 長的序列需要截取。最終輸入層輸入的是文本序列中各個詞匯對應的分布式表示,即詞向量。

(2)卷積層

在NLP 領域一般卷積核只進行一維的滑動,即卷積核的寬度與詞向量的維度等寬,卷積核只進行一維的滑動。在Text-CNN 模型中一般使用多個不同尺寸的卷積核。卷積核的高度,即窗口值,可以理解為N-gram 模型中的N,即利用的局部詞序的長度,窗口值也是一個超參數(shù),需要在任務中嘗試,一般選取2-8之間的值。

(3)池化層

在Text-CNN 模型的池化層中使用了Max-pool(最大值池化),即減少模型的參數(shù),又保證了在不定長的卷基層的輸出上獲得一個定長的全連接層的輸入。

(4)全連接層

全連接層的作用就是分類器,原始的Text-CNN 模型使用了只有一層隱藏層的全連接網(wǎng)絡,相當于把卷積與池化層提取的特征輸入到一個LR 分類器中進行分類。

4 結束語

現(xiàn)如今,開放存取資源的發(fā)展越來越快,我們也發(fā)現(xiàn)學者發(fā)表的學術論文的也呈很大的比例增長,學術研究學者對學術論文的需求也逐漸增多。在此研究背景下,本文就是對開放存取資源進行分類,并方便學術研究學者檢索和研究。本文主要介紹了基于深度學習的文本分類過程和幾類經(jīng)典的文本分類網(wǎng)絡模型,本文研究選取Bi-LSTM 模型和Text-CNN 模型作為處理開放存取資源的深度學習模型。

猜你喜歡
分類深度文本
分類算一算
深度理解一元一次方程
在808DA上文本顯示的改善
分類討論求坐標
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 青青草国产一区二区三区| 亚洲动漫h| 国产一区亚洲一区| 国产成人久久综合777777麻豆 | 无码精油按摩潮喷在线播放| 国产一区亚洲一区| 国产91丝袜| 久久五月天综合| 国产拍在线| 国产精品香蕉| 欧美国产日产一区二区| 亚洲天堂久久新| 特黄日韩免费一区二区三区| 亚洲福利视频网址| 69免费在线视频| 欧美亚洲一区二区三区导航| 欧美日韩另类国产| 久草网视频在线| 中文字幕在线观看日本| 国产香蕉一区二区在线网站| 亚洲天堂在线免费| 日本精品αv中文字幕| 呦女亚洲一区精品| 99尹人香蕉国产免费天天拍| 国产成人一区| 久久久久亚洲Av片无码观看| 久久永久视频| 波多野结衣一区二区三区四区| 亚洲精品男人天堂| 国产啪在线91| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧洲免费精品视频在线| 国产一区二区三区精品欧美日韩| 国产a v无码专区亚洲av| 国产午夜无码专区喷水| 亚洲欧美极品| 91麻豆国产在线| av在线无码浏览| 亚洲第一香蕉视频| 国产白浆在线| 波多野结衣AV无码久久一区| 中文字幕亚洲专区第19页| 久久五月视频| 青青热久麻豆精品视频在线观看| 国产综合精品日本亚洲777| 国产精品久久久久久久久久久久| 国产又爽又黄无遮挡免费观看| 免费观看无遮挡www的小视频| 中文字幕资源站| 久热re国产手机在线观看| 91www在线观看| 欧美亚洲国产日韩电影在线| 日韩成人在线网站| 久操线在视频在线观看| 亚洲国产天堂久久综合226114| 亚洲a级在线观看| 亚洲中文字幕在线观看| 免费女人18毛片a级毛片视频| 国产18在线播放| 亚洲成人黄色在线观看| 91探花在线观看国产最新| 天天做天天爱天天爽综合区| 成人在线不卡视频| 久久综合AV免费观看| 国产丝袜91| 精品国产污污免费网站| 好紧好深好大乳无码中文字幕| 久久久久无码国产精品不卡| 99热这里只有精品久久免费| 97视频在线观看免费视频| 国产网站免费| 国产精品林美惠子在线观看| 日韩专区欧美| 天天色天天综合网| 99精品免费在线| 亚洲精品成人片在线播放| 久久福利网| 在线精品自拍| 在线观看精品国产入口| 国产草草影院18成年视频| 久久熟女AV| 日韩小视频在线播放|