999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的開(kāi)放存取資源分類(lèi)研究

2019-08-23 10:41:42
數(shù)字通信世界 2019年7期
關(guān)鍵詞:分類(lèi)深度文本

邱 盼

(貴州財(cái)經(jīng)大學(xué),貴陽(yáng) 550000)

1 引言

隨著開(kāi)放存取資源運(yùn)動(dòng)的迅速發(fā)展,開(kāi)放存取資源逐漸成為建設(shè)數(shù)字圖書(shū)館不可或缺的數(shù)據(jù)源。其開(kāi)放獲取模式也為研究者提供了獲取學(xué)術(shù)論文的新途徑,有效促進(jìn)了學(xué)術(shù)資源的共享。為了促進(jìn)科學(xué)信息的廣泛傳播,學(xué)術(shù)信息的交流與發(fā)布,提高科學(xué)研究的程度,確保科學(xué)信息的長(zhǎng)期保存。

近年來(lái),深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的另一個(gè)分支,得到了廣泛的研究和應(yīng)用。 它通過(guò)使用由復(fù)雜結(jié)構(gòu)或多個(gè)隱藏層感知器組成的多個(gè)處理層來(lái)替換具有高級(jí)數(shù)據(jù)抽象的手冊(cè)。在文本分類(lèi)任務(wù)中,基于文本分布式詞向量表示的深度學(xué)習(xí)方法,卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型對(duì)文本進(jìn)行分類(lèi)可以獲得更高的準(zhǔn)確率。

本文將重點(diǎn)介紹基于深度學(xué)習(xí)的開(kāi)放存取資源分類(lèi)過(guò)程和Bi-LSTM 模型和Text-CNN 模型。

2 開(kāi)放存取資源文本分類(lèi)實(shí)現(xiàn)

圖1

2.1 數(shù)據(jù)收集

現(xiàn)在的開(kāi)放存取資源有多個(gè)平臺(tái),本文選擇Worldlib 獲取數(shù)據(jù),worldlib 國(guó)外文獻(xiàn)整合平臺(tái)整合了國(guó)外各種開(kāi)放數(shù)據(jù),文獻(xiàn)數(shù)量近千萬(wàn)篇,以英語(yǔ)為主,學(xué)科覆蓋范圍為全學(xué)科。本文采用python 爬蟲(chóng)來(lái)獲取開(kāi)放存取資源。Python 爬蟲(chóng)相對(duì)Java,C++是比較簡(jiǎn)單易上手的。

2.2 數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注意味著人們判斷和標(biāo)注數(shù)據(jù)集內(nèi)的每一條數(shù)據(jù)根據(jù)數(shù)據(jù)分類(lèi)規(guī)則,找到預(yù)測(cè)的目的目標(biāo)y。標(biāo)注的主要原因是基于深度學(xué)習(xí)的訓(xùn)練和測(cè)試過(guò)程需要使用帶安全標(biāo)注的數(shù)據(jù)。在訓(xùn)練過(guò)程中,需要將訓(xùn)練集的數(shù)據(jù)和數(shù)據(jù)類(lèi)別作為學(xué)習(xí)材料,供計(jì)算機(jī)學(xué)習(xí)、處理和構(gòu)造神經(jīng)網(wǎng)絡(luò)模型中的意義。測(cè)試過(guò)程相當(dāng)于測(cè)試,數(shù)據(jù)分類(lèi)是測(cè)試的答案,為了研究計(jì)算機(jī)的影響進(jìn)行深度研究,需要輸入電腦不帶安全標(biāo)注的數(shù)據(jù)時(shí),計(jì)算機(jī)自動(dòng)輸出數(shù)據(jù)的分類(lèi)結(jié)果,計(jì)算機(jī)的輸出結(jié)果與答案相比,可以計(jì)算學(xué)習(xí)模型的準(zhǔn)確性,因此,數(shù)據(jù)集的所有數(shù)據(jù)必須在類(lèi)別標(biāo)注中。一般來(lái)說(shuō),數(shù)據(jù)標(biāo)注越準(zhǔn)確,數(shù)據(jù)量越大,訓(xùn)練模型越好。

2.3 文本分詞

在開(kāi)放存取資源文本分類(lèi)之前,我們要先開(kāi)始對(duì)資源進(jìn)行預(yù)處理,一般主要包含文本分詞和進(jìn)行大量的詞向量訓(xùn)練。本研究為了更好地進(jìn)行分詞,提升分詞的準(zhǔn)確性,構(gòu)建了開(kāi)放存取資源語(yǔ)料庫(kù)。由于本文的開(kāi)放存取資源主要是英文,因此對(duì)于英文的數(shù)據(jù)預(yù)處理要做的工作主要是按照關(guān)鍵字分詞。

2.4 詞向量

自然語(yǔ)言模型訓(xùn)練的產(chǎn)物,我們通常叫做詞向量,而詞匯由固定長(zhǎng)度的向量來(lái)表示,通過(guò)大量收集的相關(guān)詞匯訓(xùn)練,最終形成一個(gè)詞向量空間,而在空間中的每個(gè)點(diǎn)則代表一個(gè)詞匯。計(jì)算機(jī)通過(guò)大量的對(duì)開(kāi)放存取資源的詞向量訓(xùn)練,可以對(duì)資源進(jìn)行分類(lèi)識(shí)別,最終達(dá)到文本的可計(jì)算性。在對(duì)開(kāi)放存取資源進(jìn)行模型訓(xùn)練時(shí),如果沒(méi)有指定與之相對(duì)應(yīng)的詞向量,自然語(yǔ)言模型則會(huì)選擇對(duì)開(kāi)放存取資源詞匯進(jìn)行相對(duì)的詞向量訓(xùn)練,這是屬于隨機(jī)初始化的word2evc 向量,這個(gè)詞向量方法在深度學(xué)習(xí)領(lǐng)域中是常用的,在其他領(lǐng)域中也可以運(yùn)用的到。

3 深度學(xué)習(xí)文本分類(lèi)模型

目前常用的文本分類(lèi)模型有很多種,特征提取的好壞直接影響到分類(lèi)的效果,因此基于傳統(tǒng)分類(lèi)模型的文本分類(lèi)方法的工作重點(diǎn)主要集中在特征提取和選擇上,常用方法有 TF-IDF、詞頻、文檔頻次、N-Gram、互信息等。

隨著深度學(xué)習(xí)的不斷發(fā)展,學(xué)者們將文本分類(lèi)的研究重點(diǎn)轉(zhuǎn)向了基于人工神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型。人工神經(jīng)網(wǎng)絡(luò)是模擬生物神經(jīng)網(wǎng)絡(luò)進(jìn)行信息處理的數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)由多個(gè)連接權(quán)值可調(diào)的神經(jīng)元組成。其參數(shù)學(xué)習(xí)基于BP 算法,具有較強(qiáng)的非線(xiàn)性映射能力。神經(jīng)網(wǎng)絡(luò)處理文本分類(lèi)的優(yōu)點(diǎn)之一,而不必花大量的時(shí)間在特征提取和選擇,將分布式說(shuō)這個(gè)詞作為特征輸入到網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)可以自動(dòng)提取文本分類(lèi)的有價(jià)值的信息,這些信息通常是通過(guò)卷積,點(diǎn),非線(xiàn)性函數(shù),矩陣乘法操作等,和高度的信息編碼并不容易解釋。

隨著深度學(xué)習(xí)研究范圍的擴(kuò)大,在很多領(lǐng)域中我們會(huì)發(fā)現(xiàn),在常見(jiàn)的圖像、音頻處理方面,我們也會(huì)經(jīng)常運(yùn)用到深度學(xué)習(xí)方面的知識(shí)。由于本研究是針對(duì)開(kāi)放存取資源進(jìn)行的研究,屬于自然語(yǔ)言處理領(lǐng)域,因此,本文通過(guò)對(duì)自然語(yǔ)言處理相關(guān)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行研究,選取Bi-LSTM 模型和Text-CNN 模型作為處理開(kāi)放存取資源的深度學(xué)習(xí)模型。

3.1 Bi-LSTM 模型

(1)embedding 層

利戴工業(yè)技術(shù)服務(wù)(上海)有限公司客戶(hù)項(xiàng)目經(jīng)理趙慶山先生也以“智能工廠(chǎng)的整體解決方案”為題,介紹了工業(yè)服務(wù)體系在智能制造發(fā)展過(guò)程中扮演的角色及地位,同時(shí)也分享了其在上汽大眾動(dòng)力總成有限公司等典型項(xiàng)目案例。這些項(xiàng)目不僅包括了加工設(shè)備的安裝調(diào)試和維護(hù)保養(yǎng),同時(shí)也涉及了智能制造的落地,為推動(dòng)企業(yè)轉(zhuǎn)型升級(jí)發(fā)揮了積極作用。

該層,作為神經(jīng)網(wǎng)絡(luò)的第一層,它用作尋找輸入數(shù)據(jù)中的所有詞匯,并根據(jù)詞匯找到與其對(duì)應(yīng)的詞向量,是用來(lái)將輸入數(shù)據(jù)中的所有詞語(yǔ)找到其對(duì)應(yīng)的詞向量,最后再將所有得到的詞向量構(gòu)造形成一個(gè)相應(yīng)的矩陣。在這一層中,不需要添加訓(xùn)練過(guò)的詞向量,并且詞向量在該層是隨機(jī)初始化的。

(2)bidirectional 層

在該層,通常采用雙向傳播的64個(gè)LSTM 神經(jīng)單元進(jìn)行文本分類(lèi)訓(xùn)練。

(3)dropout 層

可以有效的防止過(guò)擬合。過(guò)擬合是學(xué)習(xí)過(guò)程中把樣本數(shù)據(jù)中的所有特征都記錄了下來(lái)。因此,在這個(gè)學(xué)習(xí)過(guò)程中,計(jì)算機(jī)學(xué)習(xí)了大量的局部特征,而這個(gè)特征會(huì)對(duì)測(cè)試集在測(cè)試時(shí)造成一定的干擾,造成干擾后,會(huì)降低測(cè)試集的精度,這種局部特征在測(cè)試集進(jìn)行預(yù)測(cè)時(shí)造成干擾,從而使測(cè)試集準(zhǔn)確率下降,誤差可以用于判斷測(cè)試集是否過(guò)擬合,測(cè)試集內(nèi)的誤差不斷減少,促使測(cè)試集外誤差逐漸減小在逐漸變大。

(4)dense 層

改成在整個(gè)神經(jīng)網(wǎng)絡(luò)中起到了重要作用,主要負(fù)責(zé)的是分類(lèi)的工作,這個(gè)過(guò)程是對(duì)數(shù)據(jù)集中的每條數(shù)據(jù)進(jìn)行標(biāo)記,在dense 層,也加入了sigmoid 激活函數(shù),該函數(shù)的主要作用是對(duì)數(shù)據(jù)的某一分類(lèi)的類(lèi)別概率進(jìn)行預(yù)測(cè)該,并完成分類(lèi)任務(wù)。

3.2 Text-CNN 模型

(1)輸入層

Text-CNN 模型的輸入層需要輸入一個(gè)定長(zhǎng)的文本序列,我們需要通過(guò)分析語(yǔ)料集樣本的長(zhǎng)度指定一個(gè)輸入序列的長(zhǎng)度L,比L 短的樣本序列需要填充(自己定義填充符),比L 長(zhǎng)的序列需要截取。最終輸入層輸入的是文本序列中各個(gè)詞匯對(duì)應(yīng)的分布式表示,即詞向量。

(2)卷積層

在NLP 領(lǐng)域一般卷積核只進(jìn)行一維的滑動(dòng),即卷積核的寬度與詞向量的維度等寬,卷積核只進(jìn)行一維的滑動(dòng)。在Text-CNN 模型中一般使用多個(gè)不同尺寸的卷積核。卷積核的高度,即窗口值,可以理解為N-gram 模型中的N,即利用的局部詞序的長(zhǎng)度,窗口值也是一個(gè)超參數(shù),需要在任務(wù)中嘗試,一般選取2-8之間的值。

(3)池化層

在Text-CNN 模型的池化層中使用了Max-pool(最大值池化),即減少模型的參數(shù),又保證了在不定長(zhǎng)的卷基層的輸出上獲得一個(gè)定長(zhǎng)的全連接層的輸入。

(4)全連接層

全連接層的作用就是分類(lèi)器,原始的Text-CNN 模型使用了只有一層隱藏層的全連接網(wǎng)絡(luò),相當(dāng)于把卷積與池化層提取的特征輸入到一個(gè)LR 分類(lèi)器中進(jìn)行分類(lèi)。

4 結(jié)束語(yǔ)

現(xiàn)如今,開(kāi)放存取資源的發(fā)展越來(lái)越快,我們也發(fā)現(xiàn)學(xué)者發(fā)表的學(xué)術(shù)論文的也呈很大的比例增長(zhǎng),學(xué)術(shù)研究學(xué)者對(duì)學(xué)術(shù)論文的需求也逐漸增多。在此研究背景下,本文就是對(duì)開(kāi)放存取資源進(jìn)行分類(lèi),并方便學(xué)術(shù)研究學(xué)者檢索和研究。本文主要介紹了基于深度學(xué)習(xí)的文本分類(lèi)過(guò)程和幾類(lèi)經(jīng)典的文本分類(lèi)網(wǎng)絡(luò)模型,本文研究選取Bi-LSTM 模型和Text-CNN 模型作為處理開(kāi)放存取資源的深度學(xué)習(xí)模型。

猜你喜歡
分類(lèi)深度文本
分類(lèi)算一算
深度理解一元一次方程
在808DA上文本顯示的改善
分類(lèi)討論求坐標(biāo)
深度觀(guān)察
深度觀(guān)察
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀(guān)察
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
主站蜘蛛池模板: 日韩欧美国产精品| 亚洲欧美人成电影在线观看| 欧美一级高清片欧美国产欧美| 色婷婷电影网| 国产精品观看视频免费完整版| 欧美精品1区| 日韩天堂在线观看| 国产福利免费视频| 人妻91无码色偷偷色噜噜噜| 国产激爽大片在线播放| h视频在线播放| 成人精品区| 亚洲全网成人资源在线观看| 国产精品久久久久久影院| 免费看a级毛片| 久久香蕉国产线看观看式| 高清码无在线看| 亚洲精品视频网| 欧美日本在线播放| 国产精品视频第一专区| 国产新AV天堂| 久久 午夜福利 张柏芝| 国产不卡一级毛片视频| 国产一区自拍视频| 免费无码一区二区| 亚洲精品无码AⅤ片青青在线观看| 精品夜恋影院亚洲欧洲| 国产99免费视频| 国产免费a级片| 欧美色99| 国产精品部在线观看| 一区二区午夜| 在线视频亚洲色图| 国产91丝袜| 国产欧美日韩综合一区在线播放| 日韩天堂视频| 国产精品永久不卡免费视频| 久久无码高潮喷水| 中文字幕在线免费看| 在线观看91香蕉国产免费| 国产区精品高清在线观看| 日韩欧美中文字幕在线韩免费| 天天色综网| 欧美人与牲动交a欧美精品| 欧美日本在线播放| 中文字幕亚洲电影| 色九九视频| 日韩成人免费网站| 欧美在线免费| 99免费在线观看视频| 国产尤物jk自慰制服喷水| 啦啦啦网站在线观看a毛片| 国产男人天堂| 日本欧美一二三区色视频| 992Tv视频国产精品| 少妇精品网站| 国产黄色免费看| 亚洲三级a| 成人午夜精品一级毛片| 国产乱子伦手机在线| 婷婷色一区二区三区| 污视频日本| 在线亚洲小视频| 欧美成人午夜在线全部免费| 综合色区亚洲熟妇在线| 欧美三级不卡在线观看视频| 国产中文在线亚洲精品官网| 亚洲经典在线中文字幕| 色135综合网| 亚洲欧美一区二区三区麻豆| 国产成人三级在线观看视频| 亚洲国产AV无码综合原创| 国产福利影院在线观看| 99热这里只有免费国产精品 | 国产精品久久自在自线观看| av在线无码浏览| 久久久噜噜噜久久中文字幕色伊伊 | 国产网友愉拍精品| 55夜色66夜色国产精品视频| 自偷自拍三级全三级视频| 日日碰狠狠添天天爽| 91精品国产综合久久香蕉922|