999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新聞文本標注方法

2021-12-22 13:29:00王紅梅郭真俊張麗杰
長春工業大學學報 2021年5期
關鍵詞:語義分類文本

王紅梅, 郭 放, 郭真俊, 張麗杰

(長春工業大學 計算機科學與工程學院,吉林 長春 130012)

0 引 言

隨著互聯網、機器學習、大數據等技術的飛速發展,各種信息數據以指數級的速度持續增長,目前人工智能所依托的機器學習和深度學習算法多數是依賴數據的,需要大量的數據采用有監督或半監督的方式訓練算法進行定制化部署。由于中國大數據體量龐大,尤其是新聞文本沒有固定格式,且種類多樣,更新速度快,給數據標注任務提出了巨大挑戰。最常見的新聞類別標注是通過人工方式對全部數據進行標注,人工成本很高,數據質量難以保證,不可避免地存在標注人員主觀疲勞,數據審核環節質量難以把控等問題。

而深度學習是這個時代人工智能領域內最熱門的研究之一,因其優秀的特征提取能力,對包括自然語言處理在內的諸多任務有著十分重要的影響。越來越多的任務選擇采用深度學習來進行研究。自然語言處理(Natural Language Processing,NLP)是其中熱門的研究領域,自然語言是高度抽象的符號化系統,文本間存在數據離散、稀疏、一詞多義等問題。而深度學習具有強大的特征提取和學習能力,在NLP諸多任務中都取得了很好的發展。文本分類是NLP中最基本的一項任務,是根據文本所蘊含的信息將其映射到預先定義帶主題標簽的兩個或幾個類的過程[1]。文本分類被廣泛應用到內容審核、廣告標注、情感分析、郵件過濾、新聞主題劃分、問題甄別、意圖識別等場景[2]。2010年之前,基于淺層學習的文本分類模型是主流。淺層學習方法是機器學習的一種,基于從原始文本中提取的各種文本特征來訓練初始分類器。淺層學習模型意味著基于統計的模型,如樸素貝葉斯(Naive Bayes, NB)[3]、K近鄰(K-Nearest Neighbors, KNN)[4]和支持向量機(Support Vector Machines, SVM)[5]。其中,樸素貝葉斯模型是最早應用于文本分類任務的模型。之后,陸續提出了通用分類模型,如KNN、SVM等,它們被稱為分類器,廣泛應用于文本分類任務中。淺層學習模型加快了文本分類的速度,提高了準確性。與早期基于規則的方法相比,在準確性和穩定性上都更具有優勢,但仍然存在成本高昂、耗時等問題。此外,這些方法通常會忽略文本數據中的上下文信息或順序結構。近年來,深度學習在NLP領域被廣泛應用,它避免了人工設計規則和功能,且自動為文本提供語義上有意義的表現形式。深度學習的核心是通過數據驅動的方式,采取一系列的非線性變換,從原始數據中提取由低層到高層、由具體到抽象的特征。與淺層學習相比,深度學習強調模型結構深度,通過模型深度的增加來獲取深層次的含義。近年來,越來越多的研究人員對CNN(Convolutional Neural Networks)、RNN(Recurrent Neural Network)等進行改進,或進行模型融合,提高不同任務的文本分類性能,BERT(Bidirectional Encoder Representation from Transformers)[6]、ERNIE(Enhanced Language Representation with Informative Entities)[7]的出現給文本分類發展帶來了重大轉折,許多研究者在新聞分類上投入大量工作,如短文本分類[8]、基于BERT的中文文本分類[9]、基于改進ERNIE的中文文本分類等[10]。此外,研究人員將GNN(Graph Neural Network)[11]引入到文本分類任務中,也帶來了前所未有的優秀性能。

文本標注是一種監督學習的問題,它可以認為是文本分類的一個擴展。標注問題又是結構預測問題的簡單形式。將包含特征和標簽信息的訓練樣本輸入到模型中,從而得到一個最優模型。再通過最優模型對沒有標簽的測試樣本進行測試,輸出分類標簽,并將其注釋到相應位置。由于中文語法和字的差異,相對于英文,中文文本分類需要進行大量的處理和分析工作,中文長文本標注效果并不是特別理想。在數據方面,無論是淺層學習還是深度學習,長文本、短文本、跨語言、多標簽等不同數據對于模型的性能都具有很重要的影響。為了更全面捕捉字的語義以及上下文之間的理解,針對長文本新聞自動標注問題,提出一種基于改進語言表示學習(Improved Enhanced Language Representation with Informative Entities,IERNIE)的新聞文本標注方法。

1)將ERNIE模型與LCNN(Bi-directional Long Short-Term Memory with Convolutional Neural Network)模型融合,提出一種新的IERNIE模型,該模型能夠更好地捕獲字的語義,以及上下文的特征;

2)首次將IERNIE模型用于長文本新聞類別標注任務上;

3)IERNIE模型與經典模型相比,在長文本新聞數據集上,準確率、精確率、召回率、F1值這4個評價指標上的表現均優于對比模型。

1 相關工作

1.1 FastText

FastText[12]是Facebook于2016年開源的一個詞向量計算和文本分類工具,FastText模型有3層:輸入層、隱藏層和輸出層。FastText的輸入是多個單詞及其n-gram特征,然后輸入到隱藏層中,將詞向量進行疊加平均;最后通過輸出層輸出特定的標簽。值得注意的是,在輸入時,單詞的字符級別的n-gram向量作為額外特征,輸出時FastText采用了分層Softmax,從而降低模型的訓練時間。在應用方面,Dai L L等[13]使用FastText模型進行中文文本分類,大幅降低分類時間。Tahsin R等[14]使用FastText模型對電子郵件進行自動分類,節省大量人工和時間。

1.2 Transformer

Transformer[15]結構分為Eencoder和Decoder兩部分。Encoder由6個相同的塊構成,每塊由兩個子層組成,分別為多頭自注意力機制和全連接前饋網絡,每個子層都添加了殘差連接和歸一化;Decoder結構與Encoder結構相似,但是增加一個注意力子層,目的是為了和Encoder的輸出做操作。因其具有提取超長距離特征、高效并行和較快的收斂速度的優越性,Wang C C等[16]使用基于Transformer的方法,對5種不同語言進行分類,與只能處理一種語言的模型相比,有更高的性能。

1.3 BiLSTM

LSTM (Long Short Term Memory)網絡是RNN的特殊類型,可以學習長期依賴模型。通過對單元狀態中信息遺忘和記憶新的信息,使后續時刻計算有用信息得以傳遞,而無用信息則被丟棄,并在每個時間步都會輸出隱層狀態,這便是LSTM的計算過程。而BiLSTM則是將前向的LSTM和后向的LSTM結合起來。楊妥等[17]采用LSTM方法對新聞內容信息進行情感分析,再將分析得到的情感分類結果與股票的技術指標相結合,用以對股票指數進行預測;于佳楠等[18]通過LSTM對上下文信息進行獨立語義編碼,同時引入注意力機制,改善了情感特征信息;和志強等[19]利用BiLSTM從前、后兩個方向全面捕捉短文本語義特征進行短文本分類。

1.4 CNN

CNN模型可以分為輸入層、卷積層、最大池化層和全連接層4部分。輸入層接受輸入句子的單詞向量矩陣,將其傳輸到卷積層中;在卷積層輸入矩陣進行卷積操作,其中需要注意卷積核的列數是固定的,與詞向量維度相同。卷積核不斷向下移動,得到卷積后的值。多個不同的卷積核會生成多列向量,在最大池化層中,最大池化會取出每一列中的最大值,最終形成一個一位向量。而全連接層則使用Dropout防止過擬合,再通過歸一化進行分類,這便是CNN文本分類模型。韓棟等[20]基于CNN進行改進,融合CNN和句子級監督學習構建了短文本分類模型。

1.5 BERT

BERT模型是建立在Transformer的基礎上,采用雙向的Transformer,以此建立一個通用的NLP模型,對于特定任務只需要加一個額外的神經網絡層即可,相當于把下游任務的工作轉移到預訓練階段,使用BERT進行文本分類,實際上就是將BERT得到的字符嵌入連接到全連接層進行多分類。段丹丹等[21]使用BERT模型研究中文短文本分類;李鐵飛等[22]使用預訓練BERT模型作為詞向量模型,將得到的詞向量輸入到其他模型中進行分類工作。

2 IERNIE模型

IERNIE融合了ERNIE模型對語義信息的捕獲和對RCNN進行改進的LCNN對上下文信息的捕獲,IERNIE模型包括ERNIE層、BiLSTM層、最大池化層以及全連接層。模型算法中提到的符號描述以及算法步驟分別見表1和表2。

表1 符號描述

表2 算法步驟

首先將待標注的長文本新聞數據集轉化token級別向量,并進行mask遮蓋,然后將其通過ERNIE模型進行編碼以及知識整合,得到特征向量E。接下來將E輸入到BiLSTM模型,獲得左上文向量Cl和右下文向量Cr。最后將E,Cl,Cr進行拼接,通過最大池化層保留最重要的潛在語義,并通過全連接層獲得預測結果進行新聞類別標注。

2.1 ERNIE模型

ERNIE[7]是一種新的知識增強語言表示模型,ERNIE受BERT掩蔽策略的啟發,目的是學習通過知識掩蔽策略增強的語言表示,包括實體級掩蔽和短語級掩蔽。ERNIE模型包括Transformer[15]編碼和知識整合兩部分,Transformer可以通過自注意捕獲句子中每個標記的上下文信息,并生成上下文嵌入序列,使用先驗知識可以增強預先訓練好的語言模型,是一種多階段知識屏蔽策略。第1段是基本遮蔽,第2段是短語級遮蔽,第3段是實體級遮蔽,經過3個階段的處理,可以將短語和實體級知識集成到語言表示中。

文中使用ERNIE模型可以獲得更多的語義和語法信息,首先捕獲輸入數據集的語義信息,并進行語義表征嵌入,得到包括[CLS]標記的特征向量E∈Rde,其中de表示詞向量維度,然后將E通過全連接層得到輸出xt,最后將其輸入到BiLSTM層,公式為

xt=Wa*E+ba,

Wa∈Rde*da,

(1)

式中:da——編制ba的維度。

2.2 LCNN模型

LCNN是一種基于RCNN(Recurrent Convolutional Neural Networks)[23]模型的改進,將RCNN模型中的BiRNN用BiLSTM來代替,達到一個更好的效果。LCNN引入了BiLSTM的結構來捕獲上下文信息,并且使用最大池化層模仿CNN用于判斷文本分類中起到關鍵作用的詞。

模型的第1部分是BiLSTM層,使用雙向循環神經網絡來學習字的上下文表示,第2部分是最大池化層,第3部分是全連接層,這兩部分用來學習語義表示。

2.2.1 學習字的上下文信息

cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1)),

(2)

cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1)),

(3)

式中:cl(wi)——wi左上文;

el(wi)——單詞wi的嵌入向量;

W(l)——用于將上一個字的左上文傳遞到下一個字的左上文;

W(sl)——結合當前詞的語義到下一個詞的左上文。

其余同理。

2.2.2 計算單詞潛在語義信息

每個字wi的潛在語義表示是將左上文cl(wi),嵌入向量el(wi)和右下文cr(wi)連接起來表示為字Xi,

Xi=[cl(wi);e(wi);cr(wi)]。

(4)

將潛在語義Xi通過激活函數relu計算wi的隱藏語義向量y(2),y(2)的每個語義因素將被分析,以確定表示文本最有用的因素。

y(2)=relu(W2xi+b(2))。

(5)

2.3 最大池化層

(6)

2.4 全連接層

全連接層(Fully Connected Layers, FC)在整個網絡中起到了分類器的作用。它將學到的“分布式特征表示”映射到樣本標記空間,做到將數據進行降維,從而得到預測結果。全連接層對模型的影響參數有3個,分別是全連接層的總層數、單個全連接層的神經元個數和激活函數。另外,全連接層在一定程度上保留了模型的復雜度。卷積神經網絡中的全連接層設計屬于傳統特征提取和分類思維下的一種“遷移學習”思想,將y(3)通過全連接層得到預測結果y(4),全連接層計算公式為

y(4)=W(4)y(3)+b(4)。

(7)

3 實 驗

3.1 數據集

實驗采用的數據集由9萬條長文本新聞所構成,每條新聞長度均大于200,是用于中文新聞分類的數據集,數據來源于各個新聞網站近期的新聞,包括財經、房產、教育、科技、軍事、汽車、體育、游戲、娛樂9類數據,每類新聞數量為1萬條。

為了確保實驗結果可以復現,使用numpy和torch設置隨機種子,并按照文獻[24]的方式采用留出法[25]劃分成70%和30%的兩個互斥的集合。兩個集合內訓練集、測試集、驗證集盡可能保持數據分布的一致性,這樣可以避免額外誤差帶來的影響,使用分層采樣的方式劃分數據集。但單次留出法產生的結果可能會不夠準確,因此進行5次實驗,最終結果取5次實驗的平均值。

3.2 評價指標

文中實驗評價主要有4種,分別為準確率(Accuracy,ACC)、精確率(Precision)、召回率(Recall)、F1值[7],具體計算公式如下:

(8)

(9)

(10)

(11)

式中:TP——當實際值與預測值均為正時的數據數量;

TN——當實際值與預測值均為負時的數據數量;

FP——當實際值為負、預測值為正時的數據數量;

FN——當實際值為正、預測值為負時的數據數量;

P——精確率;

R——召回率。

3.3 實驗結果

為驗證模型的標注效果,選擇一些經典算法CNN、FastText[12]、BERT[6]、BiLSTM[26]、Transformer[15]與文中IERNIE進行對比。將數據應用在IERNIE以及其他幾類模型上,比較各模型在訓練過程中隨著訓練批次的增加,在驗證集上的訓練效果,如圖1所示。

圖1 模型訓練中的準確率

訓練了5輪之后,在驗證集的準確率為94.26%,明顯優于其他算法的準確率(CNN的準確率為92.61%,BERT的準確率為91.41%,FastText的準確率為87.99%,BiLSTM的準確率為87.99%,Transformer的準確率為83.91%)。

為了更好地評估IERNIE在長文本新聞標注的效果,在測試集上與CNN、FastText、BERT、BiLSTM、Transformer進行對比。在對比實驗過程中,訓練和測試的各項參數都保持統一,評價指標為準確率、精確率、召回率和F1值,得到模型的評估結果見表3。

表3 模型性能對比 %

從表3可以看出,IERNIE在準確率、精確率、召回率、F1值這4個評價指標上的表現均優于其他模型。BERT在處理中文語言時,通過預測漢字進行建模,很難學習更大語義單元的完整語義表示;ERNIE模型通過對詞、實體等語義單元的掩碼,使得模型學習完整概念的語義表示,相較于BERT學習原始語言信號,ERNIE直接對先驗語義知識單元進行建模,增強了模型語義表示能力;經典的CNN算法使用固定詞窗口捕獲上下文信息,實驗結果受窗口大小的影響,LCNN使用循環結構捕獲更加廣泛的上下文信息。通過實驗結果對比可以發現,模型具有更好的效果,驗證了文中融合思想的有效性。

4 結 語

針對長新聞文本類別標注問題,結合上下文信息提出一種基于改進語言表示學習的新聞文本標注方法IERNIE。該方法首先使用預訓練ERNIE模型,獲取新聞數據的向量表示,其次使用LCNN模型處理該向量表示,更好地提取上下文信息。在長文本新聞數據集上的實驗結果表明,IERNIE方法的準確率、精確率、召回率、F1值評價指標均高于對比方法。實驗結果驗證了IERNIE在長文本新聞標注的可行性和有效性。接下來,將會繼續在其他文本數據集上進行測試,驗證方法的有效性。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 天堂亚洲网| 国产白浆视频| 国产真实乱人视频| 亚洲二三区| 91精品伊人久久大香线蕉| 全午夜免费一级毛片| 中文字幕在线日本| 99视频有精品视频免费观看| 麻豆AV网站免费进入| 91精品国产91久久久久久三级| 一本综合久久| 欧美区国产区| 最新国产网站| 在线观看精品自拍视频| 成人久久精品一区二区三区| 亚洲男人的天堂在线| 国产成人精彩在线视频50| 欧美日韩一区二区三区四区在线观看 | 亚洲欧洲自拍拍偷午夜色无码| 亚洲第一成人在线| 在线观看无码a∨| 亚洲精品日产精品乱码不卡| 美女潮喷出白浆在线观看视频| 亚洲第一成年网| 亚洲精品第一页不卡| 亚洲国产综合精品一区| 国产亚洲日韩av在线| 免费看美女自慰的网站| 天堂成人av| 99热这里只有免费国产精品 | 99精品国产自在现线观看| 久久中文无码精品| 国产SUV精品一区二区| a级毛片免费看| 日本成人在线不卡视频| 亚洲视频在线网| 日韩国产亚洲一区二区在线观看| 亚洲人成网18禁| 高潮爽到爆的喷水女主播视频| 成人午夜视频网站| 免费高清a毛片| 色综合热无码热国产| 欧美日韩亚洲国产| 在线观看无码a∨| 亚洲一级毛片免费看| 欧美中日韩在线| 中文字幕乱码中文乱码51精品| 亚洲成人精品久久| 国产成人三级| 91成人在线观看视频| 免费人成视网站在线不卡| 欧美日韩午夜视频在线观看| 综合色区亚洲熟妇在线| 国产美女一级毛片| 亚洲人人视频| 久久亚洲国产一区二区| 亚洲自拍另类| 最新国产午夜精品视频成人| 日本亚洲欧美在线| 二级特黄绝大片免费视频大片| 色欲色欲久久综合网| 久久精品aⅴ无码中文字幕| 久久女人网| 91丨九色丨首页在线播放| 欧美综合激情| 亚洲国产精品一区二区第一页免| 久久永久精品免费视频| 国产一级片网址| 91麻豆精品国产高清在线| 制服无码网站| 日韩激情成人| 精品无码人妻一区二区| 亚洲日韩精品无码专区97| 99热这里只有精品2| 亚洲欧美极品| 精品亚洲麻豆1区2区3区| 国产麻豆精品在线观看| 久久五月天综合| 狠狠操夜夜爽| 91在线激情在线观看| 亚洲精品爱草草视频在线| 亚洲69视频|