999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化語義的中文廣告文本識別技術研究

2021-04-06 10:13:44鄧葉勛趙建強李文瑞歐榮安
計算機技術與發展 2021年3期
關鍵詞:語義詞匯分類

趙 偉,鄧葉勛,趙建強,3*,李文瑞,韓 冰,歐榮安

(1.廣州市刑事科學技術研究所,廣東 廣州 510030;2.廈門市美亞柏科信息股份有限公司,福建 廈門 361008;3.西安電子科技大學,陜西 西安 710071)

0 引 言

隨著互聯網,特別是移動互聯網的快速普及和移動智能終端的快速發展,互聯網用戶持續增長,人們習慣于通過互聯網獲取信息、發表觀點,進行社會交往、網絡購物等。與此同時,網絡也成為各類廣告推廣的重要媒介,各類廣告文本數據夾雜充斥在各類網絡平臺中。然而,由于廣告監管、法律法規和從業人員素質問題,虛假違法廣告在門戶網站、移動客戶端和新媒體賬戶等互聯網媒介中屢禁不止[1],嚴重污染網絡空間,危害人民群眾財產安全。要在海量互聯網數據中及時發現識別各類違規廣告信息,及時管控處理,是網絡監管部門面臨的技術挑戰。面對海量互聯網數據中的廣告文本識別,必須充分發揮人工智能技術的優勢,利用自然語言處理技術,結合文本語義分析技術,自動高效識別違規文本廣告內容,為有效打擊網絡廣告犯罪行為,營造良好的互聯網廣告秩序提供有力技術支撐。

1 相關工作

文本分類技術是自然語言處理研究中應用最廣泛的研究方向。針對文本類廣告識別,早期方法主要是基于白名單與黑名單、規則過濾等技術[2]。張知臨等人[3]使用黑白名單的方法識別網絡文本廣告,黑名單存儲網絡違規廣告網站的網站名稱、禁用詞等預定義字段,該方法在特定領域下準確率高,速度快,但缺點也明顯,靈活性差,嚴重受限黑名單質量,對黑名單之外的廣告無法有效識別。郭慧芳等人[4]提出構建違規詞匯庫的關鍵字匹配方法進行網絡文本廣告識別,該方法簡單、高效,使用廣泛。

近年來,利用機器學習方法進行文本分類的思路也應用到文本廣告分析中。如樸素貝葉斯[5]、支持向量機[6]和K-近鄰算法[7]等統計方法在文本分類中都有良好的表現。林雪等人[8]提出基于語義特征的文本過濾方法,在此基礎上進行機器學習建模,取得了較好的效果。但基于傳統機器學習的方法,必須依賴人工構建廣告文本的特征工程,建模過程費時費力,判別準確性也存在上限,并不能滿足特定環境下的分類要求。隨著神經網絡技術的發展,涌現出一批利用深度神經網絡處理文本分類任務的研究。Kim等人[9]采用預訓練詞向量,使用卷積神經網絡進行文本分類,取得了很好的效果。Bojanowski等人[10]提出一種快速文本分類器fastText模型,模型簡單高效同時也具有較強的特征學習能力。Miyamoto等人[11]提出利用LSTM(long short-term memory)網絡的記憶能力且適合處理序列數據的特點,通過構建混合模型進行文本分類,效果顯著。

自然語言分析處理任務中,文本的表示方法影響到文本語義的表示和文本特征的抽取。因此,針對文本詞和字的表示方法,研究者提出了不同的預訓練語言模型。一種預訓練語言模型是基于上下文詞嵌入方式,如Word2vec[12]、GloVe[13]、CoVe[14]和ELMo[15],詞嵌入表征被用做主任務的附加特征使用。另一種預訓練模型是基于句子級嵌入,Howard等人[16]提出一種通用域語言模型ULMFiT,能夠實現像計算機視覺領域的遷移學習方式,并用于任意NLP任務。使用大量未標記數據進行無監督預訓練獲取的語言模型在學習通用語言表征方面性能出色,如預訓練模型OpenAI-GPT[17](generative pre-training)和Bert[18]。Bert是具有雙向Transformer[19]結構的編碼器,使用掩膜語言(masked LM)模型和鄰句預測(next sentence prediction)兩種方法捕捉字符級和句子級別特征。在GLUE排行榜中,Bert刷新了11項NLP任務新紀錄,自然語言處理自此也進入了預訓練模型大規模應用新階段。

在深入研究社交語料中廣告文本的特點規律基礎上,利用深度神經網絡的強大特征表示能力,充分利用預訓練語言模型的優勢,提出一種基于語義強化的廣告文本識別方法CARES(Chinese text recognition based on enhanced semantic)。主要創新為:

(1)融合使用字符級和詞匯級不同層次語義表征,更全面實現廣告文本特征的表示;

(2)利用Bert模型高層特征包含更豐富的語義信息,使用卷積網絡對高層特征篩選,獲取文本中更加突出的高維特征;

(3)利用LSTM網絡提取句子中的關鍵語義信息,采用注意力機制強化句子詞匯級特征,減小無關噪聲干擾,提升模型分類的精度。

2 基于強化語義的中文廣告識別模型CAR-ES

2.1 文本預處理

文本預處理能有效避免無效特殊符號、非法字符等對分類結果的影響。本模型文本輸入前預處理操作包括:

(1)文本清洗:清除待分析文本中包含的各類缺失值、空白、特殊符號和非法字符。

(2)去停用詞:停用詞指的是諸如代詞、介詞、連接詞等不包含或包含極少語義的詞,一般在文本中多次出現,但實際語義價值不大。文本預處理利用停用詞表過濾去除掉文本中包含的各類停用詞。

(3)變形詞替換:在廣告文本中由于表達的多元化和多樣化,各類變形詞頻繁出現,增加了廣告識別的難度。該文采用特殊符號替換和同音近型替換的策略,替換掉待分析文本中各類同音異形等變形詞。

2.2 模型設計

該文提出的基于強化語義的中文廣告文本識別模型結構如圖1所示,基于深度神經網絡架構的模型主要包括輸入層、特征抽取層、特征融合層、輸出層。

2.2.1 輸入層

輸入層接收廣告文本輸入,并對文本數據集做預處理,劃分成字符級和詞匯級粒度單元,供特征抽取層提取特征。

2.2.2 特征抽取層

該層包括字符級特征抽取和詞匯級特征抽取兩個模塊。Word2vec能夠將詞匯映射到低維、稠密向量,表示詞語的一個潛在特征,捕獲有價值的句法和語義特性,但是詞和向量是一對一的靜態關系,無法解決一詞多義問題。Bert結構相比以Word2vec為代表的嵌入表征方法,最突出的特性是可以動態建模一詞多義現象。因此,在特征抽取層中同時采用Bert進行字符級特征表示,有效彌補Word2vec表示的不足。

2.2.2.1 字符級特征抽取

基于預訓練Bert實現特征抽取,使用CNN模型進一步對特征做高層抽象。

Bert由雙向Transformer組件構成,以字符序列作為輸入,整個語義信息會在堆棧中不斷由底層向上流動,通過聯合調節所有層中的上下文來預先訓練深度雙向表示。經大規模語料預訓練后的Bert可以通過外接一個額外的輸出層進行微調,適用于廣泛任務的模型構建,無需針對具體任務做大幅度架構調整。Google開源了兩種不同規模Bert模型,該文選用基礎版Bert_BASE作為廣告文本分類任務的微調模型進行改進優化。

圖1 文本分類模型

將模型輸入文本定義為x,表示具有m個字符長度的文本序列:

x={[CLS],x1,…,xm,[SEP]}

(1)

在Bert中,將序列第一個token作為句子級分類嵌入特征,使用[CLS]標識,對應的最終隱藏狀態則被用于分類,而對于非分類任務則忽略該部分。同時,為能夠將句子打包成獨立序列,使用標識符[SEP]用于區分。當前任務中均以單句作為輸入,并不判定前后句的相關性,因此在序列x中均以[SEP]結尾。

獲取文本的上下文表征b∈d:

b=BERT(x)

(2)

其中,d是Bert模型分類標志位[CLS]的特征維度。

Bert中每一層Transformer的輸出都能夠被選取為有效特征供下一級表征器使用,該文選取Bert最后三層Layer12、Layer11、Layer10的內部隱藏層第一狀態位作為卷積網絡的輸入矩陣:N∈3×d,其中,d是隱藏層狀態維度。選取16個濾波器Filter,大小為3×4,步長為1,對矩陣M在對應維度方向上做卷積操作,用以提取狀態位的3-Gram特征,通過卷積操作后便可得到16個特征向量。為對特征進一步提取,降低計算的復雜度,最后使用max-pooling方式進行池化,即可得到高層卷積結果特征c∈p:

c=Conve2D(N)

(3)

其中,p是卷積網絡輸出的特征維度,此處為16。

2.2.2.2 詞匯級特征抽取

基于LSTM網絡提取全局語義,采用Attention機制對語義做特征強化。使用開源工具Word2vec獲取文本詞向量表示,通過查表操作對本任務中的詞做初始化,而未出現詞匯選取[-0.1,0.1]的區間做隨機初始化。

設文本經預處理后的長度為n,得到詞匯級文本序列w:

w={w1,w2,…,xn}

(4)

經過分布式表示模型生成的詞向量表示v:

v={v1,v2,…,vn}

(5)

使用LSTM網絡從上下文中挖掘隱含狀態特征。

H={h1,h2,…,hn},其中h∈q表示詞匯級隱含特征向量,維度為q,GRU單元在t時刻更新過程如下:

vt=σ(Wrvt+Urht-1+br)

(6)

zt=σ(Wzvt+Uzht-1+bz)

(7)

hc=tanh(Whvt+Uh(rt·ht-1)+bh)

(8)

ht=(1-zt)·ht-1+zt·hc

(9)

其中,σ為激活函數,Wr、Wz、Wh、Ur、Uz、Uh為權重矩陣,br、bz、bh為偏置值,·表示向量點積運算。ht為t時刻GRU單元的輸出。為了充分利用上下文信息,使用雙向特征作為最終的LSTM結構輸出:

(10)

(11)

(12)

其中,⊕表示前向和后向輸出的對應元素相加操作。

之后,將Attention機制用于動態捕獲與特定文本類別相關的詞匯信息:

M=tanh(L)

(13)

α=softmax(wTM)

(14)

r=LαT

(15)

其中,L∈q×n,w是參數向量,由不同時間序列ht構成,α是注意力權重分布,r表示詞匯級增強特征表示向量。

2.2.3 特征融合層

該文采用Early Fusion特征拼接策略,對全局特征、高層特征和強化特征進行特征融合,待拼接特征包括3個模塊:

Bert模型全局特征:b;

CNN網絡抽取的高層特征:c;

Attention機制的強化LSTM特征:r。

融合特征f∈d+p+q:

f=[b;c;r]

(16)

2.2.4 輸出層

(17)

其中,W∈C×(d+p+q)表示非線性變換權重矩陣,b∈C表示非線性變換的偏移量,C表示文本類別數。經softmax歸一化后,使用argmax計算概率值最大的文本類別標簽。

3 實驗設置

3.1 實驗數據

該文研究的問題在國內目前沒有找到公開的數據集,所以,基于已有研發項目從微博、微信及QQ等社交平臺上收集各類聊天短文本和社交短文本數據,經過團隊人工標注最終形成46 000條中文社交短文本樣本,采用分層抽樣劃分訓練集和測試集,數據樣本分布如表1所示。

表1 廣告數據集樣本分布

數據集樣本類別示例如圖2所示。

圖2 廣告數據集樣本示例

3.2 實驗設計

為充分驗證提出的識別方法的有效性,選擇廣泛應用于文本分類的深度學習算法作為基準模型:

(1)參考文獻[11]提出的WcLSTM循環神經網絡分類模型;

(2)參考文獻[9]提出的TextCNN卷積神經網絡分類模型;

(3)基于Bert基線的Bert-BASE文本分類模型;

(4)采用該文提出的CARES文本分類模型。

3.3 實驗配置

實驗算法采用Tensorflow1.15框架實現,硬件執行環境配置為:Intel(R) Xeon(R) CPU E5-2677W v4 @3.00GHz處理器、128 GB內存、64位Ubuntu16.04操作系統、NVIDIA GTX1080顯卡。

在WC-LSTM和TextCNN基線系統中,使用jieba工具對文本進行分詞,映射成300維的Word2vec詞向量[12],最大文本長度120個詞,batch size大小維64,epoch大小8,學習率1e-5。Bert-BASE系統中使用chinese_L-12_H-768_A-12,最大文本長度512個字符,batch size大小5,epoch大小10,學習率5e-5。

3.4 實驗結果

3.4.1 對比實驗

實驗結果是多次實驗數據的平均值,不同模型在測試數據集上的表現如表2所示。

表2 實驗結果 %

從表2中發現,與基線模型相比較,CARES模型在4項指標中都取得了最好的成績。其中,與WcLSTM相比在準確率、召回率、精度和F1值上分別提升2.12%、2.07%、2.23%、1.54%,提升最多,這表明Bert模型的微調能更豐富地表示文本語義關系,注意力機制能夠對文本語義起到強化作用,有助于提升文本分類性能。與Bert-BASE相比,CARES模型在四項指標上分別提升了0.63%,0.53%,0.69%,0.61%,表明字符級語義、詞匯級語義能從不同層次表現廣告文本的語義特點,特征融合后具有更豐富的語義特性。

從表2發現,以Bert為基礎的文本分類模型各項指標都超過97%,說明Bert相比傳統的特征表征器能更好地表示短文本語義信息,在中文短文本分類問題上有很好的分析能力。比較TextCNN,CARES和WcLSTM網絡,發現TextCNN模型的分類效果不及CARES模型,但好于WcLSTM模型,這說明卷積神經網絡的特征抽取能力優勢明顯,進一步證明該文對Bert高層語義特征抽取的合理性和必要性。

3.4.2 實驗分析

提出的CARES融合模型在準確率、精準度、召回率和F1值均優于基準文本分類模型,主要是因為:

(1)在循環神經網絡中,LSTM對文本向量處理的局限性在于以鏈狀結構組成陣列時,對短文本的深層特征挖掘能力不夠強。Bert模型以Transformer為組件,以多頭注意力機制的轉換器作為基礎,天生具備處理短文本優勢,而廣告數據多以短文本的形式出現。因此,Transformer抽取器能夠捕獲各種復雜的語義交互信息,能從不同角度關注到句子中的依賴關系。

(2)在卷積網絡模型中,CNN主要用于語言特征抽取,受到卷積核數量和長度的限制,對語境的特征抽取能力不及Transformer豐富和完整。此外,CNN全局池化操作會丟失部分結構信息,很難發現文本中的轉折關系等復雜模式,導致模型無法表達文本上下文更深刻的語義。

(3)Bert中每一層Transformer的輸出都可以作為句子或文檔特征向量為其他模塊提供輸入,很大程度會影響模型的精度。在結構設計上,該文依托Bert優勢,使用卷積網絡對其最后3層特征進一步做抽取,采用Attention機制對語義做特征強化,融合全局特征、高層特征和強化特征實現廣告文本分類,能有效捕捉文本不同層級、不同維度的重要特征,有效提升廣告文本的識別性能。

4 結束語

互聯網廣告文本的智能發現識別是實現廣告合法合規監測的關鍵技術,模型不僅能甄別聊天內容中各類惡意和垃圾廣告,還能夠降低虛假欺詐廣告帶來的安全風險,對營造安全清朗的網絡環境意義重大。該文以互聯網社交平臺中的聊天文本數據為研究對象,利用預訓練Bert模型,強化語義特征,融合多層次文本特征,有針對性地提出一種中文廣告文本識別的方法,在人工收集標注的聊天文本數據集上,CARES方法獲得了97.73%的正確率,97.75%的F1值,對比基線方法,廣告識別分類性能達到最優。

社交聊天文本中使用的短文本往往包含大量的噪聲數據,如:不規則表示、錯別字、同形字等,該文提出的方法沒有有效解決這些問題帶來的性能影響,在后續的研究中,將繼續探索優化方案,讓模型進一步具備噪音容忍的能力,進一步提升識別性能。

猜你喜歡
語義詞匯分類
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
本刊可直接用縮寫的常用詞匯
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 成人国产免费| 玖玖精品在线| 中文字幕啪啪| 91蜜芽尤物福利在线观看| 久久久久国产一级毛片高清板| 国产精品福利导航| 伊人久久大香线蕉aⅴ色| 亚洲福利一区二区三区| 久久综合婷婷| 国产成人av一区二区三区| 亚洲毛片一级带毛片基地| 99久久精品国产精品亚洲| 91精品啪在线观看国产91九色| 波多野结衣久久高清免费| 日韩无码视频网站| 国产精品久久久久无码网站| 伊在人亚洲香蕉精品播放| 日韩福利视频导航| 国产成年无码AⅤ片在线 | 国产丝袜啪啪| 波多野结衣一二三| 国产精品区网红主播在线观看| A级毛片高清免费视频就| 亚洲乱码视频| 精品超清无码视频在线观看| 国内嫩模私拍精品视频| 青草精品视频| 无码有码中文字幕| 免费无遮挡AV| 香蕉综合在线视频91| 国产91精品久久| 亚洲女同一区二区| 日本一区二区三区精品视频| 亚洲天堂在线免费| 91福利片| 久久这里只有精品国产99| 亚洲欧洲日韩国产综合在线二区| 国产亚洲精品自在线| 久久美女精品国产精品亚洲| 丁香婷婷在线视频| 一级毛片在线播放| 亚洲视频色图| 不卡无码h在线观看| 高清无码一本到东京热| 亚洲综合天堂网| 播五月综合| 国产欧美一区二区三区视频在线观看| 欧美成人国产| 免费a级毛片视频| 成人福利在线看| 国产三级毛片| 园内精品自拍视频在线播放| 蝴蝶伊人久久中文娱乐网| 一级毛片免费观看不卡视频| 亚洲国产看片基地久久1024 | www.youjizz.com久久| 亚洲中文字幕97久久精品少妇 | 特级欧美视频aaaaaa| 婷婷久久综合九色综合88| 色妞www精品视频一级下载| 亚洲日产2021三区在线| 国产亚洲高清在线精品99| 国产高清在线观看| 国产网站在线看| 91亚洲精选| 亚洲人成人伊人成综合网无码| 国产小视频a在线观看| 国产十八禁在线观看免费| 精品国产乱码久久久久久一区二区| 青青青国产视频手机| 亚洲另类第一页| 国产九九精品视频| 国产噜噜噜| 国产偷国产偷在线高清| 在线免费亚洲无码视频| 97色伦色在线综合视频| 国产91无码福利在线| 久久精品中文无码资源站| 色偷偷一区| 国产精品久久自在自2021| 中文字幕第4页| 伊在人亚洲香蕉精品播放|