999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AMR 與優美句識別的博文質量評估研究

2021-04-26 04:12:58喬亞勃高永兵
科學技術創新 2021年10期
關鍵詞:語義文本實驗

喬亞勃 高永兵 馬 寧

(內蒙古科技大學 信息工程學院,內蒙古 包頭014010)

1 概述

網絡的用戶數量隨著互聯網的普及呈爆發式增長,數據的產生更是以指數級的速率增長。其中文本信息是關注的重點,盡管海量的文本數據資源支持了文本技術的發展與研究,但其價值密度過低,數據中包含了大量重復、噪聲和垃圾數據。評估短文本的質量對于許多應用程序(例如推薦系統和在線搜索,以查找高質量的文章過濾掉低質量的文章)是一個關鍵問題。

2 相關工作研究

目前文本質量評估大致分為長文本質量評估與短文本質量評估兩大類。長文本質量評估主要針對中英文作文自動評分研究,國外對于自動評估系統的研究較早,目前美國教育考試領域已經實用的AES 系統有PEG、IEA、E-rater[1-2]。國內涉足此領域的研究較晚,曹亦徽和楊晨使用潛在語義分析方法對漢語作文自動評分進行研究。劉明楊等人通過對作文中排比以及比喻修辭的自動識別,對高考作文進行自動評分研究。付瑞吉[3]等人提出了一種基于CNN 和BiLSTM 的混合網絡結構進行優美句識別對高考作文自動評分。用于長文本的評估方法并不能簡單的套用到短文本上。針對處理深度的不同,國內對于短文本質量評估可分為淺層功能評估與深層功能評估兩類。淺層功能評估,即主要針對文本信息的可信度、準確性、及時性、完整性、真實性等一系列表面特征進行評估。盛宇等人根據內容相關度、內容質量、內容更新計算出信息質量綜合指數,通過統計個人相關詞表并與公共相關詞表結合、去重后得出個人領域相關詞表,對博文進行質量評估。胡媛[4]從微博信源可信度和信息質量的雙路徑視角構建微博信息質量評價指標體系。深層功能評估,Yiru Wang[5]等人提出聯合模型CoQAN 設計三個子網絡來解耦布局組織、寫作特征和文本語義。其中文本語義子網使用改進的hi-Bert 模型,其包含兩個層級的編碼器依次對文檔進行編碼,分別應用于句子級別和文檔級別,深入學習單詞和句子之間的交互關系。高永兵等人提出了一種基于AMR 解析的短文本質量評估的方法,主要從語法層面對微博短文本進行質量評估,根據語法結構的完整性以及句子序列緊密性對句子進行打分,將句子質量分為高、中、低三類。此方法較適用于語法成分比較齊全、句式結構較完整短句,對于語法不齊全、簡約、缺乏上下文信息的優美句來說并不能很好的做出評估。

3 模型

要實現短文本質量評估任務,不僅要分析文本的淺層特征,更重要的是將文本進行解析,從文本的語法、語義、語用等深層特征入手。本文提出一種AMR 解析與優美句識別相結合的模型如圖1所示。針對語法較齊全、結構完整的句子,通過AMR 質量評估模型對其進行評分,除以上句式以外的其他句式定義為特殊語句,通過優美句識別模型對其進行評估,實現了對優美句的精確識別,彌補了AMR 質量評估模型存在的缺陷。

圖1 AMR 與優美句識別模型流程圖

3.1 優美句識別模型

微博中不乏有在語法生動、句式比較靈活、巧用文言詞、古詩詞等某一方面或幾方面有突出之處的有文采的特殊短句,本文稱之為“優美句”。這些優美句通常語言精練、語句簡短,但語法成分不齊全,句式結構比較特殊。在對數據進行評估時,AMR 質量評估模型因評估規則不完善,沒有針對優美句識別的相應算法和規則,模型將優美句評估成低質量的語句。本文將提取AMR 質量打分較低的語句,然后利用優美句識別模型對其進行二次評定。最后,綜合AMR 質量評估模型與優美句識別模型的最終得分對句子進行分類。

已有實驗表明Bert 網絡模型可以捕獲語言的結構信息。Bert不同的網絡層對特征的編碼也是不同的,較低層學習到的是詞語級別等表面特征,中間層學習到的是語法層面的特征,頂層學習到的是語義特征。Jawahar[6]等人使用十個句子級別的探測任務來評估每層網絡編碼不同類型語言特征的能力,并將這十個任務分為表面層任務、句法層任務、語義層任務,表面層任務用來探測句子長度,句子中單詞的存在;句法層任務用來探測詞序敏感性,語法樹深度,語法樹頂級成分序列;語義層任務用來探測時態檢查,主語數量,名詞動詞隨機替換敏感度,協作分句連詞的隨機交換。

Bert 模型首先對輸入的句子序列進行預處理,中文是以單個字作為基本處理單位。模型中還加入了特殊字符“[CLS]”作為標記序列的前綴,并在每個句子后綴“[SEP]”。文本分類任務中,Bert 模型最終將整個句子中所有字/詞的語義信息都融合在“[CLS]”中作為整個句子的語義表示。

圖2 優美句識別模型

3.2 Bert 預訓練與語義相似性

一個句子序列X1:T=(x1,...,x)T,語言模型將聯合概率p(x1:T)按自回歸的方式分解為:

Bert 模型提出的MLM(Mask Language Model)將其分解為:

4 數據集

目前國內外還沒有統一的短文本質量評估的語料庫和測試集。從微博中爬取10000 條經過篩選與處理后的數據,其中500 條作為數據集A 使用AMR 質量評估進行測評,人工標注數據集中每句話的質量等級類別,因目前中文AMR 解析準確率不高,將數據轉換成AMR 解析樹后,需要進行人工校正;9500 條數據為數據集B,作為優美句識別模型的數據集,人工標注該數據集中每個句子優美(標記為“1”)或不優美(標記為“0”)。

5 實驗與結果分析

首先對數據集A 進行AMR 解析并人工校正,經AMR 質量評估模型打分。通過測試得知,AMR 質量評估模型存在一些缺陷,日常中發現的優美句,因其語法不齊全、結構復雜、句式不規律等諸多因素,造成AMR 質量評估模型對優美句的質量評估并不敏感。如給簡單句子打高分,而給優美語句打低分等情況。

用標注好的數據集B 訓練Bert 模型,提取優美句相關特征,并進行微調。將AMR 質量評估模型打分低的語句通過訓練好的Bert模型進行二次評定,最終Bert 模型評估優美句準確率達到83.88%。

本次實驗采用兩組實驗進行對比,實驗一為AMR 質量評估模型實驗,實驗二為基于AMR 與優美句識別的實驗,對比結果如表1 所示:

表1 對比實驗

通過表中數據可以發現,實驗二的準確率明顯高于實驗一的準確率。實驗一是基于AMR 解析基礎之上的,目前AMR 對英文的解析效果比較準確,雖然CAMR 解析器是針對中文的,但其準確率并不是很理想。這是造成AMR 質量評估模型準確率低的主要原因。另一個原因是AMR 質量評估模型的評估方法相對較少,有待補充。中文語言豐富,句式復雜等因素,很難對句子進行徹底的剖析。

6 結論

本文主要依據優美句的識別來評估短文本的質量,提出以AMR 與優美句識別相結合的方法,利用優美句識別模型對特殊句式進行二次評估,增加了對短文本質量評估的方法,實驗結果表明,改進的質量評估模型與其他單一模型相比在精度上有了提高。通過實驗驗證了該方法的有效性。

猜你喜歡
語義文本實驗
記一次有趣的實驗
語言與語義
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 强乱中文字幕在线播放不卡| 国产一区二区人大臿蕉香蕉| 四虎国产精品永久一区| 亚洲av综合网| 亚洲熟妇AV日韩熟妇在线| 免费 国产 无码久久久| 97在线观看视频免费| 国产一区二区三区免费观看| 67194在线午夜亚洲| 91破解版在线亚洲| 免费a在线观看播放| 亚洲人妖在线| 欧美a√在线| 国产亚洲高清在线精品99| 欧美一区二区三区香蕉视| 国产凹凸视频在线观看| 制服丝袜一区| 久久国产精品麻豆系列| 国产91在线|中文| 久久国产精品影院| 一级成人a毛片免费播放| 啦啦啦网站在线观看a毛片 | 麻豆AV网站免费进入| 三级毛片在线播放| 久久亚洲综合伊人| 久久精品国产91久久综合麻豆自制| 一本大道无码日韩精品影视| 综合社区亚洲熟妇p| 色噜噜狠狠色综合网图区| 久久精品91麻豆| 一区二区三区四区精品视频| 欧美天堂久久| 亚洲国产天堂久久九九九| 欲色天天综合网| 亚洲婷婷六月| 91毛片网| 国产又粗又猛又爽视频| 三上悠亚精品二区在线观看| 久久香蕉国产线看观| 欧美69视频在线| 免费毛片网站在线观看| 午夜欧美理论2019理论| 无码一区二区波多野结衣播放搜索| 国产一区二区三区在线观看免费| 国产午夜福利亚洲第一| 久久人妻系列无码一区| 亚洲综合精品第一页| 奇米影视狠狠精品7777| 激情乱人伦| 91成人在线免费视频| 国产精品人莉莉成在线播放| 久久综合九色综合97婷婷| 制服丝袜国产精品| 青青草一区| 新SSS无码手机在线观看| 国内精品久久九九国产精品| 成人精品免费视频| 日本成人不卡视频| 18禁不卡免费网站| 直接黄91麻豆网站| 青青青草国产| 免费中文字幕一级毛片| 色天天综合久久久久综合片| 中文字幕在线免费看| 五月婷婷激情四射| 国产无码性爱一区二区三区| 美女被操91视频| 精品福利视频网| 日本一区二区不卡视频| 91av成人日本不卡三区| 久久这里只有精品2| 毛片视频网址| 国产精品第页| 在线观看国产网址你懂的| 免费国产在线精品一区| 中文字幕一区二区视频| 毛片一区二区在线看| 国内a级毛片| 特级aaaaaaaaa毛片免费视频| 亚洲色欲色欲www网| 国产精品亚洲一区二区三区在线观看| 尤物精品视频一区二区三区|