999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖卷積神經(jīng)網(wǎng)絡的高校評教文本垃圾識別模型

2021-02-14 06:25:44
電視技術 2021年12期
關鍵詞:分類特征文本

熊 晗

(重慶工商職業(yè)學院,重慶 400052)

0 引 言

高校評教系統(tǒng)如何準確地刻畫與量化教師教書水平,學生評價是有效的信息反饋手段。然而,目前高校的學生評教未能真正達到智能化的程度。其中一個主要的困難在于,學生的評價有大量的無效、無用、甚至是干擾的評論。如何在海量的評教文本中準確地實現(xiàn)垃圾信息識別,使評教系統(tǒng)智能化,是目前項目的工作重點。

近年來,在高校研究工作中,評教內(nèi)容的使用與研究有很多突破與進展。在文本垃圾識別領域,深度學習技術有著相當不錯的實現(xiàn)效果,特別是圖卷積神經(jīng)網(wǎng)絡(Graph Convolution Network,GCN)的提出,將聚合節(jié)點的鄰居節(jié)點以及邊的信息來更新該節(jié)點的向量表征,捕捉到文本中更豐富和細致的特征,提升垃圾分類的識別效果[1-2]。本文結合大量學生評教語料的分析與處理,使用Bert完成詞嵌入,將文本特征以嵌入向量的形式輸入到圖網(wǎng)絡模型中。實驗證明,相較于未使用GCN模型的方法,Bert結合GCN模型有著更好的分類性能[3]。

針對收集的學校的多年評教語句初步分析,進行分類識別垃圾評教語句的難點在于:

(1)評教語句往往比較簡短,使用傳統(tǒng)的自然語言的處理框架如循環(huán)神經(jīng)網(wǎng)絡(Rerrent Neural Network,RNN)以及衍生框架很難獲取到語句有效特征;

(2)部分評教語句從語言、語法上無法區(qū)分是否為垃圾評教,比如學生評價:“老師教得不錯”,可能是中肯的,也可能是敷衍的復制,這種情況需要收集足夠多的特征來區(qū)分[4];

(3)文本數(shù)據(jù)量巨大,每年學生評教有大量的數(shù)據(jù)產(chǎn)生,人工標注較為困難。

本項目將按以下兩個思路進行文本圖結構表示。

第一類,將每個文本作為頂點,將頂點之間的實際拓撲關系作為邊條件與權值,例如文本作者與粉絲之間的關注關系,文本相互鏈接的關系等等。

第二類是基于文本的實體與共指關系連接構建。將文本中的實體作為節(jié)點,并把實體之間的共指同現(xiàn),鄰近實體連接作為邊,從而使用圖結構進行表示。

通過研究調查,圖卷積神經(jīng)網(wǎng)絡與自然語言處理結合已經(jīng)有理論基礎認證,并有部分實際工作[4-5]。本文重點將結合圖卷積神經(jīng)網(wǎng)絡的結構特點,使用目前前沿的Bert框架對文本詞嵌入做好預處理。融合學生屬性數(shù)據(jù)與評價文本的特征表示作為輸入,進行下一步圖卷積訓練,用學生-教師-評語二部圖的關系聚合各節(jié)點的特征信息,捕獲局部上下文的關系,從而獲取更細致的特征。最后使用分類器對文本進行分類,完成相關分類工作。

1 模型詳細設計

1.1 特征表示與文本詞嵌入

要得到更好的識別效果,使用的學生信息就應該盡可能地多,才能充分挖掘學生評教質量的高低,從而識別出垃圾信息。本次實驗,收集的維度不僅僅局限于文本。針對學生的成績好壞、平時作業(yè)是否喜愛抄襲、所在班級、關系緊密的同學等等信息都作為特征收集,這些信息在一定程度上可以反映出一個學生的評價信息是否質量較高,這樣從一定程度上豐富了特征信息,補充了僅僅靠學生評教語句來挖掘信息的不足。比如成績不太好、平時作業(yè)就有網(wǎng)上復制習慣的學生,很大可能其評教語句也是隨意復制的。

圖1 多維度評價特征向量

1.2 圖神經(jīng)網(wǎng)絡構架

參考圖卷積在文本分類上的基本原理,設定G=,其中所有頂點可以表示為v∈V,特征節(jié)點Xv=hvo∈Rd0,其中do表示特征維度,隱層節(jié)點v在lth層學習到的狀態(tài)表示為表示隱層lth節(jié)點狀態(tài)。

接下來,將學生的評教文本數(shù)據(jù)與評價老師的關系看做一個“學生、教師為頂點,評語為邊”的二部圖,如圖2所示。

圖2 學生-教師-評教二部圖

按照圖卷積網(wǎng)絡的提取過程,針對圖網(wǎng)絡的領域提取特征,同時將兩邊的特征容納到特征領域的提取過程中。對于邊特征的更新過程為:將邊E特征與二部圖兩側的頂點教師Vt與學生特征Vu進行更新,更新按照兩個步驟進行,即特征提取與特征融合,對應公式如式(1)和式(2)所示。

如上所述,在基于GCN的節(jié)點分類中齊次圖上的任務,從最后一層嵌入節(jié)點用作分類器的輸入。相反地,利用上次傳播的邊緣嵌入層以及該邊鏈接到的兩個節(jié)點的嵌入,將這三個嵌入連接起來進行邊緣分類。根據(jù)設置的二部圖設定,在同構圖上基于GCN的節(jié)點分類任務中,使用最后一層作為節(jié)點分類器的輸入。利用來自最后的傳播層的邊緣嵌入以及改變的邊緣鏈接到的兩個節(jié)點,使其鏈接起來作為邊緣分類,整體構架分為Aggregation Sub-layer和Combination Sub-layer。其中Aggregation Sublayer使用TextCNN模型可得到:

最后使用式(5)將sotfmax層接入神經(jīng)網(wǎng)絡層,對評教語句進行分類,最后選擇得到概率最大的類別,判斷是垃圾評價還是正常評價。

1.3 總體網(wǎng)絡模型構架

總體流程如圖3所示。

圖3 Bert+GCN垃圾識別模型整體構架

2 實驗與結果

2.1 實驗數(shù)據(jù)與環(huán)境

數(shù)據(jù)收集重慶工商職業(yè)學院2010—2015共5年的評教數(shù)據(jù),并且按照8∶2的比例分為訓練集與測試集。針對原始數(shù)據(jù)進行清理。

對于評教數(shù)據(jù)進行如下處理:

(1)將評價過于簡短如“很好”“不錯”“可以”等詞語刪除,后續(xù)這部分詞語可以作為一部分低權重的特征加入對教師評價的判斷中,在本次實驗中暫不考慮;

(2)刪除重復過多的評價短語,這部分幾乎是無意義地復制粘貼而來,對真實情況的反映意義不大;

(3)處理停用詞與標點。

處理后,評教數(shù)據(jù)總量為18 986條。

對于學生的屬性數(shù)據(jù),本次選取的學生屬性數(shù)據(jù)共13個維度,樣例如表1所示,共收集數(shù)據(jù)11 289條。

表1 學生屬性數(shù)據(jù)特征樣例

2.2 實驗結果分析

根據(jù)模型詳細設計流程,為了測試圖卷積神經(jīng)網(wǎng)絡針對選取文本的分類效果,本文選擇了幾種常見的自然語言處理的機器學習構架來進行比較。為了更加全面與科學地比較,本次實驗選取機器學習的代表方法支持向量機(Support Vector Machine,SVM),它是常見的深度學習基本框架方法,也是目前主流的組合框架方法。數(shù)據(jù)處理階段,統(tǒng)一使用數(shù)據(jù)特征的處理過程(圖1過程),保證輸入結構一致。后面處理過程采用如下幾種框架進行比較。

(1)SVM+樸素貝葉斯。提取的是TF特征,統(tǒng)計出每個特征及其頻次。以特征的id作為下標,頻次作為數(shù)值,假設一共有n個特征,一篇文檔就轉化為n維的詞袋向量。樸素貝葉斯法是最簡單常用的一種生成式模型。樸素貝葉斯法基于貝葉斯定理將聯(lián)合概率轉化為條件概率,然后利用特征條件獨立假設簡化條件概率的計算。

(2)GBDT。GBDT是把所有樹的結論累加起來做最終結論的。GBDT的核心在于,每一棵樹學的是之前所有樹結論和的殘差(負梯度),這個殘差就是一個加預測值后能得到真實值的累加量,GBDT在各類比賽中針對分類類型問題均有非常好的分類表現(xiàn)。

(3)TextCNN。TextCNN的最大優(yōu)勢是網(wǎng)絡結構簡單,在模型網(wǎng)絡結構如此簡單的情況下,通過引入已經(jīng)訓練好的詞向量,依舊有很不錯的效果,在多項數(shù)據(jù)數(shù)據(jù)集上超越benchmark。并且網(wǎng)絡結構簡單導致參數(shù)數(shù)目少,計算量少,訓練速度快。

實驗結果如表2所示。

表2 評教垃圾評語識別各算法框架對比

通過實驗可以看出,bert預處理的詞嵌入結合GCN的網(wǎng)絡模型,在本次實驗的環(huán)境中,極大程度地獲取了評教文本以及學生屬性信息的相關特征信息,很好地表示在文本評價質量的分類工作中。

3 結 語

本文以目前近年來流行的圖卷積神經(jīng)網(wǎng)絡框架為研究對象,結合目前收集的學校評教數(shù)據(jù)的特征進行模型設計,解決評教語句中過多的垃圾評價很難單通過語句進行判斷的弱點。融入學生屬性數(shù)據(jù)后,結合學生-評教-教師的二部圖關系,設計圖卷積神經(jīng)網(wǎng)絡模型,形成在特定場景下的一些具有圖網(wǎng)絡關系的評價語句進行研究。最后通過實驗證明,在專業(yè)詞匯較多、文本簡短、評教文本之間有豐富連接關系且標注數(shù)據(jù)量較少的語料場景下,使用圖卷積神經(jīng)網(wǎng)絡訓練取得了更好的效果。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 欧美A级V片在线观看| 91视频99| 亚洲首页国产精品丝袜| 日本一区二区三区精品AⅤ| 国产美女人喷水在线观看| 又爽又大又黄a级毛片在线视频 | 亚洲AV电影不卡在线观看| 国产视频久久久久| 成人永久免费A∨一级在线播放| 国产爽歪歪免费视频在线观看| 免费又黄又爽又猛大片午夜| 亚洲乱码视频| 色妞永久免费视频| 日韩欧美中文亚洲高清在线| 欧美精品aⅴ在线视频| 久久永久精品免费视频| 人妻无码一区二区视频| 99re热精品视频国产免费| 中日韩一区二区三区中文免费视频| 国产成人8x视频一区二区| 这里只有精品国产| 伊人丁香五月天久久综合| 亚洲成在人线av品善网好看| 深夜福利视频一区二区| 污污网站在线观看| 久久久精品无码一区二区三区| 亚洲人精品亚洲人成在线| 亚洲成a∧人片在线观看无码| 欧洲欧美人成免费全部视频 | 91精品啪在线观看国产91| 五月婷婷中文字幕| 亚洲Aⅴ无码专区在线观看q| 精品99在线观看| 国内熟女少妇一线天| 怡红院美国分院一区二区| 精品91视频| 99伊人精品| 日韩在线中文| 午夜视频www| 亚洲美女AV免费一区| 亚洲欧美在线综合图区| 亚洲欧美日韩高清综合678| 亚洲成人在线免费| 九九视频免费在线观看| 狠狠干欧美| 在线免费不卡视频| 国产精品成人免费综合| 中文字幕日韩丝袜一区| 国产福利在线免费| 九色在线观看视频| 欧美怡红院视频一区二区三区| 热99re99首页精品亚洲五月天| 亚洲综合片| 中国一级毛片免费观看| 国产欧美日韩视频怡春院| 怡春院欧美一区二区三区免费| 国产福利小视频高清在线观看| 国产亚洲精品yxsp| 日韩精品一区二区三区中文无码| 国产综合欧美| 亚洲日韩Av中文字幕无码| 人妻精品全国免费视频| www精品久久| 国产屁屁影院| 91精品情国产情侣高潮对白蜜| 亚洲综合中文字幕国产精品欧美| 91在线视频福利| 999精品免费视频| 91福利国产成人精品导航| 99精品高清在线播放| 国产精欧美一区二区三区| 宅男噜噜噜66国产在线观看| 亚洲欧美在线综合一区二区三区| 91亚瑟视频| 午夜丁香婷婷| 成人91在线| 中国国产高清免费AV片| 婷婷五月在线| 国产黄在线观看| 丝袜国产一区| 欧美一区二区自偷自拍视频| 婷婷六月综合网|