999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的教材德目分類評測方法

2021-10-15 12:48:54張雨婷陳軍華上海師范大學信息與機電工程學院上海201418
計算機應用與軟件 2021年10期
關鍵詞:分類文本教材

張雨婷 陳軍華 (上海師范大學信息與機電工程學院 上海 201418)

0 引 言

德目德育是道德教育的重要內容,以傳遞當前社會核心價值觀為目標,在推動道德共識方面起到重要作用。古今中外的德目指標不斷變化,我國古代有董仲舒提出的“仁、義、禮、智、信”,當前有《公民道德建設實施綱要》提出的“愛國守法、明禮誠信、團結友愛、勤儉自強、敬業奉獻”[1],國外有古希臘哲學家柏拉圖提出的“智慧、勇敢、節制、正義”,有教育家里可納提出的“尊重”和“責任”。教材德目指標是學校道德養成體系中教材選用的重要標準之一,對提供個性化德育信息服務具有重要意義。目前,德目指標的理論研究在教育領域已有進展[2-3],但評估過程由人工完成,具有主觀特點,效率不高。

自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究人與計算機之間用自然語言進行有效通信的各種理論和方法,涉及所有用計算機對自然語言進行的操作[4]。

短文本分類是自然語言處理領域的一個重要應用。國內外學者對各領域短文本分類已有一定的研究,在社交網絡和新聞方面的研究較多。Ferragina等[5]設計了Tagme系統,將選定的術語序列關聯到與其含義相關的Wikipedia頁面來注釋新聞等短文本。Yu等[6]提出了一種擴展Dirichlet多項式混合主題模型的方法,該方法有效避免了語義稀疏問題,改進了微博短文本分類模型性能。徐彤陽等[7]提出了基于深度學習的數字圖書館文本分類模型,模型通過卷積神經網絡解決傳統文本分類中的高維稀疏問題,提高了數字圖書館的智能化程度。魏芳芳等[8]提出了一種基于線性支持向量機的中文農業文本分類模型,將該模型應用于農業物聯網行業信息綜合服務平臺,實現中文農業文本信息的自動分類。上述研究表明,短文本分類為各領域提供了更高效的信息服務方式,其成果亦可用于德目德育領域的短文本分類研究。

本文研究源于教育部哲學社會科學重大課題攻關項目(立項號:13JZD046):大中小德育課程一體化建設研究,實驗數據集來源于上海中小學教材。短文本長度通常在幾十到一百字,項目組專家從上海中小學教材的各個單元中收集德目德育的相關句子短文本,并標定短文本的一級德目指標為政治認同(A)、國家意識(B)、文化自信(C)和公民人格(D),二級德目指標為黨的領導(A1)、科學理論(A2)、政治制度(A3)、發展道路(A4)、國家利益(B1)、國情觀念(B2)、民族團結(B3)、國際視野(B4)、國家語言(C1)、歷史文化(C2)、革命傳統(C3)、時代精神(C4)、健康身心(D1)、守法平等(D2)、誠信盡責(D3)和自強合作(D4)。

教材短文本分類有以下幾方面難點:

(1) 短文本具有稀疏性,用傳統向量空間模型表示,會造成向量空間稀疏、關聯語義丟失的問題。

(2) 數據集不平衡,各個指標的教材短文本條數差異較大,導致模型在數據較少的類別上難以獲取足夠的特征信息。

(3) 目前對教材德目指標的研究有限,人工評估主觀性強,分類效率不高。

針對以上難點,可以使用GloVe預訓練詞向量,結合PyTorch的embedding層基于文本標簽進行有監督的學習來更新權重,得到包含語義信息的稠密詞向量矩陣,使用數據增強技術得到均衡數據集,使用卷積神經網絡提高準確性。因此,本文提出基于深度學習的短文本分類模型IoMET(Indicators of Moral Education Target),采用數據增強技術和基于PyTorch的卷積神經網絡進行深度學習,對上海中小學教材德目指標進行研究,提出一種新的數據增強方法,并優化PyTorch卷積神經網絡,實現準確性較高的自動分類任務。

1 相關工作

1.1 教材短文本分類

在文本自動分類任務中,標簽集是預定義的,分類是為每個輸入判斷出正確的類別標簽,本文類別為教材短文本的二級德目指標。文本分類技術主要包括文本預處理和分類器構建,文本預處理主要包括分詞、去除停用詞等,分類器構建是在預處理的基礎上選擇適當的算法實現分類。分類的算法有邏輯回歸、支持向量機和神經網絡等,短文本分類流程如圖1所示。

1.2 文本預處理

文本預處理是分類的基礎。在上海中小學教材短文本中,存在大量特殊符號和語氣助詞等對德目指標分類幫助甚微的詞,本文從33 360條原始教材數據中找出這些詞,自建停用詞表。jieba[9]是一種常用的中文分詞問題解決方案,被科研文獻和開源社區廣泛使用和測試[10-11]。本文采用jieba進行中文分詞,并根據自建停用詞表去除停用詞。

1.3 數據增強

數據集不平衡深度學習的高性能往往取決于數據集的大小和質量,一個數據集是一大段文本,數據集的設計要考慮多類別數據間的平衡。針對上海中小學教材短文本數據不均衡的問題,可以采取數據增強技術來使數據集達到平衡,數據增強是擴充數據樣本規模的一種有效方法,數據的規模越大、質量越高越好,模型才能夠有著更好的泛化能力。

數據增強的方法有過采樣、欠采樣、回譯、打亂句子順序以及句內詞語順序等。過采樣用在數據集不足的情況下,通過重復、自助抽樣或合成少數類過采樣技術SMOTE來增加少數類的樣本數量得到平衡的數據集。欠采樣用在數據量充足的情況下,通過直接刪除、隨機刪除或聚類來減少多數類別的樣本數量得到平衡的數據集?;刈g是用機器翻譯把一段中文翻譯成另一種語言,然后再翻譯回中文來快速產生一些不那么準確的翻譯結果得到平衡的數據集?;刈g不僅有類似同義詞替換的能力,它還具有在保持原意的前提下增加或移除單詞并重新組織句子的能力。盡管回譯是有效的,但機器翻譯的實現成本相對于性能收益來說很高,在實踐中并不經常使用。

Wei等[12]提出了一種簡單的通用NLP數據增強技術EDA,EDA由同義詞替換(Synonyms Replace,SR)、隨機插入(Randomly Insert,RI)、隨機交換(Randomly Swap,RS)和隨機刪除(Randomly Delete,RD)組成。EDA使用NLTK做英文的同義詞查詢,對數據集中的每條文本生成相同數量的新文本,在較小的數據集上進行訓練時,EDA顯著地提高了性能并減少了過度擬合。

針對教材短文本數據不均衡的問題,本文結合SMOTE和EDA的思想提出一種新的數據增強方法,即使用自建停用詞表和同義詞詞林做同義詞查詢,實現少數類別過采樣,并隨機打亂句子以及句內詞語順序來得到平衡的新數據集,以提高模型的泛化能力。

1.4 PyTorch神經網絡

PyTorch是使用GPU和CPU優化的深度學習張量庫[13],包含多維張量的數據結構以及基于其上的多種數學操作,還提供一些有效地對張量進行序列化的工具[14]。PyTorch數據處理流程如圖2所示,先定義字段處理方法,再從數據集加載批量數據迭代器對數據進行批處理操作,保證一個Batch的文本長度一致。PyTorch通過降低輸入的索引列表維度,來輸出相應索引的詞嵌入,有效解決短文本的高維稀疏問題。

卷積神經網絡(Convolutional Neural Network,CNN)是一個深度學習算法,包含卷積層、池化層和全連接層。卷積層中的卷積核以一定步長沿詞向量矩陣向下滑動,每經過一個滑動窗口時進行卷積運算,產生一個新的特征值,在池化層中對特征值進行池化操作,以保證在卷積層的不定長輸出上獲得一個定長的全連接層輸入,在全連接層中進行分類任務。

Kim[15]提出了TextCNN,將卷積神經網絡應用到文本分類任務,利用多個不同大小的卷積核來提取句子中的關鍵信息,從而更好地捕捉局部相關性。TextCNN被廣泛應用于文本分類任務中[16-17]。因此,本文采用基于Pytorch的TextCNN對教材短文本進行深度學習。

2 IoMET建模

2.1 模型分類目標

本文針對上海中小學教材短文本的德目指標進行研究,提出基于深度學習的短文本分類模型IoMET,以短文本的二級德目指標作為分類目標,實現準確性較高的自動分類任務,以輔助教材內容設置更充分地體現德目內涵。

2.2 建模流程

如圖3所示,IoMET的建模流程分為文本預處理、數據增強、批處理、特征提取和訓練。

圖3 IoMET短文本分類模型

(1) 文本預處理:采用jieba進行中文分詞,并根據自建停用詞表去除停用詞。

(2) 數據增強:使用自建停用詞表和同義詞詞林做同義詞查詢實現少數類別過采樣,并隨機打亂句子順序以及句內詞語順序來得到平衡的新數據集。

(3) 批處理:先定義字段處理方法,再從平衡數據集加載批量數據迭代器對數據進行批處理操作,保證一個Batch的文本長度一致。

(4) 特征提?。和ㄟ^PyTorch神經網絡的卷積層和池化層實現特征提取。在一個卷積層中有多個不同的卷積核w,w∈Rhk,h為卷積核的高度,k為詞嵌入的維度,卷積核的高度是一個超參數,卷積核以步長1沿詞向量矩陣向下滑動,每經過一個h×k的窗口時進行卷積運算,產生一個新的特征值。在池化層中進行最大值池化,既減少模型參數,又保證在卷積層的不定長輸出上獲得一個定長的全連接層輸入。在全連接層中進行分類,圖4顯示的是選取卷積核“3,4,5”的二分類模型。卷積神經網絡模型如圖4所示。

圖4 卷積神經網絡模型

(5) 訓練:在PyTorch卷積神經網絡中根據目標函數進行訓練,最終生成IoMET短文本分類模型。

本文目標函數采用收斂速度較快的交叉熵損失函數。每一個節點的損失為:

(1)

則每一個Batch的損失為:

(2)

3 實 驗

3.1 實驗準備

實驗環境基于Python3.6,并使用PyTorch作為實驗平臺。如表1所示,實驗數據集來源于上海中小學教材短文本,共33 360條短文本,包含16個類別,25 008個詞匯,對教材短文本進行數據增強后,建立的均衡數據集共125 280條短文本,包含16個類別,37 154個詞匯,隨機選取8 ∶2的數據作訓練集和測試集。

實驗需要回答以下研究問題:

Q1:IoMET模型的參數選取是否合理?

Q2:IoMET模型的數據增強方法是否有效?

Q3:本文研究有哪些已知問題和干擾因素?

3.2 實驗過程

PyTorch卷積神經網絡模型搭建的超參數不同會影響實驗效果,需要進行調參優化。實驗用于回答研究問題Q1。

小批量梯度下降法[18-19]是在深度學習中的梯度下降法變體,小型批量大小稱為batch sizes,batch sizes是梯度下降的超參數,通常用來對計算架構的執行實現方面進行調優,比如滿足CPU硬件內存需求的2的冪,如32、64、128和256等[20]。批量大小數值越大,學習過程越慢,誤差梯度估計越準確。

實驗1:分別選取批處理大小64、128和256進行實驗,通過圖5對比看出選取批處理大小128進行批處理操作性能更高。

(b) 時間對比圖5 不同批處理大小性能對比

實驗2:分別選取卷積核“3,4,5”“4,5,6”“3,4,5,6”進行實驗,通過圖6對比看出選取卷積核“3,4,5”進行卷積性能更高。

實驗3:采用卷積神經網絡,對未進行數據增強的原始短文本和使用IoMET模型的數據增強方法的短文本進行深度學習,使用精確率、召回率、F1-度量值進行性能評價。實驗用于回答研究問題Q2。

精確率、召回率和F1-度量值通過真陽性、真陰性、假陽性和假陰性來定義。真陽性(True Positive,TP)是相關項目中正確識別為相關的,假陽性(False Positive,FP)是不相關項目中錯誤識別為相關的,真陰性(True Negative,TN)是不相關項目中正確識別為不相關的,假陰性(False Negative,FN)是相關項目中錯誤識別為不相關的[1]。

精確率(Precision,P)表示發現的項目中有多少是相關的,計算如式(3)所示。

(3)

召回率(Recall,R)是表示相關的項目中發現了多少,計算如式(4)所示。

(4)

F1-度量值(F1-Measure,F1)是精確率和召回率組合成的一個得分,被定義為精確率和召回率的調和平均數,計算如式(5)所示。

(5)

通過圖7對比看出,進行數據增強后各個類別的F1-度量值均有所提高。

3.3 實驗結果及結論

對于Q1,本文通過實驗1和實驗2確認了合理的實驗參數。綜合本文實驗和相關資料,確定PyTorch卷積神經網絡模型的主要超參數如表2所示。

通過表2超參數搭建PyTorch卷積神經網絡模型,用訓練集進行訓練得到IoMET模型,再用測試集對IoMET模型進行性能測試,分類算法的性能使用精確率、召回率和F1-度量值進行評價。

實驗結果表明,隨著精確率和召回率的提高,各個類別的F1-度量值不斷提高并趨于穩定,IoMET模型的F1-度量值最終能夠達到75%。各個類別的F1-度量值曲線如圖8所示,IoMET模型的F1-度量值柱狀圖如圖9所示。

圖9 IoMET模型的F1-度量值柱狀圖

對于Q2,本文通過實驗3確認了IoMET模型的數據增強方法是有效的。為了進一步驗證IoMET模型的有效性,采用表1搭建的PyTorch卷積神經網絡,對未進行數據增強的原始短文本和使用IoMET模型的數據增強方法的短文本進行深度學習。通過圖10對比看出,IoMET模型使F1-度量值提升了25百分點。

對于Q3,短文本分類研究存在人工評價主觀性、樣本數量不均衡、文本過擬合風險的問題,本文盡了最大努力規避和改善這些問題。對于人工評價主觀性問題,本文實驗數據的預定義標簽為大中小德育課程一體化建設研究項目組專家定義的短文本二級德目指標,數據評價具有權威性。對于樣本數量不均衡問題,本文結合SMOTE和EDA的思想提出一種新的數據增強方法,使用自建停用詞表和同義詞詞林做同義詞查詢實現少數類別過采樣,并隨機打亂句子順序以及句內詞語順序來建立均衡數據集。對于文本過擬合風險問題,本文使用IoMET的數據增強方法得到均衡數據集,顯著地提高了性能并減少了過擬合風險,除此之外,本文在PyTorch卷積神經網絡中使用超參數Dropout[21]緩解過擬合問題。

4 結 語

本文以上海中小學教材短文本的德目指標研究作為實驗背景,提出IoMET模型對短文本德目指標進行分類。IoMET模型采用數據增強技術有效避免了數據不均衡問題,結合PyTorch卷積神經網絡提取特征,將原始數據表示映射為高層語義表示進行深度學習。實驗結果表明,本文提出的IoMET模型,對德目指標具有較好的預測效果,可以部分代替人工工作。為了進一步驗證IoMET模型的有效性,采用IoMET模型的PyTorch卷積神經網絡,對未進行數據增強的原始短文本和使用IoMET模型的數據增強方法的短文本進行深度學習,通過對比實驗看出,IoMET模型使F1-度量值提升了25百分點。接下來的研究方向是改進文本預處理方式、數據增強方法和PyTorch神經網絡結構,以提高IoMET模型的性能。

猜你喜歡
分類文本教材
教材精讀
教材精讀
分類算一算
教材精讀
教材精讀
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 国产欧美中文字幕| 国产性爱网站| 成人福利在线观看| 国产色婷婷| 欧美激情首页| 尤物精品视频一区二区三区 | 为你提供最新久久精品久久综合| 亚洲天堂网2014| 99久久亚洲精品影院| 国产jizzjizz视频| 91视频99| av在线无码浏览| 久久精品国产亚洲AV忘忧草18| 欧美精品一区在线看| 成年片色大黄全免费网站久久| 日韩一二三区视频精品| 精品一区二区三区四区五区| 欧美日韩国产在线播放| 欧美日韩国产精品va| 2021国产精品自拍| 伊人久综合| 91在线一9|永久视频在线| 免费无遮挡AV| 精品色综合| 九九热精品免费视频| 成人无码一区二区三区视频在线观看| 亚洲男人天堂网址| 精品国产Av电影无码久久久| 国产精品亚洲片在线va| 日韩AV无码一区| 亚洲中文字幕无码爆乳| 91麻豆精品视频| 国产精品不卡永久免费| 国产成人精品午夜视频'| 91av国产在线| 爱色欧美亚洲综合图区| 久久一级电影| 久久精品一品道久久精品| 久久国产热| 亚洲第一成年人网站| 一级毛片在线播放免费观看| 在线观看无码a∨| 91精品啪在线观看国产60岁| 国产亚洲一区二区三区在线| 亚洲一区国色天香| 日本免费a视频| 91综合色区亚洲熟妇p| 国产成人福利在线视老湿机| www.日韩三级| 久久鸭综合久久国产| 秋霞午夜国产精品成人片| 91丝袜乱伦| 2020精品极品国产色在线观看| 在线日韩一区二区| 97青草最新免费精品视频| 狠狠亚洲婷婷综合色香| 日韩欧美成人高清在线观看| 国产日韩欧美成人| 特级欧美视频aaaaaa| 国产极品美女在线| 99视频国产精品| 国产国拍精品视频免费看| 2022国产91精品久久久久久| 日韩123欧美字幕| 国产日韩丝袜一二三区| 免费不卡视频| 67194亚洲无码| 欧美日韩精品一区二区视频| 四虎成人免费毛片| 伊大人香蕉久久网欧美| 久久综合结合久久狠狠狠97色| 98超碰在线观看| 成人亚洲国产| 日韩高清欧美| 国产精品无码在线看| 午夜精品久久久久久久2023| 免费一级毛片在线观看| 婷婷伊人五月| 丝袜国产一区| 呦女精品网站| 天堂网国产| 亚洲精品无码在线播放网站|