999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種中小學漢語作文表現手法分類方法

2018-10-24 07:59:16馬曉麗周建設駱力明史金生
計算機應用與軟件 2018年10期
關鍵詞:分類文本實驗

馬曉麗 劉 杰,* 周建設 駱力明, 史金生

1(首都師范大學信息工程學院 北京 100048)2(首都師范大學北京成像技術高精尖中心 北京 100048)

0 引 言

隨著自然語言處理相關技術的日益成熟,作文自動評閱漸漸成為該研究領域中的熱點問題之一。在中小學作文評閱中,人工評閱涉及明確內容、安排結構、運用語言、修改及書寫四部分。運用語言這一項占整個作文評分的40%,而學生如何恰當地表達和運用語言和作文中的表現手法是息息相關的。表現手法的使用可以反映出作者的語言運用能力,從而體現出作者語言積累的豐富程度。為評估中小學生的語言運用能力,本文結合已有的分類器,訓練事先已手工標注好表現手法類別的文本,生成適合此領域的分類模型,從而預測文中表現手法所屬類別。將表現手法進行分類研究,對作文自動評閱系統給予學生反饋信息,從而實現個性化推薦有較大實用價值和研究價值。

短文本分類是將文本內容相似的文本分配到一個或多個預定義的類別中。傳統文本分類算法通常基于向量空間模型,將特征詞轉化為權值構成文本的特征向量。權值的計算有多種方法,常用的有布爾和TFIDF函數,以及對數和熵函數等[1]。針對表現手法文本較短、特征分布不均衡等特點,本文采用引入方差的TF×IWF×IWF算法進行文本特征提取[2]。以下文中統稱此算法為改進的TFIDF算法。

針對以上權重計算得到的短文本向量具有的特征稀疏問題,本文嘗試對其進行擴展,目前研究者通常從語義方面對特征詞進行擴展[3]。文獻[4]和文獻[5]分別利用維基百科、WordNet等對短文本進行特征擴展。上述方法主要依據語義知識庫的概念關系進行擴展。由于借助外部知識庫對短文本進行擴展要求對應專業領域知識和實時更新的主題素材,所以不適用于中小學生表現手法的分類研究。文獻[6]使用LDA提取語料主題,將主題中的詞作為短文本擴展特征。但中小學生作文主題分散性以及數據稀疏性會導致LDA模型挖掘的主題不能很好地描述短文本特征。文獻[7]利用Word2vec模型得到每個詞與上下文建立聯系對應的詞向量,不僅可以解決傳統向量空間模型的稀疏特征問題,還能引入語義特征[7]。基于以上分析,本文提出合并改進的TFIDF和加權Word2vec這兩種算法來形成表現手法文本的特征向量,從而改善短文本分類中存在的特征向量具有稀疏性的問題,以此提高分類的性能[8]。

1 研究背景

1.1 傳統的TFIDF算法

如何選擇恰當的計算權重的算法來對文本向量進行表示,是決定分類性能的一個重要因素。TFIDF源于其計算簡單、具有較高的召回率和精確率,常被選用計算特征權重[1]。TFIDF計算方法即TF×IDF,TF表示某個關鍵詞在整篇文章中出現的頻率。IDF表示某個關鍵詞的類別區分能力,主要用于降低所有文本中一些常見卻對文本影響不大的詞語的作用[9]。但若一個特征詞在一個類別下的文本中頻繁出現,則可以說明該特征詞對這個類別影響程度較大,就應該給該詞賦予更高的權重,而TFIDF算法與此相悖,這也正是TFIDF算法不足的地方[10]。因此,文中采取改進的TFIDF表示文本特征向量。

1.2 改進的TFIDF算法

采用不同的TFIDF算法會得到文本不同的特征表示,而文本特征表達是否準確,會在很大程度上影響文本的分類性能[11]。本文選取性能最優越的改進的TFIDF算法,該算法基于TF×IWF×IWF公式:

(1)

式中:tfij指在文本di中特征項tj出現的次數,Nj指在所有文本中特征項tj出現的總次數,N指在總的文本集中所有特征詞出現的總和次數。

一方面是對TF的改進,提出了利用n次方根來調整詞權重對頻率的倚重;另一方面是對IWF的改進,通過引入方差的思想來計算詞i在文本d中的權重[12]:

(2)

式中:Pij代表類j中出現詞i的概率,Pi代表多個類中出現i概率的均值,N(wi)指wi在語料中出現的總次數,N指語料中所有詞出現的總次數,pid指代詞i在文本d中出現的概率,n是待定開方冪次,具體取值由實驗來確定。

改進的TFIDF算法通過引入方差作為數據分布是否均勻的指標來調整特征詞在分類決策中的重要程度。考慮到方差大小會受詞頻大小的影響,此方法用方差除以該特征詞在各個類別里出現的詞頻總和,用來表示該特征詞在不同類別中的所占的比重差異性[13]。這樣,選取的關鍵詞更具有類別的代表性,也彌補了TFDIF算法的缺點。

1.3 Word2vec模型

Word2ve是一款用于訓練詞向量的工具,與傳統的高維詞向量One-Hot Representation相比,Word2vec詞向量的維度選取一般在100~300維之間,減少計算復雜度的同時不會帶來維數災難問題。Word2vec包含Skip_gram和CBOW兩種訓練模型,其中:CBOW是通過上下文預測目標詞,即輸出一些跟其有語義關系且不重復的詞;而Skip-gram是通過目標詞預測上下文,即隨機從語料庫里面抽取多個詞,然后通過一些概率計算哪些詞組合更可能成為目標詞語的上下文。

本文實驗利用已有的Python工具包gensim對大規模作文訓練。其中將輸入層窗口大小設置為5,隱藏層的神經元數目設置為200,然后采用CBOW模型對10萬篇中小學生作文進行訓練得出模型結果。訓練完畢后,詞表中的每一個word都對應著一個連續的200維特征向量。

1.4 SVM分類器

本文采用適用于小樣本訓練集且具備較好泛化能力的SVM分類器。實驗中直接使用Scikit-learn提供的SVM算法,其中核函數的選取采用Scikit-learn默認的核函數,即徑向基核函數RBF。RBF適用于小樣本訓練集,同時樣本表示成高維或低維也同樣適用,RBF需要確定的參數相比其他核函數要少,因此會減少數值的計算困難,提高分類速度[14]。

2 文本向量表示

2.1 改進的TFIDF表征文本向量

改進的TFIDF算法選取出來的特征項并不僅僅是出現在文本中頻率較高的詞,更是能夠區分文本類別的特征詞,因此本文的實驗1根據式(2)來提取對分類影響較大的詞匯特征信息來表征文本特征向量[15]。

使用改進的TFIDF算法(n的取值由實驗確定為1)求得每篇短文本di,用改進TFIDF算法得到的的特征向量,用Tfidf(di)表示,數學表示如下:

Tfidf(di)=

(3)

式中:n是所有的特征詞條個數,wt是由式(2)計算得出的權重,t取值為1,2,…,n,拼合所有單詞權重構成文本d的向量表示。

由于構建的特征詞庫約2 000個,這意味著每個表現手法文本都會用一個長度為2 000維的向量來表示,向量的大部分會被0填充,因此需近一步在此基礎上使用Word2vec模型對上述算法得到的稀疏向量進行文本特征擴展。

2.2 改進的TFIDF合并Word2vec表征文本向量

Word2vec是一種考慮上下文語義然后為每個單詞聚集具有相似含義單詞的工具。在經過足夠的數據訓練后,它會為詞表中的每個單詞生成一個較低維的連續稠密向量,如圖1所示(每一行代表每一個單詞相應的200維向量)。

圖1 Word2vec訓練結果

這樣,該模型可以為那些出現在表現手法文本但是未出現在特征詞庫的詞,通過找到語義上的相似詞來增加權重,從而將之前的權重為0的詞現在已有了特征值。同時給已有特征值的詞語擴展相似詞來增加其在類別中權重,從而使得此特征詞更具有類別區分程度。

本文利用該模型對2.1節中得到的文本向量Tfidf(di)進行特征擴展。使用Word2vec模型訓練大規模語料得到模型結果,從中取得文本di中的每個單詞的詞向量表示,并將di中所有詞向量累加求和平均得到文本di的Word2vec算法表示,用Word2vec(di)表示,公式如下:

(4)

式中:t是di文本中的詞語,t的取值為1,2,…,n,每個詞語的向量表示為200維。累加時,類似矩陣的加法規則,將每個詞語對應的向量看成1×200的矩陣,然后將矩陣每一行上列元素對應一一相加。

合并改進的TFIDF和Word2vec,也就是將每個表現手法用式(3)、式(4)式子計算得到的向量表示拼接起來作為該文本di的特征向量,然后使用SVM分類器進行實驗2,用Tfidf_Word2表示,公式如下:

Tfidf_Word2(di)=Tfidf(di)+Word2(di)

(5)

此時一個表現手法的特征向量維度為2 200維。但是實驗2結果發現這兩種算法的直接結合并沒有提高分類的性能。經分析,Word2vec模型本身無法區分文本中詞匯的重要程度,直接拼合僅僅是對各個文本中的詞加入一段維度為200維的連續向量。因為兩類表現手法文本都出現了大量相同的詞,導致此特征對兩類沒有重要程度區分,所以直接用來擴展特征并不能針對性增加特征值。因此嘗試對Word2vec訓練得到的詞向量進行加權來解決這一問題。

2.3 改進的TFIDF合并加權的Word2vec表征文本向量

為了使分類模型更多地關注有意義的單詞,并且區分使用Word2vec模型訓練得到的不同單詞的詞向量的重要程度,本文使用改進的TFIDF為其加權,實現加權的Word2vec算法,用w_Word2 (di)代表:

(6)

加權的Word2vec算法將每一個單詞t對應的200維稠密連續向量的每一個維乘以該t由Tfidf(di)計算的wt。其中t是di文本中的詞語,取值為1,2,…,n。每個詞語的向量表示為200維,對于所有的詞語向量累加求合平均方式同上述2.2節中的一致。

使用合并改進的TFIDF和加權Word2vec這兩種算法,也就是將每個表現手法用式(3)和式(6)計算得到的向量拼接起來作為該文本di的特征向量。然后投給SVM分類器進行實驗3,用T_w_Word2(di)表示:

T_w_Word2(di)=Tfidf(di)+w_Word2(di)

(7)

在具體分類過程中,首先對所有數據進行預處理,然后使用式(7)表征所有文本的特征向量。整個流程如圖2所示。

圖2 改進的TFIDF合并加權Word2vec表示文本特征向量圖

實驗3的結果,驗證了這兩種算法融合使用對文本表示確實對分類性有所提升。經分析,加權可以使本身權值大的單詞在類別中所占的比例越大,即在類別中的重要程度越高。因此加權的Word2vec模型可以增加特定類別表現手法文本的重要特征詞的權值,使得計算得到的特征向量中的特征詞在類別劃分中有更大的區分性。使用該算法也是將一個表現手法文本表示成一個2 200維特征向量。雖然在計算復雜度以及時間復雜度上增加了一部分開銷,但是200維的增加在最初使用Tfidf(di)所占比例不大,而且該算法的合并使用使得分類性能平均提高3%,整體上利大于弊。

2.4 分類模型圖

本文從短文本分類的角度出發,針對作文中存在的表現手法的所屬類別進行實驗設計。整個分類模型流程圖如圖3所示。選用在分類過程中表現最好的表示方法進行文本特征表示,即本文2.3節中提出的方法。然后用SVM分類器對訓練集文本數據進行訓練,再使用測試集對該分類模型從各個指標觀察其分類性能。

圖3 分類模型流程圖

3 實 驗

3.1 數據集構建及預處理

通過分類模型預測未知類別的文本從屬于事先定義的類別中一類或者多類是短文本自動分類的任務[16]。同時本文使用到的SVM分類方法屬于有監督學習,需要手工標注數據類別來保證學習的準確性。

通過人工標注5 000篇中小學生記事類作文,從中抽取中小學生9類表現手法數據共計兩萬個。文本分類前,一般要經過分詞、去低頻詞、去停用詞等預處理方法。其中停用詞主要包括標點符號、字符以及一些使用常出現卻無實際價值的詞語[17]。因此實驗前,采用jieba工具對抽取的數據進行分詞,并利用停用詞表去除數據中標點符號、數字等。同時統計所有語料中的詞語詞頻數,將詞頻數低于10的剔除,最終構成特征詞庫約2 000個。實驗中為防止每個類數據量的不平衡影響分類效果,因此每類表現手法隨機抽取1 000個數據,其中按照4∶1的比例分配數據分別用作訓練集和測試集。

3.2 分類性能評價指標

為評價分類效果,本文實驗采取通用的評價指標:精確率P、召回率R。其中:精確率針對預測結果,考察的是分類結果的正確性;召回率針對原來樣本,考察分類結果的完備性,實際中常使用兩者的調和平均數作為一個綜合的評價指標來衡量分類效果的好壞[18]。具體公式如下[19]:

各參數含義如表1所示。

表1 分類性能評價指標參數含義表

3.3 實驗結果與分析

實驗過程中,三種特征表示方法都在四類、五類和六類表現手法上做了實驗。六類分別是動作描寫、直接抒情、外貌描寫、心理描寫、神態描寫、語言描寫;五類分別是:動作描寫、直接抒情、外貌描寫、心理描寫、神態描寫;四類分別是:動作描寫、直接抒情、外貌描寫、心理描寫[20]。五類和四類的劃分主要依據去掉每次分類效果較差的表現手法類別進行實驗。

在實驗1中,使用改進的TFIDF和傳統的TFIDF算法對表現手法文本特征向量進行表示,然后都按照訓練集和測試集4∶1的比例投給SVM分類器。實驗效果見表2。

表2 改進的TFIDF對比傳統的TFIDF

從表2實驗數據中,可以發現改進的TFIDF較傳統的TFIDF,無論在幾類表現手法分類中,精確率、召回率以及F值上都平均提高了6%,其中文中所提到的所有評價指標取值都是平均值。這個結果驗證了改進TFIDF算法引入方差來區分特征詞在不同類別重要程度的差異性的優勢性,方差的值越大,那么該詞就對分類決策越重要。

在實驗2中,使用改進的TFIDF算法合并Word2vec算法形成每一個表現手法的特征向量,然后投入SVM分類器,實驗2的結果如表3所示。結果表明,這兩種模型直接合并的結果并不樂觀。經分析,Word2vec模型本身無法區分文本中詞匯的重要程度,因此進一步使用改進的 TFIDF對Word2vec詞向量進行加權,實現加權的Word2vec分類模型[8]。

表3 兩種算法合并實驗效果

在實驗3中,使用改進的TFIDF算法合并加權的Word2vec算法形成文本特征向量進行實驗,實驗3的結果如表3所示。從表3中可以看出,兩種算法的合并在三個評價指標上都有所提高,指標性能平均提高3%。實驗結果充分驗證了加權的有效性以及這兩種算法結合在分類效果性能提升方面的可能性。

由表2、表3的實驗結果還可以得出,分類效果和類別的種數有很大的關系。表現手法類別越多,對各類別表現手法的特征干擾項越多,分類模型效果越差。表4是對四類表現手法使用本文提出的兩種算法合并方法進行實驗每一類表現手法分類的詳細結果。

表4 四類表現手法各類分類效果

同時,本文還對式(2)中n的取值進行了實驗,表5是對四類表現手法進行分類時取不同n的效果。實驗表明n取1時效果最好。雖然n取其他值,各指標相差不是很大,但是n取1降低計算量,特征向量生成速度快,有益于分類性能。

表5 四類表現手法n取不同值的分類效果

此外,本文中提出的新算法已在本實驗室協作開發的中小學作文評測系統中得到了初步的應用。其中表現手法評測模塊是將輸入的一整篇待評測的作文進行一系列的預處理之后送入后臺,后臺根據整合的分類模型和評測模型對待測作文中表現手法進行抽取并分類,同時對其進行簡單地分析和評價。此應用已初步證實了該算法的高效性,同時將該算法用于評測中對作文表現手法的評級具有良好的效果。

4 結 語

本文實驗部分主要探索了傳統的TFIDF、改進的TFIDF、改進TFIDF合并Word2vec、改進TFIDF合并加權Word2vec這四種算法所表征的中小學生作文中的表現手法特征向量在分類過程中表現效果。實驗表明,兩種算法的結合確實有助于分類效果的提高。此外,模型分類效果與表現手法類別數量有很大的關系,類別文本之間的共現詞越少,對各類別表現手法的特征干擾項越少,模型分類效果越好。在后續研究中,將研究兩種模型結合應用到其他分類器上探究其效果如何,以及如何提高多類表現手法的分類效果。

猜你喜歡
分類文本實驗
記一次有趣的實驗
分類算一算
在808DA上文本顯示的改善
做個怪怪長實驗
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 欧美色综合网站| 国产福利影院在线观看| 色噜噜在线观看| 国产乱人乱偷精品视频a人人澡| 人妻丰满熟妇AV无码区| 久久公开视频| 尤物精品国产福利网站| 91激情视频| 三上悠亚在线精品二区| 激情爆乳一区二区| 啪啪啪亚洲无码| 黄片在线永久| 国产呦视频免费视频在线观看| 丰满人妻一区二区三区视频| 日韩福利在线观看| 成人在线欧美| 青青热久免费精品视频6| 中文字幕佐山爱一区二区免费| 黑人巨大精品欧美一区二区区| 成人永久免费A∨一级在线播放| 国产乱人免费视频| 国产精品流白浆在线观看| 综合色天天| 日韩免费视频播播| 无码AV日韩一二三区| 国产又爽又黄无遮挡免费观看 | 高潮毛片无遮挡高清视频播放 | 亚洲黄色高清| 成人午夜亚洲影视在线观看| 在线欧美一区| 久久国产精品夜色| 日韩精品亚洲一区中文字幕| lhav亚洲精品| 午夜精品区| 精品亚洲麻豆1区2区3区 | 精品福利国产| 色有码无码视频| 岛国精品一区免费视频在线观看| 蜜桃视频一区二区三区| 久草网视频在线| 午夜不卡视频| 国产一级毛片在线| 国产成人三级在线观看视频| 欧美精品H在线播放| 国产成人在线无码免费视频| 欧美笫一页| 精品欧美视频| 久久综合伊人77777| 久久精品无码中文字幕| 精品一区二区三区中文字幕| AV不卡国产在线观看| 无码久看视频| 久久精品国产一区二区小说| 六月婷婷综合| 中文字幕在线观| 亚洲第一成年免费网站| 国产白浆一区二区三区视频在线| 亚洲有无码中文网| 国产99视频免费精品是看6| 国产高清无码麻豆精品| 日韩资源站| 欧美成人午夜在线全部免费| 91精品日韩人妻无码久久| 国产91在线|日本| 国产成人综合久久精品尤物| 色综合久久88色综合天天提莫 | 手机在线国产精品| 亚洲熟女偷拍| 国产亚洲视频播放9000| 亚洲国产成熟视频在线多多| 一级毛片基地| av天堂最新版在线| 欧美a级在线| 91免费国产在线观看尤物| 一级毛片基地| 超清无码熟妇人妻AV在线绿巨人| 亚州AV秘 一区二区三区| 亚洲无码高清一区二区| 九九热在线视频| 污污网站在线观看| 久久久久无码精品国产免费| 欧美精品在线观看视频|