999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

作文段落句間邏輯合理性等級評測

2019-09-13 03:38:02楊正祥袁克柔周建設
計算機應用與軟件 2019年9期
關鍵詞:排序作文模型

楊正祥 劉 杰* 袁克柔 周建設

1(首都師范大學信息工程學院 北京 100048)2(首都師范大學成像技術高精尖創新中心 北京 100048)

0 引 言

作文寫作可以考察學生的邏輯思維與語言運用的能力和水平,是漢語考試中必考科目。國內每年學生寫作的作文數目十分巨大,人工批改的成本極高。中文作文的自動評測研究逐漸興起,對于提高作文評測效率、控制評分誤差具有十分重要的意義。

由于中文語言邏輯的復雜程度高,現有的研究對作文評測大多從詞匯使用[1]、語法表達、作文長度、關聯詞使用、修辭手法的運用[2]、文章主題一致性等角度而進行評測,并未涉及作文句間邏輯合理性的評測。而且,在作文評測中句間邏輯合理性同樣是評價語言運用能力的一項重要指標。本文認為文本句間邏輯合理表現在句子組織順序合理,這樣的文本具有很好的可讀性。因此,本文考慮使用句子自動排序的方法,通過判定句子集合的自動排序是否與人工排序一致,驗證句間邏輯是否合理。

1 相關研究

本文以段落為基礎,研究中文作文段落中句間邏輯合理性的等級判別模型。語篇連貫性的研究可以從關聯詞及語法信息的方面進行分析判斷[3],另外根據句子組織順序合理性也可以有效判斷段落邏輯合理性。

句子排序的研究出現在文本自動摘要研究領域,其他領域并無相關研究。這是因為人工寫作的摘要結構單一且內容精煉,涉及的詞匯多為某領域內的專業詞匯。文本自動摘要領域內的句子排序任務,主要是將人工已寫好的、打亂順序的文檔摘要句集或機器選擇的摘要候選句集組織為合理并且可讀的文摘[4]。無論是單文檔還是多文檔自動摘要,都不可避免地要面臨以下三個問題:文檔冗余信息的識別與處理,重要信息的辨認,生成文摘的連貫性[5-9]。其中,文摘的連貫性與本文所要研究的段落內部句子之間的連貫性是非常有關聯的,因此本文借鑒文本自動摘要中關于連貫性的處理方法,將其遷移應用到中小學作文的段落句間連貫性的研究上。

現有的研究大致可分為以下幾類:① 利用句中時間信息確定句子順序。以句子在語料中出現的時間為依據進行排序,例如新聞語料中,抽取句子內部的時間信息,再輔助排序算法對句子進行排序[10-11]。② 從大型的語料中挖掘內部句子的自然順序。該方法在語料詞匯的基礎上,計算相鄰句子間的鄰近度,估計句子構成前后句對的條件概率,得到排序結果[12-14]。③ 從文檔集合中句間的蘊含關系確定邏輯關系。該方法從句子內部實體在句間的轉移、事件標簽的延續狀態、主題轉移等方面挖掘句間所蘊含的邏輯關系[14]。文獻[16]采用注意力機制的方法捕捉句子間的語義邏輯關系。

利用句子所包含的順序信息、句間的繼承關系、句子主題等方法,局限性較大,且對時間詞以及隱含的時間的識別、主題識別、顯示及隱式關聯詞挖掘等成為需要克服的技術難題。

考慮到現有語料數量巨大,人工標記不足,本文擬采用非監督方法,在不依賴時間、事件等標簽,保證方法通用的前提下,挖掘段落內部句間的邏輯關系,獲得較優的通用性。該方法在現有條件熵計算相鄰句子間關系的基礎上,提出詞向量以及哈工大同義詞詞林(cilin)與其結合的方法,共同計算句子的鄰近度;在排序算法上,則選取馬爾科夫隨機游走模型[17],完成中小學作文段落內部的句子排序任務,并通過ROUGE-L[18]對排序結果打分,從而實現對段落邏輯合理性的等級評測,構建段落邏輯合理性等級評測模型(Logic Rationality Rating of Paragraph Model, RPM)。

2 段落句間邏輯合理性等級評測

中文作文句間合理性評測模型以條件熵為基礎來計算句對關聯程度,融合word2vec以及哈工大同義詞詞林,從語義相似的角度計算句子的鄰近度,再依據馬爾科夫隨機游走模型,完成中小學作文的句子排序。為了評價排序結果與真實排序是否一致,選擇使用ROUGE-L作為評價指標,模型排序結果與待評語料的真實排序順序比較,若評價指標值大于等于0.6,則認為模型排序結果較接近語料的真實排序,排序是一致且可接受的,否則排序結果不可接受。通過在測試集上統計經模型得到的可接受排序比例,驗證文中提出的句子排序方法是否能與真實排序一致,從而輔助評測作文句間邏輯是否合理。具體模型如圖2 所示。

圖1 段落邏輯合理性等級評測模型

2.1 條件熵算法

信息熵描述信源的不確定度,信息越有序熵越低,而信息越混亂熵較高,包含的不確定信息更多。從句子排序的角度來說,兩個句子之間的連接越緊密,關聯程度越強,而熵值就越小,依此為依據,依靠條件熵衡量不同句子間的連貫性強度。在本文中,條件熵作為評價兩個變量,即兩個句子之間信息關聯程度的評價基礎,其計算公式如下:

(1)

式中:X、Y是兩個變量的集合,xi∈X,yj∈Y,p(xiyj)是xi、yj共同出現的概率,p(yj|xi)是條件概率,表示在xi出現的情況下,yj出現的概率。

在句子排序的研究中,句子作為單獨的語義單元,出現相同表達的可能性幾乎為零,詞作為構成句子語義的最小單元,可重復出現在不同的句子中。因此,本文選擇以句對間的單詞搭配信息,來計算句間連貫性,對應的計算公式如下:

(2)

式中:Sm與Sm-1為相鄰的兩句話,wi為Sm-1中出現的詞,wj為Sm中出現的詞。考慮到語料詞性中名詞、動詞、形容詞在中文中表達意義比較豐富,因此在研究過程中,同樣僅考慮了以上三種詞性。p(wiwj)以及p(wj|wi)均可從語料中統計得出,計算公式如下:

(3)

(4)

式中:wi為前導句中出現的單詞,wx為其后面句子中出現的單詞,frequency(wxwy)計算兩個單詞共同出現的頻次,frequency(wywi)計算wi與其他任意詞搭配的頻次。

2.2 word2vec以及同義詞詞林

由于統計語料中句對之間的詞語搭配,參數空間大,且容易出現數據稀疏的問題,本文將借助語義詞典,如詞向量、《哈工大信息檢索研究室同義詞詞林擴展版》,在語義上對詞語進行劃分與聚類,以降低不良影響[19]。

Google在2013年開源了一款用于詞向量計算的工具word2vec[20], 該工具能夠在上億的數據集上進行高效訓練,并且得到詞向量可以度量詞與詞的相似度。本文根據十萬篇不同類型的中小學作文語料,得到詞向量字典,并將其按照相似程度聚類,每類下的單詞可以認為其語義是相似的。

梅家駒等編輯完成的《同義詞詞林》為創作和翻譯工作提供了較多的同義詞語。《同義詞詞林》著作時間為1983年,較為久遠,內容對當今所處的時代差距較遠,因此《哈工大信息檢索研究室同義詞詞林擴展版》應運而生,其中包含了更加豐富和符合當代背景的語義信息。但是能夠共享的僅僅是其中的詞典文件,其完整版并沒有共享。詞典內容的缺失必然會導致作文中未出現在詞林中的不相干詞匯劃分為同一類別。因此,本文在同義詞林(cilin)的基礎上,加入word2vec對詞典文件缺失的詞匯進行近義詞、同義詞自動聚類,以降低因cilin內容缺失而帶來的不良影響。

2.3 馬爾科夫游走模型

在確定句間的鄰近關系后,本文在眾多排序算法中,選擇馬爾科夫隨機游走模型(Markov Random Walk)對句子進行最終排序。隨機游走(Random Walk)矩陣對應一個遍歷的馬爾科夫鏈,任意兩個狀態之間通過不斷轉移可以互相到達。如圖2所示,每個狀態節點之間可以以一定的概率p連接轉移。

圖2 馬爾科夫隨機游走模型

排序模型定義了圖G=(V,E),V是頂點集,即待排序句子集合,E是邊集,即待排序句子集合中兩個句子的鄰近度,其值即為通過條件熵公式計算得到的句子vi→vj的概率。m個待排序句子可得到游走矩陣模型M=Mi,j|m×m,其中:

(5)

基于矩陣模型M,某個句子在排序中的分值可通過與其他句子得到,其計算公式如下:

(6)

圖G=(V,E) 按照以上計算直至收斂,選取其中分值最高的句子優先排序,將剩余句子重新組成新圖G′ 重新執行操作,直至待排序句子V為空。句子的排序順序即為最終的排序結果。

2.4 評估算法與標準

因為本文所使用的語料數據量較大,人工評價模型不適合評估排序結果的合理性。因此,考慮自動的句間合理性評測方法,由于自動文摘的連貫性與作文段落句間連貫性評估標準非常相似,在自動文摘中使用ROUGE系統對自動生成的摘要與參考摘要進行比較計算得到相應分值,通過衡量二者相似度來分析文摘的連貫性。在本文中考慮模型排序結果與真實排序結果的相似度來分析段落句間的連貫性,所以采用ROUGE系統進行句間邏輯合理性評估。ROUGE系統中的ROUGE-L從兩個序列的最長公共子串的角度考慮,進行相似度的打分。計算公式如下:

LSC=lsc(stand_order,sorted_order)

(7)

(8)

(9)

(10)

(11)

式中:stand_order是段落中句子集合真實的排序結果,sorted_order是排序模型生成的結果,LSC為兩個排序的最長公共子串的長度,R、P分別指的是召回率和準確率,標準排序和模型排序結果的長度是一致的,公式經過化簡,最終ROUGE-L的評分由公共子串在序列長度中的比例決定。本文通過實驗將閾值設置為0.6,真實排序序列同模型排序序列比較,若評價分數大于或等于閾值,則兩者排序結果是相似的,將模型排序的排序結果是可接受的,否則不接受模型排序。

3 實驗結果與分析

3.1 數據集

本文從互聯網上優秀的作文網站中使用爬蟲工具獲取中小學漢語作文語料16 329篇,其中,訓練數據11 766篇,測試數據為4 563篇。并且將上述所有作文語料作為word2vec的訓練語料,獲得最終的詞向量字典,共計79 770個詞。

3.2 條件熵與詞向量、cilin效果對比

本文使用條件熵預測句子排序結果。由于句中語義信息缺失,本文在此基礎上,提出的應用word2vec,從數據集中訓練得到的詞向量字典,將所有單詞聚類為500類與1 500類效果較優。此外,考慮到單詞自動聚類不如人工聚類準確,本文考慮并加入了《哈工大信息檢索研究室同義詞詞林擴展版》涉及的11 769類同義詞,融合基礎模型條件熵,通過馬爾科夫隨機游走模型預測句子排序。實驗結果如圖3 所示。

圖3 ROUGE-L評測結果

由實驗結果可知,針對句子數量相同的段落:采用原始詞語的字典編號取得的效果很差;詞向量能夠優化條件熵的排序結果,且單詞分類越多,各個類別下單詞的語義相似,模型排序與原始排序通過ROUGE評分,可接受部分越多,最高能達89%左右,且實驗中無論段落內部句子的數量,通過評價,可接受比例均在50%以上;cilin的使用能夠在一定程度上優化排序結果,雖然效果優于采用聚類為500類的詞向量模型,但遠遠不如將單詞聚為1 500類的模型。然而,隨著段落內句子數量的增多,模型越難以對段落的邏輯做出合理排序。

3.3 cilin、詞向量融合效果對比

在上述實驗中,cilin與word2vec聚類均能提升條件熵的排序效果,且word2vec聚類1 500類之后取得了最優的效果,遠遠高于應用cilin的模型。本部分將cilin與word2vec聚類1 500類的方法融合,在此基礎上加入條件熵,通過馬爾科夫隨機游走模型預測句子排序。結果如圖4所示。

圖4 ROUGE-L評測結果

由實驗結果可知,cilin與word2vec聚類相結合的方式與單獨cilin模型排序的效果相比,總體上稍有提升。但是仍不及單獨用word2vec聚類1 500類的模型排序效果。分析其具體原因,word2vec用高維特征表示單詞語義,詞向量不僅能夠包含單詞的語義,還包含更多諸如語法結構等方面的信息,對其表征的詞語進行聚類,相比cilin中詞語僅依靠相近的語義聚類在一起,前者能從多角度多維度考慮詞語的類別,更為合理。而兩者融合,cilin對w2v_1500造成了不良影響,由ROUGE評分后,排序結果的可接受比例出現了明顯下降;w2v_1500則一定程度上彌補了cilin不完整的缺陷,排序結果可接受比例稍有提高。

3.4 評測結果分析

從實驗結果可知,隨著段落長度的增加,模型排序結果經ROUGE系統評分,可接受的排序在所有排序中的比例越來越低,這主要是由模型算法自身缺陷導致的。RPM模型在對句子數量為2或3的段落排序,可接受的排序結果占的比例較高,取得了不錯的效果,但是即使假設2句話的排序可接受占比達到0.9,隨著句子數量越來越多, 在段落內句子數量為n的情況下,可接受的排序結果占比最高僅能達到0.9n,呈指數級別下降。

4 評測模型的優化

4.1 帶優化策略的段落邏輯合理性評測模型

即使算法能夠具有一定的通用性,在句子數量較少的段落情況下,RPM模型排序結果取得了不錯的效果,但是隨著段落內部句子數量的增多,排序結果的可接受比例指數下降,在實際評測中存在缺陷,因此本節對以上提出的條件熵模型進行改進。

經實驗分析可知,段落內句子數量為2或3的情況下,RPM模型排序的結果比較令人滿意。因此,本節擬通過對句子數量較多的段落首先進行拆分分塊,以保證RPM模型僅處理句子數量為2或3的句子塊。若段落內句子數量較多,段落可以被認為是包含很多葉子(段落內的句子)的樹,段落整體作文根節點,對段落的每次劃分,相當于對子節點的生成。在保證RPM僅處理句子數量為2或3的句子塊的前提下,每個節點下的子節點數量應在2~3范圍內。但是,本文實驗僅考慮了句子數量為2~7的段落,可以通過簡單的拆分表,對段落進行劃分。表1為拆分表,圖5展示了拆分過程。

表1 段落拆分表

圖5 拆分排序過程

圖5 展示了句子數量為5的段落的拆分排序過程。首先對段落內句子按照拆分表進行分塊劃分,每種不同的拆分情況內,每塊段落片段代表不同的類別,將相同塊內的句子當作一個整體,從而能夠應用RPM模型進行評分,完成塊之間的排序。之后比較每種拆分的取得的ROUGE分值,取最高得分的塊排序結果作為第一次的排序。然后每塊內部再進行拆分或排序,同樣取分值最高的排序結果作為當前排序結果。如此層次拆分,最終得到段落句子的最終排序。

4.2 優化策略模型實驗結果

分析上一節中的實驗結果,RPM融入經詞向量聚類1 500類的語義相似詞,在段落內句子數量為2~3的情況下,取得了不錯的效果。本次實驗以此為基礎,建立OPT_RPM評測模型,驗證優化策略的可行性。

由圖6可以看出,優化策略能夠減緩RPM隨著段落內句子數量增多而存在的可接受排序結果占比指數下降的情況,對長度為4~5的段落句子排序結果的可接受比例有了較大的提高,從而驗證本文提出的帶優化策略的RPM,即OPT_RPM是可行的。

圖6 OPT_RPM的ROUGE-L評測結果

5 邏輯等級與ROUGE分值對應關系

本文擴展可接受與不可接受兩種評測結果,擬將段落的邏輯劃分為4個等級:優秀、良好、及格以及不及格。為了能夠在實踐中應用,本節通過一系列的統計分析建立段落邏輯等級與ROUGE分值的對應關系。

本文選取1 000條段落,每個等級的段落均為250條,其評判等級均有專家參與,保證語料的準確性。使用OPT_RPM對句集排序得到機器排序結果,ROUGE-L對其進行評分。通過分析每個邏輯等級內ROUGE分數的范圍,從而確定模型在實際應用中所使用的閾值。

OPT_RPM對每條段落進行句子排序,而ROUGE-L對排序結果進行了評分,本文將評分與人工真實評價等級對應起來,除去離散點,取分布最集中的分值作為ROUGE-L對段落邏輯等級劃分的邊界。其中,相鄰等級之間存在交叉,本文考慮到劃分邊界模糊,為了激勵使用者,將交叉沖突部分取等級較高的一方,最終得到表2 關于段落邏輯等級對應的ROUGE-L分值區域。由該表可知,1 000條段落通過ROUGE-L評分,判斷分值散落在的區間對應得到段落評測等級,各個等級的評測準確率均在72%以上。

表2 段落邏輯等級與ROUGE-L評分對應關系

6 結 語

本文從句子排序角度提出評測句間邏輯合理性,對其進行定量分析。通過判定句子集合的排序與人工排序的相近程度,驗證排序模型的有效性。在研究的排序方法中,應用word2vec、cilin以及兩者相結合的條件熵句子排序方法均優于僅僅使用條件熵進行排序的方法。其中,詞向量詞典用高維特征表示單詞語義,不僅能夠包含單詞的語義,還包含更多諸如語法結構等方面的信息,對其表征的詞語進行聚類,相比cilin中詞語僅依靠相近的語義聚類在一起,前者能從多角度多維度考慮詞語的類別,在聚類為1 500類時,表現最佳;另外,本文提出了帶優化的句間邏輯合理性評測模型OPT_RPM,經過實驗證明,OPT_RPM對相同的實驗數據進行了排序,由同一評測標準評測,取得了最優的效果;本文還對OPT_RPM在實際中的使用做了探究工作,通過統計分析了OPT_RPM對段落排序結果的ROUGE-L分值與由專家評判的段落邏輯合理性等級的對應關系,確定了ROUGE-L與邏輯合理性等級判定的分類邊界,取得了不錯的效果,為輔助中文作文智能評測提供了新思路。在未來的研究工作中,將計劃進一步優化條件熵算法以及馬爾科夫游走模型,從模型結構上改進提高算法評測效果,探索更多評估作文段落邏輯合理性的方法,努力推進中文作文智能評測研究的發展。

猜你喜歡
排序作文模型
一半模型
排序不等式
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
紅批有聲作文
紅批有聲作文
紅批作文
主站蜘蛛池模板: 免费看a级毛片| 狼友av永久网站免费观看| 亚洲Aⅴ无码专区在线观看q| 亚洲无码37.| 女人18一级毛片免费观看| 国产一区二区三区在线精品专区| 精品撒尿视频一区二区三区| 欧美自拍另类欧美综合图区| 国产精品人成在线播放| 青青草原国产精品啪啪视频| 国产乱视频网站| 青草午夜精品视频在线观看| 日韩精品亚洲人旧成在线| 九色视频线上播放| 日韩精品亚洲人旧成在线| 一区二区三区国产精品视频| 精品三级在线| 免费观看男人免费桶女人视频| 人妻丰满熟妇αv无码| 天天做天天爱夜夜爽毛片毛片| 中文字幕久久亚洲一区| 色综合日本| 91精品小视频| 久久国产成人精品国产成人亚洲| 一区二区午夜| 狼友视频国产精品首页| 国产精品自在线拍国产电影| 色哟哟国产精品| 中文国产成人久久精品小说| 天天综合网亚洲网站| 免费看a级毛片| 精品一区二区三区水蜜桃| AV老司机AV天堂| 亚洲欧洲日产国产无码AV| 日本一本正道综合久久dvd| 五月婷婷综合色| 性喷潮久久久久久久久| 免费a级毛片18以上观看精品| 欧洲成人在线观看| 色综合成人| 真人高潮娇喘嗯啊在线观看| 88av在线看| 色欲色欲久久综合网| 性欧美精品xxxx| 欧美日韩亚洲国产主播第一区| 第九色区aⅴ天堂久久香| 97国产在线播放| 亚洲欧美综合精品久久成人网| 亚洲手机在线| 鲁鲁鲁爽爽爽在线视频观看 | JIZZ亚洲国产| 成人午夜亚洲影视在线观看| 天天综合网站| 国内精品九九久久久精品| 亚洲不卡影院| 国产资源免费观看| 国产高清在线观看91精品| 国产乱子伦手机在线| 国产微拍精品| 91探花在线观看国产最新| 色综合a怡红院怡红院首页| 内射人妻无码色AV天堂| 久热99这里只有精品视频6| 九九九精品成人免费视频7| 国产在线欧美| 97免费在线观看视频| 五月丁香伊人啪啪手机免费观看| 亚洲无码电影| 黄色免费在线网址| 在线日韩一区二区| 精品人妻无码中字系列| 国产av剧情无码精品色午夜| 91视频免费观看网站| 欧美中文一区| 中文国产成人精品久久一| 国产女同自拍视频| 国产精品思思热在线| 欧美综合一区二区三区| 国产97视频在线| 成人精品在线观看| 精品欧美日韩国产日漫一区不卡| 亚洲一区免费看|