999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語選擇復句的計算機自動改寫方法研究

2016-08-01 03:07:08林燕芬
中國科技信息 2016年13期
關鍵詞:實驗

林燕芬 楊 柳

?

漢語選擇復句的計算機自動改寫方法研究

林燕芬1楊柳2

1.哈爾濱商業大學計算機與信息工程學院;2.黑龍江旅游職業技術學院

行業曲線

本文針對漢語選擇復句的語法結構特點,提出漢語選擇復句的計算機自動改寫的觀點。在自然語言處理行業起到一定的參考作用

在對漢語復句分類的基礎上,提出了基于模板的選擇復句的改寫方法。通過對選擇復句進行分類及語法結構的形式化、數學描述,從而抽取了選擇復句的改寫模板。由預備實驗確定了改寫語句與改寫模板之間的相似度閾值。最后利用小規模的語料進行了選擇語句的自動改寫實驗,實驗結果的正確率61.0%和模板覆蓋率45.5%均表明了方法的有效性。

語言是人們日常溝通的工具,不同的人表述方式不同。對于長句來說,其表述方式更加靈活,如果將復句進行改寫,使其表達形式簡單化則會提高計算機處理漢語的效率。語句改寫作為漢語處理的技術其應用非常廣泛,如機器翻譯、自動文摘等。比較簡單句而言復句的改寫更加復雜,也更有研究價值。

選擇復句理論分析

圖1 模板抽出過程

本文參考相關語言文獻將選擇復句劃分為“是……還是”、“或者……或者”、“不是……就是”、“與其……不如”、“寧可……也不”、“要么……要么” 等六種類。選取“是……還是”、“要么……要么”、“與其……不如”、“寧可……也不”這四類進行改寫研究?!安皇荴就是Y”是表示“非此即彼”選擇的關聯組合,在現代漢語中使用頻率非常高。

選擇復句按照選擇情況又分為兩類,已定選擇和未定選擇。其中“與其……不如”、“寧可……也不”為已定選擇,選擇具有確定性?!笆恰€是”、“要么……要么”為未定選擇,選擇具有不確定性。以下通過抽象化、形式化、算法化的過程對已定選擇和未定選擇句進行改寫方法研究。

復句改寫策略

改寫模板抽出

表1為選擇復句互為改寫的例子。對漢語句對進行詞法分析得到句子的形式化表示,通過抽象化獲得句子的語法框架結構,比較表達意思相同而表達形式不同的改寫句對的結構從而抽出改寫模板。模板抽出過程如圖1所示。

表1 選擇復句

將詞法分析后的互為改寫的選擇復句進行比較,進行抽象化和形式化。關鍵詞保留,其他詞看成變量,對兩種選擇復句的結構形式化結果如表2所示。

表2 選擇復句的形式化

表1和表2是對應關系,形式化表示中的關鍵詞之間用空格隔開。

對于改寫方法,根據未定選擇和已定選擇復句的特點,可以歸納出未定選擇復句前后單句之間無明顯的聯系,已定選擇復句前后單句之間大部分是相反關系。因此在進行改寫的過程中,可以把未定選擇復句的不確定意義的關鍵詞互相替換,而對于已定選擇復句可將確定性的關聯詞刪除。

對表1所示類似的互為改寫的句子進行形式化得到其抽象表示后,比較互為改寫的句對的抽象表示獲得改寫模板,表3給出了幾個互為改寫的選擇復句的改寫模板的例子及對應的改寫句。

表3中1-1與1-2互為改寫、2-1與2-2互為改寫、3-1與3-2與3-3互為改寫模板。從表3可以看出,一個語句可能改寫為幾種不同的形式,即多個改寫模板互為改寫。

表3 選擇復句的改寫模板及改寫句

改寫處理過程

給定待改寫句,通過查找其相應的改寫模板對其進行改寫。在查找合適模板時要計算待改寫句與模板的相似度。由預備實驗確定改寫語句與改寫模板之間的相似度閾值。句子相似度計算的具體算法參考文獻通過改進得到,如式(1)所示:

式(1)其中,vk、vl表示公共值向量中第k、l項的值,0<k≤p,0<l≤p;vi、vj表示句子Ti、模板Tj的關鍵詞權重值向量Tvi、Tvj中第i項、第j項的值,1≤i≤n1,1≤j≤n2;Tq為Ti、Tj中長度較短的句子或者模板,Len (Tq)為Ti、Tj中長度較短的句子或模板的長度,公共值向量Evi,j的長度為p。

選擇復句的改寫實驗

實驗數據

實驗數據是收集的四種類的選擇復句各50句,總共200句選擇復句。詞法分析后的結果作為改寫實驗的輸入。由改寫系統自動進行改寫處理。

改寫結果及分析

對實驗結果正確與否采取人工評價的方式,由公式(2)和(3)計算改寫正確率PRate和模板覆蓋率TRate。

式(2)(3)中,句子總數Psum,改寫正確的句子數Rres,模板的總數Tsum。

最終得到改寫正確率為61%,模板覆蓋率為45.5%。

改寫結果中122句改寫正確,有22句未被改寫,78句改寫錯誤。

其原因是多方面的,首先因為句子過長,造成句子成分過多導致相似度計算未達到改寫閾值;其次因為模板和句子不匹配,未找到選擇復句適合的模板。而改寫錯誤的原因有三點:第一是因為標點符號錯誤,模板抽出時造成;第二是句子結構出錯,原因是模板具有一定的覆蓋率,不可能覆蓋到所有的句子;第三是關聯詞搭配出錯,原因是改寫模板的關聯詞不能匹配所有的句子。

對于以上出現的錯誤,采取相對應的解決措施可能會得到解決,如改寫程序,添加冗錯措施解決空格間隔符的問題;改寫部分模板,使更多的句子與其匹配等。

總結

通過對選擇復句中的已定選擇和未定選擇的兩種復句的詞法分析,將選擇復句進行形式化。由同一語義而表達形式不同的句子的相互比較獲得互為改寫的模板對。通過小規模的語料進行了選擇復句的改寫實驗。實驗結果表明了方法的可行性。在以后的研究中,將通過增加語料規模尋找其深層次的內在規律性以提高復句改寫的正確率。

DOI:10.3969/j.issn.1001- 8972.2016.13.028

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 九色视频线上播放| 久久亚洲天堂| 午夜a级毛片| 国产偷国产偷在线高清| 欧美一级大片在线观看| 免费在线看黄网址| 97在线免费| 亚洲毛片一级带毛片基地 | 亚洲天堂自拍| 在线色国产| 国产精品大尺度尺度视频| 色婷婷狠狠干| 91av成人日本不卡三区| 国产一区三区二区中文在线| 激情六月丁香婷婷四房播| 久久一本日韩精品中文字幕屁孩| 中文字幕va| 国产精品吹潮在线观看中文| 欧美人与牲动交a欧美精品 | 亚洲AV无码久久天堂| 欧美亚洲国产日韩电影在线| 一边摸一边做爽的视频17国产| 亚洲无码高清一区二区| 三上悠亚在线精品二区| 波多野结衣在线se| 韩国v欧美v亚洲v日本v| 91香蕉视频下载网站| 免费精品一区二区h| 日韩精品免费一线在线观看| 日本精品中文字幕在线不卡| Jizz国产色系免费| 亚洲av无码人妻| 亚洲欧美日韩精品专区| 综合色亚洲| 国产真实二区一区在线亚洲| 青青草a国产免费观看| 97青青青国产在线播放| 黄片一区二区三区| 亚洲av色吊丝无码| 五月六月伊人狠狠丁香网| 久操线在视频在线观看| 91精品国产91久久久久久三级| 国产人碰人摸人爱免费视频| 少妇人妻无码首页| 国产亚洲精品自在线| 高清色本在线www| 波多野结衣一区二区三区四区| 国产精品9| 久久人体视频| 国产人人射| 亚洲激情区| 午夜视频免费试看| 亚洲天堂区| 色综合热无码热国产| 日本人妻一区二区三区不卡影院| 国产一区二区人大臿蕉香蕉| 欧美三级视频网站| 欧美日韩国产成人高清视频| 国产好痛疼轻点好爽的视频| 欧美黄色a| 久久五月视频| 亚洲欧美一级一级a| 欧美中文一区| 日韩免费成人| 国产精品亚洲欧美日韩久久| 国产成人啪视频一区二区三区| 久久久久青草线综合超碰| 色婷婷丁香| 成人在线综合| 制服丝袜 91视频| 国产婬乱a一级毛片多女| 国产精品欧美日本韩免费一区二区三区不卡| 波多野结衣无码AV在线| 欧美日韩91| 久久公开视频| 亚洲中文字幕无码爆乳| 国产91麻豆免费观看| 成人精品免费视频| 亚洲无码高清一区二区| 成人精品免费视频| 久久精品人人做人人爽| 91无码人妻精品一区|