999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合排序學習的趣味成語生成模型

2019-03-13 05:14:34徐琳宏林鴻飛
小型微型計算機系統 2019年3期
關鍵詞:排序趣味語義

徐琳宏,林鴻飛,楊 亮,徐 博

1(大連外國語大學 軟件學院,遼寧 大連 116044) 2(大連理工大學 計算機系,遼寧 大連 116024)

1 引 言

成語作為中華民族悠久歷史文化的一部分,一般來自于歷史典故,是古代人智慧的結晶.成語大多具有豐富的歷史底蘊,包含了漢語言文化的精華.在使用過程中,成語有較強的修辭效果,一個成語可以抵上多個形容詞,形象生動,內涵深刻,簡短精辟.成語的定義有多種,《現代漢語》中定義為:“一種相沿習用具有書面語色彩的固定短語”[1].《新華成語詞典》中定義為:“相沿習用的固定詞組或短語,能獨立表意,形式短小,一般為四字格式”[2].無論哪種定義,都可以看出成語是人們長期以來習用的、簡潔精辟的定型詞組或短句,有固定的結構形式和固定的用法.

趣味成語就是將原有成語本身經單字和多字替換后的成語應用于一個新的場景,產生幽默的效果.因其具有趣味性,常常引人發笑和深思,被廣泛接受.有時,僅僅一字的差異能出現多種理解和含義,也是漢語言博大精深所在.如,“默默無聞”中的“聞”經替換后變為“默默無蚊”,指沒有蚊子的嗡嗡聲,周圍很安靜,體現了一定幽默風趣的色彩.這種諧音的趣味成語可以用于廣告、諷刺或幽默,能生動地表現產品的特色,有效地影響消費者.

2 相關工作

本文研究目標是以現代成語為基礎,自動生成趣味成語,使其在某一固定場景中產生幽默的效果,而趣味成語大多是通過諧音替換得到,很多成語具有諧音雙關的含義.因此,下面分別從幽默生成、雙關語和成語三個方面介紹相關的研究工作.

近些年國內外有很多幽默生成方面的研究,2012年,Igor Labutov等人基于SSTH理論做幽默語句生成的研究,采用人工打分的方式評測生成語句的效果[3].2013年,Alessandro Valitutti等人通過詞語替換,生成幽默文本,采用人工評估的方式評估幽默等級[4].國內研究者也在幽默研究方面進行了一定的探討.2015年張冬瑜等人構建了情感隱喻語料庫,這為幽默的識別提供了可以借鑒的方法[5].2016年林鴻飛等人回顧了幽默研究的發展歷史,詳細闡述了幽默計算中的多種基本理論和應用,對于諧音幽默的處理也給出了相應的討論[6].

雙關語作為幽默的一個重要分支,近些年也有很多的相關研究工作.2011年,Valitutti等又提出一種計算幽默程度的方法,評估生成的諧音雙關語.首先利用音素距離、音節距離、單詞距離和熟悉用語等多個特征生成諧音雙關語,最后采用人工評估的方法檢驗生成系統的效果[7].2012年,Pawel Dybala等人生成日文的雙關語,通過高頻詞匯統計的方式過濾候選詞匯,降低雙關語生成系統的時間代價.Valitutti等人也在2013年通過對普通文本的替換產生諧音幽默的句子,替換過程中主要考慮單詞的聲音相似性、拼寫和可替換性三個特征,使幽默生成變為詞語選擇問題,最后通過人工打分的方式評估諧音文本的幽默性[3].

成語是中華傳統文化的璀璨明珠,語言學方面關于成語典故、結構和釋義有許多研究工作.曾小兵等提出成語的穩定度高于習語,將成語定為語言中的高穩態的部分[8].徐耀民等認為成語的整體意義同字面意義往往不一致,使人產生聯想,因而運用起來容易收到生動、形象、耐人尋味和言簡意賅的效果[9].倪寶元指出由于表達需要而臨時產生的成語語素變換的形式成為套式.語言的演變依據“從俗、從簡和義明”等規范[10].成語大多是約定俗成的四字結構,在漢語書面或者日常會話中經常出現,特別是在文學作品中尤為頻繁,而在新聞領域中成語的使用頻率相對較低[11].以上是語言學方面對成語的部分研究.因為成語具有字數少,含義豐富的特點,機器理解困難較大,所以自然語言處理中關于成語方面的研究工作較少.冉婕等將成語的典故信息以本體的方式存儲,分別從類、子類、屬性、個體及關系幾個方面進行了詳細分析,為成語典故相關知識的查詢奠定基礎[12].楊雪松等提出了一種基于成語典故本體的信息檢索模型,以問題模式和答案模式為基礎,提高成語的語義檢索效率[13].以上是國內外幽默生成、雙關語和成語方面的研究進展,從成語的字形及語義角度出發,生成幽默成語的研究目前還很少見.

本文在大家使用頻率較高的成語基礎上,生成諧音趣味成語,主要的貢獻如下:1.根據一定的語音替換策略,生成候選成語集合,并提取成語中包含的字形和幽默等特征;2.將成語的生成問題轉化為查詢檢索問題,基于排序學習算法生成趣味成語;3.在多個維度中采用人工評估和機器評估相結合的方式,評測趣味成語的質量.

3 趣味成語特征集

趣味成語的生成首先是利用豐富的成語資源,在一定的語音替換策略基礎上,抽取諧音成語集合.然后提取成語集合中每條成語的特征集,融合到排序學習的算法中,生成幽默性較強的趣味成語.最終建立一個多場景自適應的趣味成語生成模型,該模型的基本流程如圖1所示.

輸入層包含查詢的關鍵字和場景詞兩部分,其中查詢關鍵字是生成的趣味成語中包含的漢字,場景詞是指趣味成語的應用場景.成語的幽默程度大多與應用的場景密切相關,如趣味成語“終身無汗”,查詢的關鍵字為“汗”,生成的成語本身幽默性不強,但如果和場景詞“空調”關聯時,很容易理解,“無汗”是強調空調的制冷效果,“終身”夸張了空調的功能,兩者結合呈現出一定的幽默色彩.可見,幽默特性通過與固定的場景詞關聯體現出來.因此本模型的輸入為查詢關鍵字和場景詞兩部分.以語音替換策略為基礎,根據輸入的查詢關鍵字在現代成語語料庫中生成候選成語集合.然后提取每條候選成語的特征集,利用排序學習算法,為候選成語集排序,輸出排名靠前的趣味成語以及它與場景詞關聯的幽默程度.生成和檢索算法的流程如下:

input={key,Q}//key為查詢關鍵字,Q為場景詞idioms=語音匹配(key)//idioms為候選成語集合

for idiom in idioms:

FVector=提取特征_11(idiom)

FMatrix=FMatrix.add(FVector)

indices=LambdaMart(FMatrix)

根據上述的流程可知,模型的輸入為查詢關鍵字key,輸出是若干成語,關鍵問題是如何將生成的成語按其與場景詞Q的相關度和幽默程度排序.這與信息檢索的問題很相似,其中查詢關鍵字相當于檢索中用戶輸入的查詢條件,場景詞為查詢的擴展部分,每個候選成語可以看作一個查詢返回的文檔,提取成語中的語義和幽默特征矩陣FMatrix,融入到排序學習的算法中,訓練排序模型,返回候選成語集合中成語幽默程度的排序indices.這樣可以把一個幽默成語的生成問題轉化為信息檢索問題,進而利用檢索的相關技術生成和評估幽默成語.信息檢索的核心問題是排序,趣味成語的核心問題也是如何將候選成語按其幽默程度排序.因此,本文在提取成語特征時,既考慮候選成語與查詢的相關性,也考慮成語本身的重要程度和幽默特性.

圖1 趣味成語生成模型Fig.1 Model of interesting idioms generation

為了全方位、多層次的體現成語的查詢相關度和幽默程度,本文在候選成語集合中提取語音、幽默、語義、情感和形態五個維度的特性,共11個特征.將上述特征融入到排序學習算法中,輸出每個候選成語的重要性.因此,圖1中的成語生成型可以進一步細化為特征集提取和檢索模型兩部分,其中提取的特征集如圖2所示.

首先,為候選成語集中的每條成語計算五個維度的特征集合,將生成的特征矩陣作為排序算法的輸入,經排序算法訓練和學習后,使趣味性較強的成語盡量排名靠前,最后利用信息檢索領域常見的平均準確率(MAP)和前N個結果的準確率(P@N)等指標評估算法的有效性.由圖2可知,選取特征的質量直接影響排序算法的輸出結果,它們是成語選擇的重要原始數據,下面將詳細介紹該模型的五個維度的特征.

3.1 語音替換策略

利用給定的查詢字在成語集合中查找發音相同和相似的成語,可以生成候選的成語集合.語音替換策略是指在進行上述語音替換時的原則,替換策略寬松,損失生成成語的語音特性,且生成的候選成語數量龐大,會增加趣味成語的挑選難度.反之,替換策略過于嚴格,生成的成語數量較少,很多幽默性強的趣味成語不能進入候選成語集.為保證候選成語集合的數量適中,本文選擇的替換策略是“嚴格匹配聲母和韻母,寬松匹配聲調”的原則.即替換字與查詢字的聲母和韻母必須完全相同,而聲調可以不同.其中聲母23個,韻母35個.需要注意的是這里的韻母是嚴格區分單韻母、雙韻母、三韻母和組合韻母.例如,韻母“àn”和組合韻母“iàn”屬于發音不同.

圖2 成語特征集Fig.2 Features of idioms

語音距離:查詢字與被替換字發音相同還是相似.因為語音替換策略中放寬了聲調的匹配,發音完全相同比發音相似語音距離小,讀起來更流暢,語感更強.語感是一種綜合的語言直覺能力.它包括對語音、語法、語義和語用等許多方面的敏感的直覺能力.雖然,人與人之間的語感有差別,但每種語言都存在共同的語感稱為“共同語感”[14].語音距離近,語感強,則該成語更可能語義通順,趣味性強.

3.2 語義特征

成語作為一個語義單元,不像語句和篇章可以包含更多的詞匯和漢字,體現更大的信息量.而成語大多只包含四個漢字,卻能夠體現較為豐富和生動的語義.為了讓機器能更全面的了解成語的豐富含義,需要在四個漢字的字面含義基礎上,多層次多角度的擴展語義.本文從兩個方向擴展關聯的語義:一個是向外擴展,通過大規模語料完成,另一個是向內擴展,將成語中四個漢字拆分計算.因此我們的語義特征包含查詢擴展字和成語內聚度兩個方面.

3.2.1 查詢擴展字

該特征首先通過大規模語料擴展查詢場景詞,將擴展后的關鍵字與成語匹配.匹配度越高,說明候選成語與查詢的關聯越大,語義上也就越相關.本文選擇2G的微博語料做查詢擴展,因為微博語料相對于新聞等語料更生活化、也更貼近人們日常的表達方式.一個用戶發表的一段微博一般較短,可以將其看作一個文檔,計算查詢擴展詞出現的文檔編號,則該文檔中的所有詞匯都可以作為查詢詞的共現詞匯,選擇排名靠前的共現詞匯作為該查詢的擴展詞.計算的公式如式(1):

(1)

其中,qk代表第k個查詢的場景詞,Corrence函數表示第i個文檔中場景詞qk與詞匯wj的共現次數.因此,Cj代表語料中第j個詞匯與場景詞qk共現的頻率.當前場景詞qk與所有單詞的共現矩陣為(C1,C2,…,Cm-1,Cm),選擇其中共現頻率較高的詞匯作為場景詞qk的查詢擴展詞,最后在qk的候選成語中匹配是否存在查詢擴展詞,將其作為查詢擴展詞的特征值.

3.2.2 成語內聚度

成語內聚度是指成語中每個漢字之間結合的緊密程度.結合越緊密,內聚度越高,說明該成語中每個漢字經常搭配使用,表達含義更容易被人們理解.四字格成語一般為二二結構[15],如“千山萬水”、“畫蛇添足”等,因此本文計算的成語內聚程度并不是將成語中每兩個漢字組合計算,而是分為前后兩部分,即先計算前兩個字的內聚度,再計算后兩個,最后將兩者加和,內聚度是通過漢字的Ngram值表示.見公式(2).

(2)

其中,Coh(idiomi)為第i個成語的內聚度,由前后兩部分相加得到.ngram函數計算相鄰兩個漢字的ngram值,本文集成KenLM Toolkit[22]工具包,在1G的中文維基百科語料中按字訓練Ngram語言模型.

3.3 幽默特征

幽默具有 “戲謔”的特征,因此“有趣,可笑”可以作為判斷幽默的廣義標準[6].趣味成語中“趣”就是指具有幽默的含義,而幽默的表現形式多種多樣.本文的幽默特性包含夸張特性、成語流通度和極性差值三個方面.

3.3.1 夸張特性

幽默有時與一定的修辭手法關聯,例如,國內外很多學者認為夸張常常有幽默的效果[16],作為情緒的宣泄方式,夸張、反語都能達到幽默的作用[17].夸張是作者把描述事物的本質特征極力地夸大或縮小,從而使話語產生幽默效果.而夸張的表現手法是多種多樣的,歸納起來就是利用多種語言資源,增強或降低事物的某些方面.包含語勢和語焦兩個方向.語勢 可以擴大或縮小,語焦可以銳化或柔化[18].語勢最經常使用的是數量上的夸張,如經典夸張表達“白發三千丈”[19].根據以上語言學中關于夸張的理論,我們提取成語中的數詞及表示數量規模的量詞等表示夸張特性.

3.3.2 成語流通度

“流通度” 是一種語言事實在社會交際中的流行通用的程度.詞匯流行通用程度高,表明人們的熟悉程度高,也就是更多的人能夠理解詞匯的含義.幽默言語是說話者在某一特定情景下說出來的,聽者利用自己的語言知識和常識去理解,在這種人的交際與認知中獲取.如果一個成語的流通度較低,含義比較晦澀難懂,就很難在理解語義的基礎上產生幽默.為了客觀公正的在大規模語料中獲取成語的流通度,我們利用百度搜索引擎,將原始成語作為查詢關鍵字,獲取該成語返回的相關結果個數,然后對生成流通度向量做歸一化處理,得到成語對應的流通度數值.流通度數值越高,說明該成語在生活中越常見,其含義也被大多數人熟知,進而其幽默的含義也更容易被理解.反之,如果一個成語流通度較低,則說明大部分人對它表達的含義或者成語的典故出處不太了解,這樣的成語生成候選成語后,即使其中包含一定的幽默含義,也很難被人解析和認知.

3.3.3 極性差值

極性差值是指計算查詢字與被替換字之間的極性差值.因為幽默言語大多來自于交際過程中最大關聯與最佳關聯之間意義的反差[20],語義信息有限的成語中,情感極性的差值從一個側面體現了這種反差,造成一種意料之外的效果.本文計算極性差值的方法是:首先,在大連理工大學的情感詞匯本體[21]基礎上,根據每個字出現在褒貶義詞匯中的次數計算單個漢字的褒貶義;然后根據漢字的褒貶義,計算替換前后成語的褒貶義變化,計算公式如式(3):

polarDiff(idiomi)=polar(zori)-polar(znew)

(3)

其中,zori表示成語中的原始字,znew表示替換zori的查詢字.polarDiff(idiomi)代表替換前后成語中漢字的極性變化,它的絕對值越高說明替換前后情感的反差越大,則越可能含有幽默色彩.

3.4 情感特征

成語和習語中通常包含豐富的情感信息,對情感識別作用較大[22].從情感的角度出發,趣味成語分為兩種類型,大部分是褒義成語轉化而來,少部分成語原始是貶義成語,但替換后不再具有貶義色彩.本文的情感特征包含成語褒貶性和單字褒貶性,分別針對兩種類型的趣味成語.成語褒貶性主要處理大部分趣味成語是褒義成語轉化而來的情況,而單字褒貶性主要處理少部分成語的去貶義化問題.

3.4.1 成語褒貶性

本文使用的成語來源于《成語大詞典》[23],詞典中具有情感極性的成語標注為褒義、貶義.我們手工錄入詞典中的情感標注,作為成語褒貶性的特征值.貶義值為1,中性值為2,褒義為3,需要說明的是詞典中明確標注了具有褒義和貶義的詞語,未標注褒貶極性的成語劃分到中性類別中.從情感極性的角度看,由褒義成語替換成的候選成語成為趣味成語的概率更大.

3.4.2 單字褒貶性

單字褒貶性是判斷候選成語中是否包含褒義字.包含褒義字的成語其貶義被去除的概率加大,即更可能為去貶義化的成語.這主要是針對一些貶義成語具有趣味性,它們通常是通過單字替換后,原來的貶義傾向性消失的現象.例如,“口蜜腹健”,原始成語中的“劍”字被“健”替換后,原始的貶義消失,帶有一定褒義色彩.

3.5 形態特征

漢字是象形文字發展而來,能通過字形表達豐富的語義,因此外在形態包含了語義表示的重要信息.本文選擇的形態特征包括成語通透性、單字常見度和場景重疊字.

3.5.1 成語通透性

成語的通透性是將組成成語的每個漢字的通透性疊加.1999年,曾捷英等提出漢字空間通透性的概念,它是衡量漢字筆畫之間離散程度的可量化指標,漢字空間的通透性和筆畫間的離散程度成正比[24].因此,可以將筆畫數作為衡量通透性的一個標準.現代漢字學把筆畫看作是“構成漢字字形的最小單位”[25].目前廣泛采用的筆畫是1965年文化部和中國文字改革委員會頒布了《印刷通用漢字字形表》.筆畫數的多少標志著字的繁簡[26].曹傳詠等[27]也肯定了漢字識別中的筆畫數效應.因此,本文中成語的通透性通過構成成語的每個漢字筆畫數的加和來計算.通透性越好,說明成語被人們識別和理解的概率越大,也就更可能成為趣味成語.

3.5.2 單字常見度

漢字的常見度反映了漢字在人們生活中的使用頻率.越常見的漢字,其語義越易被大多數人理解,在充分理解語義的前提下,也就越容易理解其中的幽默等含義.本文的常用漢字是選擇國家語委漢字處1988年制定的《現代漢語常用字表》中的常用漢字.判斷成語的漢字是否為常用字,計算公式見公式(4).

(4)

其中,T(zj)表示漢字zj是否為常見字,是值為1,否則為0.T(idiomi)表示成語i中漢字的常見度,如果候選成語中除查詢字外每個漢字都為常見字,值為1,否則值為0.

3.5.3 場景重疊字

場景重疊字特征是判斷生成的候選成語中是否包含場景詞中漢字.每個查詢字都配有一個場景詞,因為成語的幽默程度大多與應用的場景密切相關,在具體場景下才能體現幽默.如果候選成語與場景詞高度相關,則產生幽默的可能性會變大.例如,趣味成語“聞‘機’起舞”中的“舞”與場景詞“跳舞機”重疊,兩者的語義相近.反之,如果候選成語與指定的場景語義距離較遠,很難產生幽默的聯想,那么成為趣味成語的概率會變小.場景重疊字特征計算候選成語有多少個字與場景詞重疊,字數越多,兩者語義越相近.

4 趣味成語檢索模型

依據語音替換模板和查詢字,生成了候選成語集,通常一個查詢字可以生成幾百甚至幾千個候選成語,這些成語中哪些與規定的場景詞更相關,哪些更具有幽默特性是下一步需要解決的問題.即我們需要根據選擇的5大類特征,將生成的多個候選成語排名,使語義更相關、幽默性更高的成語排名靠前.這與信息檢索的問題非常相似,在信息檢索中用戶搜索一個查詢關鍵字,可能返回多個相關的文檔,提取特征后通過合適的排序學習算法,將相關度大的文檔排在前面.信息檢索的核心問題是排序,就是把用戶最需要的信息排在返回列表的最前面.而趣味成語的檢索模型也是要解決排序問題,將趣味性強的成語排在候選成語集的最前面.因此,本文采用信息檢索領域應用廣泛的排序學習算法和相關評測方法,實現趣味成語的檢索模型.該檢索模型的主要結構如圖3所示.

圖3 趣味成語的檢索模型Fig.3 Model of interesting idioms retrieval

首先,在已標注的訓練集中提取5個維度的11個特征值,使用排序學習算法訓練,利用開發集調整參數后,得到效果較好的排序模型.然后利用排序模型分別排序已標注的測試數據和未標注的用戶需求兩個數據集.最后評估階段,已標注的數據采用機器評估,未標注的數據采用人工評估,以更全面、客觀地評價趣味成語的生成質量.

4.1 檢索模型

排序學習的思想是將排序問題轉化為機器學習問題,利用機器學習的相關方法,以排序特征為依據構建合適的排序模型.它的主要目標是利用排序函數計算文檔和查詢的相關度,然后根據相關度進行排序.參照信息檢索的定義,本文的趣味成語檢索模型任務定義為:對于給定的候選成語集合C,其中每個候選成語表示為三元組形式,q為查詢,c為該成語的特征集合{f1,f2,…,fn},r為成語與查詢的相關程度.因此,構造一個函數反映候選成語與查詢的相關度是排序學習的核心任務.

排序學習中列表級[28]方法因為不再將排序問題直接轉化為分類問題,而是對整個候選文檔列表進行優化,是目前研究的重點.本文采用列表級方法中效果較好,使用范圍較廣的LambdaMart算法訓練模型,以位置信息敏感的MAP為評價準則,評估候選成語的排序效果.

(5)

其中,I表示某查詢下的所有候選對象.LambdaMart方法在眾多檢索任務中都獲得了較好的效果.

4.2 評估方法

信息檢索的評價指標很多,如F值、E值、AP值、MAP、P@K、NDCG和MRR等.為了客觀公正地評估趣味成語的質量,本文選擇通用的MAP和P@K作為評價指標.AP(Average Precision)值是計算單個查詢中每篇相關文檔的平均準確率.而MAP(Mean average Precision)是計算集合中多個查詢的平均AP值,具體方法如式(6).

(6)

其中,Pi(r)指查全率為r時的平均查準率,N為查詢的個數.MAP是反映全部相關文檔性能的指標,相關文檔排名越高,MAP的值越高.

5 實驗結果

生成的候選成語經檢索模型排序后,生成趣味成語集合.采用機器評估和人工評估相結合的方法評估生成趣味成語的質量.本節主要介紹使用的語料、實驗方案及結果.

5.1 實驗數據集

成語生成模型中需要成語語料庫,現代漢語中到底有多少條成語,很難有一個具體、明確的數字[30].因為辭書常常設有主條、副條或主條、附見條,如果這種單位也被視為成語,則成語的總數 可能達到兩三萬條,如果將其排除在外,那么成語的總數可能為 10000 條左右[31].四字格是成語最典型的格式,數量也是最多的,體現了漢民族追求和諧、崇尚對偶的審美觀.據許肇本的統計,在不下萬條的成語中,四字格約占 97%[32].因此,本文采用商務印書館的《現代成語大詞典》為基本的成語語料庫,選擇四字格成語10604個,其中褒義成語1981個,貶義成語1840,中性成語6783.趣味成語的已標注數據集是從互聯網上收集,包含72個查詢,82個趣味成語,查詢涉及生活用品、電器、保健品和住房等多個領域.72個查詢中12個作為測試集,50個訓練集,10個開發集.除了這些已標注的數據集,我們還準備了25個用戶查詢構成未標注的數據集,利用人工評估的方法檢測趣味成語的生成質量.為了全面地評測該模型的質量,上述25個用戶查詢來源于國家統計局2013年發布的《居民消費支出分類》表,從衣、食、住、用和行5個大類中,每個類別分別隨機選擇5個產品作為查詢字的場景詞,總計25個查詢.

5.2 實驗結果及分析

本文主要完成兩大類實驗:已標注數據集上的機器評估和未標注數據集上的人工評估.排序算法采用LambdaMart,使用開發集調整參數,將排序模型應用到上述兩類測試集,分別采用MAP和P@K兩種評價指標.

5.2.1 機器評估結果

72個查詢中12個作為測試集,采用交叉驗證的方式,單獨使用各維特征及所有特征疊加的實驗結果如表1所示.

表1 各維特征對MAP值的影響
Table 1 Features′ impaction in MAP

特征MAP情感特征6.13%形態特征6.78%語音特征13.60%語義特征13.94%幽默特征17.07%所有特征27.47%

從表1可以看出,將5個維度的11個特征都加入到模型中,效果最好,MAP值達到27.47%.如果一個查詢只有一個趣味成語,則該趣味成語平均排名在3到4名左右.在排序模型中單獨使用各維特征,幽默特征作用最大,MAP值為17.07%,而情感特征的作用最小,只有6.13%.這是因為情感特征主要依據成語的褒貶性來區分,而10604個成語集合中具有明顯褒貶義的成語數量較少,只有3821個,因此影響范圍不大.幽默特征的作用最大,因為衡量趣味成語好壞的關鍵指標是趣味性,即幽默.為了細化幽默特征的作用,本文分別在所有特征中刪除每個幽默特性,以MAP值的提升程度表示各個幽默特性的效果,結果如表2所示.

由表2可以看出,三個幽默特性中極性差值作用最小,夸張特性作用最大.在特征集中加入夸張特性,整體的MAP值能提高7.37%.可見,夸張是幽默的一種重要體現形式,能夠幫助識別部分趣味成語中的幽默效果.成語流通度特性能提高6.54%,說明人們越熟悉的成語替換后越容易產生幽默色彩.極性差值的提升幅度為2.73%,與其他兩個特性比效果較小,這是因為字的褒貶義本身與其在實際上下文中的含義可能有一定的誤差.

表2 幽默特性對MAP值的影響
Table 2 Humor features′impaction in MAP

特征MAP提升幅度所有特征-極性差值24.74%2.73%所有特征-成語流通度20.93%6.54%所有特征-夸張特性20.10%7.37%

5.2.2 人工評估結果

考慮到目前機器對幽默等隱式情感的理解不足,在高級情感的鑒別和解析中人的感受更為準確和具體.因此,本文針對25個查詢字及場景詞采用人工評估的方法,進一步評價趣味成語生成模型的效果.每個查詢生成的候選成語數量龐大,對每一條候選成語進行人工評估,人力成本較大.因此,對于每個查詢,我們選擇排名在前10的成語人工評估,每名評測員完成250個成語的評估工作.評測員為每條成語打分,分為“不相關”、“一般相關”和“非常相關”.“不相關”的成語還需要細化不相關的原因,如語義不通,或者與場景詞關聯度較小等,這主要是為后續改進模型提供依據.“非常相關”是指成語趣味性較強,與查詢場景比較貼合的成語.“一般相關”是指與查詢場景語義相關,但趣味性稍弱的成語.人工評估的結果如表3所示.

表3 人工評估的P@10結果
Table 3 P@10 values of artificial assessment

評測標準平均P1P2P3P4P5非常相關34%27%30%42%34%39%相關60%55%69%63%56%57%

表3中給出了趣味成語p@10的評測結果,“相關”是指“非常相關”和“一般相關”的疊加.從結果可以看出,排名靠前的10個成語中平均有6個成語是相關的,其中有3個是非常相關的.這從人工的角度驗證了趣味成語生成模型的效果,基本能夠滿足大部分查詢的實際需求.此外,5人評測組中,組員評分的方差為0.003,方差較小,也說明評測員的評測結果一致性較好,結果的可靠程度較高.25個查詢分別來自衣、食、住、用和行5大類別,各類別趣味成語的生成質量如圖4所示.

圖4 各個類別人工評估的p@10值Fig.4 P@10 values of each category through artificial assessment

由圖4可以看出,食品類和服飾類查詢生成趣味成語的質量較高,相關成語的平均值為68%,而交通出行類查詢的生成質量最低,非常相關的成語15%,相關成語也只有46%.這是因為成語多來源于古代的典故,而出行類的查詢場景詞多為出租車和飛機等現代詞匯,兩者的語義相關度較小,所以趣味成語的生成質量最低.

表4 部分趣味成語
Table 4 Examples of facetious idioms

查詢字場景詞趣味成語羽羽絨服“羽”眾不同無“羽”倫比巾圍巾情不自“巾”“巾巾”有味鞋皮鞋一“鞋”千里齊心“鞋”力麥小麥一“麥”相傳含情“麥麥”甜巧克力巧奪“甜”工“甜”下第一

表4給出了生成的部分趣味成語,從結果可以看出大部分成語趣味性較強,與場景詞的語義相關度較大,趣味成語的質量較好.

6 結論及不足

本文依據語音替換規則生成候選成語集合,從中提取語音、幽默、語義、情感和形態五個維度11個特征,并以此為基礎,利用排序學習的相關算法,從候選成語集合中檢索趣味成語,進而構建趣味成語的生成模型.該模型將成語生成問題映射到信息檢索領域,以查詢及相關反饋的技術解決生成問題.經機器和人工的雙重評估,實驗結果表明五個維度的特征能夠細致刻畫趣味成語,區分度較好,生成質量較高.

但我們的研究工作也存在一些不足,如很多近現代出現的查詢詞與古代成語的相關度較低,生成質量有待提高.另一方面,能否理解幽默與人類的常識高度相關,而這部分幽默特征表示困難,還需要進一步加強.

猜你喜歡
排序趣味語義
排序不等式
恐怖排序
語言與語義
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
午睡的趣味
特別文摘(2016年24期)2016-12-29 21:03:08
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
妙趣橫生的趣味創意
趣味型男
讓你HOLD不住的趣味創意
主站蜘蛛池模板: 久久99热这里只有精品免费看 | 在线永久免费观看的毛片| 欧美成人A视频| 99视频精品在线观看| 亚洲日韩精品无码专区97| 亚洲精品男人天堂| 欧美一区二区自偷自拍视频| 女人爽到高潮免费视频大全| 凹凸国产分类在线观看| 欧美全免费aaaaaa特黄在线| 美女被操91视频| 亚洲VA中文字幕| 国产欧美日韩资源在线观看| 欧美一级高清视频在线播放| 国产爽歪歪免费视频在线观看| 欧美精品v欧洲精品| 欧美人与牲动交a欧美精品| 国产成人在线无码免费视频| 91在线播放国产| 在线免费看黄的网站| 尤物国产在线| 亚洲精品动漫在线观看| 国产欧美又粗又猛又爽老| 亚洲91精品视频| 在线精品视频成人网| 国产女人在线视频| 国产自无码视频在线观看| 午夜丁香婷婷| 无码精油按摩潮喷在线播放| 欧美性爱精品一区二区三区 | 亚洲最新在线| 欧美日韩亚洲综合在线观看| 香蕉精品在线| 国产成人高清精品免费5388| 毛片一级在线| 91精品专区国产盗摄| 亚洲无线一二三四区男男| 免费av一区二区三区在线| A级毛片高清免费视频就| 再看日本中文字幕在线观看| 91在线播放免费不卡无毒| 久久性视频| 福利一区在线| 国产色婷婷| 亚洲国产精品日韩欧美一区| 欧美一级黄色影院| 麻豆精品久久久久久久99蜜桃| 精品无码一区二区三区电影| 国产自无码视频在线观看| 国产小视频a在线观看| 亚洲成a人在线播放www| 国产欧美日韩精品综合在线| 精品视频第一页| 在线视频精品一区| a亚洲天堂| 欧美全免费aaaaaa特黄在线| 欧美成人第一页| 天天综合网亚洲网站| 欧美中文字幕一区二区三区| 国产精品妖精视频| 久草视频精品| 伊人婷婷色香五月综合缴缴情| 国产免费怡红院视频| 国产精品尹人在线观看| 国产电话自拍伊人| 美女高潮全身流白浆福利区| 99久久精品国产自免费| 97se亚洲综合在线天天| 国产精品福利在线观看无码卡| 亚洲欧美日本国产综合在线| 久久综合干| 免费在线a视频| 国产日韩丝袜一二三区| 日本成人在线不卡视频| 在线免费不卡视频| 伊人色在线视频| 视频一区视频二区中文精品| 强乱中文字幕在线播放不卡| 国产欧美性爱网| 国产一区亚洲一区| 在线高清亚洲精品二区| 中文字幕调教一区二区视频|