999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征融合的諧音廣告語生成模型

2018-11-16 07:58:02徐琳宏林鴻飛祁瑞華
中文信息學(xué)報(bào) 2018年10期
關(guān)鍵詞:詞匯特征情感

徐琳宏,林鴻飛,祁瑞華,楊 亮

(1. 大連外國語大學(xué) 軟件學(xué)院,遼寧 大連 116044; 2. 大連理工大學(xué) 信息檢索實(shí)驗(yàn)室,遼寧 大連 116024)

0 引言

隨著商品經(jīng)濟(jì)的發(fā)展,商品的種類和品牌數(shù)量不斷增加,廣告成為商家競爭和銷售的重要手段。廣告?zhèn)鞑サ姆绞讲粌H包括傳統(tǒng)的電視和報(bào)紙,網(wǎng)絡(luò)作為一種新的形式,占有的比重也越來越大,尤其是手機(jī)、平板電腦和電視等電子媒介的出現(xiàn),為廣告的傳播提供了更快、更廣的傳播途徑,逐漸受到更多商家的青睞。廣告的定義為: “通過媒體向公眾介紹商品、勞務(wù)和企業(yè)信息的一種宣傳方式。一般指商業(yè)廣告。從廣義來說,凡是向公眾傳播社會(huì)人事動(dòng)態(tài)、文化娛樂、宣傳觀念的都屬于廣告范疇。[1]”廣告的形式多樣,有語音、圖片以及視頻形式。無論哪種形式,廣告語言都是其中不可或缺的部分。“廣告語言是指廣告中的語言,包括各種廣告中所有的語言文字信息,即廣告中的語音、詞語、句子、文字、標(biāo)點(diǎn)符號(hào)和文字圖形。[2]”

廣告語言和廣告語是從屬關(guān)系,“廣告語言包括廣告語,廣告語是廣告語言中的純語言形式,是廣告語言中最能體現(xiàn)企業(yè)品牌價(jià)值的部分。[3]”一則成功的廣告語不僅要語言簡短、朗朗上口,而且要有美感,能凝練商品或品牌的核心價(jià)值,是一種高級(jí)的語言創(chuàng)作過程。廣告語的創(chuàng)作過程中需要更多的智慧、靈感和豐富的知識(shí),也是一個(gè)艱苦的過程。

古詩詞是傳統(tǒng)文化中廣泛流傳的文學(xué)形式,朗朗上口、對(duì)仗工整,有較強(qiáng)的傳播優(yōu)勢。巧妙地用古詩詞改編廣告語,可以增強(qiáng)廣告作品的文化品位,增強(qiáng)廣告的感染力。古詩詞一般文字精煉、意境深遠(yuǎn),符合廣告語簡短而內(nèi)涵豐富的特點(diǎn)。借助詩詞的廣告語能夠獲得人們的廣泛認(rèn)知,有較高的知名度。通過計(jì)算機(jī)自動(dòng)生成古詩詞型的廣告語有兩種生成方式: 一種是為商品生成新的符合韻律的詩詞廣告語;另一種是在原詩的基礎(chǔ)上經(jīng)過嵌入和替換的方法生成廣告語。兩種方式各有特色,生成新詩詞的方法可以更好地貼近商品特征,但新詩詞在傳播能力方面不如嵌入式的詩詞廣告語,因?yàn)楹笳呤谴蠹叶炷茉數(shù)脑娋洌苎杆僖鹑藗兣d趣,便于記憶和再次傳播,本文采用后一種形式。

在古代詩詞的基礎(chǔ)上,我們通過諧音替換和多特征融合的方式生成廣告語,并從語音、形狀、語義和情境多方面評(píng)估廣告語,為該類語言的創(chuàng)作提供更多更好的資源。接下來的內(nèi)容安排如下: 第1節(jié)介紹了國內(nèi)外廣告語生成和詩詞生成的相關(guān)工作;第2節(jié)提出諧音廣告語的生成模型;第3節(jié)解釋生成廣告語的評(píng)估方法;第4節(jié)報(bào)告了實(shí)驗(yàn)的設(shè)計(jì)和結(jié)果;第5節(jié)給出了研究的結(jié)論和未來改進(jìn)的方向。

1 相關(guān)工作

本文研究目標(biāo)是以古詩詞為原型,自動(dòng)生成諧音廣告語,所以下面分別從諧音廣告語生成和古詩詞生成兩個(gè)方面介紹相關(guān)的研究工作。

諧音廣告語中包含諧音詞匯,而大部分包含諧音詞匯的語句都具有雙關(guān)的含義。在諧音雙關(guān)語和廣告語的生成方面,國外很早就有相關(guān)的研究工作。早在1982年,Michel等人就研究過雙關(guān)廣告語中的模糊性[4]。2002年,Pricken也提出將熟悉的表達(dá)方式做替換或者變換,這是產(chǎn)生廣告語的重要手段[5]。2003年,Lundmark等人以概念混合理論為基礎(chǔ),研究雙關(guān)廣告語中隱喻與幽默的關(guān)系[6]。2008年,Valitutti等人生成具有情感的廣告標(biāo)題,生成廣告語時(shí)根據(jù)句中詞匯來合成情感,而情感是在大規(guī)模語料庫上通過無監(jiān)督的方法獲得,系統(tǒng)選擇一些固定情感的詞匯,如有強(qiáng)烈諷刺效果的詞匯等,生成新的廣告語[7]。2011年,Valitutti等又提出一種計(jì)算幽默程度的方法,評(píng)估生成的諧音雙關(guān)語。首先利用音素距離、音節(jié)距離、單詞距離和熟悉用語等多個(gè)特征生成諧音雙關(guān)語,最后采用人工評(píng)估的方法檢驗(yàn)生成系統(tǒng)的效果[8]。2012年,Pawel Dybala等人生成日文的雙關(guān)語,通過高頻詞匯統(tǒng)計(jì)的方式過濾候選詞匯,降低雙關(guān)語生成系統(tǒng)的時(shí)間代價(jià)。Yike Zhang等人分別在2011和2012年利用敘述生成系統(tǒng)中的概念字典和廣告修辭技術(shù)提高廣告生成系統(tǒng)的能力[9-10]。2013年,Ping Xiao等人為圖片廣告語生成恰當(dāng)?shù)碾[喻概念。他首先尋找與商品價(jià)值相同的高想象力的概念,然后從情感、突出特點(diǎn)、次要屬性和張量相似度四個(gè)方面評(píng)估候選答案,最后采用三個(gè)真實(shí)的廣告案例,驗(yàn)證生成方案的有效性[11]。Valitutti等人也在2013年通過對(duì)普通文本的替換產(chǎn)生諧音幽默的句子,替換過程中主要考慮單詞的聲音相似性、拼寫和可替換性三個(gè)特征,使幽默生成變?yōu)樵~語選擇問題,最后通過人工打分的方式評(píng)估諧音文本的幽默性[12]。

古詩詞是中華傳統(tǒng)文化的璀璨明珠,關(guān)于古代詩詞分析及自動(dòng)生成方面有許多研究工作,古詩詞的生成除了考慮對(duì)仗和韻律,更重要是的考慮生成詩詞的情境和意境。

徐有富將詩的意境分為時(shí)代特色、地域特色和個(gè)人特色三部分[13]。陳少松指出唐詩也分古體詩和近體詩,有的遵守平仄要求,有的不遵守,并詳細(xì)討論了詩與音節(jié)和調(diào)之間的關(guān)系[14]。徐志嘯用“套語”理論研究《詩經(jīng)》,認(rèn)為相同韻律的詩表達(dá)同樣的思想[15]。莫礪鋒在《怎樣讀杜甫詩》一文中記述杜甫生處動(dòng)蕩時(shí)代,詩的風(fēng)格沉郁[16]。以上是語言學(xué)方面對(duì)詩詞韻律和意境的部分研究。下面介紹自然語言處理中關(guān)于詩詞生成方面的研究工作。

2010年,周昌樂等人根據(jù)宋詞的特點(diǎn)設(shè)計(jì)平仄編碼,構(gòu)建了一種基于遺傳算法的宋詞自動(dòng)生成模型。并針對(duì)主題相關(guān)度、風(fēng)格情感一致性和總體質(zhì)量三個(gè)方面人工打分,評(píng)測生成詩句的效果[17]。2010年,何晶等人根據(jù)用戶輸入的關(guān)鍵詞,生成詩詞首句,然后將格律詩的上下句映射為統(tǒng)計(jì)翻譯模型中的源語言與目標(biāo)語言。其中設(shè)置的詩詞評(píng)價(jià)指標(biāo)有較好的借鑒價(jià)值,全詩評(píng)價(jià)包括語言、韻律、是否符合題意、結(jié)構(gòu)和意境五個(gè)方面,每部分權(quán)重不同,采用人工打分的方式評(píng)估[18]。2015年,蔣銳瀅利用主題模型進(jìn)行詩詞的意境擴(kuò)展,使用BLEU值自動(dòng)評(píng)測詩詞質(zhì)量[19]。

以上是國外雙關(guān)廣告語生成和國內(nèi)詩詞生成方面的研究進(jìn)展,國內(nèi)關(guān)于廣告語生成方面的研究較少,基于固定文本來生成廣告語的研究更是處于起步階段。本文在大家耳熟能詳?shù)某S迷娫~基礎(chǔ)上,生成諧音廣告語,主要的貢獻(xiàn)如下: ①根據(jù)一定的韻律模板生成初級(jí)廣告語群,并提取廣告語的九大特征; ②對(duì)生成的初級(jí)廣告語群,采用基于主成分分析和自定義權(quán)重的雙序評(píng)估方法,得到每個(gè)品牌的高分廣告語群; ③考慮語音、形狀、語義和情境四個(gè)維度,采用人工評(píng)分的方式,評(píng)估生成廣告語的質(zhì)量。

2 廣告語的生成模型

廣告語生成模型是在人們熟知的古詩詞文集中挑選詩句,利用一定語音模板生成候選廣告語群,然后再分別從語音、形狀、語義和情境四個(gè)方面計(jì)算生成廣告語的特征向量,從而得到某品牌的廣告語群的特征矩陣。最后在評(píng)估階段根據(jù)生成的特征矩陣,自動(dòng)獲取最佳廣告語。某品牌的廣告語生成系統(tǒng)的整體流程如圖1所示。

圖1 廣告語的生成模型

該模型的輸入是某品牌的信息,首先利用語音模板在古詩詞文集中查找相應(yīng)的候選廣告語。然后對(duì)該品牌的候選廣告語群中的每條廣告語計(jì)算形狀、語義、情境和語音四個(gè)維度的九個(gè)特征,生成該品牌廣告語群的特征矩陣,作為后續(xù)評(píng)估算法的輸入,從而篩選出質(zhì)量較好的多條廣告語。特征矩陣是選擇廣告語的重要數(shù)據(jù),下面本文將詳細(xì)介紹四個(gè)維度的九個(gè)特征。

2.1 語音模板

語音模板是在古詩詞文集中檢索每條詩句,查找與品牌信息相同或者相似發(fā)音的詞匯,并替換成相應(yīng)的品牌信息,生成候選廣告語群。在計(jì)算兩個(gè)詞匯發(fā)音相似程度時(shí),本文采用浮動(dòng)積分制。

其中五支韻,i 與聲母 zh、ch、sh、z、c、s 搭配,而七齊韻,i與聲母 b、p、m、f、d、t、n、l、j、q、x、y搭配。

模板一是向上加分制,如果兩個(gè)詞匯的韻母完全相同分值設(shè)定為3,詞匯中如果有一個(gè)字的發(fā)音完全相同,即聲母、韻母和音調(diào)一致,則分值加1。例如,“江鈴”和“江陵”,在韻母相同的基礎(chǔ)上,兩個(gè)字聲母都相同,則語音距離得分為5。模板二是向下減分制,如果兩個(gè)詞匯的韻母不相同,則檢查兩個(gè)詞匯的發(fā)音是否符合十三轍十八韻,符合則語音距離得分為1。古代詩詞講究合轍押韻,押韻的詩句讀起來朗朗上口,也便于記憶。本文使用《詩韻新編》[20]中選取的十八韻制作模板,其中十八韻分類情況見表1。

表1 十八韻

2.2 形狀特征

形狀特征是指廣告的外在表現(xiàn)形式,包括詞性、長度和字形三部分。

(1) 詞性特征: 該特征計(jì)算品牌詞匯Bi與詩句中被替換掉的原詞匯Pi的詞性是否相同。如果詞性相同得分為1,否則得分為0。本特征在一定程度上體現(xiàn)了生成廣告語的語法正確性。

(2) 長度特征: 太短的廣告語信息含量低,太長的廣告語又容易使人失去閱讀興趣。單純使用長度數(shù)值不能體現(xiàn)上述對(duì)廣告語的要求,所以,本文將廣告語的字?jǐn)?shù)通過高斯變換,得到長度特征,增加中間長度的廣告語特征值,降低長度過長或過短的廣告語特征值,具體公式如式(1)所示。

(1)

其中x表示廣告語的字?jǐn)?shù),f(x)為變換后的長度特征值。期望為μ,標(biāo)準(zhǔn)差為σ2,由公式(1)可見,選擇一個(gè)合理的期望值μ,對(duì)結(jié)果的影響較大。為了得到合理的期望值,需要統(tǒng)計(jì)大規(guī)模的廣告語,計(jì)算平均長度。2013年,劉佳等人創(chuàng)建了廣告語言文本語料庫[21]。該語料庫包含2 676條廣告語,共計(jì)28 653個(gè)漢字,廣告語的平均長度為10.7,所以本文選擇μ為10.7,σ=1的正態(tài)分布。

(3) 字形特征: 有時(shí)包含相同漢字的詞匯在詞義上也會(huì)比較相近,所以字形特征計(jì)算品牌詞匯Bi與詩句中原詞匯Pi有多少個(gè)字完全相同。特征初值為0,如果找到字形相同的字,則累加1。

2.3 語義特征

語義特征主要是體現(xiàn)品牌信息嵌入到詩句中,語義上是否合理、通暢。包括內(nèi)聚程度、替換距離和熟悉程度。假設(shè)廣告種類的詞匯為Ti,詩句中被替換掉的詞匯為Pi。

(1) 內(nèi)聚程度: 計(jì)算Ti與廣告語中其他詞匯的Bigram值,相加后除以詞匯總數(shù),如式(2)所示。

,Vj)/lengh(Ai)

(2)

其中Coh(Ai)表示廣告語Ai的內(nèi)聚程度,Bigram(Ti,Vj)計(jì)算品種詞匯Ti與詩句中第j個(gè)詞匯的Bigram值。所以內(nèi)聚程度是指Ti與廣告語中其他詞匯Bigram加和除以廣告語的詞匯總數(shù)。值越大說明詩詞內(nèi)容與該種類的商品越相關(guān)。本文集成KenLM Toolkit[22]工具包,訓(xùn)練Ngram語言模型。

(2) 替換距離: 計(jì)算品牌詞匯Bi與詩詞中被替換掉的詞匯Pi之間的Bigram值,如式(3)所示。

Dis(Ai)=Bigram(Bi,Pi)

(3)

Dis(Ai)值越大說明廣告信息嵌入的越合理,值太小,則說明該品牌信息與原詩語義差別較大。

(3) 熟悉程度: 每首詩被人們熟知的程度不一樣,有些詩被廣為傳頌,而有些詩只有詩詞鑒賞專家才了解。朗朗上口,被更多受眾熟知的詩生成的廣告語容易記憶和傳播。

為了保證廣告語的生成效果,本文選擇的詩詞是人們耳熟能詳?shù)奶圃娝卧~,將每首詩的熟悉程度定為四個(gè)等級(jí)。以人教版和蘇教版的語文教材為劃分標(biāo)準(zhǔn),小學(xué)語文教材中出現(xiàn)的詩熟悉程度的特征值為5,中學(xué)教材中的值為4,高中教材中的值為3,不在語文教材中的詩詞值為1。可見,值越大熟悉程度越高,生成的廣告語傳播效果越好。

2.4 情境特征

唐朝的王昌齡在《詩格》中提到“詩有三境: 一曰物境;二曰情境;三曰意境”,其中情境的定義為“情境二。娛樂愁怨,皆張于意而處于身,然后馳思,深得其情。”簡單來說,詩的情境就是指詩中表達(dá)的情感。

廣告語主要是通過贊揚(yáng)等手段,以積極的情感表達(dá)商品的優(yōu)點(diǎn)。所以通常來說,包含正向情感的古詩比較適合作為廣告語,而包含哀怨、批評(píng)等負(fù)向情感的古詩作為廣告語接受度會(huì)比較低。為了更好地刻畫詩句的情感特征,本文將情境特征劃分為詩句情感和整詩情感兩部分,因?yàn)橐皇自娭卸嘤修D(zhuǎn)折和遞進(jìn),每一個(gè)分句的情感不一定和整首詩的情感基調(diào)一致,所以我們采用詩句情感和整詩情感,分別從微觀和宏觀兩個(gè)方面來描述詩句的情感。

(1) 詩句情感: 該特征主要描述詩詞生成的廣告語的情感傾向性,分為-1、0和1三個(gè)等級(jí)。分別表示貶義、中性和褒義三種情感。計(jì)算如式(4)所示。

(4)

其中Orien(Ai)表示廣告語Ai的情感傾向性,Orien(Cj)表示廣告語中第j個(gè)漢字的情感傾向性。因?yàn)楣旁娭械挠迷~和現(xiàn)代漢語的用詞有較大差別,一方面分詞的準(zhǔn)確率比較低,另一方面即使切分正確,古詩中的用語在現(xiàn)代情感詞典中也很多沒有收錄,因而,本文選擇在漢字級(jí)別上計(jì)算古詩的情感。一條廣告語的情感傾向性是通過其中字的情感傾向性累加得到的。漢字Cj的情感Orien(Cj)是通過大連理工大學(xué)信息檢索實(shí)驗(yàn)室的情感詞匯本體[23],根據(jù)漢字出現(xiàn)在正向和負(fù)向情感詞匯中的頻率確定漢字的情感。即,

其中MaxClass(Cj)表明字Cj在情感詞典出現(xiàn)次數(shù)最多的類別,分為褒義、貶義和中性三種類別。

(2) 整詩情感: 古詩相對(duì)于現(xiàn)代文來說,比較晦澀難懂,還有的詩文比較長,不容易找到代表整篇古詩情感基調(diào)的語句。所以,本文不是通過分析古詩文本身獲得整篇詩文的情感,而是利用百度百科,爬取與詩篇對(duì)應(yīng)的現(xiàn)代文解說。例如《靜夜思》在百度百科中的解說為“此詩描寫了秋日夜晚,詩人于屋內(nèi)抬頭望月的所感。詩中運(yùn)用比喻、襯托等手法,表達(dá)客居思鄉(xiāng)之情,語言清新樸素而韻味含蓄無窮,歷來廣為傳誦” 。由此可見,現(xiàn)代解說比白話文形式的古詩文更易理解。

詩詞解說可以看作是一個(gè)小的語篇,獲取篇章情感傾向性的方法是: 首先,使用Word2Vec在1G的維基百科中文語料上訓(xùn)練詞向量。然后將詩文解說中每個(gè)詞匯的詞向量拼接得到一篇解說文的二維矩陣Mij,i為解說文的最大詞匯長度,j為一個(gè)詞向量的長度。最后將矩陣Mij作為卷積神經(jīng)網(wǎng)絡(luò)(CNN)的輸入,通過深度學(xué)習(xí)的方法計(jì)算語篇的情感傾向性。詩文解說作為測試集,訓(xùn)練集和開發(fā)集選取 COAE2014 任務(wù) 4 提供的5 000條微博語句,其中4 000條訓(xùn)練集,1 000條作為開發(fā)集。卷積神經(jīng)網(wǎng)絡(luò)在開發(fā)集上的準(zhǔn)確率為86.25%。

3 多級(jí)融合的雙序評(píng)估算法

第2節(jié)中的廣告語生成模型,為每條廣告語計(jì)算出一個(gè)特征向量。因此,輸入一個(gè)品牌的商品,生成候選的廣告語群,即得到包含多條廣告語的特征矩陣。有時(shí)一個(gè)品牌商品廣告語的數(shù)量可以達(dá)到幾十個(gè)或者幾百個(gè),如何從中挑選最優(yōu)的廣告語,需要一個(gè)合理的評(píng)估算法。

評(píng)估算法的輸入是廣告語群的特征矩陣,因?yàn)榇穗A段生成的廣告語并沒有評(píng)價(jià)質(zhì)量好壞的標(biāo)簽,需要采用無監(jiān)督的方法,將多特征融合,得到廣告語的排序。本文采用的是多級(jí)融合的雙序評(píng)估算法,算法的整體流程如圖2所示。

圖2 多級(jí)融合的雙序評(píng)估算法

廣告語群的特征矩陣分別經(jīng)過主成分分析(Principal Component Analysis,PCA)和自定義權(quán)重(Custom Weight,CW)兩種評(píng)估算法計(jì)算得分并排序,最后融合兩種評(píng)估算法的分值,得到最終的廣告語分值。多級(jí)融合中第一級(jí)是指兩種評(píng)估算法中分別融合特征矩陣的多個(gè)特征,第二級(jí)融合是指組合兩個(gè)評(píng)估算法的得分,獲取廣告語的最終分值。下面分別介紹兩種評(píng)估方法。

3.1 基于PCA的評(píng)估算法

基于主成分分析的評(píng)估算法是在一定有效成分比例的控制下,通過矩陣變換,選擇多特征值中比較有代表性的特征進(jìn)行積累,計(jì)算得分。

3.1.1 PCA的基本原理

主成分分析(Principal Component Analysis,PCA),是一種常用的無監(jiān)督降維方法。通過正交變換將一組相關(guān)特征轉(zhuǎn)換為一組最優(yōu)不相關(guān)的特征。其主要原理如下:

假設(shè)樣本個(gè)數(shù)為m,X={x1,x2…,xm}表示樣本數(shù)據(jù)。第一步,首先對(duì)樣本數(shù)據(jù)X進(jìn)行歸一化,計(jì)算樣本的協(xié)方差矩陣S=XXT。第二步,求得S的m個(gè)特征根λ={λ1,λ2…,λm},使|S-λI|=0,其中I為單位矩陣。第三步,求特征根對(duì)應(yīng)的單位特征矩陣A,則主成分F=AX。

(5)

一般有效成分比例取值在80%以上,使降維后的特征能更好地體現(xiàn)原始樣本數(shù)據(jù)的關(guān)系。

3.1.2 基于PCA的廣告語評(píng)估

每條廣告語都對(duì)應(yīng)一個(gè)向量,每個(gè)分量分別對(duì)應(yīng)第2節(jié)中給出的九個(gè)特征。這些特征之間有一定的相關(guān)性,例如詩句情感和整詩情感可能相關(guān),整個(gè)詩文的情感一定是通過部分詩句來表現(xiàn)的。還有替換距離和內(nèi)聚程度也都有一定的相關(guān)性。如果直接將各特征的分值歸一化后相加,會(huì)把某些相關(guān)性較大的特征多次疊加。為了去除特征之間的冗余性,本文首先利用主成分分析法,消除部分特征的相關(guān)性,保留獨(dú)立不相關(guān)的p個(gè)主要特征,然后將p個(gè)獨(dú)立的特征值相加,作為廣告語的最終得分。

(6)

3.2 權(quán)重評(píng)估算法

自定義權(quán)重的評(píng)估算法首先為各特征分配自定義的權(quán)重,然后將權(quán)重向量與特征向量相乘,并加和作為廣告語分值。具體步驟如下:

第一步,將九個(gè)特征分為形狀、語義、語音和情境四個(gè)維度,每個(gè)維度的權(quán)重初始化為0.25,包含多個(gè)特征的維度,每個(gè)特征平分本維度的權(quán)重,得到一個(gè)初始化的權(quán)重向量W={w1,w2,…,wn}。其中,n值為9。第二步,通過式(7)計(jì)算廣告語Ai的得分:

*Xij

(7)

3.3 兩種評(píng)估算法的測試及融合

本文選擇網(wǎng)上流傳較廣的四個(gè)標(biāo)準(zhǔn)廣告語作為測試集,每個(gè)都是由詩詞改編。用這些廣告語測試兩種評(píng)估算法的有效性。利用第2節(jié)中給出的模型為四個(gè)品牌生成廣告語群。分別通過PCA和自定義權(quán)重兩種方法,計(jì)算標(biāo)準(zhǔn)廣告語的得分,分值的范圍是0~9。兩種評(píng)估方法在標(biāo)準(zhǔn)廣告語上的平均得分均高于5.3分,且標(biāo)準(zhǔn)廣告語在生成的廣告語群中排名基本都在前三名。說明兩種評(píng)估方法都能夠有效地從生成的廣告語中挑選出大眾認(rèn)可度較高的廣告語。

雖然兩種評(píng)估方法都能夠識(shí)別接受度較高的廣告語,但兩者打分的結(jié)果也有一定差別。基于PCA的評(píng)估方法打分普遍比基于權(quán)重的方法分值低,且廣告語之間分值差距較小。而基于權(quán)重的評(píng)估方法廣告語群中分值差距較大。如果單純使用PCA的評(píng)估方法,不能有效區(qū)分廣告語的級(jí)別,僅使用基于權(quán)重的方法,可能會(huì)丟失某些質(zhì)量較高的廣告語,召回率較低。單純使用PCA的方法又不能更好地體現(xiàn)廣告語的區(qū)分度。為了更全面和完善地評(píng)估生成的廣告語,本文融合了兩種評(píng)估算法,具體算法如下:

forAiin AdvermentList:

if score_pca(Ai)>=tand

score_weight(Ai)>=t:

score(Ai)=average(Ai)

else if score_pca(Ai)>=t:

score(Ai)=score_pca(Ai)

else if score_weight(Ai)>=t:

score(Ai)=score_weight(Ai)

else

score(Ai)=0

其中t為廣告語分值的閾值,本文設(shè)置為6。循環(huán)廣告語群中每條生成的廣告語,如果兩種評(píng)估方法的分值都大于等于t,則最終分值取兩者平均。如果兩種評(píng)估方法的分值都小于t,則舍棄該廣告語。從算法中可以看出,兩種評(píng)估方法,只要有一組分值大于t,則輸出廣告語,這在一定程度上增加了高分廣告語的召回率。如果兩個(gè)評(píng)估方法分值都大于t,則取平均值,也保證了廣告語之間的區(qū)分度。

4 實(shí)驗(yàn)結(jié)果

第3節(jié)中通過融合兩種評(píng)估算法,得到高分廣告語群,這些評(píng)分較高的廣告語是否能夠獲得受眾的認(rèn)可,還需要通過人工打分的方式評(píng)估。本節(jié)主要介紹使用的語料、實(shí)驗(yàn)方案及人工評(píng)估標(biāo)準(zhǔn)和結(jié)果。

4.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)包括品牌信息和古詩詞文集。品牌信息本文選擇了茶葉、白酒、酒店和襯衫四個(gè)品種,共28個(gè)品牌的信息。每個(gè)品牌信息包括品種、品牌、諧音詞匯和描述四部分信息。其中,諧音詞匯是最終出現(xiàn)在廣告語中的詞匯。

考慮到生成的廣告語不但要朗朗上口,還要便于記憶和傳播,本文的古詩詞文集沒有采用全唐詩和全宋詞,而是選用人們比較熟悉的唐詩和宋詞591首,按句切分后作為候選的古詩詞文集,其中每句包括詩名、作者、詩句、熟悉程度和詩詞描述。熟悉程度是指人們對(duì)詩句的熟悉程度。小學(xué)、中學(xué)和高中課本中的詩句分別定位5、4、3等級(jí),其余的熟悉等級(jí)定義為1。詩句描述是在百度百科抓取的詩文解釋,完整描述整個(gè)詩文的內(nèi)容和意境。

4.2 實(shí)驗(yàn)方案及結(jié)果4.2.1 實(shí)驗(yàn)方案及評(píng)估標(biāo)準(zhǔn)

首先,根據(jù)輸入的品牌信息,利用第2節(jié)中的廣告語生成模型,生成候選廣告語群,并計(jì)算對(duì)應(yīng)的特征矩陣。然后采用第3節(jié)中介紹的多級(jí)融合的雙序評(píng)估算法,以特征矩陣為輸入,得到候選廣告語的評(píng)分和排名,并從中分離出高分廣告語群。最后,制定合適的評(píng)估標(biāo)準(zhǔn),通過人工評(píng)估的方式,驗(yàn)證生成廣告語的質(zhì)量。

考慮到目前機(jī)器對(duì)詩詞意境和語義關(guān)系的理解的不足,我們采用人工評(píng)估的方式綜合考察廣告語的效果。曹志耘在《廣告語言藝術(shù)》中認(rèn)為廣告語要“簡明、醒目、生動(dòng)”[2]。于根元在《廣告語言概論》中提到“廣告語言要短,要上口”,“廣告語言的任務(wù)是介紹商品和服務(wù)”[24]。根據(jù)上述廣告語的特性,本文從語感和主題貼合度兩個(gè)方面考察生成的廣告語,具體的評(píng)估標(biāo)準(zhǔn)如表2。

表2 廣告語評(píng)估標(biāo)準(zhǔn)

4.2.2 實(shí)驗(yàn)結(jié)果及分析

我們請(qǐng)五名評(píng)測員按表2中的標(biāo)準(zhǔn)對(duì)高分廣告語群打分。經(jīng)雙序評(píng)估算法過濾后的廣告語共55條,每條都由五個(gè)評(píng)測人員分別在語感和主題貼合度兩個(gè)方面打分,結(jié)果如表3所示。

其中機(jī)器得分是第3節(jié)雙序評(píng)估算法計(jì)算后的分值。P1到P5列分別給出五個(gè)評(píng)測人員在語感和主題貼合度兩個(gè)方面對(duì)55條廣告語的評(píng)分結(jié)果。

表3 人工評(píng)估結(jié)果

從結(jié)果可以看出人工評(píng)估結(jié)果略低于機(jī)器評(píng)分,兩者基本相近,說明雙序評(píng)估算法對(duì)高分廣告語群的評(píng)估與人們的感受基本接近。語感得分普遍比主題貼合度部分比例高,說明語音模板效果較好,能夠過濾出朗朗上口的廣告語。但廣告主題和詩詞意境的貼合還有待加強(qiáng)。

圖3分析了茶葉、白酒、酒店和襯衫四個(gè)品種廣告在人工評(píng)分和機(jī)器評(píng)分上的差異。白酒的機(jī)器評(píng)分與人工評(píng)分最相近,這是因?yàn)楹芏喙旁姷念}材與酒有關(guān),詩詞的意境與品種主題比較貼合。襯衫的人工評(píng)分最低,只有4.7分。很大一部分原因是由于襯衫屬于現(xiàn)代商品,古詩所處的時(shí)代沒有此類商品,很多襯衫和古詩的主題不相融。所以在生成廣告語中可考慮商品種類和文集之間的相融程度。例如白酒適合使用古詩生成廣告,而洗漱用品可能使用歌詞作為原始文集更好。

圖3 不同品種的評(píng)測結(jié)果

為了對(duì)比三種評(píng)估方法的效果,下面通過55個(gè)人工評(píng)估的廣告語檢驗(yàn)PCA評(píng)估方法、自定義權(quán)重的評(píng)估方法以及融合評(píng)估方法的有效性。其中,一致性是計(jì)算自動(dòng)評(píng)估方法與人工評(píng)分差值的平均,如表4所示。

表4 三種評(píng)估方法效果對(duì)比

實(shí)驗(yàn)結(jié)果表明,PCA評(píng)估方法比權(quán)重評(píng)估方法的一致性更高,更接近人工評(píng)分的結(jié)果,但權(quán)重評(píng)估方法的F1值最高,能夠找到更多的高分廣告語。融合方法吸取兩種評(píng)估方法的優(yōu)點(diǎn),F(xiàn)1值更高,與人工評(píng)分最接近。

為了進(jìn)一步細(xì)化各個(gè)維度特征對(duì)自動(dòng)評(píng)分結(jié)果的影響,本文以效果較好的自定義權(quán)重方法為例,依次添加語義、情境、形狀和語音四個(gè)維度的特征,取機(jī)器評(píng)分與人工評(píng)分之差的絕對(duì)值衡量各個(gè)特征的作用,結(jié)果如表5所示。

表5 各維特征對(duì)自動(dòng)評(píng)估算法的影響

可見,依次加入語義、情境、形狀和語音四大類特征,機(jī)器評(píng)分的結(jié)果逐漸接近人工評(píng)分的結(jié)果。其中加入語音特征,結(jié)果提高最為明顯,這是因?yàn)橹C音廣告語評(píng)估中,語音上是否朗朗上口是評(píng)估大眾接受程度的一個(gè)重要特性。

因?yàn)槿斯さ膮⑴c,不同人對(duì)詩詞的理解有一定的隨機(jī)性,打分機(jī)制存在依賴打分人個(gè)人偏好的問題。為了衡量評(píng)估人工打分質(zhì)量,本文嘗試增加了機(jī)器評(píng)估生成廣告語的部分,使機(jī)器評(píng)估方法輔助人工評(píng)估,更加全面和多角度地評(píng)估生成的詩詞廣告語。

廣告語一般簡明、醒目,所以機(jī)器評(píng)估部分主要從語義透明度和語句簡潔性兩個(gè)方面考核。語義透明度是指整個(gè)句子的語義可以根據(jù)合成語句的多個(gè)詞匯含義來推知的程度。本文通過計(jì)算廣告語中所有字的使用頻率來衡量。語句簡潔性是指句子清晰、簡單,本文利用語句中漢字的筆劃數(shù)量來計(jì)算。最后將機(jī)器評(píng)估的排序結(jié)果與人工評(píng)估的排序結(jié)果對(duì)照,利用兩者的相關(guān)性判別不同評(píng)估人的打分質(zhì)量。

表6中“前N個(gè)”代表人工評(píng)估的前N個(gè)廣告語在機(jī)器評(píng)估的前N個(gè)中出現(xiàn)的個(gè)數(shù),即兩者的一致度。由于機(jī)器對(duì)詩詞意境和語義的把握還有欠缺,所以機(jī)器評(píng)估不能完全代替人工評(píng)估。但機(jī)器評(píng)估涵蓋了廣告語要“簡明、醒目”的特點(diǎn),它與人工評(píng)估的相關(guān)性可以從一個(gè)側(cè)面反應(yīng)人工評(píng)估的可靠性。由表6中數(shù)據(jù)可以看出人工評(píng)估與機(jī)器評(píng)估的相關(guān)系數(shù)均在1/3左右,每個(gè)人的相關(guān)系數(shù)基本相近,可見人工評(píng)估雖然有一定的主觀性,但標(biāo)準(zhǔn)基本相近,比較可靠。

表6 人工評(píng)估一致性檢測

表7給出了生成廣告語的部分樣例,從結(jié)果可以看出生成的部分廣告語質(zhì)量可以接受,也有一些廣告語讀起來朗朗上口,并與品牌主題貼合度較大,有一定的傳播價(jià)值和藝術(shù)性。

表7 部分高分廣告語

5 結(jié)論及不足

本文在融合多種語音和語義特征的基礎(chǔ)上,生成諧音廣告語,利用雙序評(píng)估算法自動(dòng)計(jì)算廣告語的分值,從而得到主題相關(guān)且便于傳播和記憶的廣告語。根據(jù)嚴(yán)格的人工評(píng)測結(jié)果,該模型生成的大部分廣告語是可以接受的,具有較好的實(shí)用性。

但我們的研究工作也存在一些問題,如部分三個(gè)字以上的品牌信息不能生成合適的廣告語。這一方面是因?yàn)楸蝗藗兪熘墓旁娫~數(shù)量有限,另一方面是生成模型缺少單字分別嵌入的能力。未來,我們將嘗試在古詩詞的基礎(chǔ)上增加歌詞等文本集,并進(jìn)一步提高模型的生成能力。

猜你喜歡
詞匯特征情感
本刊可直接用縮寫的常用詞匯
如何在情感中自我成長,保持獨(dú)立
一些常用詞匯可直接用縮寫
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
本刊可直接用縮寫的常用詞匯
不忠誠的四個(gè)特征
如何在情感中自我成長,保持獨(dú)立
抓住特征巧觀察
主站蜘蛛池模板: 免费无码网站| 成人一区在线| 69av在线| 国产精品极品美女自在线看免费一区二区 | 日韩一级二级三级| 中文字幕乱码二三区免费| 蜜桃视频一区二区| 免费国产在线精品一区 | 久久综合伊人77777| 欧洲高清无码在线| 无码AV日韩一二三区| 国产成人精品在线1区| 在线播放真实国产乱子伦| 中文纯内无码H| 97久久超碰极品视觉盛宴| 亚洲一区第一页| 91丝袜美腿高跟国产极品老师| 亚洲第一区欧美国产综合| 亚洲 日韩 激情 无码 中出| 小蝌蚪亚洲精品国产| 国产高清在线观看91精品| 91精品啪在线观看国产60岁| 欧美日本激情| 亚洲三级a| 免费观看成人久久网免费观看| 久久综合色视频| 狠狠色婷婷丁香综合久久韩国| 欧美另类精品一区二区三区| 在线毛片免费| 日韩精品一区二区三区中文无码| 久草性视频| 欧美在线中文字幕| 国产一级在线播放| 成人福利在线视频| 国产精品尤物铁牛tv| 国产亚洲视频在线观看| 一级毛片免费的| 亚洲一级无毛片无码在线免费视频 | 老司机午夜精品网站在线观看 | 国产十八禁在线观看免费| 国产一级片网址| 成人字幕网视频在线观看| 国产在线精品99一区不卡| 欧洲欧美人成免费全部视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 激情成人综合网| 中文字幕2区| 国产成人亚洲精品色欲AV| 丁香婷婷激情综合激情| 日韩精品免费一线在线观看| 久久久久亚洲av成人网人人软件 | 日本免费a视频| 激情六月丁香婷婷| 成人精品亚洲| 国产素人在线| 尤物在线观看乱码| 美女啪啪无遮挡| 色婷婷在线影院| 亚洲精品欧美日本中文字幕| 538精品在线观看| 国产成人啪视频一区二区三区| 国产成人亚洲毛片| 亚洲高清在线天堂精品| 亚洲国产av无码综合原创国产| 成人综合在线观看| 国产日本欧美亚洲精品视| 国产波多野结衣中文在线播放| 72种姿势欧美久久久大黄蕉| 少妇人妻无码首页| 伊人久久久大香线蕉综合直播| 成人午夜网址| 91色在线观看| 国产探花在线视频| 亚洲精品免费网站| 精品国产成人三级在线观看| 国产毛片片精品天天看视频| 国产成人91精品| 四虎影视无码永久免费观看| a毛片在线| 成人福利在线视频免费观看| 色色中文字幕| 亚洲AⅤ永久无码精品毛片|