999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統(tǒng)計(jì)分析的“中國風(fēng)”歌曲詞匯研究

2018-12-08 11:28:40蔣彥廷張健鋮

蔣彥廷 張健鋮

摘 要:通過計(jì)算106個(gè)歌詞文本和《唐詩三百首》《宋詞三百首》之間的余弦相似度,可以發(fā)現(xiàn)“中國風(fēng)”歌詞更接近宋詞。再結(jié)合卡方檢驗(yàn)、改進(jìn)的信息增益方法選取特征詞,梳理“中國風(fēng)”歌詞承續(xù)自古詩詞,且區(qū)別于5425首一般流行歌曲的詞匯類別與風(fēng)格。最后進(jìn)行K-最近鄰分類實(shí)驗(yàn),較高的“古典詞”比率和較低的虛詞比率能大體上將“中國風(fēng)”歌詞與一般流行歌詞分開,但仍存在例外情況。由此揭示出“中國風(fēng)”歌詞的基本面貌與定位,為引導(dǎo)“中國風(fēng)”歌曲發(fā)展提供實(shí)證支持。

關(guān)鍵詞:“中國風(fēng)”歌詞;唐詩宋詞;余弦相似性;特征詞選擇;K-近鄰

中圖分類號(hào): O212.1/J614.9 文獻(xiàn)標(biāo)志碼: A 文章編號(hào):1672-0539(2018)05-0068-08

一、引言

“中國風(fēng)”是21世紀(jì)初興起的一種音樂體式。自2003年由方文山作詞、臺(tái)灣歌手周杰倫演唱的《東風(fēng)破》獲得巨大成功起,華語流行樂壇刮起了聲勢(shì)浩大的“中國風(fēng)”。關(guān)于“中國風(fēng)”概念的界定說法頗多,目前的主流觀點(diǎn)由廣東音樂人黃曉亮提出,指“三古三新(古詩文、古文化、古旋律、新唱法、新編曲、新概念)”相結(jié)合的中國特色樂種[1]。具體而言,它結(jié)合中國傳統(tǒng)民間樂器與現(xiàn)代樂器,在曲調(diào)上以民族宮調(diào)式為主,最重要的是,其歌詞以傳統(tǒng)詩詞為辭藻風(fēng)格。

在以往的研究中,研究者們注意到“中國風(fēng)”歌曲詞匯在多方面的特色。例如,楊杰[2]、張新標(biāo)[3]從詞語選用、修辭技巧、意境營造、情感表露等方面,探尋了唐詩宋詞和現(xiàn)代歌詞的源流關(guān)系。劉芳智[4]3-10等則對(duì)某一“中國風(fēng)”歌詞作者的作品進(jìn)行了題材分類、風(fēng)格評(píng)析,總的來看,現(xiàn)階段的研究主要是用傳統(tǒng)文學(xué)賞析的辦法,解讀個(gè)別歌曲中的具體字句,尚未運(yùn)用統(tǒng)計(jì)方法展現(xiàn)“中國風(fēng)”歌詞的宏觀面貌。而且,研究對(duì)象或是籠統(tǒng)的“中國風(fēng)”歌曲,或是某位詞作者的歌詞,缺失不同作品之間的比較研究。

在前人的基礎(chǔ)上,我們參考“計(jì)量風(fēng)格學(xué)”中的統(tǒng)計(jì)技術(shù),立足于文本詞匯,對(duì)“中國風(fēng)”歌詞進(jìn)行全面的計(jì)量分析,比較其與唐宋詩詞、一般流行歌曲的異同。計(jì)量風(fēng)格學(xué)是以定量的手段,利用文本中可以統(tǒng)計(jì)的語言特征項(xiàng)來探索文本風(fēng)格的一門學(xué)科[5],具體包括“余弦相似性”等計(jì)算文本相似度的方法、“信息增益”等挖掘某一類別文本特征詞的方法,以及基于監(jiān)督學(xué)習(xí)的文本分類算法等。在古詩詞語料方面,我們以清代蘅塘退士《唐詩三百首》[6]選本(實(shí)收詩320首)和朱孝臧《宋詞三百首》[7](第三版選本,實(shí)收詞285首)為唐詩宋詞的代表;在“中國風(fēng)”歌曲的語料采集上,我們選取了2003年到2017年2月發(fā)行的來自62位作者的106首具有古典意味的歌曲歌詞;在一般流行歌曲方面,由于目前還沒有比較成熟、權(quán)威的中文歌詞語料庫,歌詞語料從網(wǎng)絡(luò)廣泛搜集得到,在排除其中屬于106首“中國風(fēng)”歌曲的語料后,共得5425首歌的歌詞。

二、文本預(yù)處理

文本預(yù)處理主要包括三項(xiàng)主要操作,一是停用詞(Stop Words)的選取,二是利用分詞系統(tǒng),三是去除標(biāo)點(diǎn)。在計(jì)算文本相似度、選取特征詞任務(wù)中,三項(xiàng)均需進(jìn)行;在文本分類任務(wù)中,則只進(jìn)行第二、三項(xiàng)操作。

(一)停用詞的選取

停用詞指經(jīng)常出現(xiàn)在文本中,卻不承載較多信息量的詞語,它們對(duì)文本主題沒有太多貢獻(xiàn)度,最好的辦法就是在處理文本的過程中刪除它。我們主要把“有”“無”“來”等常用的動(dòng)詞,“上”“下”“中”等方位名詞,“人”“天”等常見的名詞,“和”“及”等連詞,“的”“了”等助詞,“不”等副詞選為歌詞文本、《唐詩三百首》文本和《宋詞三百首》文本的停用詞。

需說明的是,這些詞被停用后,只是不再以詞的身份單獨(dú)出現(xiàn),但仍可以構(gòu)詞語素的身份出現(xiàn),例如“無情”“佳人”。這樣的合成詞對(duì)于文本內(nèi)容仍具一定意義。

(二)利用NLPIR / ICTCLAS系統(tǒng)分詞并去除標(biāo)點(diǎn)

分詞作為中文信息處理基礎(chǔ)工作,是后續(xù)環(huán)節(jié)的前提。一方面,唐宋詩詞正處于中古漢語到近古漢語的過渡時(shí)期,漢語主要的詞匯形式逐漸從單音節(jié)過渡到雙音節(jié)。加之每個(gè)人的語感不同,中古漢語語料庫常出現(xiàn)人工分詞不一致的現(xiàn)象[8]。這直接影響了建立在人工標(biāo)記基礎(chǔ)上的機(jī)器分詞的準(zhǔn)確率與認(rèn)可度。因此就總體情況來看,目前還缺乏開源且公認(rèn)性能較好的中古漢語分詞系統(tǒng)。

另外,雖然與現(xiàn)代漢語相比,唐詩宋詞中的單音節(jié)詞較多,一字一詞地切分文本似乎可行。但是,據(jù)胡俊峰、俞士汶[9]等學(xué)者對(duì)語料的觀察,除多音節(jié)的聯(lián)綿詞、專有名詞外,如“麗人”“寶劍”“悲傷”等偏正、并列結(jié)構(gòu)的多音節(jié)詞已在唐宋詩詞中大量出現(xiàn)。另外,雖然“白云”“秋風(fēng)”等一般被看作詞組而非凝固的詞,但由于其在古詩詞中有特定的隱喻象征義,因此也具有詞的性質(zhì)。此外,古詩詞的許多詞在現(xiàn)代漢語書面語中也并不鮮見。

最后,由于我們著重分析古詩詞與現(xiàn)代歌詞在詞匯方面的關(guān)系,在同一任務(wù)下,對(duì)它們使用統(tǒng)一的分詞系統(tǒng)是十分必要的,所以應(yīng)把古詩詞里處于中間狀態(tài)的組合都暫時(shí)作為詞來對(duì)待。

基于上述考慮,我們采用中科院計(jì)算所基于多層隱馬爾可夫模型(Hidden Markov Model,HMM)的NLPIR/ICTCLAS2016詞法分析系統(tǒng)(1)來給各文本分詞。之后,我們?nèi)コ谋局胁槐匾目瞻鬃址?biāo)點(diǎn),對(duì)文本作了清洗。

三、“中國風(fēng)”歌詞與唐詩宋詞相似度的計(jì)算分析

(一)余弦相似性方法

余弦相似性(Cosine Similarity)是衡量文本相似度的重要方法之一。它基于Salton等人提出的文本向量空間模型(Vector Space Model, VSM)[10]。在VSM模型里,文本可以表示為由各詞語構(gòu)成的特征項(xiàng)集合,每個(gè)特征項(xiàng)都有一定權(quán)重。由此,一個(gè)含有n個(gè)不同詞語的文本可以轉(zhuǎn)化為一個(gè)n維向量d={t1,w1 ; t2,w2 ;…… ; ti,wi ;……; tn,wn}。其中,ti為文本中的一個(gè)特征(即詞語);而ti所對(duì)應(yīng)的權(quán)重wi可以用TF-IDF(Term Frequency-Inverse Document Frequency)方法表示[11]:

wi=tf (ti,d)·idf (ti,d)

=tf (ti,d)·log(N/nt)

tf (ti,d)為詞語ti在特定文本d中出現(xiàn)的頻次;idf(ti,d)為詞語ti的逆文本頻率指數(shù),公式為log(N/nt),N為文本總數(shù),nt是包含詞語ti的文本數(shù)量。

以唐詩、宋詞中2個(gè)較長的文本與106首較短的“中國風(fēng)”歌詞文本并列作為idf值的影響因素,在計(jì)算歌詞與唐詩、宋詞余弦相似度的具體任務(wù)下有其合理性:古詩詞文本數(shù)為2,對(duì)idf值影響較小;影響它的關(guān)鍵就是106首歌詞文本。如果一個(gè)詞頻繁出現(xiàn)在許多歌詞文本中,那么它區(qū)別歌詞異質(zhì)性的能力就有所降低,對(duì)于歌詞與古詩詞之間相似度的貢獻(xiàn)值就應(yīng)降低。而“1唐詩+1宋詞+106歌詞”的文本分割方式就恰能通過idf方法實(shí)現(xiàn)這樣的權(quán)重調(diào)節(jié)機(jī)制,從而減少過于常見的詞語對(duì)文本相似度的干擾。

在計(jì)算出所有詞的idf值后,我們以各詞的tf·idf值作為權(quán)重,將每個(gè)文本向量化。可通過比較向量間的夾角來反映文本間的距離。向量夾角能較好地處理文本長度不一致的情況。如果兩個(gè)向量夾角很小,就說明它們共現(xiàn)詞較多,用詞趨勢(shì)接近。

已知在二維平面中,若以原點(diǎn)為起點(diǎn)的向量a、b的終點(diǎn)坐標(biāo)分別為(wa1,wa2)、(wb1,wb2),那么兩向量夾角的余弦值cosθ可表示為:

cosθ=wa1·wb1+wa2·wb2w2a1+w2a2·w2b1+w2b2

如果推廣到N維空間,向量a=(wa1 , wa2,…,wai,…,wan)和向量b=(wb1 , wb2,…,wbi,…,wbn)之間的夾角θ的余弦值cosθ=∑ni=1wai×wbi∑ni=1w2ai×∑ni=1w2bi就反映了兩個(gè)向量間的相似程度[12]。而文本向量的相似度可類似計(jì)算,每個(gè)特征語詞tf·idf值,就是該特征作為向量元素的特定值。余弦值越大,兩向量的夾角就越小,兩文本也就越相近。

(二)相似度計(jì)算結(jié)果與實(shí)例分析

我們把《唐詩三百首》《宋詞三百首》向量化后作為參照,計(jì)算每一個(gè)歌詞向量分別與這兩者的余弦相似度。試驗(yàn)結(jié)果統(tǒng)計(jì)如下表1、2:

綜合上面表1、2及有關(guān)實(shí)驗(yàn)數(shù)據(jù),值得注意的有兩處:

一是表1出現(xiàn)的15首歌曲有7首仍保留在表2;表1的前5首歌曲有4首在表2中仍保持在同樣區(qū)間,說明這些“中國風(fēng)”歌詞在創(chuàng)作中有意或無意地同時(shí)靠近唐詩、宋詞的用語。

二是歌詞普遍更接近于《宋詞三百首》。一方面,若計(jì)算余弦相似度的平均值,表1的15首歌詞與唐詩的平均相似度為0.129,而表2中15首歌詞與宋詞的平均相似度卻達(dá)到0.153;另一方面,若將樣本元素?cái)U(kuò)大到106首“中國風(fēng)”歌詞,它們與《唐詩三百首》的平均相似度為0.073,與《宋詞三百首》則達(dá)到0.083;此外,與宋詞相似度超過與唐詩相似度的歌詞,在106例中達(dá)78例,占比超過73%。由于在去除停用詞、分詞環(huán)節(jié)之后,唐詩、宋詞的文本長度已較為接近(前者為17213字,后者為19299字),加之余弦相似度能較好地避免較大規(guī)模語料間在長度上細(xì)微差異的影響,由此可以認(rèn)為,相較于唐詩,中國風(fēng)歌詞總體更傾向?qū)W習(xí)借鑒《宋詞三百首》中的詞匯。

承續(xù)宋詞的典型,就是《長安憶》的歌詞。它在表1、2中均位居首位,在有限的篇幅里,將羈旅送別、思鄉(xiāng)懷人、邊塞戰(zhàn)爭等古詩詞經(jīng)典的類型場景描繪得精致細(xì)膩。歌詞與《宋詞三百首》文本的共現(xiàn)單音節(jié)詞41個(gè),雙音節(jié)詞32個(gè),總計(jì)73個(gè),具體如下表3所示:

歌詞用典、化用詩詞之處甚為豐富。其中的片段“落日孤城閉,燕然歸無計(jì)”“二十三弦急,落花人獨(dú)立”“長門又誤佳期,聲清凄”“知音稀,弦斷有誰來聽”明顯分別語出范仲淹《漁家傲》、晏幾道《臨江仙》、辛棄疾《摸魚兒》、岳飛《小重山》等詞作。歌詞里的“子規(guī)”即杜鵑鳥的別名,因其叫聲凄厲,在古詩詞中常作為借來抒發(fā)悲苦哀怨之情;“留意”表示“駐留的意愿”,與現(xiàn)代漢語中的同形動(dòng)詞意義不同;除了借鑒實(shí)詞,語氣詞“兮”也帶有明顯的仿古色彩。

四、“中國風(fēng)”歌曲借鑒自唐詩宋詞的特征詞匯提取

該任務(wù)試圖挖掘“中國風(fēng)”歌曲承續(xù)自唐詩宋詞,且較能區(qū)別于一般流行歌曲的特色詞匯。具體步驟為,首先檢索出1936個(gè)“中國風(fēng)”歌詞與《唐詩三百首》《宋詞三百首》共現(xiàn)的不重復(fù)詞型;其次,從中過濾掉在5425首一般流行歌曲中分布頻率更高的詞匯,保留1651個(gè)詞型;最后,在“106個(gè)中國風(fēng)文本/5425個(gè)一般流行歌曲文本”兩個(gè)類別中提取包含在這些詞型中的特征詞。

在文本分類中,常用的特征選擇方法有互信息(MI)、信息增益(IG)、文檔頻率(DF)和卡方檢驗(yàn)(CHI)等。Yang等[13]比較了4種方法,認(rèn)為卡方檢驗(yàn)(CHI)和信息增益(IG)的效果最佳。單麗莉等[14]指出信息增益的不足之處,在于它考慮了詞語不出現(xiàn)在某類文檔中對(duì)類別的影響。雖然某個(gè)詞語不出現(xiàn)可能有助于判斷文本類別,但實(shí)驗(yàn)證明,這種考慮的干擾性更大。為避免單一方法的片面性,我們采用卡方檢驗(yàn)和改進(jìn)后的信息增益兩種方法選擇特征詞。對(duì)于卡方檢驗(yàn),設(shè)文本總數(shù)為N,某詞語wi和某類別Ci之間的關(guān)聯(lián)度可由卡方值χ2體現(xiàn)。首先計(jì)算四個(gè)觀察值:包含特征詞wi且屬于類別Ci的文本數(shù),記為A;包含特征詞wi但不屬于類別Ci的文本數(shù),記為B;不含特征詞wi但屬于類別Ci的文本數(shù),記為C;不含特征詞wi且不屬于類別Ci的文本數(shù),記為D。則:

其中m為文本類別數(shù);p(Ci)為某一類別的文本出現(xiàn)的概率;p(wi)是文本數(shù)據(jù)集中出現(xiàn)詞語wi的文本數(shù)除以總文本數(shù)的值;p(Ci/wi)是類型Ci中出現(xiàn)詞語wi的文本數(shù)除以出現(xiàn)詞語wi的總文本數(shù)。如上式所示,改進(jìn)后的信息增益方法不考慮詞語在文本中未出現(xiàn)的情況。

分別按照卡方檢驗(yàn)、信息增益值,我們就得到兩份特征詞的降序排序表。其各自前20位特征詞如表4所示。對(duì)兩種方法所得的前300個(gè)特征取并集,就得到一個(gè)含有406個(gè)特征詞的集合U。

由特征值位列前20的詞語可以管窺,盡管兩種特征選取的方法對(duì)詞語的排序有所不同,但都取得了良好效果,能把在“中國風(fēng)”歌詞與唐詩宋詞中共現(xiàn),且在“中國風(fēng)”歌曲中常見、在一般流行歌曲中不常見的詞語挖掘出來,相得益彰。綜合表4及相關(guān)數(shù)據(jù)我們可以看出,“中國風(fēng)”特征詞在詞類、話題等方面呈現(xiàn)如下特征:

(一)雙音節(jié)詞占比較為可觀

如表4所示的40個(gè)詞中,雙音節(jié)詞達(dá)12個(gè),占比30%。在含406個(gè)特征詞的集合U中,雙音節(jié)詞達(dá)144個(gè),占比約35%。由于這些詞也都出現(xiàn)在《唐詩三百首》《宋詞三百首》中,因此也可以佐證唐宋時(shí)期漢語詞匯雙音節(jié)化的趨勢(shì)。

(二)名詞是特征詞中占比最高的詞類

如表4所示,在卡方檢驗(yàn)的前20位特征詞中,名詞有18個(gè),占比90%;在信息增益的前20位特征詞中,名詞有15個(gè),占比75%;視野擴(kuò)大到含406個(gè)特征詞的集合U,名詞有263個(gè),占比也超過64%。具體而言,“中國風(fēng)”歌詞偏好繼承古詩詞中以下幾大類名詞:

(1)自然景觀名詞。其包括兩大類,一是自然、氣候現(xiàn)象類,二是動(dòng)植物尤其是花卉類。前者如表4中的“風(fēng)月”,以及集合U中的“江”“雪”“煙”“雨”“風(fēng)”“塵”“溪”“山水”“落日”“煙波”“月色”“月華”“殘雪”“風(fēng)露”等。后者如表4中的“苔”“梨花”“芳草”“落花”,以及集合U中的“鶯”“鴻”“鵲”“燕”“鶴”“柳”“桑”“荷”“鷓鴣”“柳絮”“飛絮”“芙蓉”“桃花”“寒梅”“幽篁”“芭蕉”等。這些詞作為古典文學(xué)作品中的意象,大都具有清新自然之美。

(2)與時(shí)令、時(shí)間有關(guān)的詞。這一類以雙音節(jié)詞居多,如集合U中的“秋”“黃昏”“暮春”“歲歲”“時(shí)節(jié)”“三月”“今朝”“前朝”“當(dāng)年”“今生”“千古”“三生”等。這些詞有的囊括較長的時(shí)間段乃至一生,以此表達(dá)感情之強(qiáng)烈,起到“作決絕語而妙”的表意效果;有的起到撫今追昔的功能,通過懷念過去,拓展歌詞意境的時(shí)間維度,展現(xiàn)情緒之綿長;而時(shí)令詞“秋”“暮春”和“黃昏”有蕭瑟的特征,易引起人的愁緒。

(3)中國傳統(tǒng)文化物件。如表4中的“筆”“墨”“亭”“錦”“燭”“絲竹”“琵琶”,以及未上表的特征詞“玉”“琴”“硯”“觴”“舫”“弦”“笙”“劍”“紅燭”“羽扇”“燈花”“回廊”“樓閣”“錦屏”“錦瑟”“笙歌”“檀板”等。這些物品有的涉及琴棋書畫等技藝,或?qū)俟糯ㄖ揖拥慕M成部分,在現(xiàn)今不常見,屬于中國傳統(tǒng)文化物件,帶有精致、古雅的特色。

(三)表現(xiàn)與形容離別羈旅等哀傷的情感和事件,是動(dòng)詞形容詞語義的重要側(cè)重點(diǎn)

例如表4中的“落”“斷”,以及集合U中的動(dòng)詞“離”“泣”“嘆”“送別”“別離”“思量”“相思”“飲恨”“無眠”“落淚”“遙想”,形容詞“愁”“寒”“孤”“瘦”“悵然”“飄零”“倉皇”等。雖然哀傷的主題也常見于如今一般的流行歌曲,但它們對(duì)上述詞語的運(yùn)用不及“中國風(fēng)”歌曲頻繁。

(四)與美人、婚戀話題有關(guān)的詞成為特征詞的重要組成部分

許多“中國風(fēng)”的歌詞均離不開美人、婚戀話題,也借鑒了古詩詞中的許多相關(guān)詞匯。具體而言包括三個(gè)方面,一是關(guān)于美人及其衣飾妝容的稱呼,如表4中及其他特征值較高的“眉”“裳”“伊”“妃”“佳人”“良人”“美人”“女子”“紅袖”“紅顏”“霓裳”;二是與女子日常起居有關(guān)的詞;三是形容女子心理、儀態(tài)、動(dòng)作及其與戀人互動(dòng)的詞。二、三類與前文所述的名詞、動(dòng)詞、形容詞存在一定交叉,但又含獨(dú)具特色的部分。例如前者的“釵”“簾”“梳”“深閨”“畫屏”“脂粉”等。后者的“顰”“蹙(眉)”“嫣然”“心事”“脈脈”“回眸”“攜手”“多情”等。

統(tǒng)觀“中國風(fēng)”歌詞與唐詩宋詞共現(xiàn)、且區(qū)別于一般流行歌曲的詞匯,“中國風(fēng)”歌曲的一大傾向,是以江南閨閣為背景,以婚戀離愁為題材,意境大多溫婉清雅,部分帶有蕭瑟清凄的色彩。它們主要繼承自唐詩宋詞中善于狀物寫情的婉約流派,而對(duì)具有宏闊、豪放風(fēng)格的一類詩詞承續(xù)較少。

五、“中國風(fēng)”歌詞與一般流行歌詞的分類分析

文本分類(text clustering)是通過比較一組文本的相似性,將比較相似的文本歸為同一組、差異較大的文本歸為不同組的過程。已知在第二節(jié)得到了各“中國風(fēng)”歌詞與唐詩宋詞的相似性,我們選取了與唐詩、宋詞相似度之和最高的前100首歌曲,以及通過隨機(jī)數(shù)抽樣的100首一般流行歌曲作為分類對(duì)象。

分類的方法為K近鄰(K-nearest-neighbor,KNN)算法。其基本原理是,給定一個(gè)已經(jīng)具有分類標(biāo)記的訓(xùn)練數(shù)據(jù)集并向量化,對(duì)于新的輸入實(shí)例,在向量空間中計(jì)算出與該實(shí)例距離最小的K個(gè)實(shí)例。若這K個(gè)實(shí)例多數(shù)屬于某類別,就應(yīng)把該實(shí)例歸入這個(gè)類中[15]38-40。

我們令K值為8,選取兩項(xiàng)分類指標(biāo):一是利用上一節(jié)得到的含406個(gè)特征詞的集合U,計(jì)算歌詞里出現(xiàn)在集合U中的詞數(shù),占歌詞總詞數(shù)的比例;二是每個(gè)文本的助詞、連詞、介詞、語氣詞等虛詞的比例。為使對(duì)分類效果的評(píng)價(jià)更加準(zhǔn)確,避免數(shù)據(jù)分布不均,進(jìn)行五折交叉驗(yàn)證(5-fold cross validation),即將200首歌曲分類對(duì)象均分為5份,輪流將其中4份作為訓(xùn)練集,剩下的1份(40首)作為測試集,分別記錄5次實(shí)驗(yàn)的精確率(precision)、召回率(recall)、F值(2)。歷次實(shí)驗(yàn)效果及平均效果如圖1所示:

根據(jù)圖3,首先觀察5次實(shí)驗(yàn)的平均性能。F平均值達(dá)到了92.49%,說明憑借虛詞和集合U中的406個(gè)詞(以下簡稱“古典詞”)的出現(xiàn)頻率2項(xiàng)指標(biāo),能夠大體上區(qū)分“中國風(fēng)”與“非中國風(fēng)”類別的歌詞。如前所述,“中國風(fēng)”歌詞與唐詩宋詞的詞匯同質(zhì)性頗為顯著。而古代文學(xué)家、評(píng)論家很早就表達(dá)了對(duì)古詩詞中使用虛詞(字)的審慎態(tài)度。唐代詩人盧延讓在《苦吟》中說詩“不同文賦易,為著者之乎”,即作詩不像文賦那樣可以相對(duì)自由地使用“者之乎”等意義較虛的字;明代謝榛也在《四溟詩話》卷一中引李西涯語:“詩用實(shí)字易,用虛字難……用之不善,則柔弱緩散,不復(fù)可振。”[16] 9傳統(tǒng)詩詞受到格律體式的限制,對(duì)虛詞的使用較為拘謹(jǐn),“中國風(fēng)”歌曲要接近傳統(tǒng)語體風(fēng)格,亦需把虛詞維持在較低的比例。然而自新文化運(yùn)動(dòng)起,以胡適《嘗試集》為代表的新詩,在突破舊有詩詞體式規(guī)則的同時(shí),也頻繁讓虛詞入詩,極大地改變了其原有詞類構(gòu)成[17]。以“古典詞”為代表的詞匯,也是“中國風(fēng)”富有古詩詞韻味、在紛繁的現(xiàn)代華語樂壇上獨(dú)樹一幟的重要計(jì)量特征。

另外也需看到,個(gè)別驗(yàn)證的精確率、召回率不高。除了語料相對(duì)較少、數(shù)據(jù)較為稀疏的因素,更主要的原因,第一,“中國風(fēng)”在追求仿古意境的同時(shí),為避免晦澀不易為大眾接受,也不排斥文白夾雜的語句。即使是前文所列的與唐詩、宋詞相似度較高的《花滿樓》歌詞,其中也有“樓滿花香君知否”與“曾經(jīng)牽著我的手”這樣文言白話異質(zhì)語體共存的現(xiàn)象。

第二,誠然此類歌曲總體上多有借鑒古詩詞中的典型意象和描摹情態(tài)的謂語,但具體到不同作者、不同歌詞,仿古擬古的程度也有所差異。例如許嵩在詞作中使用的傳統(tǒng)意象一般就比詞作者后弦的更加密集。“中國風(fēng)”歌詞作者的典型代表方文山認(rèn)為,只要詞曲具備古典背景元素的用語及其他某些特征,“不論加入元素的多寡或比重為何,均可視同為所謂的‘中國風(fēng)歌曲” [18]3-13。其論述是否完全合理固然有待商榷,但該觀點(diǎn)也從一個(gè)側(cè)面指出“中國風(fēng)”并非千篇一律。

第三,在20世紀(jì)后半葉,樂曲層面上的“中國風(fēng)”概念尚未被明確提出,但一些流行歌曲的歌詞卻已帶有鮮明的傳統(tǒng)詩詞色彩。例如本分類實(shí)驗(yàn)中的歌詞《梨渦淺笑》。它由香港填詞家黎彼得于1976年創(chuàng)作,古典詞占比高達(dá)24.03%,虛詞占比僅為7.69%,與大部分“中國風(fēng)”歌詞一樣具有較高古典詞比例和較低虛詞比例的表征,在分類測試中就被預(yù)測為“中國風(fēng)”類別。相似的歌曲還包括瓊瑤于1975年作詞的《在水一方》、陳小奇1993年作詞的《濤聲依舊》等。縱然幾乎沒有人認(rèn)為這些創(chuàng)作時(shí)間較早的作品亦屬“中國風(fēng)”范疇,但它們?cè)诟柙~層面的確已具備如今“中國風(fēng)”歌曲的某些突出特點(diǎn)。一些相關(guān)研究者曾注意到這種矛盾,提出通過添加時(shí)間、外來文化沖擊的背景等限制性條件,以更新“中國風(fēng)”的定義,縮小此概念的外延[18]6-7。這些限制性條件誠為一家之言,然已不再是本文的討論范疇,還有待今后學(xué)界對(duì)其合理性、可行性的進(jìn)一步探究。

六、結(jié)語

本文從詞匯角度,運(yùn)用計(jì)量風(fēng)格學(xué)的統(tǒng)計(jì)方法,探索了“中國風(fēng)”歌曲對(duì)《唐詩三百首》《宋詞三百首》的承續(xù)情況,以及它們區(qū)別于一般流行歌詞的顯著特征。通過余弦相似度,得到與《唐詩三百首》《宋詞三百首》相近的歌詞文本,得出中國風(fēng)歌詞更接近宋詞用語的結(jié)論;并基于古今文本詞匯的共現(xiàn)與進(jìn)一步的特征選擇,梳理“中國風(fēng)”文本承續(xù)自古詩詞的重要詞類、話題,總結(jié)此類歌詞的風(fēng)格偏好;通過K-最近鄰分類實(shí)驗(yàn),發(fā)現(xiàn)較低的虛詞比率與較高的古典詞比率兩項(xiàng)指標(biāo)能,大體上使“中國風(fēng)”歌曲從浩如煙海的現(xiàn)代華語樂曲中相對(duì)獨(dú)立出來。統(tǒng)計(jì)方法能使原本不引人注目、捉摸不定的文本風(fēng)格得以突顯,在傳統(tǒng)文本分析的基礎(chǔ)上獲得了實(shí)證數(shù)據(jù)的有力支撐,從而能更全面地反映出“中國風(fēng)”歌曲詞匯的面貌,討論它們與古詩詞、一般性的現(xiàn)代流行歌曲之間的關(guān)系,為今后相關(guān)文藝創(chuàng)作提供了一定的實(shí)證支持。

不過,《唐詩三百首》《宋詞三百首》作為中國古典文學(xué)的精華,仍不能囊括古代文學(xué)的總體面貌。“中國風(fēng)”歌曲對(duì)其他作品的承續(xù)狀況尚未得呈現(xiàn)。另外,文本之間可能存在的少數(shù)同形異義詞還有待仔細(xì)甄別。最后,“中國風(fēng)”與早期(20世紀(jì)后半葉)一些具有鮮明傳統(tǒng)詩詞色彩的流行歌曲之間的異同還不及充分探索。這些問題有待在將來作更深入的研究與討論,從而使“中國風(fēng)”歌曲的面貌與定位更全面、清晰地揭示出來。

注釋:

(1)ICTCLAS/NLPIR詞法分析系統(tǒng)參見:http://ictclas.nlpir.org/。

(2)精確率、召回率、F值是用于分類效果的三個(gè)指標(biāo)。在二分類問題中,常以關(guān)注的類為正類;其余的為負(fù)類。

精確率(P) = 將正類預(yù)測為正類的文檔數(shù) / 所有預(yù)測為正類的文檔數(shù)。

召回率(R) = 將正類預(yù)測為正類的文檔數(shù) / 正類文檔的真實(shí)總數(shù)。

F值是精確率和召回率的調(diào)和均值。有:2/F=1/P+1/R

參考文獻(xiàn):

[1]李文眾, 蘭龍, 郭理遠(yuǎn). “中國風(fēng)”歌曲的界定及意義研究[J]. 文學(xué)教育(中), 2010,(1):111.

[2]楊杰. 淺析中國風(fēng)歌曲的古詩詞韻味[J]. 文學(xué)界(理論版), 2010,(4):238-261.

[3]張新標(biāo). “中國風(fēng)”歌曲對(duì)古典文學(xué)的接受與新變[J]. 安徽文學(xué)(下半月), 2009,(8):130-131.

[4]劉芳智. 方文山“中國風(fēng)”歌詞研究[D]. 湘潭:湘潭大學(xué), 2011:1-12.

[5]劉穎, 肖天久. 金庸與古龍小說計(jì)量風(fēng)格學(xué)研究[J]. 清華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2014,(5):135-147.

[6]蘅塘退士編,陳婉俊補(bǔ)注. 唐詩三百首[M]. 北京: 中華書局, 1984:1-15.

[7]上彊村民編,唐圭璋箋注. 宋詞三百首箋注[M]. 上海: 上海古籍出版社,1979:1-9.

[8]王曉玉, 李斌. 基于CRFs和詞典信息的中古漢語自動(dòng)分詞[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2017,(5):62-70.

[9]胡俊峰,俞士汶. 唐宋詩之計(jì)算機(jī)輔助深層研究[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2001,(5):727-733.

[10]Salton G., Wong A., Yang C. A vector space model for automatic indexing[J]. Communications of the ACM, 1975,(18):613-620.

[11]Salton G., Buckley C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988,(24):513-523.

[12]張振亞, 王進(jìn), 程紅梅,等. 基于余弦相似度的文本空間索引方法研究[J]. 計(jì)算機(jī)科學(xué), 2005,(9):160-163.

[13]Yang Y., Pedersen J. A comparative study on feature selection in text categorization[C].Nashville ICML: 1997:412-420.

[14]單麗莉, 劉秉權(quán), 孫承杰. 文本分類中特征選擇方法的比較與改進(jìn)[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2011,(S1):319-324.

[15]李航. 統(tǒng)計(jì)學(xué)習(xí)方法[M].北京: 清華大學(xué)出版社, 2012:38-40.

[16]謝榛. 四溟詩話[M].北京: 中華書局, 1985:9.

[17]王澤龍, 錢韌韌. 現(xiàn)代漢語虛詞與胡適的新詩體“嘗試”[J]. 中國現(xiàn)代文學(xué)研究叢刊, 2014,(3):134-147.

[18]方文山. 青花瓷——隱藏在釉色里的文字秘密[M].北京: 作家出版社, 2012:3-13.

[19]馬珺. “中國風(fēng)”流行歌曲的文化研究[D]. 武漢:華中師范大學(xué), 2009:6-7.

Abstract:We depended on calculating the cosine similarity among 300 Tang poetry, 300 Song Ci and 106 “Chinese Wind” lyrics, and found that “Chinese Wind” lyrics words were closer to Ci of Song Dynasty. Then we combined with Chi-square test and improved Information gain, selected the feature words, thus summarizing the categories and characteristics of “Chinese Wind” lyrics words which inherited from ancient poetry and distinguished from 5425 common pop songs. At last,we conducted a KNN experiment. Higher rate of “classical words” and lower rate of functional words can distinguish “Chinese Wind” from common pop lyrics roughly, but there exist some exceptions. This article reveals the basic features and location of “Chinese Wind” lyrics, offering empirical support to the development of “Chinese Wind” songs.

Key words: “Chinese Wind” lyrics; Tang and Song poetry; cosine similarity; feature selection; KNN

編輯:鄒蕊

主站蜘蛛池模板: 26uuu国产精品视频| 亚洲系列中文字幕一区二区| 999国产精品永久免费视频精品久久| 色婷婷丁香| 亚洲IV视频免费在线光看| 美女一区二区在线观看| a欧美在线| 制服无码网站| а∨天堂一区中文字幕| 国产成年女人特黄特色毛片免| 精品国产黑色丝袜高跟鞋| 色综合日本| 青草视频久久| 99在线观看国产| 亚洲精品无码在线播放网站| 老司机午夜精品视频你懂的| 热久久综合这里只有精品电影| 萌白酱国产一区二区| 国产精品久久久久久影院| 婷婷在线网站| 国产成人一二三| 操美女免费网站| 国产你懂得| 99热精品久久| 欧美自拍另类欧美综合图区| 国产无码网站在线观看| 999国产精品永久免费视频精品久久| 亚洲第一天堂无码专区| 国产精品视频第一专区| 国内a级毛片| 国产熟睡乱子伦视频网站| 青草娱乐极品免费视频| 69av免费视频| 国产一区二区三区日韩精品| 日韩av电影一区二区三区四区| 国产一线在线| 久久成人免费| 一级毛片在线播放| 丰满的熟女一区二区三区l| 九色视频一区| 国产粉嫩粉嫩的18在线播放91| 福利片91| 国产美女精品人人做人人爽| 一区二区自拍| 青青青视频91在线 | 精品国产一二三区| 97久久精品人人| 亚洲国产精品无码久久一线| 免费激情网址| 99精品视频九九精品| 一级福利视频| 久久这里只有精品66| 欧美在线视频a| 欧美日韩免费观看| 麻豆国产精品| 日韩欧美国产三级| 国产麻豆永久视频| 日韩中文无码av超清| 呦女亚洲一区精品| 国产精品2| 久久国产精品嫖妓| 亚洲一区二区三区在线视频| 成人蜜桃网| 99热最新网址| 91久久偷偷做嫩草影院| 国产成人av一区二区三区| 国产人成在线视频| 国产精品一区二区无码免费看片| 国产美女免费| 日本免费a视频| 99人体免费视频| 欧美色亚洲| 日本尹人综合香蕉在线观看 | 毛片在线播放网址| 亚洲男人天堂2018| 成人精品在线观看| 亚洲系列中文字幕一区二区| 欧美色视频日本| 亚洲日本精品一区二区| 国产欧美又粗又猛又爽老| 青青草国产免费国产| 国产剧情国内精品原创|