999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互信息法的中文音樂情感詞典的構建

2018-08-24 11:15:06智昕周日貴
現代計算機 2018年21期
關鍵詞:詞匯分類文本

智昕,周日貴

(上海海事大學信息工程學院,上海 201306)

0 引言

隨著互聯網在生活中的普及,人們的生活方式也發生了很大的變化。在閑暇時聽音樂是大部分人的選擇之一。現在人們的音樂體驗逐步從之前的錄音磁帶和光盤唱片發展為數字音樂,數字音樂壓縮技術等多媒體技術得到了迅速發展,人們也因此可以獲得比傳統技術更加方便的途徑。到2017年,網絡音樂的用戶規模已經突破3億,其應用技術已經成為互聯網的一個研究熱點。音樂是情感的一種表達載體,很多詞曲作者通過音樂表達和抒發自己的情感,可以說情感是音樂的本質特征和內涵。

傳統的音樂情感分析都是基于音頻的,通過音頻對音樂的情感傾向性進行分析的研究已經有接近30年的歷史,很多專家學者已經在這方面取得了很多卓越的成就。本文將對音樂的另一重要載體——歌詞進行分析研究。歌詞本質上屬于文本,因此對歌詞進行情感傾向性分析研究本質上是對文本進行情感傾向的分類。文本的最小構成單位是詞語,對詞語的情感判別是對歌詞進行情感分析的基礎。本文針對一些傳播較廣的中文歌曲,構建一部歌詞的領域情感詞典,來更好的對音樂進行情感分析。

1 相關工作

目前關于構建情感詞典的研究工作已經取得了一定的成果。要構建一個相關領域的情感詞典,一方面需要對現有的相關資源進行整理與總結,另一方面要選取合適的算法進行相關領域的擴充。文本傾向性分析始于20世紀90年代,Mitchell P.Marcus和Beatrice Santorini[1]等構建了一個基于手動標記的半自動構建的Penn Treebank語料庫,其在速度、一致性和準確性上都優于當時完全手動標記的語料庫;Hatzivassiloglou和McKeown[2]在收集了大規模語料集的基礎上,分析了形容詞的語義情感傾向受連詞的影響,來對詞語做情感傾向性的判斷,該方法用聚類的方法將詞匯聚成褒義或貶義,精確率最低的一組實驗也達到78%,得到了較為理想的分類效果。

國內方面,目前比較權威的情感詞典有董振東開整理的知網HowNet情感詞典、臺灣大學NTUSD簡體中文情感詞典、情感詞匯本體庫以及清華大學李軍中文褒貶義詞典。近些年來隨著相關研究的深入,在對音樂歌詞和音樂評論的數據挖掘方面去取得了一定進展。蔣勝益、陽垚[3]等人在文獻提出一種基于改進后的Hevner情感模型環模型為基礎構建的音樂領域的中文情感詞典,實現了歌詞的情感分類;夏云慶、楊瑩[4]等人采用基于情感單元的情感向量空間模型進行歌詞情感分析,實驗在表示效率、歧義、情感方面取得了較好的分析結果;Yunjing An[5]等人用樸素貝葉斯分類器對歌詞進行情感傾向分析,來實現歌詞情感傾向的分類;佘莉、夏虎[6]等人在文獻中根據Hevner情感環對Web文本信息中得到的音樂評論的情感傾向進行挖掘,進行情感詞的提取和識別。

2 算法描述

本文提出一個通過兩階段構建領域情感詞典的構建方法。第一階段利用現有的一些詞典資源包括知網HowNet情感詞典、情感詞匯本體庫以及清華大學李軍中文褒貶義詞典進行整理、去重,同時加入手動的標記的歌詞詞匯,構建出一個針對歌詞的基準詞匯庫。第二階段通過計算情感詞間的點間互信息值(Semantic Orientation Pointwise Mutual Information,S0-PMI)的方法建立情感詞間的相似性矩陣,來得到語義間的相似度。然后根據情感詞出現的頻率來識別相關領域情感詞,從而確定目標詞的情感傾向來進行中文音樂情感詞典的擴充。本文實驗的整體過程如圖1所示。

圖1 情感詞典構建流程

2.1 語料收集與文本預處理

歌詞通過網易云音樂的爬蟲程序將指定ID歌曲歌詞網頁數據進行抓取。目前很多網站都采取了反爬蟲機制如增加驗證碼、驗證滑塊等,為爬蟲程序獲取評論數據增加了難度。本文在爬取過程中對網易云音樂網站中的JavaScript請求數據進行解密,通過破解參數的加密方式來獲取請求的數據。

對爬取到的文本數據開始進行預處理工作,包括去除時間標注、去除非歌詞句子、對文本進行分詞、去除停用詞以及進行詞頻統計等。首先,使用正則表達式可以達到篩選歌詞去除噪音信息的目的。接著進行分詞操作,詞匯是語言中能夠獨立運用的最小的語言單位,是語言中的原子結構,因此在提取出歌詞文本后,對歌詞進行分詞是情感傾向性分析的重要預處理步驟。本文采用Python的中文分詞組件jieba進行分詞,組件工具支持三種分詞模式:精確模式、全模式和搜索引擎模式。用jieba分詞組件可以將句子切分成分詞,也可以添加用戶自定義的詞庫加入分詞系統來達到更理想的分詞效果。將句子劃分成獨立的詞語后,最后對其中的停用詞進行過濾,停用詞通常是沒有實際含義的,一般是指在文本內容中出現頻率較高的介詞、代詞、虛詞等一些與情感無關的字符。本文針對歌詞構建了一個停用詞表,然后采用基于詞頻的方法將出現在文本中的停用詞去除,減少文本數據的冗余。最后將詞頻進行統計,提取高頻實詞構成歌詞詞匯的語料庫。

2.2 相似度計算

對2.1節中的歌詞詞匯語料庫與手動整理得到的基準詞匯庫之間的語義相似度可以采用互信息的方法計算得到,它是用來度量兩個隨機變量之間的關聯性,對任意兩個變量,它們之間的互信息的定義如公式(1)所示,從而確定目標詞的情感傾向來進行情感詞典的擴充。

其中,P(x)表示變量 x出現的概率,P(x│y)表示在變量y出現的情況下出現變量x的概率。當MI(x,y)的結果越小,表明變量x和變量y越不相關,當值取0時,兩者之間是相互獨立的;反之,MI(x,y)的結果越大,表明兩者之間的關聯程度越高。

在本文中,情感詞典的擴充采用點間互信息(S0-PMI)來計算語義的相似度從而確定目標詞的情感傾向。分為以下幾個步驟:首先選取基準詞中一組傾向性非常明顯的褒義詞與貶義詞,分別用{PosWords1,PosWords2,…}與{NegWords1,NegWords 2,…}來表示;然后對每一個目標詞wordi,分別與PosWord和NegWord求互信息值然后做差;最后根據差值就可以得到目標詞wordi的情感傾向,表示形式如公式(2)所示:

其中,PMI(wordi,wordj)表示兩個詞語的點間互信息,如公式(3)所示:

2.3 歌詞文本的情感向量

本文采用網易云音樂歌單中情感分類的13種情感類別作為音樂的情感特征向量,分別是“懷舊”、“清新”、“浪漫”、“性感”、“傷感”、“治愈”、“放松”、“孤獨”、“感動”、“興奮”、“快樂”、“安靜”和“思念”,該特征向量用于度量音樂和每類情感的語義間相似關系。則每一首音樂的歌詞情感特征向量表示為公式(4)所示:

其中,Ek表示情感向量中第k維的值;wordi表示一首歌詞的第i個單詞;Dwordk,j表示所構建情感詞典中第k維情感子類中的第j個詞匯;bool(wordi,Dwordk,j)為判定兩個單詞是否是同一類別詞匯的函數,是則取值為1,否則取值為0;Pi,j表示兩個詞之間的相似程度,即3.2節中計算的得到的互信息值;S表示這篇歌詞經過分詞和去除停用詞后得到的詞語總數。通過對每首歌詞計算特征情感向量,將歌詞情感表達的語義信息進行量化,進一步進行歌詞情感分析。

2.4 歌詞情感分析

本文采用分級累加的方式計算歌詞的情感傾向值。將文本表示為四元組O(W,P,F,E),其中W,P,F,E分別表示程度副詞、情感傾向、情感詞詞性和增強因子,歌詞的情感傾向值為每一分句歌詞情感傾向值的和。對兩個詞語w1和w2,假設其分別有x1,x2,...,xn和y1,y2,...,ym個概念,則w1和w2的相似度為各個概念的相似度的最大值,公式(5)如下所示:

其中,Sim(xi,yj)表示兩個概念義原的計算公式,其計算方法如公式所示:

其中,α為可調節參數變量,d表示xi和yj兩個義原項在義原層次體系中的距離,可以根據詞匯語義相似度計算得到。

對于一個詞語W,分別將其與情感詞典中的種子詞進行比較,得到其情感傾向值,對比情感值之間的均差,就可以得到詞語W的情感傾向值,計算公式(7)如下所示:

其中,pi和nj分別表情情感詞典中的每個情感類別種子詞,最終根據得到的情感傾向結果進行分類。

3 實驗結果及分析

本文選取網易云音樂中情感類別中收聽量和熱度較高的193首中文歌曲作為情感分析的對象,每個類別標簽下約15首歌。這些歌曲具有代表性情感表達較為鮮明,結合本文構建的音樂情感詞典對每個標簽類別下的歌詞進行情感傾向性分析后,分別得到對應的分類結果,如表1所示。

表1 歌詞情感傾向性分類結果

從情感分析結果的度量值可以看出,本文實驗基于音樂情感詞典的歌詞情感分類的平均準確率為73.6%,召回率為77.6%,F值為75%,其中浪漫、傷感和快樂等類別的分類效果較好,一定程度上反映出本文所構建的針對音樂的領域情感詞典具有較好的分類性能,能夠比較準確地概括音樂詞典情感子類的情感特征。同時可以看出懷念、孤獨等類別的歌詞判定結果不夠理想,可能由以下兩個原因:情感分類標簽和歌詞情感分析,情感分類標簽是網易云音樂自設的情感分類標準,本文在進行分析時歌詞所分析得到的結果并不與分類標簽完全一致造成分類結果不理想;在進行歌詞情感分析時,語義相似度由義原層次體系中的距離決定,對本文中歌詞的分類效果存在一定影響。

4 結語

本文針對中文歌詞,提出一種音樂情感詞典的構建模型,該模型借助點間互信息相似度的計算方法進行基礎詞匯的擴充、網易云音樂的分類標簽構建歌詞文本情感向量,對中文歌詞進行情感分類,取得了較為理想的分類效果。同時,本文在進行文本的情感傾向性分析時對上下文的語義間的影響考慮并不完整,且只是單方面關注了歌曲的文本部分,今后還需要協同音頻進行分析,從而更加全面地對歌曲情感進行分析和判定。

猜你喜歡
詞匯分類文本
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产精品精品视频| 亚洲伦理一区二区| 国产丝袜第一页| 性色一区| 欧美色99| 成人夜夜嗨| 美女裸体18禁网站| 波多野结衣中文字幕一区二区| 亚洲欧洲日韩久久狠狠爱 | 中文字幕伦视频| 精品国产一二三区| 国产乱人视频免费观看| 国产精品毛片一区| 四虎国产成人免费观看| 日韩黄色大片免费看| 欧美日韩资源| 超清人妻系列无码专区| 国产熟女一级毛片| 亚洲制服丝袜第一页| 国产剧情一区二区| 日本高清成本人视频一区| 亚洲综合中文字幕国产精品欧美| 青青草国产一区二区三区| 欧美精品高清| a在线观看免费| 日本免费福利视频| 亚洲中文无码h在线观看 | 黄色网在线免费观看| 一区二区日韩国产精久久| 漂亮人妻被中出中文字幕久久| 日韩国产亚洲一区二区在线观看| 国产99在线| 久久a毛片| 91小视频在线| AⅤ色综合久久天堂AV色综合| 青青青国产在线播放| 亚洲精品天堂在线观看| 91精品啪在线观看国产91| 国产精品亚洲一区二区三区z| 狠狠亚洲五月天| 国产色婷婷视频在线观看| a级毛片在线免费观看| 黄色a一级视频| 日韩欧美中文| 97精品久久久大香线焦| 亚洲国产综合自在线另类| 国产午夜人做人免费视频中文| 国产成人资源| 噜噜噜综合亚洲| 无码视频国产精品一区二区| 国产成人啪视频一区二区三区| 国产在线一二三区| 18黑白丝水手服自慰喷水网站| 免费无码AV片在线观看国产| 国产嫩草在线观看| 国产精品永久久久久| 亚洲第一色视频| 亚洲国产成人精品一二区| 久久婷婷五月综合色一区二区| 69av免费视频| 久久成人国产精品免费软件| 色爽网免费视频| 欧美精品另类| 青青久在线视频免费观看| 一级毛片不卡片免费观看| 成人另类稀缺在线观看| 夜夜操国产| 亚洲欧美极品| 国产伦精品一区二区三区视频优播| 日韩一区二区在线电影| 欧美不卡二区| 草逼视频国产| 欧美第一页在线| 亚洲人成网7777777国产| 亚洲an第二区国产精品| 亚洲欧美综合另类图片小说区| 日韩AV无码免费一二三区| 视频一本大道香蕉久在线播放| 久热中文字幕在线观看| 亚洲无码电影| 九九热视频精品在线| 久热中文字幕在线观看|