999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互信息法的中文音樂情感詞典的構建

2018-08-24 11:15:06智昕周日貴
現代計算機 2018年21期
關鍵詞:詞匯分類文本

智昕,周日貴

(上海海事大學信息工程學院,上海 201306)

0 引言

隨著互聯網在生活中的普及,人們的生活方式也發生了很大的變化。在閑暇時聽音樂是大部分人的選擇之一。現在人們的音樂體驗逐步從之前的錄音磁帶和光盤唱片發展為數字音樂,數字音樂壓縮技術等多媒體技術得到了迅速發展,人們也因此可以獲得比傳統技術更加方便的途徑。到2017年,網絡音樂的用戶規模已經突破3億,其應用技術已經成為互聯網的一個研究熱點。音樂是情感的一種表達載體,很多詞曲作者通過音樂表達和抒發自己的情感,可以說情感是音樂的本質特征和內涵。

傳統的音樂情感分析都是基于音頻的,通過音頻對音樂的情感傾向性進行分析的研究已經有接近30年的歷史,很多專家學者已經在這方面取得了很多卓越的成就。本文將對音樂的另一重要載體——歌詞進行分析研究。歌詞本質上屬于文本,因此對歌詞進行情感傾向性分析研究本質上是對文本進行情感傾向的分類。文本的最小構成單位是詞語,對詞語的情感判別是對歌詞進行情感分析的基礎。本文針對一些傳播較廣的中文歌曲,構建一部歌詞的領域情感詞典,來更好的對音樂進行情感分析。

1 相關工作

目前關于構建情感詞典的研究工作已經取得了一定的成果。要構建一個相關領域的情感詞典,一方面需要對現有的相關資源進行整理與總結,另一方面要選取合適的算法進行相關領域的擴充。文本傾向性分析始于20世紀90年代,Mitchell P.Marcus和Beatrice Santorini[1]等構建了一個基于手動標記的半自動構建的Penn Treebank語料庫,其在速度、一致性和準確性上都優于當時完全手動標記的語料庫;Hatzivassiloglou和McKeown[2]在收集了大規模語料集的基礎上,分析了形容詞的語義情感傾向受連詞的影響,來對詞語做情感傾向性的判斷,該方法用聚類的方法將詞匯聚成褒義或貶義,精確率最低的一組實驗也達到78%,得到了較為理想的分類效果。

國內方面,目前比較權威的情感詞典有董振東開整理的知網HowNet情感詞典、臺灣大學NTUSD簡體中文情感詞典、情感詞匯本體庫以及清華大學李軍中文褒貶義詞典。近些年來隨著相關研究的深入,在對音樂歌詞和音樂評論的數據挖掘方面去取得了一定進展。蔣勝益、陽垚[3]等人在文獻提出一種基于改進后的Hevner情感模型環模型為基礎構建的音樂領域的中文情感詞典,實現了歌詞的情感分類;夏云慶、楊瑩[4]等人采用基于情感單元的情感向量空間模型進行歌詞情感分析,實驗在表示效率、歧義、情感方面取得了較好的分析結果;Yunjing An[5]等人用樸素貝葉斯分類器對歌詞進行情感傾向分析,來實現歌詞情感傾向的分類;佘莉、夏虎[6]等人在文獻中根據Hevner情感環對Web文本信息中得到的音樂評論的情感傾向進行挖掘,進行情感詞的提取和識別。

2 算法描述

本文提出一個通過兩階段構建領域情感詞典的構建方法。第一階段利用現有的一些詞典資源包括知網HowNet情感詞典、情感詞匯本體庫以及清華大學李軍中文褒貶義詞典進行整理、去重,同時加入手動的標記的歌詞詞匯,構建出一個針對歌詞的基準詞匯庫。第二階段通過計算情感詞間的點間互信息值(Semantic Orientation Pointwise Mutual Information,S0-PMI)的方法建立情感詞間的相似性矩陣,來得到語義間的相似度。然后根據情感詞出現的頻率來識別相關領域情感詞,從而確定目標詞的情感傾向來進行中文音樂情感詞典的擴充。本文實驗的整體過程如圖1所示。

圖1 情感詞典構建流程

2.1 語料收集與文本預處理

歌詞通過網易云音樂的爬蟲程序將指定ID歌曲歌詞網頁數據進行抓取。目前很多網站都采取了反爬蟲機制如增加驗證碼、驗證滑塊等,為爬蟲程序獲取評論數據增加了難度。本文在爬取過程中對網易云音樂網站中的JavaScript請求數據進行解密,通過破解參數的加密方式來獲取請求的數據。

對爬取到的文本數據開始進行預處理工作,包括去除時間標注、去除非歌詞句子、對文本進行分詞、去除停用詞以及進行詞頻統計等。首先,使用正則表達式可以達到篩選歌詞去除噪音信息的目的。接著進行分詞操作,詞匯是語言中能夠獨立運用的最小的語言單位,是語言中的原子結構,因此在提取出歌詞文本后,對歌詞進行分詞是情感傾向性分析的重要預處理步驟。本文采用Python的中文分詞組件jieba進行分詞,組件工具支持三種分詞模式:精確模式、全模式和搜索引擎模式。用jieba分詞組件可以將句子切分成分詞,也可以添加用戶自定義的詞庫加入分詞系統來達到更理想的分詞效果。將句子劃分成獨立的詞語后,最后對其中的停用詞進行過濾,停用詞通常是沒有實際含義的,一般是指在文本內容中出現頻率較高的介詞、代詞、虛詞等一些與情感無關的字符。本文針對歌詞構建了一個停用詞表,然后采用基于詞頻的方法將出現在文本中的停用詞去除,減少文本數據的冗余。最后將詞頻進行統計,提取高頻實詞構成歌詞詞匯的語料庫。

2.2 相似度計算

對2.1節中的歌詞詞匯語料庫與手動整理得到的基準詞匯庫之間的語義相似度可以采用互信息的方法計算得到,它是用來度量兩個隨機變量之間的關聯性,對任意兩個變量,它們之間的互信息的定義如公式(1)所示,從而確定目標詞的情感傾向來進行情感詞典的擴充。

其中,P(x)表示變量 x出現的概率,P(x│y)表示在變量y出現的情況下出現變量x的概率。當MI(x,y)的結果越小,表明變量x和變量y越不相關,當值取0時,兩者之間是相互獨立的;反之,MI(x,y)的結果越大,表明兩者之間的關聯程度越高。

在本文中,情感詞典的擴充采用點間互信息(S0-PMI)來計算語義的相似度從而確定目標詞的情感傾向。分為以下幾個步驟:首先選取基準詞中一組傾向性非常明顯的褒義詞與貶義詞,分別用{PosWords1,PosWords2,…}與{NegWords1,NegWords 2,…}來表示;然后對每一個目標詞wordi,分別與PosWord和NegWord求互信息值然后做差;最后根據差值就可以得到目標詞wordi的情感傾向,表示形式如公式(2)所示:

其中,PMI(wordi,wordj)表示兩個詞語的點間互信息,如公式(3)所示:

2.3 歌詞文本的情感向量

本文采用網易云音樂歌單中情感分類的13種情感類別作為音樂的情感特征向量,分別是“懷舊”、“清新”、“浪漫”、“性感”、“傷感”、“治愈”、“放松”、“孤獨”、“感動”、“興奮”、“快樂”、“安靜”和“思念”,該特征向量用于度量音樂和每類情感的語義間相似關系。則每一首音樂的歌詞情感特征向量表示為公式(4)所示:

其中,Ek表示情感向量中第k維的值;wordi表示一首歌詞的第i個單詞;Dwordk,j表示所構建情感詞典中第k維情感子類中的第j個詞匯;bool(wordi,Dwordk,j)為判定兩個單詞是否是同一類別詞匯的函數,是則取值為1,否則取值為0;Pi,j表示兩個詞之間的相似程度,即3.2節中計算的得到的互信息值;S表示這篇歌詞經過分詞和去除停用詞后得到的詞語總數。通過對每首歌詞計算特征情感向量,將歌詞情感表達的語義信息進行量化,進一步進行歌詞情感分析。

2.4 歌詞情感分析

本文采用分級累加的方式計算歌詞的情感傾向值。將文本表示為四元組O(W,P,F,E),其中W,P,F,E分別表示程度副詞、情感傾向、情感詞詞性和增強因子,歌詞的情感傾向值為每一分句歌詞情感傾向值的和。對兩個詞語w1和w2,假設其分別有x1,x2,...,xn和y1,y2,...,ym個概念,則w1和w2的相似度為各個概念的相似度的最大值,公式(5)如下所示:

其中,Sim(xi,yj)表示兩個概念義原的計算公式,其計算方法如公式所示:

其中,α為可調節參數變量,d表示xi和yj兩個義原項在義原層次體系中的距離,可以根據詞匯語義相似度計算得到。

對于一個詞語W,分別將其與情感詞典中的種子詞進行比較,得到其情感傾向值,對比情感值之間的均差,就可以得到詞語W的情感傾向值,計算公式(7)如下所示:

其中,pi和nj分別表情情感詞典中的每個情感類別種子詞,最終根據得到的情感傾向結果進行分類。

3 實驗結果及分析

本文選取網易云音樂中情感類別中收聽量和熱度較高的193首中文歌曲作為情感分析的對象,每個類別標簽下約15首歌。這些歌曲具有代表性情感表達較為鮮明,結合本文構建的音樂情感詞典對每個標簽類別下的歌詞進行情感傾向性分析后,分別得到對應的分類結果,如表1所示。

表1 歌詞情感傾向性分類結果

從情感分析結果的度量值可以看出,本文實驗基于音樂情感詞典的歌詞情感分類的平均準確率為73.6%,召回率為77.6%,F值為75%,其中浪漫、傷感和快樂等類別的分類效果較好,一定程度上反映出本文所構建的針對音樂的領域情感詞典具有較好的分類性能,能夠比較準確地概括音樂詞典情感子類的情感特征。同時可以看出懷念、孤獨等類別的歌詞判定結果不夠理想,可能由以下兩個原因:情感分類標簽和歌詞情感分析,情感分類標簽是網易云音樂自設的情感分類標準,本文在進行分析時歌詞所分析得到的結果并不與分類標簽完全一致造成分類結果不理想;在進行歌詞情感分析時,語義相似度由義原層次體系中的距離決定,對本文中歌詞的分類效果存在一定影響。

4 結語

本文針對中文歌詞,提出一種音樂情感詞典的構建模型,該模型借助點間互信息相似度的計算方法進行基礎詞匯的擴充、網易云音樂的分類標簽構建歌詞文本情感向量,對中文歌詞進行情感分類,取得了較為理想的分類效果。同時,本文在進行文本的情感傾向性分析時對上下文的語義間的影響考慮并不完整,且只是單方面關注了歌曲的文本部分,今后還需要協同音頻進行分析,從而更加全面地對歌曲情感進行分析和判定。

猜你喜歡
詞匯分類文本
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 熟女日韩精品2区| 99在线视频网站| 波多野结衣无码视频在线观看| 伊人精品视频免费在线| 四虎精品国产永久在线观看| 99久久精品国产综合婷婷| 亚洲第一成人在线| 特级精品毛片免费观看| 青青网在线国产| 18黑白丝水手服自慰喷水网站| 一级毛片在线播放免费| 国产欧美高清| 日本一本在线视频| 亚洲中文无码h在线观看| 国产中文一区二区苍井空| 无码高清专区| 亚洲大尺码专区影院| 一级毛片无毒不卡直接观看| 中文字幕资源站| 中文字幕欧美日韩| 99国产精品免费观看视频| 国产精品人人做人人爽人人添| 毛片久久网站小视频| 久青草免费视频| 亚洲天堂色色人体| 国产高清国内精品福利| 欧美www在线观看| 久久久久国产一区二区| 在线欧美国产| 99这里只有精品免费视频| 又爽又大又黄a级毛片在线视频| 在线毛片网站| 久久香蕉国产线看观看式| 亚洲一级毛片| 国产免费久久精品99re不卡| 亚洲国产精品无码AV| 久久国产乱子| 综合天天色| 亚洲国产中文在线二区三区免| 欧美性天天| 在线观看国产精美视频| 午夜限制老子影院888| 国产乱子伦无码精品小说| 免费无遮挡AV| 国产99免费视频| 亚洲日韩欧美在线观看| 色窝窝免费一区二区三区 | 91精品视频网站| 免费A级毛片无码无遮挡| 在线va视频| 国产传媒一区二区三区四区五区| 成人午夜精品一级毛片| 久久99久久无码毛片一区二区| 久久综合九九亚洲一区| 久久毛片基地| 国产人在线成免费视频| 国产精品成人免费视频99| 国产丝袜91| 亚洲精品色AV无码看| 国产尤物在线播放| 亚洲天堂免费在线视频| 亚洲国产成人自拍| 亚洲第一成年网| www.av男人.com| 天天色天天操综合网| 国产成人综合网| 麻豆a级片| 97国产一区二区精品久久呦| 免费国产在线精品一区| 日本三级精品| 大陆精大陆国产国语精品1024| 国产成人久视频免费| 国产男人的天堂| 国产午夜精品鲁丝片| 精品国产福利在线| 99人妻碰碰碰久久久久禁片| 国产精品熟女亚洲AV麻豆| 丰满的少妇人妻无码区| h视频在线播放| 欧洲一区二区三区无码| 国产91色| 日韩天堂视频|