999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交叉熵與困惑度的LDA-SVM主題研究

2019-09-12 10:41:42薛佳奇楊凡
智能計算機與應用 2019年4期
關鍵詞:分類實驗模型

薛佳奇 楊凡

摘 要:目前對于中文影視劇本的分類主要借助人工經驗,具有成本高、效率低等特點。當前沒有針對中文影視劇本主題自動分類的相關研究,本文將對主題提取進行研究,傳統(tǒng)主題生成模型借助于文檔和段落、段落和語句、語句和詞的相似性,而忽略了文本語句與語句之間的相似性。首先,采用ISOMAP方法降低樣本集的向量空間維度;其次,提出交叉熵結合困惑度的算法模型,進而確定LDA需要提取的最優(yōu)主題數(shù)目;最后,通過劇本-主題的方式,利用LDA算法挖掘劇本的隱含主題詞,同時利用SVM對主題詞做出進一步的分類。

關鍵詞:中文影視劇本;ISOMAP降維;LDA;交叉熵;困惑度;SVM文章編號:2095-2163(2019)04-0045-06 中圖分類號:TP391.1 文獻標志碼:A

0 引 言

互聯(lián)網上文本類型數(shù)據(jù)數(shù)量呈現(xiàn)指數(shù)式的激增,則使得當今社會各個方面對互聯(lián)網數(shù)據(jù)挖掘方法的需求也越來越大[1-2]。與此同時,人們正更加傾向于隨時隨地瀏覽信息和觀看影視作品,文學劇本的數(shù)量也開始急劇上升,也就必然給影視審核人員帶來巨大的挑戰(zhàn),即劇審人員需要快速熟知海量劇本的主題。目前,自動化的劇本主題分析鮮有學者進行相關研究,本文即擬對影視劇本的主題詞發(fā)現(xiàn)展開探討與論述。

研究可知,劇本與文本同時存在維數(shù)過高的問題,因此需要采取降維方法。常見的降維方法有PCA降維和ISOMAP降維,其中PCA降維存在信息丟失問題,故而本文選用了ISOMAP降維方法。而研究中,將通過LDA來選取主題詞,但考慮到LDA的參數(shù)K多會通過困惑度進行計算,本文則有針對性地提出了困惑度與交叉熵結合度的方法。文中對此可做研究分析如下。

1 主題提取相關研究

選擇劇本主題特征詞時,應選擇能代表劇本類別的詞作為特征,而在通過向量來表示劇本時,向量空間稀疏和高特征維數(shù)問題就是劇本提取特征詞的研究熱點。針對這一狀況,通常需要進行特征降維,降維不僅能夠縮減劇本的特征維數(shù),減小模型訓練時的迭代次數(shù),也可以消除相似語義的特征,進而提高劇本主題分類的準確率、召回率和效率。相較于英文劇本,中文劇本有著更多的字詞組合、更大的編碼空間、更稀疏的原始特征空間,更高的矩陣維度等特點,為了獲取高效的劇本特征降維方法,不影響劇本主題的分類性能,就需要選取適合于中文影視劇本的降維方法。這里可得研究內容分述如下。

1.1 PCA與ISOMAP降維

1.1.1 PCA降維

PCA[3]降維算法是為了去除劇本向量空間中相似的元素,消除維度災難,從而得到有效的特征空間。PCA的計算過程詳見如下。

在此基礎上,計算協(xié)方差矩陣。協(xié)方差矩陣的第h行第g列的維度值的運算將用到如下計算公式:

將特征值按照從大到小排序,選出前K大個特征值。通常情況下,前K大特征值之和占總特征值之和的80%,即用前K個特征值來取代矩陣中的m個特征。第j個POI的Rank值公式具體如下:

1.1.2 ISOMAP降維

ISOMAP算法可以進行非線性降維,將高維空間中數(shù)據(jù)信息映射到低維空間,再通過特征提取方法獲得提取后特征,該算法依據(jù)多維尺度變換(MDS),將數(shù)據(jù)點之間原來使用的歐幾里得距離替換為測地線距離,保證降維后的數(shù)據(jù)信息損失最小,同時將高維空間有效映射到低維空間里,在減小計算量的基礎上,提高運算速率。

ISOMAP算法引進了鄰域圖,距離很近的點可以用歐氏距離來代替,較遠的點可通過最短路徑算出距離,在此基礎上進行降維保距。鄰域圖中相鄰且靠近的點之間存在連接,而與之相反的便不存在連接,因此計算2個點之間的距離問題就是測地線距離計算問題,也即演變成了鄰域圖中2點之間的最短路徑計算問題,最短路徑的計算常采用經典Floyd算法或Dijkstra算法。

1.2 交叉熵與困惑度

1.2.1 交叉熵

在統(tǒng)計學中,利用困惑度評價模型的性能優(yōu)劣,能夠給測試數(shù)據(jù)得出更高概率值的算法顯然更好[4],即困惑值越小,模型對實驗的文本數(shù)據(jù)有更好的預測能力,因此困惑值與劇本潛在主題數(shù)量呈反比。在LDA主題模型中,困惑度計算公式可表示如下:

1.2.2 交叉熵結合困惑度方法

在計算主題相似度時,目前常用的方法有:Kullback-Leibler散度(KL散度)[5]、Jensen-Shanon散度(JS散度)[6]、交叉熵(Cross Entropy,CE)。其中,KL散度不滿足對稱性和三角不等式,JS散度也不能很好地衡量每個真實主題和預測的主題之間的相似性,因此本文選取交叉熵作為衡量劇本各個主題間相似度的標準。在交叉熵的基礎上,將隨機變量方差的概念引入到潛在主題空間中,即可衡量主題空間的整體差異性[7]。主題方差Var(T)是各個主題分別與其均值之間的距離平方和的平均數(shù)。主題方差的計算方法詳述如下。

先計算求出主題-詞概率分布均值-;再利用未曾應用于劇本主題的交叉熵來得到各個主題間的方差,數(shù)學公式可寫作如下形式:

Var(T)可以計算得到隱藏主題之間的穩(wěn)固性,Var(T)越大,穩(wěn)固性越好,主題易于分類。困惑度可以用來作為模型預測能力評價指標,過分追求指標值會導致主題數(shù)偏大,因此可將二者相結合。由此提出如下的Perplexity-Var指標的公式:

Perplexity-Var指標含義是:從以上關系式分析得出,Perplexity-Var值最小時,則尋求的LDA主題模型為最優(yōu)。

1.3 LDA主題模型

LDA模型可以提取出研究篇章中的隱含主題,通過主題、詞頻生成文檔,因此屬于生成模型。針對劇本,使用LDA模型可以生成主題,提取劇本的隱含語義并對劇本進行形式化的表示。假設劇本集D包含M篇劇本,每篇劇本的長度是Ni,在LDA模型中,LDA概率圖模型如圖1所示。完整的文檔生成步驟參見如下。

圖1中,M表示劇本數(shù)量,N表示單篇劇本中詞的數(shù)量,K表示主題數(shù)量,W表示劇本集中的所有詞,Z表示所有主題;參數(shù)θ表示文檔-主題分布,由Dirichlet先驗知識α控制產生;ψ表示主題-詞分布,由Dirichlet先驗知識β控制產生;矩形表示連續(xù)重復過程,外層矩形表示從Dirichlet分布中為劇本集D中的每篇劇本反復抽取主題分布,內層矩形表示從主題分布中反復抽樣產生劇本d的詞。

2 實驗結果及分析

2.1 實驗數(shù)據(jù)與處理

本文的數(shù)據(jù)來源于互聯(lián)網資源,共計317篇外國劇本。該數(shù)據(jù)集是PDF格式,利用程序將PDF格式劇本文件轉化為實驗所需要的txt劇本格式,通過人工標注將317篇劇本分為20種類別,分別是愛情、傳記、動作、犯罪、歌舞、記錄、家庭、驚悚、劇情、科幻等。

首先,分詞;然后,通過停用詞表過濾掉劇本中的一些無關詞,將劇本文字形式轉化為TD-IDF的向量形式,使用TF-IDF算法;最后,將TF-IDF向量矩陣進行降維,降維后的TF-IDF作為LDA的輸入?yún)?shù)。

2.2 基于ISOMAP的TF-IDF降維實驗

SVM模型中的輸入是數(shù)據(jù),因此本文可任選向量空間模型,權重采用TF-IDF權重值,但由于劇本轉化為TF-IDF時維數(shù)達到了50萬,超出了普通計算機的運算能力,故而仍需繼續(xù)降維。而降維時,在保證信息損失最少的同時,同時還要保證可靠的計算效率。通過實驗對比來觀測PCA降維與ISOMAP降維的處理時間的對比,將高維數(shù)據(jù)降到2維,再聚類為10類,最終可得各種降維算法處理時間的結果對比如圖2所示。

由圖2可以看出,ISOMAP算法的處理時間要好于PCA算法,但是聚類效果明顯優(yōu)于PCA,如此就降低了信息的丟失率。故而,對于劇本特征降維,本文選擇了ISOMAP算法。

通過實驗得到4組數(shù)據(jù),將得到的稀疏矩陣維數(shù)降為1 000維、3 000維、5 000維、10 000維。對這4組數(shù)據(jù)使用帶有高斯核函數(shù)的SVM訓練模型,并以訓練語料測試分類準確率,研究得到的結果見表1。

PCA與ISOMAP降維對比結果曲線如圖3所示。根據(jù)表1與圖3的結果,當PCA與ISOMAP降到3 000維的時候,分類的準確率最高,同時可以證明,在劇本分類中,使用ISOMAP在特征降維方面要優(yōu)于PCA降維,因此本實驗中選取降維后的維數(shù)為3 000維。在圖3中,PCA降維至5 000維之后,基本呈一條直線,考慮到PCA降維時可能造成大量信息損失,會使得分類準確率大致呈現(xiàn)線性下降趨勢。

2.3 基于交叉熵與困惑度的最優(yōu)主題數(shù)實驗

研究中,根據(jù)困惑度、以及困惑度與交叉熵相結合的算法,并結合各種分類器進行對比實驗,通過仿真來驗證該算法的優(yōu)越性。在進行對比實驗時,將降維算法加以統(tǒng)一,LDA主題個數(shù)尋優(yōu)實驗選擇PCA降維,同樣,選擇TF-IDF特征向量加權算法;SVM的核函數(shù),選擇高斯核函數(shù)。定義困惑度計算得到的主題數(shù)為Perp_K,定義困惑度和交叉熵相結合的主題數(shù)量為PerpSimla_K,通過本文提出的交叉熵與困惑度計算公式分別得到最優(yōu)主題個數(shù),Perp_K=200,PerpSimla_K=230。不同主題數(shù)的分類器的準確率見表2。

由表2得到的結果數(shù)據(jù)顯示,利用交叉熵與困惑度結合的方法,使得各個分類器的分類準確率明顯高于單獨使用困惑度方法,困惑度計算可以為主題數(shù)量的確定提供有效參考,但并未能夠保障構造得到最優(yōu)分類器。因此需要進一步的仿真研究驗證最優(yōu)主題數(shù)是否準確且有效,需要將LDA的主題個數(shù)K值范圍設置在經驗數(shù)值50~450之間。交叉熵和困惑度結合下的不同主題數(shù)的對比結果值如圖4所示。

由圖4與表2可以得知,基于困惑度與交叉熵結合的方法,得到的最優(yōu)主題數(shù)明顯優(yōu)于單純基于困惑度計算劇本最優(yōu)主題數(shù)。在接下來的部分實驗中將會采用此方法,進行LDA主題提取。

2.4 LDA隱含主題特征詞提取

一個主題下有大量相近的詞,一個詞也會依附于不同的主題,這些詞語和該主題有很強的相關性,也正是這些詞語共同定義了這一主題。對于一篇劇本來說,通常是由若干個主題生成。綜上分析可知,LDA主題模型,能夠發(fā)現(xiàn)隱含的主題。對降維過后的數(shù)據(jù),進行LDA主題提取,以確保更低的維數(shù),進而提取更準確的特征,后續(xù)即以LDA提取的特征作為SVM的輸入。

由于劇本數(shù)量多,因此采用了stem圖(火彩梗圖)。此處,顯示了前3篇劇本的可能的主題詞的概率大小。運行結果如圖5所示。

2.5 實驗結果分析

由前文的實驗部分確定了LDA的K值,緊接著將提取的特征向量,輸入到各類分類器中,用來驗證融合核函數(shù)對于劇本主題分類的優(yōu)越性。

本節(jié)將從KNN、貝葉斯以及向量機分類器進行對比實驗。在python環(huán)境里,SVM的模型參數(shù)可以選擇自定義的核函數(shù)。各類分類器對比實驗結果見表3。

由表3可以看出,線性核的準確率逼近融合核,驗證了從低維映射到高維線性可分的理論,而且由于使用了ISOMAP降維方法以及LDA,使得特征空間基本處于線性可分的狀態(tài)。同時表3給出的實驗結果還驗證了,相比其它核函數(shù)和分類器而言,SVM核函數(shù)對劇本及其它文本分類能夠獲得更好的研究效果。

3 結束語

本文首先將劇本集向量化,得到向量空間;傳統(tǒng)的文本向量空間,通常是利用詞頻作為分析的依據(jù)。而劇本向量空間,采用TF-IDF算法得到詞語加權向量空間。對比了PCA與ISOMAP降維效果,通過實驗發(fā)現(xiàn)PCA與ISOMAP相比有著更快的執(zhí)行速率,而ISOMAP有著更好的降維效果,因此在更大程度上有效提升了劇本主題的分類準確率。提出交叉熵結合困惑度的方法,通過實驗表明,提出的交叉熵結合困惑度的方法,可以顯著改善劇本主題詞的個數(shù)不準確問題,進而提高劇本主題分類準確率。本文不足之處在于,沒有對SVM核函數(shù)做進一步的實驗研究,未來工作將是利用核函數(shù)融合進行深入的探討與分析。

參考文獻

[1] WU Xindong, ZHU Xingquan, WU Gongqing, et al. Data mining with big data[J]. IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107.

[2]LAZER D,KENNEDY R, KING G, et al. The parable of Google Flu:Traps in big data analysis[J]. Science,2014,343(6176):1203-1205.

[3]劉海旭. 基于PCA和LDA的文本分類系統(tǒng)設計與實現(xiàn)[D]. 北京:北京郵電大學,2013.

[4]裘友榮. 相對熵在圖像去噪中的應用[J]. 遙感信息, 2018, 33(3):124-129.

[5]孔銳, 施澤生, 郭立, 等. 利用組合核函數(shù)提高核主分量分析的性能[J]. 中國圖象圖形學報, 2004, 9(1):40-45.

[6]牟華英. 腦電信號特征提取的算法研究[D]. 廣州:華南理工大學, 2010.

[7]李強. 基于主題模型的中文情感分類方法研究[D]. 杭州:杭州電子科技大學,2016.

[8]田象明. 基于視頻流的車牌識別系統(tǒng)設計[D]. 西安:西安電子科技大學, 2017.

猜你喜歡
分類實驗模型
一半模型
記一次有趣的實驗
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人国产精品网站在线看| 国产一区二区三区免费观看| 日韩av高清无码一区二区三区| 久久免费观看视频| 真实国产精品vr专区| 久久免费观看视频| 国产99精品视频| 中文无码精品A∨在线观看不卡| 亚洲大尺码专区影院| 日韩性网站| 午夜限制老子影院888| 国产成人免费| 1级黄色毛片| 日韩国产 在线| 一级成人a做片免费| 色网在线视频| 国产精品片在线观看手机版| 日韩激情成人| 在线播放真实国产乱子伦| 亚洲av日韩综合一区尤物| 欧洲一区二区三区无码| 热这里只有精品国产热门精品| 日本中文字幕久久网站| 亚洲欧美不卡| 亚洲第一成年人网站| 国产精品第5页| 亚洲精品在线观看91| 8090成人午夜精品| 欧美视频在线第一页| 国产精品美女自慰喷水| 青青热久免费精品视频6| 中文字幕自拍偷拍| 91欧洲国产日韩在线人成| 亚洲精品视频网| 国产91蝌蚪窝| 欧美在线黄| 日韩欧美国产精品| 情侣午夜国产在线一区无码| 国产午夜不卡| 丝袜美女被出水视频一区| 欧美色香蕉| 激情综合图区| 欧美午夜久久| 欧美日本在线一区二区三区| 国产欧美日韩一区二区视频在线| 国产亚洲欧美在线人成aaaa| 综合亚洲网| 无码'专区第一页| 日韩东京热无码人妻| 中文字幕2区| 国产专区综合另类日韩一区| 在线精品亚洲一区二区古装| 欧美性色综合网| 欧美日韩亚洲国产| 91日本在线观看亚洲精品| 国产制服丝袜91在线| 四虎影视国产精品| 77777亚洲午夜久久多人| 精品国产一二三区| 视频一本大道香蕉久在线播放 | 99视频在线免费观看| 国产成人区在线观看视频| 免费午夜无码18禁无码影院| 免费一级全黄少妇性色生活片| 欧美一道本| 精品精品国产高清A毛片| 国产成人调教在线视频| 91久久国产成人免费观看| 人妻无码一区二区视频| 亚洲香蕉伊综合在人在线| 爆乳熟妇一区二区三区| 久久久久夜色精品波多野结衣| 中文精品久久久久国产网址| 99国产精品一区二区| 亚洲第一在线播放| 香蕉99国内自产自拍视频| 日韩亚洲综合在线| 国产手机在线观看| 国产黄色片在线看| 国产va在线观看| 色婷婷成人网| 91久久偷偷做嫩草影院电|