999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA的中國(guó)少數(shù)民族網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的探究①

2014-12-24 06:04:38弓盼王嘉梅楊小偉
科技創(chuàng)新導(dǎo)報(bào) 2014年30期

弓盼+王嘉梅+楊小偉

摘 要:隨著民族地區(qū)信息化建設(shè)的不斷推進(jìn),中國(guó)少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情研究也逐漸引起了大家的關(guān)注,文本分類和情感分析模塊是輿情系統(tǒng)的重要組成部分。傳統(tǒng)的文本分類方法主要通過統(tǒng)計(jì)字面上的詞語(yǔ)重復(fù)次數(shù),而對(duì)于文字背后的語(yǔ)義關(guān)聯(lián)考慮甚少。該文重點(diǎn)介紹了一種基于LDA模型在少數(shù)民族語(yǔ)言(以彝文為例)網(wǎng)絡(luò)輿情信息情感分析方面的應(yīng)用,對(duì)文字隱含的主題進(jìn)行建模,通過挖掘少數(shù)民族網(wǎng)頁(yè)上的輿情信息所蘊(yùn)含的主題,以及對(duì)這些主題進(jìn)行情感分析,在事件全面爆發(fā)之前,采取應(yīng)急措施。

關(guān)鍵詞:主題模型 ?網(wǎng)絡(luò)輿情系統(tǒng) ?情感分析

中圖分類號(hào):G212 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)10(c)-0185-02

LDA inquiry-based Chinese minority network public opinion monitoring system

GONG Pan ? WANG Jiamei ? YANG Xiaowei

(Yunnan Minzu University, Electrical and Information Engineering, Kunming,Yunnan,650500,China)

Abstract:With the development of ethnic areas of information technology, the Chinese minority language network public opinion research has gradually attracted everyone's attention, text classification and sentiment analysis module is an important part of public opinion of the system. Traditional text classification methods, mainly through word repetitions statistics literally, and semantic association little consideration for the text behind. This article focuses on the LDA model based on minority languages ??(with Yi for example) the application of information network public opinion sentiment analysis aspects of the theme of the text implied modeling, data mining minorities through public opinion on a web page that contains the theme, as well as sentiment analysis of these topics, before the incident broke out, Bian take emergency measures.

Key Words:Topic model;network public opinion;the detection system

目前,支持少數(shù)民族語(yǔ)言文字的計(jì)算機(jī)軟件的應(yīng)用范圍逐漸擴(kuò)大,越來(lái)越多的少數(shù)民族人口開始接觸、熟悉網(wǎng)絡(luò),使得互聯(lián)網(wǎng)迅速成為我國(guó)少數(shù)民族地區(qū)人口表達(dá)自身意愿、共享民族文化、彼此交流信息的重要媒介。采用科學(xué)的理論方法,進(jìn)行中國(guó)少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情信息的分析和研究,不僅是政府在現(xiàn)如今的大數(shù)據(jù)時(shí)代下實(shí)現(xiàn)科學(xué)、民主決策的基本需要,更是保證少數(shù)民族地區(qū)穩(wěn)定、繁榮的重要條件。目前,云南境內(nèi)影響力較大的少數(shù)民族官方網(wǎng)站比較少,信息及輿論導(dǎo)向能力相對(duì)比較薄弱。有些網(wǎng)站論壇甚至轉(zhuǎn)載境外不實(shí)信息,加以報(bào)道,在一定范圍內(nèi)造成了極為惡劣的影響。民族語(yǔ)言新聞信息,特別是時(shí)政類信息的傳播對(duì)國(guó)家安全存在極大的隱患。因此,做好網(wǎng)絡(luò)輿情信息研究工作、正確領(lǐng)導(dǎo)社會(huì)輿論、加強(qiáng)網(wǎng)上輿論斗爭(zhēng)是防止勢(shì)力滲透,建設(shè)穩(wěn)定、團(tuán)結(jié)、和諧社會(huì)的迫切需要。

傳統(tǒng)判斷兩個(gè)文本相似性的方法主要是通過統(tǒng)計(jì)的方法,查看這兩個(gè)文本中共同出現(xiàn)的詞語(yǔ)數(shù),如TF-IDF等,但是這種方法并沒有考慮到文字背后可能存在的語(yǔ)義關(guān)聯(lián),兩個(gè)文本當(dāng)中,共同出現(xiàn)的詞語(yǔ)或許很少甚至沒有,但這兩個(gè)文本卻是相似的。所以在進(jìn)行文本相關(guān)性判斷的時(shí)候,需要考慮到文本的語(yǔ)義,而主題模型則是語(yǔ)義挖掘的利器,LDA就是其中比較有效的一種模型。

以LDA(Latent Dirichlet Allocation)模型[1]為代表的主題模型是近年來(lái)文本挖掘領(lǐng)域的一個(gè)熱門研究方向。該模型具有優(yōu)秀的降維能力以及良好的擴(kuò)展性,并且能夠針對(duì)復(fù)雜系統(tǒng)進(jìn)行建模。利用主題建模挖掘出的主題能夠幫助人們進(jìn)一步理解海量文本所隱藏的語(yǔ)義,從而完成文本分類、話題檢測(cè)和關(guān)聯(lián)判斷等多方面的文本挖掘任務(wù)。彝文在少數(shù)民族語(yǔ)言當(dāng)中具有典型性和代表性,該文以云南跨境民族語(yǔ)言—彝文為例,將LDA模型應(yīng)用于彝文網(wǎng)絡(luò)輿情信息情感分析系統(tǒng)當(dāng)中,對(duì)于潛在的語(yǔ)義進(jìn)行探索。

1 LDA模型研究

1.1 概率主題模型的提出

主題模型(Topic Modeling)成為近年來(lái)文本挖掘領(lǐng)域的熱點(diǎn)之一,它能夠發(fā)現(xiàn)文本與詞語(yǔ)之間的潛在語(yǔ)義關(guān)系(即主題)——通過將文本看成是一組主題的混合分布,而主題又是詞語(yǔ)的概率分布,從而將高維度的向量空間映射到低維度的空間。即“文本-詞語(yǔ)”映射為“文本-主題”和“主題-詞語(yǔ)”,從而有效地提高了文本信息處理的性能。endprint

現(xiàn)在,計(jì)算機(jī)還不具備人腦的結(jié)構(gòu),對(duì)于自然語(yǔ)言的理解仍然存在一定的困難,所以需將無(wú)結(jié)構(gòu)的自然語(yǔ)言文本轉(zhuǎn)化為可以供計(jì)算機(jī)進(jìn)行識(shí)別的特征文本。向量空間模型(VSM)是20世紀(jì)60年代提出的一種文本表示模型,它將文檔表示成特征元素的集合,來(lái)表示自然語(yǔ)言,但其沒有體現(xiàn)詞語(yǔ)在文檔中出現(xiàn)的頻率,之后,基于詞頻統(tǒng)計(jì)的TF方法被提出。20世紀(jì)80年代,研究人員在TF的基礎(chǔ)上進(jìn)行改進(jìn),又提出TF-IDF(詞頻-逆文檔頻率)技術(shù),該技術(shù)思想簡(jiǎn)單,容易理解,被廣泛應(yīng)用。但是,該技術(shù)無(wú)法捕捉文本內(nèi)部與文本間的統(tǒng)計(jì)特征,并且不能解決同義詞/多義詞的問題,因此精確度不是很高。

于1990年,Deerwester等人提出潛在語(yǔ)義分析LSA(Latent Semantic Analysis)模型,用于挖掘文本與詞語(yǔ)之間所隱含的潛在語(yǔ)義關(guān)聯(lián)[2]。其理論基礎(chǔ)是數(shù)學(xué)中的奇異值矩陣分解(SVD)技術(shù)。其優(yōu)點(diǎn)在于,它能夠?qū)υ~-文檔之間的關(guān)聯(lián)關(guān)系進(jìn)行降維,進(jìn)而減少了存儲(chǔ)規(guī)模,但是在計(jì)算時(shí),迭代次數(shù)非常多,復(fù)雜度呈三次方急劇增長(zhǎng)。

鑒于LSA存在的一些缺點(diǎn),Hofmann等人于1999年提出了一種基于概率的潛在語(yǔ)義分析PLSA(Probabilistic Latent Semantic Analysis)模型。該模型通過引入概率統(tǒng)計(jì)的思想,避免了SVD的大量復(fù)雜度。但是隨著文本和詞的個(gè)數(shù)的增加,模型變得越來(lái)越龐大;EM算法需要進(jìn)行反復(fù)迭代,因此計(jì)算量也很大。于是,Blei等人于2003年提出一種新的主題模型LDA(Latent Dirichlet Allocation),它是一個(gè)層次貝葉斯模型,將模型的參數(shù)也看作是隨機(jī)變量,從而引入控制參數(shù)的參數(shù),實(shí)現(xiàn)徹底的“概率化”。

1.2 相關(guān)工作

中國(guó)少數(shù)民族語(yǔ)言文字分類很多,彝文就是其中的一種,由于計(jì)算機(jī)目前還無(wú)法理解自然語(yǔ)言,所以需將無(wú)結(jié)構(gòu)的自然語(yǔ)言文本轉(zhuǎn)化為可供計(jì)算機(jī)識(shí)別的特征文本。而語(yǔ)料庫(kù)是存儲(chǔ)于計(jì)算機(jī)中,并可利用計(jì)算機(jī)進(jìn)行智能分析的語(yǔ)言素材的總體,是語(yǔ)言文字信息處理工作的基礎(chǔ)。因此,建設(shè)大型的彝文基礎(chǔ)語(yǔ)料庫(kù),不僅為彝語(yǔ)語(yǔ)言文字規(guī)范和標(biāo)準(zhǔn)的制定提供可靠的數(shù)據(jù),也為之后進(jìn)行的文本分類和情感分析工作奠定了基礎(chǔ)。在參考了漢語(yǔ)的既有分類語(yǔ)料庫(kù)的基礎(chǔ)上,結(jié)合已有的彝文語(yǔ)料,該文把彝文文本分類語(yǔ)料庫(kù)分為七類,分別為色情、軍事、化學(xué)醫(yī)療、信息科技、政治、宗教民俗。圖1是其中的一部分。

1.3 模型建立

1.3.1 LDA模型

潛在狄里克雷分布(簡(jiǎn)稱LDA)是文本生成模型中的一種,其基本思想是文本是由潛變量確定的主題隨機(jī)混合而成的,而這些主題又可以表示為詞語(yǔ)的分布。

給定一個(gè)文檔集合,LDA將每個(gè)文檔表示為一個(gè)主題集合,每個(gè)主題是一個(gè)多項(xiàng)式分布,用來(lái)捕獲詞之間的相關(guān)信息。如圖2所示,包含詞、主題和文檔三層結(jié)構(gòu)。其中θ是一個(gè)主題向量,向量的每一列表示每個(gè)主題在文檔出現(xiàn)的概率,該向量為非負(fù)歸一化向量;N表示要生成的文檔的詞語(yǔ)的個(gè)數(shù),W表示生成的詞語(yǔ)W。z表示所選擇的主題,最外層的α和β是語(yǔ)料層次的參數(shù),方框表示反復(fù)進(jìn)行的過程,箭頭表示采樣工作,從圖中可以看出,只需要采樣一次就能夠產(chǎn)生整個(gè)語(yǔ)料。

1.3.2 ?LDA生成文檔

LDA方法使生成的文檔可以包含多個(gè)主題,該模型需要首先選定一個(gè)主題向量θ,從而確定每個(gè)主題被選擇的概率p(θ)。然后在生成每個(gè)詞語(yǔ)的時(shí)候,從主題分布向量θ中選擇一個(gè)主題z,表示給定θ時(shí),主題z的概率分布,具體為θ的值。按主題z的單詞概率分布再生成一個(gè)詞語(yǔ)W,p(W|z)表示給定z時(shí)W的分布,可以看成一個(gè)k×v的矩陣,k為主題的個(gè)數(shù),v為詞語(yǔ)的個(gè)數(shù),每行表示這個(gè)主題對(duì)應(yīng)的單詞的概率分布,即主題z所包含的各個(gè)詞的概率,通過這個(gè)概率分布,按一定的概率生成每個(gè)詞語(yǔ)。其圖模型如圖3所示。

通過對(duì)LDA生成模型的討論,可以知道LDA模型主要是通過給定的輸入彝文語(yǔ)料庫(kù)中學(xué)習(xí)訓(xùn)練兩個(gè)控制參數(shù)和β,確定了這兩個(gè)控制參數(shù)就確定了模型,便可以用來(lái)生成文本。其中和β分別對(duì)應(yīng)以下信息:

α:主題概率p(θ)需要一個(gè)向量參數(shù),即Dirichlet分布參數(shù),從而生成一個(gè)主題θ向量;

β:各個(gè)主題對(duì)應(yīng)的詞語(yǔ)概率分布矩陣p(W|z)。

從上圖可知LDA的聯(lián)合概率為:

(1)

1.3.3 參數(shù)估計(jì)

對(duì)文本的建模主要就是計(jì)算α和β兩個(gè)參數(shù)。可以采用極大似然估計(jì),找出一對(duì)α和β,使得似然函數(shù)值達(dá)到最大。可通過EM算法學(xué)習(xí)出α和β,在求解過程中,遇到后驗(yàn)概率p(θ,z|w)無(wú)法直接求解,需要找到一個(gè)似然函數(shù)下界來(lái)近似求解,每次E-step輸入α和β,再計(jì)算似然函數(shù),經(jīng)過M-step使這個(gè)似然函數(shù)達(dá)到最大化,算出和β,不斷迭代,直到其收斂。

2 主題模型在彝文文本情感分析中的應(yīng)用

文本情感分析,又稱意見挖掘(Opinion Mining),指對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程;屬于計(jì)算語(yǔ)言學(xué)的范疇,涉及到機(jī)器學(xué)習(xí)[3]、數(shù)據(jù)挖掘、自然語(yǔ)言處理等多個(gè)研究領(lǐng)域。與客觀性文本不同的是,主觀色彩濃厚的信息往往蘊(yùn)含著大眾輿論對(duì)問題的看法,對(duì)政府部門具有十分重要的參考價(jià)值,例如:政府各部門需要全面掌握大眾對(duì)其所管轄區(qū)域的新聞事件的思想動(dòng)態(tài),如果采用人工方式來(lái)收集和分析這些海量信息,顯然成本高、效率低并且困難,通過利用計(jì)算機(jī)將非結(jié)構(gòu)化的文本進(jìn)行分類[4]和提取的文本情感分析技術(shù)(Text Sentiment Analysis)應(yīng)運(yùn)而生。通過挖掘網(wǎng)頁(yè)所蘊(yùn)含的主題,以及分析這些主題的情感偏好,來(lái)提高文本情感分析的性能。

從技術(shù)實(shí)現(xiàn)的角度,LDA及其擴(kuò)展模型可以直接應(yīng)用于用戶評(píng)論文本挖掘中。基于此,有些研究人員提出從“詞語(yǔ)-句子-段落-文檔”角度進(jìn)行多粒度劃分的方法。從系統(tǒng)設(shè)計(jì)的角度,基于主題模型的文本情感分析系統(tǒng)主要包括以下部分:信息采集與預(yù)處理(如網(wǎng)頁(yè)爬取、去噪處理、彝文分詞、停用詞處理等)、主題抽取、情感詞抽取(彝文電子詞典已經(jīng)建立)、主題的情感分類或評(píng)分、主題情感摘要生成(方便用戶直接了解主題)、系統(tǒng)評(píng)測(cè)等。

3 結(jié)語(yǔ)

盡管現(xiàn)階段我國(guó)少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情研究系統(tǒng)并不多,但是從推進(jìn)少數(shù)民族地區(qū)的民主管理和社會(huì)穩(wěn)定的長(zhǎng)遠(yuǎn)需求來(lái)看,進(jìn)行少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情領(lǐng)域的理論研究,開發(fā)能夠進(jìn)行智能分析的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),對(duì)維護(hù)國(guó)家民族地區(qū)社會(huì)的繁榮和穩(wěn)定具有非常重要的現(xiàn)實(shí)意義。該文將LDA主題模型應(yīng)用到少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情信息情感分析當(dāng)中,來(lái)對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行深入分析,對(duì)政府部門做出貢獻(xiàn)。

參考文獻(xiàn)

[1] 翁偉,王厚峰.基于LDA的關(guān)鍵詞抽取方法[C]//第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集,2010.

[2] 周博,岑榮偉,劉奕群,等.一種基于文檔相似度的檢索結(jié)果重排序方法[J].中文信息學(xué)報(bào),2010,24(3):1849-1859.

[3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.

[4] 奉國(guó)和.文本分類性能評(píng)價(jià)研究[J].情報(bào)雜志,2011,30(8):66-70.

[5] Wintersong.臺(tái)灣大學(xué)NTUSD-簡(jiǎn)體中文情感極性詞典[DB/OL].[2011-10-25].http://www.datatang.com/data/11837.endprint

現(xiàn)在,計(jì)算機(jī)還不具備人腦的結(jié)構(gòu),對(duì)于自然語(yǔ)言的理解仍然存在一定的困難,所以需將無(wú)結(jié)構(gòu)的自然語(yǔ)言文本轉(zhuǎn)化為可以供計(jì)算機(jī)進(jìn)行識(shí)別的特征文本。向量空間模型(VSM)是20世紀(jì)60年代提出的一種文本表示模型,它將文檔表示成特征元素的集合,來(lái)表示自然語(yǔ)言,但其沒有體現(xiàn)詞語(yǔ)在文檔中出現(xiàn)的頻率,之后,基于詞頻統(tǒng)計(jì)的TF方法被提出。20世紀(jì)80年代,研究人員在TF的基礎(chǔ)上進(jìn)行改進(jìn),又提出TF-IDF(詞頻-逆文檔頻率)技術(shù),該技術(shù)思想簡(jiǎn)單,容易理解,被廣泛應(yīng)用。但是,該技術(shù)無(wú)法捕捉文本內(nèi)部與文本間的統(tǒng)計(jì)特征,并且不能解決同義詞/多義詞的問題,因此精確度不是很高。

于1990年,Deerwester等人提出潛在語(yǔ)義分析LSA(Latent Semantic Analysis)模型,用于挖掘文本與詞語(yǔ)之間所隱含的潛在語(yǔ)義關(guān)聯(lián)[2]。其理論基礎(chǔ)是數(shù)學(xué)中的奇異值矩陣分解(SVD)技術(shù)。其優(yōu)點(diǎn)在于,它能夠?qū)υ~-文檔之間的關(guān)聯(lián)關(guān)系進(jìn)行降維,進(jìn)而減少了存儲(chǔ)規(guī)模,但是在計(jì)算時(shí),迭代次數(shù)非常多,復(fù)雜度呈三次方急劇增長(zhǎng)。

鑒于LSA存在的一些缺點(diǎn),Hofmann等人于1999年提出了一種基于概率的潛在語(yǔ)義分析PLSA(Probabilistic Latent Semantic Analysis)模型。該模型通過引入概率統(tǒng)計(jì)的思想,避免了SVD的大量復(fù)雜度。但是隨著文本和詞的個(gè)數(shù)的增加,模型變得越來(lái)越龐大;EM算法需要進(jìn)行反復(fù)迭代,因此計(jì)算量也很大。于是,Blei等人于2003年提出一種新的主題模型LDA(Latent Dirichlet Allocation),它是一個(gè)層次貝葉斯模型,將模型的參數(shù)也看作是隨機(jī)變量,從而引入控制參數(shù)的參數(shù),實(shí)現(xiàn)徹底的“概率化”。

1.2 相關(guān)工作

中國(guó)少數(shù)民族語(yǔ)言文字分類很多,彝文就是其中的一種,由于計(jì)算機(jī)目前還無(wú)法理解自然語(yǔ)言,所以需將無(wú)結(jié)構(gòu)的自然語(yǔ)言文本轉(zhuǎn)化為可供計(jì)算機(jī)識(shí)別的特征文本。而語(yǔ)料庫(kù)是存儲(chǔ)于計(jì)算機(jī)中,并可利用計(jì)算機(jī)進(jìn)行智能分析的語(yǔ)言素材的總體,是語(yǔ)言文字信息處理工作的基礎(chǔ)。因此,建設(shè)大型的彝文基礎(chǔ)語(yǔ)料庫(kù),不僅為彝語(yǔ)語(yǔ)言文字規(guī)范和標(biāo)準(zhǔn)的制定提供可靠的數(shù)據(jù),也為之后進(jìn)行的文本分類和情感分析工作奠定了基礎(chǔ)。在參考了漢語(yǔ)的既有分類語(yǔ)料庫(kù)的基礎(chǔ)上,結(jié)合已有的彝文語(yǔ)料,該文把彝文文本分類語(yǔ)料庫(kù)分為七類,分別為色情、軍事、化學(xué)醫(yī)療、信息科技、政治、宗教民俗。圖1是其中的一部分。

1.3 模型建立

1.3.1 LDA模型

潛在狄里克雷分布(簡(jiǎn)稱LDA)是文本生成模型中的一種,其基本思想是文本是由潛變量確定的主題隨機(jī)混合而成的,而這些主題又可以表示為詞語(yǔ)的分布。

給定一個(gè)文檔集合,LDA將每個(gè)文檔表示為一個(gè)主題集合,每個(gè)主題是一個(gè)多項(xiàng)式分布,用來(lái)捕獲詞之間的相關(guān)信息。如圖2所示,包含詞、主題和文檔三層結(jié)構(gòu)。其中θ是一個(gè)主題向量,向量的每一列表示每個(gè)主題在文檔出現(xiàn)的概率,該向量為非負(fù)歸一化向量;N表示要生成的文檔的詞語(yǔ)的個(gè)數(shù),W表示生成的詞語(yǔ)W。z表示所選擇的主題,最外層的α和β是語(yǔ)料層次的參數(shù),方框表示反復(fù)進(jìn)行的過程,箭頭表示采樣工作,從圖中可以看出,只需要采樣一次就能夠產(chǎn)生整個(gè)語(yǔ)料。

1.3.2 ?LDA生成文檔

LDA方法使生成的文檔可以包含多個(gè)主題,該模型需要首先選定一個(gè)主題向量θ,從而確定每個(gè)主題被選擇的概率p(θ)。然后在生成每個(gè)詞語(yǔ)的時(shí)候,從主題分布向量θ中選擇一個(gè)主題z,表示給定θ時(shí),主題z的概率分布,具體為θ的值。按主題z的單詞概率分布再生成一個(gè)詞語(yǔ)W,p(W|z)表示給定z時(shí)W的分布,可以看成一個(gè)k×v的矩陣,k為主題的個(gè)數(shù),v為詞語(yǔ)的個(gè)數(shù),每行表示這個(gè)主題對(duì)應(yīng)的單詞的概率分布,即主題z所包含的各個(gè)詞的概率,通過這個(gè)概率分布,按一定的概率生成每個(gè)詞語(yǔ)。其圖模型如圖3所示。

通過對(duì)LDA生成模型的討論,可以知道LDA模型主要是通過給定的輸入彝文語(yǔ)料庫(kù)中學(xué)習(xí)訓(xùn)練兩個(gè)控制參數(shù)和β,確定了這兩個(gè)控制參數(shù)就確定了模型,便可以用來(lái)生成文本。其中和β分別對(duì)應(yīng)以下信息:

α:主題概率p(θ)需要一個(gè)向量參數(shù),即Dirichlet分布參數(shù),從而生成一個(gè)主題θ向量;

β:各個(gè)主題對(duì)應(yīng)的詞語(yǔ)概率分布矩陣p(W|z)。

從上圖可知LDA的聯(lián)合概率為:

(1)

1.3.3 參數(shù)估計(jì)

對(duì)文本的建模主要就是計(jì)算α和β兩個(gè)參數(shù)。可以采用極大似然估計(jì),找出一對(duì)α和β,使得似然函數(shù)值達(dá)到最大。可通過EM算法學(xué)習(xí)出α和β,在求解過程中,遇到后驗(yàn)概率p(θ,z|w)無(wú)法直接求解,需要找到一個(gè)似然函數(shù)下界來(lái)近似求解,每次E-step輸入α和β,再計(jì)算似然函數(shù),經(jīng)過M-step使這個(gè)似然函數(shù)達(dá)到最大化,算出和β,不斷迭代,直到其收斂。

2 主題模型在彝文文本情感分析中的應(yīng)用

文本情感分析,又稱意見挖掘(Opinion Mining),指對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程;屬于計(jì)算語(yǔ)言學(xué)的范疇,涉及到機(jī)器學(xué)習(xí)[3]、數(shù)據(jù)挖掘、自然語(yǔ)言處理等多個(gè)研究領(lǐng)域。與客觀性文本不同的是,主觀色彩濃厚的信息往往蘊(yùn)含著大眾輿論對(duì)問題的看法,對(duì)政府部門具有十分重要的參考價(jià)值,例如:政府各部門需要全面掌握大眾對(duì)其所管轄區(qū)域的新聞事件的思想動(dòng)態(tài),如果采用人工方式來(lái)收集和分析這些海量信息,顯然成本高、效率低并且困難,通過利用計(jì)算機(jī)將非結(jié)構(gòu)化的文本進(jìn)行分類[4]和提取的文本情感分析技術(shù)(Text Sentiment Analysis)應(yīng)運(yùn)而生。通過挖掘網(wǎng)頁(yè)所蘊(yùn)含的主題,以及分析這些主題的情感偏好,來(lái)提高文本情感分析的性能。

從技術(shù)實(shí)現(xiàn)的角度,LDA及其擴(kuò)展模型可以直接應(yīng)用于用戶評(píng)論文本挖掘中。基于此,有些研究人員提出從“詞語(yǔ)-句子-段落-文檔”角度進(jìn)行多粒度劃分的方法。從系統(tǒng)設(shè)計(jì)的角度,基于主題模型的文本情感分析系統(tǒng)主要包括以下部分:信息采集與預(yù)處理(如網(wǎng)頁(yè)爬取、去噪處理、彝文分詞、停用詞處理等)、主題抽取、情感詞抽取(彝文電子詞典已經(jīng)建立)、主題的情感分類或評(píng)分、主題情感摘要生成(方便用戶直接了解主題)、系統(tǒng)評(píng)測(cè)等。

3 結(jié)語(yǔ)

盡管現(xiàn)階段我國(guó)少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情研究系統(tǒng)并不多,但是從推進(jìn)少數(shù)民族地區(qū)的民主管理和社會(huì)穩(wěn)定的長(zhǎng)遠(yuǎn)需求來(lái)看,進(jìn)行少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情領(lǐng)域的理論研究,開發(fā)能夠進(jìn)行智能分析的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),對(duì)維護(hù)國(guó)家民族地區(qū)社會(huì)的繁榮和穩(wěn)定具有非常重要的現(xiàn)實(shí)意義。該文將LDA主題模型應(yīng)用到少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情信息情感分析當(dāng)中,來(lái)對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行深入分析,對(duì)政府部門做出貢獻(xiàn)。

參考文獻(xiàn)

[1] 翁偉,王厚峰.基于LDA的關(guān)鍵詞抽取方法[C]//第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集,2010.

[2] 周博,岑榮偉,劉奕群,等.一種基于文檔相似度的檢索結(jié)果重排序方法[J].中文信息學(xué)報(bào),2010,24(3):1849-1859.

[3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.

[4] 奉國(guó)和.文本分類性能評(píng)價(jià)研究[J].情報(bào)雜志,2011,30(8):66-70.

[5] Wintersong.臺(tái)灣大學(xué)NTUSD-簡(jiǎn)體中文情感極性詞典[DB/OL].[2011-10-25].http://www.datatang.com/data/11837.endprint

現(xiàn)在,計(jì)算機(jī)還不具備人腦的結(jié)構(gòu),對(duì)于自然語(yǔ)言的理解仍然存在一定的困難,所以需將無(wú)結(jié)構(gòu)的自然語(yǔ)言文本轉(zhuǎn)化為可以供計(jì)算機(jī)進(jìn)行識(shí)別的特征文本。向量空間模型(VSM)是20世紀(jì)60年代提出的一種文本表示模型,它將文檔表示成特征元素的集合,來(lái)表示自然語(yǔ)言,但其沒有體現(xiàn)詞語(yǔ)在文檔中出現(xiàn)的頻率,之后,基于詞頻統(tǒng)計(jì)的TF方法被提出。20世紀(jì)80年代,研究人員在TF的基礎(chǔ)上進(jìn)行改進(jìn),又提出TF-IDF(詞頻-逆文檔頻率)技術(shù),該技術(shù)思想簡(jiǎn)單,容易理解,被廣泛應(yīng)用。但是,該技術(shù)無(wú)法捕捉文本內(nèi)部與文本間的統(tǒng)計(jì)特征,并且不能解決同義詞/多義詞的問題,因此精確度不是很高。

于1990年,Deerwester等人提出潛在語(yǔ)義分析LSA(Latent Semantic Analysis)模型,用于挖掘文本與詞語(yǔ)之間所隱含的潛在語(yǔ)義關(guān)聯(lián)[2]。其理論基礎(chǔ)是數(shù)學(xué)中的奇異值矩陣分解(SVD)技術(shù)。其優(yōu)點(diǎn)在于,它能夠?qū)υ~-文檔之間的關(guān)聯(lián)關(guān)系進(jìn)行降維,進(jìn)而減少了存儲(chǔ)規(guī)模,但是在計(jì)算時(shí),迭代次數(shù)非常多,復(fù)雜度呈三次方急劇增長(zhǎng)。

鑒于LSA存在的一些缺點(diǎn),Hofmann等人于1999年提出了一種基于概率的潛在語(yǔ)義分析PLSA(Probabilistic Latent Semantic Analysis)模型。該模型通過引入概率統(tǒng)計(jì)的思想,避免了SVD的大量復(fù)雜度。但是隨著文本和詞的個(gè)數(shù)的增加,模型變得越來(lái)越龐大;EM算法需要進(jìn)行反復(fù)迭代,因此計(jì)算量也很大。于是,Blei等人于2003年提出一種新的主題模型LDA(Latent Dirichlet Allocation),它是一個(gè)層次貝葉斯模型,將模型的參數(shù)也看作是隨機(jī)變量,從而引入控制參數(shù)的參數(shù),實(shí)現(xiàn)徹底的“概率化”。

1.2 相關(guān)工作

中國(guó)少數(shù)民族語(yǔ)言文字分類很多,彝文就是其中的一種,由于計(jì)算機(jī)目前還無(wú)法理解自然語(yǔ)言,所以需將無(wú)結(jié)構(gòu)的自然語(yǔ)言文本轉(zhuǎn)化為可供計(jì)算機(jī)識(shí)別的特征文本。而語(yǔ)料庫(kù)是存儲(chǔ)于計(jì)算機(jī)中,并可利用計(jì)算機(jī)進(jìn)行智能分析的語(yǔ)言素材的總體,是語(yǔ)言文字信息處理工作的基礎(chǔ)。因此,建設(shè)大型的彝文基礎(chǔ)語(yǔ)料庫(kù),不僅為彝語(yǔ)語(yǔ)言文字規(guī)范和標(biāo)準(zhǔn)的制定提供可靠的數(shù)據(jù),也為之后進(jìn)行的文本分類和情感分析工作奠定了基礎(chǔ)。在參考了漢語(yǔ)的既有分類語(yǔ)料庫(kù)的基礎(chǔ)上,結(jié)合已有的彝文語(yǔ)料,該文把彝文文本分類語(yǔ)料庫(kù)分為七類,分別為色情、軍事、化學(xué)醫(yī)療、信息科技、政治、宗教民俗。圖1是其中的一部分。

1.3 模型建立

1.3.1 LDA模型

潛在狄里克雷分布(簡(jiǎn)稱LDA)是文本生成模型中的一種,其基本思想是文本是由潛變量確定的主題隨機(jī)混合而成的,而這些主題又可以表示為詞語(yǔ)的分布。

給定一個(gè)文檔集合,LDA將每個(gè)文檔表示為一個(gè)主題集合,每個(gè)主題是一個(gè)多項(xiàng)式分布,用來(lái)捕獲詞之間的相關(guān)信息。如圖2所示,包含詞、主題和文檔三層結(jié)構(gòu)。其中θ是一個(gè)主題向量,向量的每一列表示每個(gè)主題在文檔出現(xiàn)的概率,該向量為非負(fù)歸一化向量;N表示要生成的文檔的詞語(yǔ)的個(gè)數(shù),W表示生成的詞語(yǔ)W。z表示所選擇的主題,最外層的α和β是語(yǔ)料層次的參數(shù),方框表示反復(fù)進(jìn)行的過程,箭頭表示采樣工作,從圖中可以看出,只需要采樣一次就能夠產(chǎn)生整個(gè)語(yǔ)料。

1.3.2 ?LDA生成文檔

LDA方法使生成的文檔可以包含多個(gè)主題,該模型需要首先選定一個(gè)主題向量θ,從而確定每個(gè)主題被選擇的概率p(θ)。然后在生成每個(gè)詞語(yǔ)的時(shí)候,從主題分布向量θ中選擇一個(gè)主題z,表示給定θ時(shí),主題z的概率分布,具體為θ的值。按主題z的單詞概率分布再生成一個(gè)詞語(yǔ)W,p(W|z)表示給定z時(shí)W的分布,可以看成一個(gè)k×v的矩陣,k為主題的個(gè)數(shù),v為詞語(yǔ)的個(gè)數(shù),每行表示這個(gè)主題對(duì)應(yīng)的單詞的概率分布,即主題z所包含的各個(gè)詞的概率,通過這個(gè)概率分布,按一定的概率生成每個(gè)詞語(yǔ)。其圖模型如圖3所示。

通過對(duì)LDA生成模型的討論,可以知道LDA模型主要是通過給定的輸入彝文語(yǔ)料庫(kù)中學(xué)習(xí)訓(xùn)練兩個(gè)控制參數(shù)和β,確定了這兩個(gè)控制參數(shù)就確定了模型,便可以用來(lái)生成文本。其中和β分別對(duì)應(yīng)以下信息:

α:主題概率p(θ)需要一個(gè)向量參數(shù),即Dirichlet分布參數(shù),從而生成一個(gè)主題θ向量;

β:各個(gè)主題對(duì)應(yīng)的詞語(yǔ)概率分布矩陣p(W|z)。

從上圖可知LDA的聯(lián)合概率為:

(1)

1.3.3 參數(shù)估計(jì)

對(duì)文本的建模主要就是計(jì)算α和β兩個(gè)參數(shù)。可以采用極大似然估計(jì),找出一對(duì)α和β,使得似然函數(shù)值達(dá)到最大。可通過EM算法學(xué)習(xí)出α和β,在求解過程中,遇到后驗(yàn)概率p(θ,z|w)無(wú)法直接求解,需要找到一個(gè)似然函數(shù)下界來(lái)近似求解,每次E-step輸入α和β,再計(jì)算似然函數(shù),經(jīng)過M-step使這個(gè)似然函數(shù)達(dá)到最大化,算出和β,不斷迭代,直到其收斂。

2 主題模型在彝文文本情感分析中的應(yīng)用

文本情感分析,又稱意見挖掘(Opinion Mining),指對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程;屬于計(jì)算語(yǔ)言學(xué)的范疇,涉及到機(jī)器學(xué)習(xí)[3]、數(shù)據(jù)挖掘、自然語(yǔ)言處理等多個(gè)研究領(lǐng)域。與客觀性文本不同的是,主觀色彩濃厚的信息往往蘊(yùn)含著大眾輿論對(duì)問題的看法,對(duì)政府部門具有十分重要的參考價(jià)值,例如:政府各部門需要全面掌握大眾對(duì)其所管轄區(qū)域的新聞事件的思想動(dòng)態(tài),如果采用人工方式來(lái)收集和分析這些海量信息,顯然成本高、效率低并且困難,通過利用計(jì)算機(jī)將非結(jié)構(gòu)化的文本進(jìn)行分類[4]和提取的文本情感分析技術(shù)(Text Sentiment Analysis)應(yīng)運(yùn)而生。通過挖掘網(wǎng)頁(yè)所蘊(yùn)含的主題,以及分析這些主題的情感偏好,來(lái)提高文本情感分析的性能。

從技術(shù)實(shí)現(xiàn)的角度,LDA及其擴(kuò)展模型可以直接應(yīng)用于用戶評(píng)論文本挖掘中。基于此,有些研究人員提出從“詞語(yǔ)-句子-段落-文檔”角度進(jìn)行多粒度劃分的方法。從系統(tǒng)設(shè)計(jì)的角度,基于主題模型的文本情感分析系統(tǒng)主要包括以下部分:信息采集與預(yù)處理(如網(wǎng)頁(yè)爬取、去噪處理、彝文分詞、停用詞處理等)、主題抽取、情感詞抽取(彝文電子詞典已經(jīng)建立)、主題的情感分類或評(píng)分、主題情感摘要生成(方便用戶直接了解主題)、系統(tǒng)評(píng)測(cè)等。

3 結(jié)語(yǔ)

盡管現(xiàn)階段我國(guó)少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情研究系統(tǒng)并不多,但是從推進(jìn)少數(shù)民族地區(qū)的民主管理和社會(huì)穩(wěn)定的長(zhǎng)遠(yuǎn)需求來(lái)看,進(jìn)行少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情領(lǐng)域的理論研究,開發(fā)能夠進(jìn)行智能分析的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),對(duì)維護(hù)國(guó)家民族地區(qū)社會(huì)的繁榮和穩(wěn)定具有非常重要的現(xiàn)實(shí)意義。該文將LDA主題模型應(yīng)用到少數(shù)民族語(yǔ)言網(wǎng)絡(luò)輿情信息情感分析當(dāng)中,來(lái)對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行深入分析,對(duì)政府部門做出貢獻(xiàn)。

參考文獻(xiàn)

[1] 翁偉,王厚峰.基于LDA的關(guān)鍵詞抽取方法[C]//第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集,2010.

[2] 周博,岑榮偉,劉奕群,等.一種基于文檔相似度的檢索結(jié)果重排序方法[J].中文信息學(xué)報(bào),2010,24(3):1849-1859.

[3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.

[4] 奉國(guó)和.文本分類性能評(píng)價(jià)研究[J].情報(bào)雜志,2011,30(8):66-70.

[5] Wintersong.臺(tái)灣大學(xué)NTUSD-簡(jiǎn)體中文情感極性詞典[DB/OL].[2011-10-25].http://www.datatang.com/data/11837.endprint

主站蜘蛛池模板: 亚洲国产理论片在线播放| 亚洲色图欧美在线| 久久黄色免费电影| 国产免费高清无需播放器| 国产成人亚洲日韩欧美电影| 国产屁屁影院| 久久黄色小视频| 久久亚洲美女精品国产精品| 3D动漫精品啪啪一区二区下载| 成人一区专区在线观看| 国产一区二区三区视频| 黑色丝袜高跟国产在线91| 国产99精品久久| 91成人免费观看| 欧美成人A视频| 人妻21p大胆| 亚洲国产精品一区二区第一页免| 福利片91| www.亚洲一区| 国产高清国内精品福利| 中文字幕天无码久久精品视频免费 | 人人91人人澡人人妻人人爽| 国产91视频免费| 国产精品hd在线播放| 成人午夜久久| 女人av社区男人的天堂| 免费a在线观看播放| 国产成人AV男人的天堂| 欧美一道本| 一本无码在线观看| 无码一区二区波多野结衣播放搜索| 国产成a人片在线播放| 白浆视频在线观看| 欧美日本不卡| 国产白浆在线观看| 老色鬼欧美精品| 国产人人干| 久久综合色天堂av| 久久精品国产精品一区二区| 欧美人与动牲交a欧美精品| 亚洲国产天堂久久综合226114 | 小13箩利洗澡无码视频免费网站| 午夜国产大片免费观看| 亚洲国产天堂久久九九九| 欧美午夜小视频| 真实国产乱子伦高清| 丁香五月激情图片| 日韩欧美中文字幕在线韩免费| 亚洲国产综合精品一区| 国产精品区网红主播在线观看| 高清视频一区| 香蕉蕉亚亚洲aav综合| 国产h视频免费观看| 亚洲精品无码AⅤ片青青在线观看| 亚国产欧美在线人成| 国产乱子伦无码精品小说 | a级毛片免费看| www成人国产在线观看网站| 国产精品久久久久久久久久98| 成人国产精品2021| 亚洲欧美日韩视频一区| 在线视频97| 国产黄网永久免费| 国产欧美在线视频免费| 日韩国产另类| 青青青国产精品国产精品美女| 亚洲欧洲日韩久久狠狠爱| 97影院午夜在线观看视频| 2021精品国产自在现线看| 依依成人精品无v国产| 国产精品美女免费视频大全| 久久夜色精品| av无码一区二区三区在线| 亚洲福利视频网址| 午夜小视频在线| 亚洲精品第一页不卡| 一级福利视频| 国产屁屁影院| AV无码无在线观看免费| 国产精品香蕉在线| 日韩一区二区三免费高清| 国产精品亚洲五月天高清|