999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

詞關聯規則層狀稀疏主題編碼模型

2019-03-13 05:29:26曹中華夏家莉李光泉張志斌
小型微型計算機系統 2019年3期
關鍵詞:關聯語義規則

曹中華,夏家莉,李光泉,張志斌

1(江西財經大學 信息管理學院,南昌 330032) 2(江西師范大學 軟件學院,南昌 330022)

1 引 言

隱含主題模型(LDA)[1]是現今最常用的文本語義獲取方法之一,自隱含主題模型提出至今,為提高模型的文本表示效果,或應用于某特定領域,關于該模型的改進及應用研究一直非常活躍,且已經在許多領域取得成功.但由于主題模型忽略了詞之間的語義關系和背景知識,造成其提取的主題難以解釋,語義連貫性差.文獻[2]較早提出將詞之間的關聯和相似性規則應用于主題模型,用于提高主題模型的語義效果,該模型設計了兩種領域詞關聯規則:must-link和cannot-link,而后涌現出了許多各方面的詞關聯規則主題模型研究[3-6],其涉及到主題概念演化、情感判斷、熱點事件分析等.

研究也表明,模型特征參數常常是稀疏的,通過給損失函數添加LASSO[7]規則化函數,可以避免模型過擬合,得到稀疏的特征參數,且具有稀疏性的特征參數能夠更好的表示數據內涵.為此有專家提出利用LASSO稀疏性理論,通過構造主題特征參數的l1懲罰函數,實現主題特征參數的自動降維和選擇,從而提高文本主題表示效果.文獻[8]首先提出稀疏主題模型(STC),其以連續性概率分布模擬文檔的概率生成過程,文本中的每個詞用向量表示,將其映射到標準主題基上,使用泊松分布擬合文本內的詞頻數,通過對參數進行l1規則化,實現參數的稀疏性,學習得到文本的主題分布和標準主題基參數.

現實數據本身具有許多結構化的先驗信息,組稀疏將特征按組結構分類,實現組參數的同時選擇和消除.由于STC模型只是考慮了詞編碼向量的稀疏性,并沒有考慮不同詞在相同主題組內的關聯性,為此文獻[9]提出了組稀疏主題模型(GSTC),通過引入詞在主題內的組結構化信息而構造懲罰項.組約束[10]可以將文本中出現的詞編碼分配在少數幾個主題組中,從而提高主題模型表示效果.文獻[11]使用稀疏組約束使每個組內編碼也具有稀疏性.

組稀疏主題編碼(GSTC)只考慮到文本內所有的詞在主題內具有關聯性,并沒有深入考慮不同詞之間的語義關聯,而根據概率方式的主題詞關聯模型研究結果[2-5],更精細化的組結構應該是具有一定語義關系的詞才應該屬于一組.因此本文提出兩種層狀稀疏編碼模型(GHSTC、SHSTC),在K個基組上,根據詞之間的關系細分為許多語義相關的詞組,所有這些組之間具有重疊關系,形成樹形層狀結構,構造層狀編碼規則項,將詞之間的各種不同關聯性分解到不同的組,并賦予每個組相關的權重,而得到更優的主題稀疏編碼效果.

本文下面內容安排如下:首先介紹了詞組的定義和基本性質,在詞組基礎上構建了兩種層狀稀疏規則策略,并描述了層節點的權重分配方法,然后給出了模型的參數計算方法,最后對模型的實驗效果進行分析和評價.文中所有范數都表示2范數.

2 詞分組

定義1.設有詞表WD={vi|v是語料中存在的詞條,i是詞條的唯一編號,1≤i≤N,N表示語料中詞條的個數},詞表元素滿足條件 ?vi,vj∈WD,vi≠vj.

文本抽象地由詞條組成,記為textd={vi,…,vl},將詞條關聯到不同的主題詞集,通過分析文本中出現的主題詞集組,尋找具有詞集關聯的主題.

假設主題由詞集WS描述,通常稱之為主題詞集,WS?WD,主題詞集可以是屬于同一個概念的詞集、說明某對象的同義和反義詞集等多種不同情況.比如:詞集可以是表示態度的詞條,或者表示高度的詞條、或者表示經濟發展的詞條等,詞集可以通過多種方式獲得,如WordNet[12],Brown clustering詞聚類[13]或Word2vect[14]等.所有主題詞集用WSS={WS1,…,WSh}表示.

性質1.關聯主題詞集是已經分類的WS的子集;

性質2.文本可能具有多個關聯主題詞集;

證明:由定義可知,如?vi,vi∈textd,則?WS(vi)d,vi∈WS(vi)d,如果文本內所有詞的WS(vi)d都一樣,則textd內詞只屬于一個關聯主題詞集,否則textd具有多個關聯主題詞集.

性質3.文本中的詞條可能關聯到多個關聯主題詞集,但是,主關聯詞集是唯一的.

3 規則樹構建策略

為了分析方便,文本常常使用詞袋方式表示textd-p={wi,…,wl},元素wi表示詞條vi在該文本的頻數.

定義4.所有訓練文本共享基矩陣β∈K×N,K表示主題的個數,βki表示詞條vi在第k個基的概率值,且每個基向量βk.∈N滿足單純性條件.

定義5.文本textd-p的參數矩陣Sd∈K×|textd-p|,其中ski表示textd-p中vi在第K個主題中的重要性參數,且ski≥0.參數由人工賦初值,通過后續訓練分析進行調整.

3.1 一般規則樹構建策略:

針對文本textd-p構建K棵樹,其中,第k棵樹的根節點為root,root關聯的數據為參數Ω={ski,…,skl},root有|WSSd|個兒子節點,即兒子節點分別與一個關聯主題詞集相關,第j個兒子節點Node(j)與數據Ωj={ski|vi∈WS(vi)d}關聯,由此,形成一棵二級層狀規則樹,稱該規則樹為一般規則樹(GHSTC).

一般規則樹根節點和其子節點內參數的集合滿足如下條件:

1)Ωj?Ω,

2)Ωo∪,…,∪Ω|WSSd|=Ω;

3)任意兒子節點參數內容交集為?.如圖1所示.

圖1 一般規則樹(GHSTC)Fig.1 General regularization tree

3.2 稀疏規則樹構建策略:

在一般規則樹中,當葉子節點滿足條件|Ωj|>1時,將葉子節點內參數繼續分解,使分解后的每個葉子節點僅與一個詞編碼相關聯,得到稀疏規則樹(SHSTC),如圖2所示.稀疏規則樹是一般規則樹的特殊情況,它的葉子節點只有一個詞參數編碼.

圖2 稀疏規則樹(SHSTC)Fig.2 Sparse regularization tree

3.3 規則樹邊權重設置策略:

3.4 規則樹節點約束權重設置策略

設規則樹中,根節點的約束權重為λ,非根節點的約束權重記為WNode(m):WNode(m)=ajm*WNode(j),其中Node(j)是Node(m)的父節點,樹形結構情況如圖3所示.

圖3 權重樹結構圖Fig.3 Structure of the weight tree

4 層狀規則稀疏模型

4.1 模型構建

(1)

負對數似然損失函數表示為:

(2)

具有層狀規則項的目標函數為:

(3)

所有文本的負對數似然函數表示為:

(4)

需要優化求解的參數為:β∈K×N,Θ={S1,S2,…,SM},通過擬和最小化文本內各詞的出現頻數,可以得到文本的參數矩陣Sd和全局基矩陣β的值,模型優化過程采用分段優化方法,先固定基β,優化每個文本中的詞編碼Sd;然后固定Θ,優化公共基β.

4.2 參數Θ優化求解

由于每個文本相互獨立,則每個文本內的詞編碼值可以分別計算,引入一個新變量z,滿足約束條件z=s,則目標優化函數使用ADMM[16]優化算法表示為式(5),迭代求解過程表示為式(6),(7),(8):

(5)

(6)

(7)

uk+1:=uk+(sk+1-zk+1)

(8)

文本中詞n第k維的編碼最優值snk等于:

(9)

其中τ=βnk-ρ(znk-unk),μ=∑i≠kβnisni.

4.3 基β優化求解

在求出所有文本的編碼Θ后,基β的求解可以使用投影梯度下降法實現,且滿足βk.=1約束,采用文獻[19]提出的算法可以實現高效求解.綜上所述GHSTC或SHSTC模型算法可以描述如下:

算法.獲取詞的編碼Θ和主題基β

輸入:文本的詞頻數,詞集關系

輸出:詞的編碼Θ和主題基β

Algorithms.Calcute Word Code And Beta(doc,R){

1 Initialization ParameterΘ,β

2 while not converge

3 for each doc

4 while not converge

5 for each word in doc

6 Calculate each word′s s code;

7 updateβ;

8 returnΘ,β;

9 }

5 實驗分析

為得到主題詞集,本文使用WordNet詞典和Word2vec模型方法,WordNet是一個語義關聯的詞典,每個詞語可對應到多個不同的語義,且每個語義又可能對應多個不同的詞,WordNet中提供了多種描述詞之間相似性的接口,但是缺少對形容詞等的相似性計算方法.Word2vec模型是谷歌開源的一款NLP工具,模型假設相似語義的詞具有相同的相鄰詞,通過學習目標詞和相鄰詞之間的關系,相近語義的詞將得到相近的詞向量表示.可以使用K-Means方法得到訓練文本中相似語義的詞集.結合二者結果,構建了一批語義相關詞集,并用于本文的文本稀疏編碼計算.

論文實驗在20-Newsgroup數據集和Reuters21578數據集上進行,20-Newsgroup數據集包括有20個不同的新聞組,實驗從Sklearn數據集中選取了18846個文本,取11314個文本作為訓練數據,7532個文本作為測試數據.Reuters21578數據集采用ModApte劃分方法,具有多類別標簽的文本被舍棄,選取8982個文本作為訓練數據,2246個文本作為測試數據.實驗數據使用NLTK庫去除了常見停用詞,并去除了數字、高頻、低頻詞等.經過預處理后20-Newgroup含有7176個單詞,Reuters21578含有7614個單詞.

實驗主要比較了算法的主題一致性及分類效果.主題一致性是用來評估各種主題模型的一種度量方法,每個主題都由單詞組成,取每個主題中概率最高的20個單詞作為主題代表詞,并將其用于描述該主題.通過計算主題代表詞之間一致性可以得到主題模型性能,一個好的模型將產生連貫的主題代表詞,更高的主題一致性值.主題一致性值的計算方法有多種,實驗效果選擇用Gensim環境下CV[16,17]方法計算得到,兩種數據集下的主題一致性結果分別如圖4、圖5所示.

圖4 20-newsgroup 主題一致性值Fig.4 20-newsgroup topic coherence values

文本分類效果計算使用文本主題分布值作為輸入參數,本文模型和GSTC模型一樣,在模型參數優化過程中,并沒有求得每篇文本的主題分布θ∈K×M,通過統計每篇文本中所有詞在不同主題下的擬合詞頻數,可以計算得到文本的主題分布,文本d的第k個主題的參數值計算方法是:使用訓練文本主題參數訓練SVM支持向量機,該支持向量機將用于獲得測試文本的分類效果,20-Newsgroup分類目標標簽為20個類別,Reuters21578分類目標標簽為46個類別,其分類效果分別如圖6、圖7所示.

圖5 Reuters21578 主題一致性值Fig.5 Reuters21578 topic coherence values

從實驗結果可以看出考慮編碼相關性的GSTC,GHSTC和SHSTC模型的結果都比STC模型效果好,主題一致性最多提升了5%,分類效果最多提升了3%,這主要是由于GSTC、GHSTC和SHSTC模型考慮到了詞編碼之間的關聯性,而STC只是約束了單個詞編碼的稀疏性.GHSTC和SHSTC模型的結果比較GSTC一致性、分類效果最多都提升了2%,這主要是GHSTC和SHSTC不僅考慮到所有詞在不同主題組內的編碼相關性,還仔細考慮了多個不同詞組集內編碼的關聯性,其結果總體優于GSTC結果.

圖6 20-newsgroup分類結果Fig.6 20-newsgroup classification results

20-newsgroup數據集模型效果在主題數是100左右達到最優,Reuters21578數據集模型效果在主題數是60左右達到最優.實驗在選擇GHSTC和SHSTC的λ值時,將GSTC模型通過交叉校驗得到組約束參數作為其參考值,規則樹權重值可以選用每個組的大小規范化后的值.實驗中也發現雖然GHSTC和SHSTC效果比較其它模型結果較好,但是STC、GSTC模型不需要前期的預處理工作,模型計算簡單,GHSTC和SHSTC還會受到文本內相似詞集情況的影響.

圖7 Reuters21578分類結果Fig.7 Reuters21578 classification results

6 結束語

本文描述了兩種層狀主題模型,模型通過詞分組預處理,得到關聯的詞集,通過詞集可以構造層狀結構化先驗信息,而應用于主題編碼模型.實驗表明其可以提高主題編碼模型效果,學習到更好的文本主題信息.展望下階段的工作,將嘗試用詞之間的序列信息構造主題模型,提高主題的效果.

猜你喜歡
關聯語義規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
語言與語義
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: jizz国产视频| 久久久久久久久亚洲精品| 黄色在线网| 亚洲免费福利视频| 伦伦影院精品一区| 国产噜噜在线视频观看| 亚洲成人在线网| 日本成人精品视频| 亚洲第一成年网| 国产福利小视频在线播放观看| 青青草a国产免费观看| 久久综合丝袜长腿丝袜| 午夜免费视频网站| 国产亚洲高清视频| 国产在线自在拍91精品黑人| 欧美一区二区三区香蕉视| 全午夜免费一级毛片| 国产综合亚洲欧洲区精品无码| 国产精品亚洲专区一区| 欧美激情福利| 欧美日韩精品一区二区在线线| 亚洲精品自在线拍| 亚洲中文字幕无码mv| 超碰免费91| 国产青榴视频在线观看网站| 一本综合久久| 青青操国产| 国产成人欧美| 亚洲综合在线网| a毛片在线播放| 精品国产Ⅴ无码大片在线观看81| 免费人成在线观看视频色| 欧美A级V片在线观看| 中国丰满人妻无码束缚啪啪| 美女裸体18禁网站| 在线国产欧美| 国产三级毛片| a毛片在线播放| 国产一级毛片网站| 亚洲无码熟妇人妻AV在线| 中文字幕免费在线视频| 57pao国产成视频免费播放| 国产综合精品一区二区| 欧美午夜网站| 一级成人欧美一区在线观看| 亚洲欧美不卡中文字幕| 中文毛片无遮挡播放免费| 国产精品尹人在线观看| 亚洲狼网站狼狼鲁亚洲下载| 欧美亚洲一区二区三区导航| 天天摸夜夜操| 久久综合丝袜长腿丝袜| 国产成a人片在线播放| 国产福利在线免费观看| 日本黄色不卡视频| 99视频在线精品免费观看6| 五月天婷婷网亚洲综合在线| 亚洲日本中文综合在线| 久热re国产手机在线观看| 日韩无码白| 免费大黄网站在线观看| 国产99在线| 久久久国产精品免费视频| 91青青草视频在线观看的| 国产靠逼视频| 97人人模人人爽人人喊小说| 国产成+人+综合+亚洲欧美| 精品久久久久久久久久久| 亚洲中文字幕在线观看| 高清国产在线| 国产成人精品男人的天堂| 青青青国产在线播放| 国产不卡网| 日韩色图在线观看| 91黄色在线观看| 亚洲综合第一页| 色播五月婷婷| 在线精品亚洲一区二区古装| 2048国产精品原创综合在线| 伊人久久大线影院首页| 欧洲熟妇精品视频| 色哟哟国产精品|