張新豪 陳知行
1(黃河科技學(xué)院現(xiàn)代教育技術(shù)中心 河南 鄭州 450063)2(北京理工大學(xué)自動(dòng)化學(xué)院 北京 100081)
在文本分類(lèi)、信息檢索或語(yǔ)言模型生成等文本處理應(yīng)用中,詞位置的表示是非常重要的。例如,n-Gram模型由于其簡(jiǎn)潔和高效而廣受歡迎。n-Gram是一種基于統(tǒng)計(jì)語(yǔ)言模型的算法,其基本思想是將文本的內(nèi)容按照字節(jié)進(jìn)行大小為n的滑動(dòng)窗口操作,形成長(zhǎng)度為n的字節(jié)片段序列。每一個(gè)字節(jié)片段稱(chēng)為Gram,對(duì)所有Gram的出現(xiàn)頻度進(jìn)行統(tǒng)計(jì),并按照事先設(shè)定好的閾值進(jìn)行過(guò)濾,形成關(guān)鍵Gram列表,即這個(gè)文本的向量特征空間,列表中的每一種Gram就是一個(gè)特征向量維度。該模型基于馬爾可夫假設(shè),即假設(shè)在一段文本中,第n個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān),與其他任何詞都不相關(guān)?;谶@樣的假設(shè),可以評(píng)估文本中每一個(gè)詞出現(xiàn)的概率,整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)n個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到,常用的有一元的Uni-Gram、二元的Bi-Gram和三元的Tri-Gram。具體來(lái)說(shuō),它對(duì)一個(gè)詞建模是基于給定的先前n-1個(gè)詞,即p(wi|wi-1,wi-2,…,wi-n+1),n越大,模型能夠捕獲的上下文就越長(zhǎng)。與之相關(guān)的方法是圍繞詞建立對(duì)稱(chēng)窗口模型p(wi|wi+1,wi-1,wi+2,wi-2,…)[1]。
關(guān)于建模文檔局部性的研究主要集中在n-Gram模型的變體上。文獻(xiàn)[2]采用局部加權(quán)詞袋(Locally Weighted Bag-of-Words,LWBOW)方法來(lái)擴(kuò)展n-Gram,其在長(zhǎng)度歸一化文檔上使用了核平滑,通過(guò)在一個(gè)文檔的每個(gè)位置應(yīng)用不同的權(quán)值并總計(jì)出靠近特定位置的詞出現(xiàn),擴(kuò)展了局部依賴(lài)關(guān)系。該方法采用平滑核在概率單純形中生成一條平滑曲線,該曲線代表文檔的時(shí)間推進(jìn)。LWBOW允許檢查比n-Gram模型更大范圍的依賴(lài)關(guān)系,還允許將詞模式綁定到特定的文檔位置。平滑核的帶寬捕獲估計(jì)偏差和估計(jì)方差之間的權(quán)衡。
文檔模型如n-Gram和LWBOW存在固有的稀疏性,這是捕獲大詞匯序列中依賴(lài)關(guān)系的必然結(jié)果。依賴(lài)關(guān)系范圍越大,估計(jì)依賴(lài)關(guān)系就越難,因?yàn)楣烙?jì)方差增大了。具體而言,n個(gè)連續(xù)詞的可能組合數(shù)呈指數(shù)式增長(zhǎng),這使得每個(gè)組合的觀測(cè)數(shù)極其稀疏,最終導(dǎo)致計(jì)算困難且誤差較大。因此,在許多數(shù)據(jù)有限的情況下,n值較低的n-Gram模型的性能優(yōu)于n值較高的n-Gram模型。
神經(jīng)概率語(yǔ)言模型[3-4]試圖解決文檔模型存在的問(wèn)題,其通過(guò)采用壓縮參數(shù)空間的參數(shù)模型來(lái)捕獲大詞匯的大范圍關(guān)系。由于這種模型估計(jì)的是壓縮的參數(shù)向量,而不是呈指數(shù)式增長(zhǎng)的n-Gram計(jì)數(shù),因此可有效捕獲詞依賴(lài)關(guān)系。概率主題模型[5]和矩陣分解模型[6-7]估計(jì)詞匯的壓縮表示,通常稱(chēng)為潛在空間或主題。不同于神經(jīng)概率語(yǔ)言模型,這兩種模型通常是基于詞袋表示或二元的Bi-Gram特征,限制了它們捕獲順序詞依賴(lài)關(guān)系的潛力。文獻(xiàn)[8]將稀疏主題編碼(Sparse Topical Coding,STC)和概率主題模型進(jìn)行了詳細(xì)比較。STC是一種非概率的方法,被證明具有最先進(jìn)的準(zhǔn)確性以及相對(duì)較快的訓(xùn)練時(shí)間,不同于標(biāo)準(zhǔn)的矩陣分解方法如非負(fù)矩陣分解,STC完全采用稀疏約束。
文本分割和分解研究也集中在局部文檔特征上。文獻(xiàn)[9]采用分層主題模型引入了語(yǔ)義片段,不同于本文所關(guān)注的空間片段,這些研究側(cè)重于語(yǔ)義片段,從而引出語(yǔ)義局部性概念。
時(shí)間主題模型[10-11]是基本潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)[12]的擴(kuò)展,其對(duì)順序詞出現(xiàn)進(jìn)行建模。這兩種方法得到的主題因文檔位置不同而有所變化。
本文定義了一個(gè)局部上下文的概念,其為一個(gè)給定詞在文檔中的位置的條件詞概率,并采用一個(gè)平滑核來(lái)估計(jì)局部上下文,每個(gè)核帶寬檢查一個(gè)唯一的局部分辨率范圍。由于模型中有大量的局部上下文,所以還采用了稀疏編碼構(gòu)想來(lái)壓縮空間。
本文貢獻(xiàn)如下:(1) 引入豐富的局部依賴(lài)關(guān)系,生成高度區(qū)分的特征;(2) 生成文檔的稀疏和緊湊表示形式;(3) 利用模擬詞的接近性生成局部連貫的主題。本文模型是分析文檔主題流的有用工具。
本文模型與STC的不同之處在于兩方面:(1) 采用局部上下文p(w|t),而不是單個(gè)詞觀測(cè)p(w),從而得到不同的損失函數(shù);(2) 采用了一種新的基于貪婪坐標(biāo)下降的更新規(guī)則,而不是采用路徑坐標(biāo)下降。本文模型也有別于基本的時(shí)間主題模型LDA,順序轉(zhuǎn)換是基于文檔中特定的位置,例如在局部加權(quán)的詞袋中,本文模型采用了從非參數(shù)統(tǒng)計(jì)數(shù)據(jù)中進(jìn)行核平滑的思想。
大多數(shù)文檔和主題建模研究都采用諸如一元的Uni-Gram或n-Gram等順序特征來(lái)對(duì)文檔進(jìn)行建模,即將文檔建模為詞w與詞位置t的聯(lián)合分布p(w,t)進(jìn)而模擬出一個(gè)詞在文檔中某個(gè)特定索引處出現(xiàn)的概率。盡管這種方法對(duì)文檔序列的建模是有用的,但其不能模擬詞的相對(duì)定位,而詞與詞位置之間的條件分布p(w|t)則可以對(duì)詞的相對(duì)定位進(jìn)行建模。
本文提出的局部上下文是指出現(xiàn)在一個(gè)特定文檔位置附近的詞的分布p(w|t),并用φ(t)來(lái)表示:
φ:N→R|V|
(1)
式中:|V|是詞匯表的大小。
給定一個(gè)長(zhǎng)度為L(zhǎng)的文檔x=[w1,w2,…,wL]和一個(gè)位置i,則可以使用一個(gè)平滑核k(i,j)來(lái)估計(jì)局部上下文φ(i),k(i,j)是一個(gè)在|i-j|中單調(diào)遞減的實(shí)值歸一化函數(shù)。直觀地說(shuō),核定義了感興趣的位置。
φ(i)=[φ1(i),φ2(i),…,φ|V|(i)]T
(2)
(3)
1.1.1k(i,j)的選擇
平滑核k(i,j)=g(i-j)有幾種標(biāo)準(zhǔn)的選擇。我們采用高斯核,因?yàn)樗且粋€(gè)歸一化高斯密度,但為了便于說(shuō)明,采用下面的常數(shù)核(支持3個(gè)詞):

(4)
這個(gè)核在窗口{wi-1,wi,wi+1}中測(cè)量一個(gè)詞的存在,其不同于三元的Tri-Gram表示,因?yàn)楹雎粤舜翱趦?nèi)的排序。非常數(shù)核允許強(qiáng)調(diào)靠近窗口中心的詞,而認(rèn)為較遠(yuǎn)的位置不重要。
1.1.2與n-Gram模型的比較
n-Gram模型及其變體與本文模型有根本的區(qū)別,因?yàn)閚-Gram采用的是連續(xù)詞的聯(lián)合分布p(wi,…,wi-n+1),而不是詞和它的位置之間的條件分布p(w|t)。當(dāng)n-Gram模型的詞匯量或窗口的大小(n)增加時(shí),其事件空間的大小呈指數(shù)式增長(zhǎng)。相比之下,本文模型的事件空間是不變的窗口大小(即核帶寬),而且在詞匯量大小上只是線性的。在實(shí)際中,當(dāng)詞匯量和n值都很大時(shí),n-Gram模型的表現(xiàn)很差。
考慮一個(gè)文檔的局部上下文袋Φ={φ(i)|i=1,2,…,L},這里L(fēng)為文檔的長(zhǎng)度。由于直接估計(jì)局部上下文袋的統(tǒng)計(jì)值是很難的,故采用K碼(或主題)詞典中少數(shù)(稀疏)碼的線性組合來(lái)近似每個(gè)φ(i),即:
φ(i)≈Dβ(i)D∈R|V|×K,β(i)∈RK
(5)

(6)
需要注意的是,詞典可以跨多個(gè)文檔共享,因此對(duì)應(yīng)于不同的Φ(文檔)的β是可比較的。
這里使用每個(gè)φ(i)和Dβ(i)之間的距離平方和來(lái)度量模型的近似質(zhì)量,并在β(i)上加上一個(gè)L1罰值以加強(qiáng)稀疏性。這種做法相當(dāng)于在高斯分布下利用與L1罰值相對(duì)應(yīng)的Laplace先驗(yàn)p(β)∝e-λ|β|來(lái)最大化模型的罰值似然。這樣,就可得到下列學(xué)習(xí)詞典D和β參數(shù)的目標(biāo)函數(shù):
(7)
(8)

假設(shè)一個(gè)特定文檔的主題賦值參數(shù)是正態(tài)分布β(i)|z~N(z,ρ-1I),并認(rèn)為均值z(mì)是一個(gè)特定于文檔的參數(shù)或者一個(gè)文檔表示形式,得到目標(biāo)函數(shù):
(9)
(10)
上述方程假設(shè)單個(gè)文檔,在多個(gè)文檔的情況下,我們對(duì)它們進(jìn)行求和,這時(shí),D是跨文檔共享的,β和z是特定于文檔的。
1.2.1與概率主題模型的比較
本文所提出的局部上下文稀疏編碼方法構(gòu)成一個(gè)圖形模型,如圖1所示。圖中z表示一個(gè)文檔表示形式;φ表示長(zhǎng)度為L(zhǎng)的文檔中的一個(gè)局部上下文;D為共享詞典(主題);β是采用D的對(duì)應(yīng)局部上下文的潛在表示形式。

圖1 局部上下文稀疏編碼模型的結(jié)構(gòu)
在本文模型中的歸一化可能與生成數(shù)據(jù)的真實(shí)分布不一致,這是由于參數(shù)位于一個(gè)受限域中,即:
(1) 詞(或一個(gè)局部上下文)的局部概率服從以Dβ為中心的分布,其中D包含跨多個(gè)文檔共享的主題,β包含相應(yīng)的主題賦值。例如,假設(shè)是高斯分布,則有:
φ=p(w|t)~N(Dβ,σφI)
(11)
(2) 與一個(gè)特定文檔相對(duì)應(yīng)的主題賦值參數(shù){β(i)|i=1,2,…,L}服從以z為中心的正態(tài)分布且具有Laplace先驗(yàn),即:
(12)

1.2.2模型求解
本文模型的訓(xùn)練過(guò)程類(lèi)似于標(biāo)準(zhǔn)稀疏編碼模型的訓(xùn)練過(guò)程。假設(shè)有多個(gè)文檔X=[x(1),x(2),…,x(N)],則可以最小化式(9)的累計(jì)損失函數(shù):
(13)
且在共享詞典D上滿足下列約束條件:

(14)
這是一個(gè)雙凸問(wèn)題,可以迭代求解β、z和D。此外,為了更好地解釋?zhuān)€對(duì)β加上非負(fù)性約束條件。
(1) 求解β和z。通過(guò)對(duì)β每個(gè)維數(shù)的反復(fù)優(yōu)化(坐標(biāo)下降),這種最小絕對(duì)收縮與選擇算子(Least Absolute Shrinkage and Selection Operator,LASSO)問(wèn)題就可以在非負(fù)約束條件下以封閉的形式得到唯一的解。具體地,如果采用簡(jiǎn)記β(n)(i)→β、z(n)→z、φ(n)(i)→φ,則最小化β(n)(i)的單個(gè)分量得到如下結(jié)果:
(15)
相應(yīng)的最優(yōu)解為:
(16)
如果最小化z(n)與β(n)(1),β(n)(2),…,β(n)(L(n))之間的L2距離,則相應(yīng)的文檔表示形式z(n)也可以以封閉形式求解得到:
(17)
一般會(huì)按順序j=1,2,…,K迭代β的維數(shù),直至收斂,這被稱(chēng)為路徑坐標(biāo)下降,就像STC訓(xùn)練中所進(jìn)行的那樣。然而,貪婪坐標(biāo)下降[14]是通過(guò)選擇減少損失最大(Δl)的維度,一次更新一個(gè)維度,這就使得訓(xùn)練速度比具有相同精度水平的路徑坐標(biāo)下降法更快,故本文采用下降更快的貪婪坐標(biāo)下降法。

算法1求解β和z的貪婪坐標(biāo)下降法實(shí)現(xiàn)偽代碼
1.Input:x(1),x(2),…,x(N)的局部上下文和D
2.for全部x∈{x(1),x(2),…,x(N)}do
//并行執(zhí)行
3.Φ=[φ(1),φ(2),…,φ(L)]
//在x中的
4. [b(1),b(2),…,b(L)]=DTΦ


7.zt+1=zt
8.for全部i∈{1,2,…,L(n)}do
//并行執(zhí)行





//等待其他完成更新z

15.endfor
16.endwhile
17.endfor
18.Output:全部局部上下文的z(1),z(2)…,z(N)和全部β
(18)
(19)
具體地,采用基于上述梯度的步驟,然后使用單純形投影Π將其投影回單純形,即:
Dt+1=Π(Dt-ηt▽)
(20)

現(xiàn)采用具有2種不同類(lèi)型詞局部性即(a,b)與(a,c)的4個(gè)文檔的綜合實(shí)例來(lái)說(shuō)明本文算法模型的實(shí)現(xiàn)原理,即:
x1=[a,b,a,b,a,b,c,c,c],x2=[b,a,b,a,b,a,c,c,c]
x3=[a,c,a,c,a,c,b,b,b],x4=[c,a,c,a,c,a,b,b,b]
由于a和b在x1和x2中一起出現(xiàn),a和c在x3和x4中一起出現(xiàn),因此得到x1和x2的主題與x3和x4的主題是不同的。
詞袋表示形式是主題模型的共同特征,它為全部文檔生成完全相同的表示形式[3,3,3]或[0.33,0.33,0.33](規(guī)一化)。相比之下,二元的Bi-Gram模型能區(qū)分全部4個(gè)文檔,盡管它同時(shí)嚴(yán)格地分離了兩個(gè)局部相似對(duì)([a,b]和[b,a])。雖然嚴(yán)格的分離可能是一個(gè)更好的選擇,但最終將導(dǎo)致特征空間的激增,特別是在試圖解釋大范圍依賴(lài)關(guān)系時(shí)。
與n-Gram模型不同,本文方法很容易捕獲與2種不同類(lèi)型局部性相對(duì)應(yīng)的2個(gè)主題。圖2為本文方法在一個(gè)單純形中得到的結(jié)果,使用了一個(gè)大小為K=2(主題數(shù)目)的詞典和一個(gè)帶寬為0.7的高斯平滑核。平滑核的有效寬度約為5個(gè)詞。圖中每個(gè)角表示對(duì)應(yīng)字符之一的概率,填充形狀(Dz)表示單純形上的文檔表示形式,未填充形狀(φ)表示每個(gè)文檔的局部上下文,填充方塊為2個(gè)主題D1、D2,{Dz1,Dz2}和{Dz3,Dz4}之間是明顯分離的。

圖2 本文方法在單純形中對(duì)于綜合實(shí)例的結(jié)果
可以看出:2個(gè)主題D1和D2捕獲2種不同類(lèi)型的局部性,D1位于a和b之間,表示a和b的混合主題,D2位于a和c之間;單純形上的文檔表示形式(Dz)形成2個(gè)單獨(dú)的組,第一組由Dz1和Dz2構(gòu)成,第二組由Dz3和Dz4構(gòu)成。文檔表示形式的位置是根據(jù)它的局部詞分布p(w|t)來(lái)區(qū)分文檔的,而n-Gram模型不能實(shí)現(xiàn)這一點(diǎn)。
與傳統(tǒng)的主題模型的主題相比,本文模型的主題反映了詞的局部性。LDA無(wú)法捕捉到2.1節(jié)的綜合實(shí)例中任何有意義的主題,因?yàn)槿?個(gè)文檔都有相同的均勻詞分布,與LDA不同,本文模型獲得了與2種不同類(lèi)型的局部性相對(duì)應(yīng)的2個(gè)主題。此外,由于每個(gè)局部上下文都包含它的鄰域信息,故本文模型最終形成了局部連貫的主題,這在實(shí)際應(yīng)用中是有用的,因?yàn)榇蠖鄶?shù)文本一般都有局部連貫的上下文。
將本文模型與LDA進(jìn)行比較,實(shí)驗(yàn)數(shù)據(jù)來(lái)自維基百科(英文版)的一篇文章《Paris》[15],因?yàn)樵撐恼掳斯餐闹R(shí),且結(jié)構(gòu)良好。
圖3為通過(guò)LDA和本文模型在《Paris》每個(gè)位置上的主題賦值(2種模型方法的K=15)。文檔進(jìn)程從左到右進(jìn)行,每個(gè)位置對(duì)應(yīng)一個(gè)詞,最左邊的邊表示文檔的開(kāi)始,最右邊的邊表示結(jié)束,圖下面的數(shù)字表示主題ID。從圖3(上)可見(jiàn),采用LDA模型方法沒(méi)有顯示出任何局部連貫結(jié)構(gòu),而是被分割成零碎的碎片;從圖3(下)可見(jiàn),采用本文模型,主題賦值是局部連貫的,而且顯示出了文檔的語(yǔ)義流。表1給出了每個(gè)主題的詳細(xì)信息,它從城市介紹開(kāi)始:一般信息(表1中的主題1)及其聲譽(yù)(主題2),然后是巴黎的幾個(gè)方面:歷史(主題3,4)、展覽會(huì)(主題5)、藝術(shù)(主題6)和教育(主題7)。另外,每個(gè)主題最前面的詞的確是每個(gè)局部主題的高度陳述??梢?jiàn),本文模型得到的主題比LDA技術(shù)得到的主題有更多的局部分布。

圖3 通過(guò)LDA和本文模型方法的主題賦值比較

表1 《Paris》上采用本文模型選定主題最前面的詞
為對(duì)本文模型在分類(lèi)中生成的特征進(jìn)行研究,采用支持向量機(jī)(Support Vector Machine,SVM)。SVM具有不同的特征集,具體來(lái)說(shuō),就是采用ν-SVM,其ν值是采用交叉驗(yàn)證從10個(gè)候選值中挑選出來(lái)的。
分類(lèi)任務(wù)是標(biāo)準(zhǔn)的20個(gè)新聞組分類(lèi)數(shù)據(jù),采用正式的訓(xùn)練測(cè)試分割和標(biāo)準(zhǔn)的預(yù)處理:用小寫(xiě)字體書(shū)寫(xiě)、剝離非英文字符、標(biāo)記句子和詞,并刪除稀有的特征和停止詞。預(yù)處理得到18 845個(gè)文檔、21個(gè)類(lèi)別和大小為|V|=6 329的詞匯表。為了檢驗(yàn)參數(shù)的影響,處理數(shù)據(jù)集的一個(gè)子集(5個(gè)類(lèi)別,comp.*),最后評(píng)價(jià)了數(shù)據(jù)集子集和整個(gè)數(shù)據(jù)集的總體性能。
2.3.1主題數(shù)量的影響
圖4為對(duì)于不同模型和詞典大小(從50~8 000)得到的測(cè)試集分類(lèi)精度與主題數(shù)量K之間的關(guān)系曲線。在n-Gram模型下,從訓(xùn)練集中選擇了最頻繁的K個(gè)特征,對(duì)于LDA、STC和本文模型,將詞典的大小指定為參數(shù)。本文模型方法的帶寬固定為h=1,覆蓋約7個(gè)詞(±3h),并為剩下的參數(shù)嘗試了一組候選值,并選擇了性能最好的值,例如對(duì)于STC,λ={10-4,10-2,10-1,0.5,1}。

圖4 不同模型和詞典大小的測(cè)試集分類(lèi)精度與主題數(shù)量K之間的關(guān)系比較
可以看見(jiàn),本文模型的性能接近于小詞典中的一元Uni-Gram,但能夠在一個(gè)足夠大的詞典中獲得更好的性能,即當(dāng)K>|V|(K<|V|時(shí),一元的Uni-Gram模型達(dá)到最大性能)時(shí),本文模型的性能仍有提高;STC模型的性能對(duì)于相對(duì)較小的詞典來(lái)說(shuō)表現(xiàn)良好,但其最大性能不如其他模型好。
Bi-Gram、Tri-Gram和4-Gram模型即使對(duì)于大詞典性能也較差,這是因?yàn)樘卣鲾?shù)量迅速增加(Bi-Gram生成23|V|個(gè)特征,Tri-Gram生成35|V|個(gè)特征,4-Gram生成37|V|個(gè)特征),從而將大大降低每個(gè)特征的觀測(cè)次數(shù)。相反,盡管本文模型覆蓋了大約7個(gè)相鄰的詞,但其似乎并沒(méi)有受到稀疏性的影響,且表現(xiàn)出較好的性能。
2.3.2帶寬的影響
圖5為在其他參數(shù)不變時(shí),本文模型對(duì)于不同帶寬的測(cè)試集分類(lèi)精度??梢?jiàn),在h=1時(shí)獲得了最好的性能,采用較窄的帶寬(如h=0.5)會(huì)導(dǎo)致收斂速度更快,但性能變差,這是由于缺乏局部特征的可變性所引起;采用更寬的帶寬(如h=4)減緩了收斂速度,也降低了性能,這是由于包含了該任務(wù)不必要的局部依賴(lài)關(guān)系。這種不同帶寬的不同結(jié)果驗(yàn)證了局部性特征在分類(lèi)性能上存在顯著的差異。

圖5 不同平滑帶寬時(shí)的測(cè)試集分類(lèi)精度
2.3.3總體性能比較
將本文模型的總體性能與其他模型進(jìn)行比較,包括局部依賴(lài)關(guān)系模型n-Gram模型,非監(jiān)督主題模型LDA和STC以及性能較好的監(jiān)督主題模型[8]。
表2為20個(gè)新聞組數(shù)據(jù)集的5個(gè)類(lèi)別(comp.*)和全部20個(gè)類(lèi)別(*)對(duì)于不同模型的測(cè)試集分類(lèi)精度的比較結(jié)果。可見(jiàn),本文模型在子集和全部集合上都優(yōu)于其他模型;n-Gram模型的性能增益表明,對(duì)大范圍依賴(lài)關(guān)系的建模在分類(lèi)中是有益的;與監(jiān)督主題模型相比,本文模型的性能更好,因?yàn)楸O(jiān)督主題模型直接優(yōu)化其判別性能,而本文模型是一種純粹的無(wú)監(jiān)督編碼方法。

表2 不同種模型的測(cè)試集分類(lèi)精度比較 %
本文提出了一種用于局部詞分布的非概率主題模型,采用核平滑來(lái)捕獲序列信息,為處理大范圍的局部信息提供了一種靈活有效的方法。提出的稀疏編碼公式得到了有效的訓(xùn)練過(guò)程和稀疏表示形式,這種稀疏表示形式是局部連貫的,而且具有較強(qiáng)的識(shí)別能力。本文模型能夠高效地發(fā)現(xiàn)主題和表示形式,對(duì)于發(fā)現(xiàn)局部主題和文檔語(yǔ)義流以及構(gòu)造預(yù)測(cè)模型都是有用的。