999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時間加權的TF-LDA學術文獻摘要主題分析

2020-01-10 06:49:30哲,楊
計算機技術與發展 2020年1期

伍 哲,楊 芳

(西安郵電大學 計算機學院,陜西 西安 710121)

0 引 言

學術文獻是一種特殊的記錄,或者可以稱之為科學的總結,記錄一種學術課題的新的科研成果,也總結一些創新性的見解。思路是應用某種已知的原理,對實際問題進行解決的進程敘述,可用來與其他人進行交流,多在學術性的會議上進行宣讀,進行討論,多數發表于相應領域的刊物上,其他則作為別的用途的書面文件[1]。文獻是一種載體,用來傳播學術性知識,人們通常閱讀文獻來獲取知識,其可以反映人們在一定社會歷史階段的知識水平,其更是科學研究的基礎[2]。隨著社會的發展,文獻的種類和數量越來越多,相關的研究人員在從事一項科研之前,需要進行準備工作,包括獲得這項科研的相關知識,進行人員分配,設計科研的實施方法,以及定期目標等,在積累基礎的階段,目前仍然還得閱讀大量的學術文獻,了解這項科研的全面知識,并且得到這項研究所屬學術領域的最新研究熱點。數量如此龐大的學術文獻,人工進行分析顯然速度很慢,無法達到目前社會的效率要求。搜索引擎是處理這一問題的工具之一,但其只能幫助科研人員篩選出符合檢索條件的文章列表,這些列表對于科學研究需要的主題沒有什么實用性價值,科研人員仍然需要通過大量閱讀來熟知這些列表的內容,這需要付出很多時間和精力。如何更加有效地快速得到海量專業學術文獻主題信息,更加直觀地得到學術文獻主題的結果信息,使科研人員迅速了解學術文獻的熱點和發展,判斷該學術領域的發展方向,從而快速進行下一項任務。顯然,減少人工査看分析時間,節省科研人員的精力,是一個急需解決的現實問題。

因此,為了能夠高效、準確地提取學術文獻的主題,提出一種TF-IDF[3]結合LDA的學術文獻主題分析方法。該方法采用分詞和停用詞詞典對文獻集進行預處理,使用TF-IDF對其進行特征提取,降低維度,使用特征詞構建主題引導特征詞詞庫引導主題的生成,并加入時間因素,提出時間權重,綜合特征詞權重和時間權重計算總的影響權重,引導主題的概率分布,最后采用LDA主題模型得到主題分布情況。

1 相關介紹

1.1 TF-IDF

TF-IDF是一種用于信息檢索與數據挖掘的常用加權技術[4]。TF意思是詞頻,指的是某一個給定的詞語在該文件中出現的頻率。IDF意思是逆文本頻率,在IDF中,詞的集合中的一個詞,有這樣的特點,相對于其他的詞,這個詞在文檔集中很少出現,但這個詞在某一篇文檔中卻經常出現。顯然這個詞對于整個文檔集而言沒有任何意義,不是整個文檔集的關鍵詞,但對于這篇文章來說很重要,這個詞就是這篇文章的關鍵詞。那么怎樣用一個指標來表示這種特性,如何去衡量這個詞,怎么給它一個相對這篇文章較高的,而相對總體文檔集沒有作用的權重呢,這是一個問題。通常,這個特性是一個具有調整功能的變量,則需要定義一個重要性的調整系數來解決這個問題,用統計學語言表達就是在詞頻統計的基礎上,對每個詞項分配一個“重要性”的調整系數,這個詞的出現次數和它的權重呈反比,出現的多反而權重小,出現的少反而權重大,具有重要作用,這就是通常所說的逆文檔頻率。綜上,TF-IDF的主要思想如下:對于某個屬于詞集合的詞,如果在一篇文章中出現的頻率(TF)高,并且在其他文章中很少出現(IDF),則認為此詞是這篇文章的關鍵詞,即特征詞,與其他詞相比,具有代表性,有很好的類別區分能力,能代表這篇文章。這個算法的細節如下:

詞頻(TF)=詞在文檔中的出現次數/該文檔中所有字詞的出現次數之和

逆向文件頻率(IDF)=log(文檔總數/包含該詞語的文檔數目)

TF-IDT=TF*IDF

1.2 LDA

LDA(隱含狄利克雷分布)是目前一種比較主流的主題模型,也是一種典型的詞袋模型[5]。它是一種非監督機器學習技術,可以展現離散型數據集的概率增長,具有三層,分別為文檔集層、主題層及特征詞層,每層均由相應的隨機變量或參數控制。它可以將文檔集合中的每篇文檔的主體以概率分布的形式給出,從而分析一些文檔抽取出它們的主題分布,然后可以根據主題進行文本分類或者是主題聚類。LDA采用貝葉斯估計的方法,假設文檔的主題分布和主題的特征詞分布的先驗分布都是Dirichlet分布(狄利克雷分布),認為所有的文檔存在K個隱含主題,要生成一篇文檔,首先生成該文檔的一個主題分布,然后再生成詞的集合;要生成一個詞,需要根據文檔的主題分布隨機選擇一個主題,然后根據主題中詞的分布隨機選擇一個詞,重復這個過程直至生成文檔。

LDA是一種使用聯合分布計算在給定觀測變量下隱藏變量的條件分布(后驗分布)的概率模型,觀測變量為詞的集合,隱含變量為主題[6]。LDA的生成過程對應的觀測變量和隱藏變量的聯合分布如式1所示:

p(β1:K,θ1:D,Z1:D,W1:D)=G*H*J

(1)

其中,β表示主題,θ表示主題的概率,Z表示特定文檔或詞語的主題,W為詞語。β1:K為全體主題集合,其中βk是第k個主題的詞的分布。第d個文檔中該主題所占的比例為θd,其中θd,k表示第k個主題在第d個文檔中的比例。第d個文檔的主題全體為Zd,其中Zd,n是第d個文檔中第n個詞的主題。第d個文檔中所有詞記為Wd,其中Wd,n是第d個文檔中第n個詞,每個詞都是固定的詞匯表中的元素。p(β)表示從主題集合中選取了一個特定主題,p(θd)表示該主題在特定文檔中的概率,大括號的前半部分是該主題確定時該文檔第n個詞的主題,后半部分是該文檔第n個詞的主題與該詞的聯合分布。連乘符號描述了隨機變量的依賴性,用概率圖模型表述如圖1所示。

圖1 LDA的文檔生成

圖中,每個圓圈表示一個隨機變量,矩形表示變量的重復,同時參照其在生成過程中所扮演的角色進行標注。白色圓圈表示隱含變量,觀測變量Wd,n則用灰色的圓圈表示;D表示文檔的集合;K表示設置的主題數目;a表示每篇文檔的主題分布的先驗分布-Dirichlet分布的超參數;η'表示每個主題的詞分布的先驗分布-Dirichlet分布的超參數;W表示建模過程中可以觀測的詞語。具體的過程如下:

(1)從Dirichlet分布a中取樣生成文檔d的主題分布θd。

(2)從主題的多項式分布θd取樣生成文檔d第n個詞的主題Zd,n。

(3)從Dirichlet分布η'中取樣生成主題Zd,n對應的詞語分布βk。

(4)從詞語的多項式分布βk中采樣最終生成詞語Wd,n。

用吉布斯采樣法(Gibbs sampling)[7]對LDA模型的文檔-主題分布和主題-詞語分布進行推斷,吉布斯采樣的算法流程描述如下:

(1)初始化,對第i個詞Wi隨機分配某個主題。

(2)狀態更新,對每個單詞W,計算除i以外的其他全部詞語的主題z-i(-i是i的補集)已知的情況下,Wi屬于每一個主題j的后驗概率p(zj=j|z-I,w),將當前詞語安排給概率值最高的主題。

(3)將第2步進行多次迭代,直到每個詞語的主題收斂到穩定的狀態。

1.3 時間因子

學術文獻的一個重要屬性是發表時間,發表時間越久,被引的數量越多,而發表時間越久,反而造成其熱度下降,其時效性的特點不同于其他一些屬性的文本,忽略時間容易造成主題挖掘不準確,即主題聚類的結果不正確。現有的主題分析模型[8-9]沒有對學術文獻的發表時間進行分析,而學術文獻熱點主題是具有時效性的,它隨著時間的變化而變化,如果忽略這個特點,會導致主題分析的不準確性;每個學術文獻都有自己的發表時間,如果學術文獻的發表時間與當前時間的間隔越小,越能反映這一時間段內的學術熱點主題,因此時間因素在考慮學術文獻的主題上是不可忽視的因素[10]。針對這種缺陷,引入時間因子,根據德國心理學家艾賓浩斯提出的艾賓浩斯遺忘曲線來得到學術文獻摘要的時間權重大小。將每個學術文獻摘要的特征詞根據發表時間權重分別相加,并按照權重和進行排序,然后用來訓練時間窗口的大小,得出的時間窗口對學術文獻主題分析的時間做出限定,發表時間位于在時間范圍內的學術文獻,對其摘要進行主題分析。

(1)構造學術文獻的發表時間因子函數(如式2),計算學術文獻發表時間和當前時間的間隔,及其對學術文獻主題的影響:

(2)

其中,TimeWeigh表示發表論文的時間和當前時間的時間差,以及時間差所反映的主題變化的權重;Tnow表示當前時間;Tpub表示學術文獻的發表時間;EWeigh表示學術文獻根據發表時間這一特點,得出的時間內主題的衰減因子,主題的衰減因子是由艾賓浩斯曲線擬合出的函數決定的。

(2)艾賓浩斯曲線是以一位心理學家的名字命名的。德國心理學家艾賓浩斯,通過研究人腦,發現人腦對于新事物的遺忘總是遵循著一種規律,這種規律可以由一種曲線所反映。在人們接觸一種新鮮事物時,經過一階段對于這種新鮮事物產生認識后,遺忘立刻開始,最初遺忘的速度很快,并且遺忘的數量很大,隨著時間的變化,遺忘速度會變慢,遺忘的內容會減少,最終到達一定的程度,總結下來就是速度由快變慢,內容由多變少,這些都是德國心理學家艾賓浩斯的理念。這一過程的發現對于人類的記憶力研究有很大幫助,還能適用于多個領域[11]。文中將學術文獻的特征詞當作準備被新認知的事物,即是對應于人腦即將會產生記憶的材料,而計算機對應于人腦,會對這些特征詞產生記憶,這個記憶的遺忘過程遵循艾賓浩斯遺忘曲線,對于特征詞的遺忘情況進行記錄,將結果擬合成函數,如式3。

EWeigh=97.53(Tpub)-0.446+17.68

(3)

(3)對學術文獻摘要的發表時間進行分析,判斷其是否在時間范圍內,對于窗口范圍內出現的學術文獻摘要計算發表時間權重,依據式3將計算出來的發表時間權重進行求和運算,都是以特征詞為單位而進行的,得出學術文獻摘要的某一個特征詞的總的發表時間權重,如式4:

(4)

其中,Tre表示特征詞離現在時間最近,出現的時間;TFir表示特征詞第一次在文檔集中出現的時間;SumWeigh表示各特征詞的發表時間的權重和。

(4)學術文獻的另一個屬性是其擁有發表的作者,有如下情況,作者相同的學術文獻,方向不同;作者相同的學術文獻,方向相同;作者不同的學術文獻,方向相同;作者相同的學術文獻,方向不同。綜合上述因素考慮,將學術文獻的摘要以作者為區分變量進行分類,并且建立目標文檔集,建立文檔集后,對文檔集內的每一篇學術文獻摘要進行預處理,處理主要有分詞和去除停用詞,并且統計每一篇學術文獻摘要的發表時間,以便計算發表時間的權重。這樣的學術文獻摘要內容才能更加適用于特征提取算法,將分詞和去除停用詞的學術論文摘要內容使用TTF-IDF進行特征提取,提取出可以代表學術文獻摘要內容的特征詞,對內容的數量進行簡化,同時對學術文獻摘要的發表時間進行轉化,將其表示成二元組的形式,使其序列化。二元組中,word表示學術文獻摘要中的某個特征詞,time表示該特征詞所在的學術文獻的發表時間。

設置學術文獻的發表時間窗口分為以下幾步:

(1)根據式3,可得出每一篇學術文獻摘要的發表時間權重大小,對應于一個一個的點,這些點的斜率值就是學術文學摘要的發表時間權重。在三角符號93天處,發現斜率的變化小于0.02,此時對于特征詞的記憶程度的遺忘是一個很重要的時間點。人腦對于學術文獻特征詞的遺忘趨于平穩,遺忘的速度和量將不會發生大的改變,因此將學術文獻摘要所對應的時間窗口初始化為93天,如圖2所示。

圖2 時間窗口

(2)將學術文獻的發表時間數據以月為單位進行轉化,轉化后進行抽取,抽出40%,將這40%的學術文獻摘要作為訓練集,訓練敘述學術文獻發表時間所對應的時間窗口大小。

(3)對訓練集進行計算,得出訓練集的每一篇學術文獻摘要所對應的每一個特征詞的發表時間權重,并對這些特征詞的總的發表時間權重進行計算,即SumWeigh。將各個特征詞按得出的SumWeigh值進行降序排列,取SumWeigh值大的前100個特征詞進行記錄,記為T1,并且定義一個變量j,用來對學術文獻摘要發表時間所對應的時間窗口進行操作,初始化j=0。

(4)學術文獻的發表時間所對應的時間窗口的大小減少Δt(Δt=2j),對訓練集進行計算,將各個特征詞按得出的SumWeigh值進行降序排列,取值為前100個特征詞記為T2,j++。

(5)按照T1和T2中的相同特征詞數目計算T1和T2的匹配度,記為M。

(6)若M<0.8(特征詞的相同量小于80%),認為收斂,確定時間窗口大小為93-Δt,否則,將T2集合覆蓋為空(NULL),返回步驟4。

2 基于學術文獻的TF-LDA主題模型

學術文獻文本具有時效性的特點,在分析其主題時需要考慮各文本的發表時間,而LDA模型的本質是顯示出主題的概率,其是一種主題概率模型,忽略詞序、語法等,認為每個詞與每個詞之間是獨立的,沒有聯系,可以獨立出現,在任意位置選擇一個詞都不會受到前面選擇的影響。詞知識跟該詞所處的主題有關,在建模的過程中,以詞頻作為基礎[12-13],詞頻高的詞就有優勢,對主題進行選擇時,會偏向高概率詞。而在學術文獻的摘要中并不是出現次數多的詞就一定是學術文獻摘要的特征詞,能代表學術文獻的摘要內容,顯然這種主題選擇方式對于學術文獻的摘要并不適合,不符合學術文獻摘要的主題分布,并且LDA模型提取主題時,沒有將學術文獻摘要的重要因素—發表時間考慮在內,使效果不佳,挖掘出來的學術文獻摘要的主題不符合學術文獻摘要的內容。

綜上所述,在進行學術文獻摘要的主題分析時應加入學術文學摘要的發表時間,并且對LDA建模過程中的采樣策略進行改進,然后進行學術文獻摘要的主題挖掘。具體如下:使用TF-IDF提取特征詞,進行初步采樣,形成一個主題引導特征詞詞庫,對主題引導特征詞詞庫進行計算,得到特征詞的權重,使用主題引導特征詞詞庫進行引導,從而促使主題的提取更加準確,達到增加主題引導特征詞詞庫對主題建模產生作用的狀態。并提出發表時間因子,將每個學術文獻的發表時間作為其時間標簽,在特征詞分配給主題的過程中,利用時間因子產生的時間窗口進行時間限制,優化主題的選取,增加發表時間影響權重的大小,距離當前時間越近的特征詞,所對應的時間權重就應該越大,從而符合學術文獻摘要的發表時間特點。改進后的總體步驟如下:

(1)輸入文檔集合,進行分詞和去除停用詞等預處理;

(2)根據TF-IDF提取特征詞;

(3)初步采樣;

(4)特征詞標注;

(5)構建主題引導特征詞詞庫;

(6)綜合步驟3、5,計算特征詞引導權重;

(7)利用艾賓浩斯遺忘曲線進行時間權重的計算;

(8)綜合步驟6、7,計算總的影響權重;.

(9)利用吉布斯采樣算法對分詞后的文本數據進行迭代采樣;

(10)迭代完成,輸出主題模型的結果。

將學術文獻的發表時間融合到LDA模型中,對TTF-LDA模型中的詞條進行表示,對于學術文獻摘要的特征詞的發表時間,以及詞條的表示形式如圖3所示。

圖3 融合發表時間的TTF-LDA模型

在模型中融合發表時間因子后,學術文獻文本中各特征詞的概率分布可以展現出來,如式5所示:

(5)

用吉布斯采樣進行推理,推理結果的特征詞和主題服從的分布如式6所示:

(6)

(7)

(8)

則第一項因子的最后結果為:

(9)

(10)

(11)

學術文獻摘要的超參數為αk和βt,后期期望如式12和式13所示:

(12)

(13)

依靠聯合分布以及后驗期望,對隱含變量也就是需要的學術文獻摘要的主題Z,可以在考慮發表時間因素下,挖掘出學術文獻摘要中隱藏的主題,得到主題的分布。

3 實 驗

3.1 實驗數據及預處理

實驗數據采用爬蟲爬取的知網上的論文摘要共46 312條,在數據預處理階段首先對摘要的標點符號進行去除,將純文本數據使用python的jieba庫進行分詞,并去除停用詞,將分詞和去除停用詞后的文本數據整合成文檔。

3.2 實驗結果與分析

文中提出的TTF-LDA主題模型的參數設置為主題數K=20,超參數α=1,β=0.02,δ=0.02,吉布斯采樣的迭代次數一般設置為2 000。在初始時間窗為93天的情況下計算學術文獻的發表時間權重,圖2中正方形處得出時間窗口大小為86天。TTF-LDA模型的6個主題結果如圖4所示。

圖4 部分主題結果

6個主題分別是有關人工智能、機器人、計算機視覺、機器視覺、深度學習和機器學習,在TTF-LDA的權重值中人工智能這一特征詞的權重最高,是在2017-10-1至2017-12-31期間發生的最熱門的主題,也符合趨勢。目前人工智能的發展最為普遍,人工智能類的論文也最多,機器人相關的論文數量也很多,而深度學習和機器學習為人工智能領域下的兩大熱點話題,概率也高于其他話題,主要是相同的特征詞在時間權重的影響下權重更高,反映出文中模型能準確挖掘出相關主題。在主題模型中,主題與主題之間的相似性越低則效果越好,圖5為TTF-LDA和LDA模型的主題之間的相似度的對比情況。結果表明,在文檔集增加的情況下,主題之間的相似度在降低,但TTF-LDA的主題之間的差異大,效果優于LDA,主要是對主題引導詞的加權,提高主題引導詞在文檔中的重要性,特征詞引導主題的貢獻也越大,使得結果更加符合文檔集自身的分布特點,主題提取更準確。

圖5 主題之間的相似度

對TTF-LDA模型、LDA模型和WMC-LDA模型進行對比分析,使用評價指標混亂程度,用Perplexity值來代表主題分析后的情況,對主題分析后的情況進行混亂程度對比和分析。混亂程度是主題模型研究中常用的對比指標[14]。在混亂程度的理念里,如果Perplexity越大,則表示這個主題模型的混亂程度越混亂,效果越差,與之相反,如果Perplexity值越小,則表示這個主題模型的混亂程度越小,即主題很清晰,效果越好。Perplexity的定義如式14所示。

(14)

其中,W為測試集,由學術論文摘要組成;Wm為測試集中抽取到的特征詞,對應于學術文獻摘要內容由TF-IDF提取出的,能表示學術文獻摘要的特征詞;Nm為特征詞的總數,統計所有的特征詞總數得來。

TTF-LDA、LDA和WMC-LDA[15]的Perplexity與迭代次數的關系如圖6所示,實驗的條件都設置一樣,其中縱坐標為Perplexity/100。

圖6 Perplexity值

由圖6可以看出,在其他情況都相同的條件下,隨著迭代次數的增加,三種模型的Perplexity值都一直下降,而TTF-LDA模型的Perplexity值一直都最小,表明其運算速度更快、效率更高,內部的主題提取情況更加明確,證明提出的采樣的策略和增加的學術文獻的發表時間權重是有效的。

4 結束語

文中提出一種學術文獻摘要的主題分析方法,針對現有的主題分析中的主題模型未考慮論文發表時間的缺點,提出將學術文獻的發表時間適用于人腦的記憶遺忘規律,使遺忘曲線計算出學術文獻特征詞的遺忘曲線,設置學術論文摘要的發表時間對應的時間窗口,對主題的時間范圍進行縮短,并利用特征詞處理后得到的主題引導特征詞詞庫,共同引導主題分布。通過實驗證明了該方法的可行性,能準確地挖掘出當前學術文獻摘要的主題。

主站蜘蛛池模板: 国产精品免费电影| 久草国产在线观看| 无码精品国产VA在线观看DVD| 少妇高潮惨叫久久久久久| 成人午夜视频在线| 色综合色国产热无码一| 国产区人妖精品人妖精品视频| 日本成人福利视频| 露脸国产精品自产在线播| 色偷偷av男人的天堂不卡| 国产AV无码专区亚洲精品网站| 日韩欧美国产另类| 婷婷综合在线观看丁香| 精品福利一区二区免费视频| 毛片手机在线看| 欧美一区福利| 国产网站一区二区三区| 欧美一区二区丝袜高跟鞋| 98超碰在线观看| 欧洲一区二区三区无码| 白丝美女办公室高潮喷水视频| 日韩AV无码免费一二三区| v天堂中文在线| 亚洲综合色婷婷| 亚洲高清中文字幕| 国产自在线拍| 青青久久91| 91久久夜色精品国产网站| 国产乱人视频免费观看| 一级看片免费视频| 亚洲首页在线观看| 女人一级毛片| 国内自拍久第一页| 无码AV动漫| 一本大道视频精品人妻 | 亚洲天堂久久| 国产熟睡乱子伦视频网站| 国产永久无码观看在线| 97久久超碰极品视觉盛宴| 在线播放91| 久久国产精品嫖妓| 亚洲男人的天堂网| 国产a网站| 亚洲水蜜桃久久综合网站| 99久久亚洲精品影院| 日本爱爱精品一区二区| 性激烈欧美三级在线播放| 国产一区二区影院| 色综合狠狠操| 538国产在线| 久久99这里精品8国产| 色综合手机在线| 亚洲无码视频喷水| 人人91人人澡人人妻人人爽| 日本一区二区不卡视频| 伊人久久大香线蕉成人综合网| 欧美亚洲一区二区三区导航| 色欲综合久久中文字幕网| 日本人妻丰满熟妇区| 免费看av在线网站网址| 99伊人精品| 国产精品自在在线午夜区app| 97视频在线精品国自产拍| 999精品视频在线| 国产精品三级专区| 欧美激情成人网| 国产又粗又爽视频| 色吊丝av中文字幕| 久久性视频| 91网红精品在线观看| 久久影院一区二区h| 日韩欧美色综合| 日本免费一区视频| 少妇高潮惨叫久久久久久| 老熟妇喷水一区二区三区| 精品亚洲欧美中文字幕在线看| 亚洲无码高清一区二区| 国产精品爆乳99久久| 亚洲精品第一在线观看视频| 天天操天天噜| 亚洲精选高清无码| 亚洲精品动漫|