大數(shù)據(jù)背景下文檔關鍵詞抽取方法的探討

2019-09-10 17:46:18孟曉燕趙衛(wèi)紅

新教育論壇 2019年34期

關鍵詞：方法

孟曉燕趙衛(wèi)紅

摘要：關鍵詞抽取是借用計算機從文檔中選擇出能夠反映主題內(nèi)容的詞，提供一個簡短的內(nèi)容摘要，便于用戶獲取文檔信息。在當今大數(shù)據(jù)時代，在文本處理的許多領域，關鍵詞抽取都是一項重要技術。選取關鍵詞的目的是運用關鍵詞最大限度反映出文檔內(nèi)容，研究從文檔集中選取關鍵詞的方法。本文通過引入能夠與文檔相關程度的指標（分數(shù)），建立出的數(shù)學模型，給出文檔關鍵詞抽取方法。

關鍵詞：關鍵詞抽取;TextRank算法;多文檔 ;聚類

0 引言

在大數(shù)據(jù)背景下，關鍵詞提取在文本處理的許多領域，都成為一項重要技術。大數(shù)據(jù)是全體數(shù)據(jù)，追求精確度和因果關系都變得意義不大，尋找事物之間的相關關系變得更加重要。在面對大量文檔時，人們想通過閱讀關鍵詞來了解大致意思，所以如何較好提取關鍵詞尤為重要。周錦章等[1]將文檔集進行詞向量表征，通過構建TextRank的轉(zhuǎn)移概率矩陣，提出一種基于詞向量與TextRank的關鍵詞抽取方法。羅燕等[2] 運用詞頻統(tǒng)計規(guī)律改進傳統(tǒng)TE-IDF算法，改善了關鍵詞的提取效果。門家樂[3]提出了如何用TextRank做關鍵詞提取。目前關鍵詞提取的主流方法有基于隱含主題模型的LDA[4]、基于TF-IDF [5]詞頻統(tǒng)計的關鍵詞抽取，基于詞圖模型TextRank[6]的關鍵詞抽取。

1 關鍵詞概念

一般來說，文檔的主題要通過一些特定的，能夠體現(xiàn)主題的詞語來刻畫，這樣的詞叫作關鍵詞。對于文檔，首先是要確定一個文檔的關鍵詞。我們可能猜測文檔中最頻繁出現(xiàn)的詞語應該是最重要最有資格充當關鍵詞。但是，這個直覺實際情況恰恰相反。出現(xiàn)最頻繁的大部分詞語都是那些類似于“the”或者“and”等常見詞。這些詞語通常用于輔助表達，但本身不攜帶任何含義。實際上，英語中幾百個常見詞，往往在文檔分類之前就被去掉。

事實上，描述主題的詞語往往都是罕見。從信息論角度看，用罕見的詞語當作關鍵詞比起相對常見的詞做關鍵詞，更能引起人們的注意，能獲得更大的信息量。但是，并非所有罕見的詞語在做關鍵詞時同等重要。一方面，某些在整個文檔集合中極少出現(xiàn)的詞“notwithstanding”（盡管）， “ albeit”（雖然）并不能提供多少有用的信息，當然做檢索詞語是不合適的。另一方面，比如， “chukker” （馬球戲的一局）的詞雖然和上述詞語一樣罕見，但是該詞語卻能提示我們文檔明顯和馬球運動有關。上述兩類罕見的詞語區(qū)別在于它們是否在部分文檔中反復出現(xiàn)有關。也就是說，類似“albeit”的詞語第一次出現(xiàn)并不會增加它多次出現(xiàn)的可能性。但是，如果一篇文章中出現(xiàn)“chukker”，那么隨后可能會提到“first ?chukker”（第一回），“second chukker”（第二回）發(fā)生什么，以此類推。也就是說，如果這類詞在文檔中出現(xiàn)，那么他它們很可能反復出現(xiàn)。罕見詞“chukker”具有兩個特點：一是罕見，二是連續(xù)性。

我們一旦確立了罕見詞語做關鍵詞，那么不能做關鍵詞的罕見詞看作是“噪音”。下面，我們將給出盡可能避免噪音的一種獲取最大信息量的檢索詞語選擇方法。

2 關鍵詞選擇方法

為了特定搜索目的，按照以下步驟完成互聯(lián)網(wǎng)上調(diào)查。

（1）文檔集

選定m個檢索詞，在Google依著這m個檢索詞查詢，獲得相應的m類文檔：N= ，假設這些子文檔集總和為 N，建立由N個子文檔構成的文檔集。

（2）詞項（詞組）集

為了對N個文檔賦予關鍵詞，對所有文檔逐一地進行分詞。分詞是按照一定的規(guī)范重新組合成詞項的過程。中文分詞是文本挖掘基礎。對于輸入一段中文，成功的中文分詞，可以達到電腦可以自動識別語句含義的效果。對所有N的個文檔進行分詞后，我們獲取了“詞項（詞組）”集合。在這個詞項（詞組）集合中的每一個詞項（詞組）可能成為某一文檔的關鍵詞。當然，并不是在詞項（詞組）集合中的詞都能稱為關鍵詞。一個詞項（詞組）能不能成為關鍵詞，就要看這個詞項（詞組）能不能代表文檔的信息。

（3）詞（詞組）出現(xiàn)的概率

為詞項（詞組）i在文檔j中的得分。

【例】假定文檔集中有N= =1048576篇文檔，并詞項1在其中 =1024個文檔中出現(xiàn)，假定文檔5中，詞項1出現(xiàn)20次（假定這也是在這個文檔中詞語出現(xiàn)最多的次數(shù)）

D15= =1 10=10

詞項1在文檔5中得分為10。

（5）賦予文檔關鍵詞

對文檔集（N個文檔）中的指定的文檔 j，計算所有詞項在該文檔中的得分，得分最多的詞項作為文檔j的關鍵詞。

基于關鍵詞的得分，按照分數(shù)由大到小，給關鍵詞排序，確定文檔的關鍵詞。

結(jié)束語：本文通過引入能夠與文檔相關程度的指標Dij（分數(shù)），建立出Dij的數(shù)學模型，給出文檔關鍵詞抽取方法。詞項Dij與詞項出現(xiàn)的概率及詞項所含信息量有關，本文給出的關鍵詞抽取方法理論簡單易懂，只是運用了簡單的概率、-log2pi與信息量Ii呈負相關關系等數(shù)學知識，并且該方法操作簡單，可行性強。本文只是給出理論方案，沒有給出計算機運行程序，在推廣方面仍存在不足，這點是我繼續(xù)研究的方向。

參考文獻：

[1]周錦章，崔曉輝.基于詞向量與TextRank的關鍵詞提取方法.計算機應用研究[J/OL]，2019，36（5）. [2018-03-09]

[2]羅燕，趙書良，李曉超等.基于詞頻統(tǒng)計的文本關鍵詞提取方法[J] 計算機應用.2016，36（3）：718-725.

[3]門家樂.基于TextRank的關鍵詞提取算法. 探索與觀察.

作者簡介：

第一作者簡介：孟曉燕（1981-），漢，女，山東菏澤人，本科，副教授，主要研究方向高等數(shù)學、應用數(shù)學。

第二作者簡介：趙衛(wèi)紅（1978.12-），女，籍貫：山東青島，學歷：本科，單位：青島黃海學院，職稱：副教授，職務：教師，研究方向：高等教育，英語教學與研究。