基于SWOT 分析的非結構化數據文本分類算法

2022-10-19 06:59:10易曉宇易綿竹

科技創新與應用 2022年29期

易曉宇，易綿竹

（信息工程大學洛陽校區，河南洛陽 471000）

網絡是一個互動的、超鏈接的、異質的、分布的和動態的信息傳播渠道。網絡的體量從各領域的角度來看都是相當龐大的，而且在日常電子活動中的滲透迫使人們改變和擴大現有的基于信息的技術革命，并建立一個新的基于知識的時代。為用戶提供信息源的提煉技術已經變得越來越必要。相關文獻報道，網絡上約有80%的信息是以非結構化的形式存在的，如電子郵件、新聞文章和網頁[1]。結構化數據類似于機器語言，使信息的操作和管理更加直接；而非結構化數據通常是自然語言文本，沒有嚴格的語義結構或數據庫格式。顯而易見，如果能夠立即將非結構化數據轉化為結構化數據，那么從非結構化數據中理解情報就會更加簡單。

向跨領域的分析人員提供有針對性的信息。其囊括了信息檢索系統用來發現知識的自然語言處理和數據挖掘技術。使用分類算法智能地挖掘文本得到了廣泛的研究。研究主要調查了在挖掘非結構化數據過程中采用的文本分類算法，并對各分類算法的優勢、劣勢、機會和威脅（SWOT）的使用趨勢進行了結論性的分析。主要在情感分析的應用領域探討這些算法，在一篇文獻中，情感分析基本上是作為一個典型的文本分類任務來研究的。圖譜中可以確定未開發的社交媒體技術和這些算法在各社交媒體中的使用程度，相關研究人員可以更為方便地了解基于機器學習的社交媒體情感分析領域已完成的工作。

1 知識發現框架分類法

信息密集型應用要求科研人員從典型的文檔檢索發展到“知識”發現。傳統的發現框架包括自動發現目標知識的新方法，這些方法來自數據挖掘、信息檢索、自然語言處理、人工智能、機器學習和統計等研究領域。重要的分類法如下。

1.1 數據挖掘

數據挖掘被定義為從大型數據集或數據庫中提取隱含的、未知和潛在有用信息的非簡單抽取方法。用來從結構化的數據集合中識別和提取新穎、有效及可理解的模式。數據挖掘是從大量的數據中提取或挖掘知識。

1.2 數據庫中的知識發現

知識發現是在數據中發現新穎、有趣和有用模式的過程。數據挖掘通常被認為是在數據庫中發現知識過程中的一個重要步驟。因此，數據挖掘和數據庫中的知識發現（Knowledge Discovery in Databases，KDD）常被當作同義詞。

1.3 信息檢索

一個典型的信息檢索任務是用戶在特定情況下為解決其當前問題所需的檢索。網絡信息檢索（IR）可以被定義為將IR 的理論和方法應用于萬維網。其涉及IR 的技術和實際應用。

1.4 信息抽取

信息抽取（IE）可以使信息檢索更加精確，因為其在細粒度層面上工作，通過從檢索到的文件中提取相關的事實，將使用IR 系統檢索到的相關文件集合轉化為可以有效理解和分析的信息。IE 包括命名實體識別（NER）和關系抽取等子任務。因此，IE 可以用來改善IR 過程中的索引部分。

1.5 網絡挖掘

網絡挖掘是指使用數據挖掘技術自動檢索、提取和評估（規范化/分析）信息，以便從網絡文件中發現知識[2]。數字革命產生了巨量數據，促進了利用智能算法從其中發掘出有價值知識的需求。由于網絡數據的異質性、半結構性、分布性、時變性和多維性，自動發現目標知識是一項具有挑戰性的任務。

為確定一個有價值的知識發現框架，數據挖掘、數據庫知識發現、信息檢索、信息抽取和網絡挖掘都有明確的不同目標，卻又相互補充。網絡挖掘中，信息檢索和信息抽取作為預處理文本數據的子任務，應用數據挖掘算法促進有用模式的發現。另外，網絡挖掘可以提高IR 系統的精度，并以更好的組織方式呈現檢索結果。網絡挖掘是數據挖掘過程的延伸，網絡挖掘過程的主要組成部分包括：信息檢索模塊，用于檢索相關文件；信息抽取模塊，用于從檢索到的文件中選擇有不同數據，并將其轉化為形式表示；泛化模塊，主要使用數據挖掘方法自動發現多個網絡文件的模式；分析模塊，用于分析數據。

網絡信息的多樣性將網絡挖掘分為3 個大類，即網絡內容挖掘、網絡結構挖掘和網絡使用挖掘。文本挖掘是網絡內容挖掘的一種類型，是從文本中獲取知識的過程。其也被稱為文本數據挖掘（TDM）和文本數據庫中的知識發現（KDT），是匯編、組織和分析大型文件集的過程，為分析和決策者提供信息。區分文本挖掘和數據挖掘主要是考慮數據庫的特點，在文本挖掘中是非結構化的數據，在數據挖掘中是結構化的數據。結構化數據指的是具有高度組織性的信息，這樣的信息在關系型數據庫中是無縫的，可以通過簡單、直接的搜索引擎算法或其他搜索操作進行搜索；而非結構化數據基本上是相反的[3]。非結構化數據在編譯時更為耗時和耗力。

2 文本挖掘過程

文本挖掘是從語料庫中識別新信息的過程，主要是為了在文本中發現用戶以前未知的知識。文本數據主要是非結構化數據，挖掘這種類型的數據主要涉及將非結構化的數據系統地轉化為結構化的數據，并使用專門的數據挖掘技術發掘出隱藏的知識。因此，文本挖掘中的智能是基于自然語言處理技術（NLP），NLP可以作為一種預處理技術來獲取數據，并初步了解數據中存在的模式。因此，文本挖掘=統計NLP（結構化數據）+數據挖掘（模式發現）。文本挖掘的通用策略包括預處理（消除停頓詞、詞根等）、使用各種統計或語義方法選擇特征，以及使用適當的數據挖掘建模及算法（分類或聚類或回歸技術）[4]，最終預測出具有可解釋性和可行性能的模型。分類或聚類算法是2 種關鍵的數據挖掘方法。分類是一種有監督學習，在特征的基礎上為實例分配預先設定的標簽，需要訓練數據。聚類是一種無監督學習，不需要訓練數據，在特征的基礎上對類似的實例進行分組。

本研究的重點是確定用于文本數據挖掘的分類算法，僅考慮使用分類算法挖掘過程的每個步驟。步驟依次為：文本預處理（句法/語義文本）—特征生成（詞袋）—特征選擇過程（簡單計數統計）—數據挖掘監督/無監督/半監督學習算法（分類/聚類）—結果分析與預測模型。

2.1 文本轉換

將非結構化數據轉化為結構化的知識發現方法，包括2 個子任務，即文本預處理和特征生成。預處理將文件轉換為適合分類任務的表示。一般來說，文本可以用2 種方式表示，即用詞包表示，每個文檔被表示為一組詞，以及其在文檔中的相關頻率（詞頻）（基本上與集合中的詞的順序無關）或直接表示為字符串，即每個文檔是一個詞的序列。大多數文本分類方法使用詞包表示法[5]。

在分析非結構化文本之前需要進行清洗。常見的文本清洗任務包括用空格替換特殊字符和標點符號、規范化大小寫、刪除重復字符和消除用戶自定或內置的停用詞及詞干化。因此，文本數據清洗基本上是文本預處理的一個子任務，文本數據清洗包括的子任務有數據整合、數據還原、特征選擇及數字數據離散化。

2.2 特征選擇

文本特征的高維度和不相關特征（噪聲）的存在，分類之前需要完成的基本任務之一是特征選擇。方面級情感分析的主要任務是抽取對象（特征）和極性詞。特征選擇方法從文檔中去除非信息術語，提高分類效果并降低計算的復雜性。常用的特征選擇方法有：基尼指數（Gini Index）、信息增益（IG）、互信息（MI）、χ2統計（CHI）、文檔頻率閾值（Term Frequency）、Tf-idf。特征轉換方法有：監督LSI、線性判別分析和廣義奇異值分解。特征選擇方法的目的是通過刪除與分類無關的詞減少特征集的大小，降低維度，提高分類的準確性。

2.3 數據挖掘

數據挖掘是網絡挖掘的歸納任務，可以自動發現多個網絡文件的模式。分類是文本數據挖掘研究中重要任務之一。其本質上是根據文檔的內容將其歸入預先確定的類別的過程，通常包括2 個步驟：模型構建和模型使用。

2.3.1 模型構建

為了描述一組用于分類的預定類別，需要使用分類規則、決策樹或數學公式來表示訓練集，構建一個模型。

2.3.2 模型使用

上述模型用于對未來或未知對象進行分類。測試樣本的已知標簽與模型的分類結果進行比較。測試集獨立于訓練集，否則就會出現過擬合。模型的準確性是通過準確率評定，準確率是指被該模型正確分類的測試集樣本的百分比。

2.4 結果分析

建立預測模型后，下一步就是驗證或解釋挖掘出來的模式。更具體地說，其對應于從網絡上獲得的知識的解釋、驗證和可視化[6]。算法的性能可以通過以下參數來衡量：訓練時間、測試時間、分類準確度、精確度、召回率、微平均、宏平均和平衡點（精確度=召回率）。目標是實現分類高質量和高計算效率。

3 挖掘非結構化數據的分類算法

分類算法的目標是將文本歸入一個預先設定的類別中。其定義為：給定一個訓練數據集D={X1，…，XN}，數據集中的每條記錄均被貼上一個類別值，這個類別值是從一組由{1…k}為索引的K 個不同離散值中抽取的。訓練數據用來構建分類模型，該模型將基礎記錄中的特征與類別標簽之一聯系起來。對于類別未知的特定測試實例，訓練模型用來預測該實例的類別標簽。為了給本研究提供一個結論性的工作，采用SWOT（優勢、劣勢、機會和威脅）分析。SWOT 可以快速進行戰略分析，通常用來了解當前的情況或計劃，評估相對機會，分析領域內外的所有積極和消極因素[7]。隨著情感分析應用于商業與政府，SWOT 適用于評估、理解和評價相對機會。表1列舉了在文本挖掘相關研究中的分類算法。

表1 文本數據挖掘中分類算法的SWOT 分析

每種分類算法都有自己的優勢和劣勢。目前，預訓練模型因使自然語言處理由原來的手工調參、依靠專家的階段，進入到可以大規模、可復制的大工業施展的階段而興起。而且預訓練模型從單語言、擴展到多語言、多模態任務。

情感分析是人們對某個實體的意見、態度和情感的計算研究。其將人們的情緒劃分為消極、積極、中性的基本極性。從用戶意見中得到分數，概括出用戶的觀點。情感分析描述了一個自然語言處理問題，將意見性文本與事實性文本區分開來，如果是前者，則確定其極性。同時，從應用層面考慮，情感挖掘在社交網絡的趨勢上是可行的。從20 世紀90 年代中期提出情感分析，“社會網絡”仍在熱議中。研究用戶在不同的討論門戶上所持有的觀點，這也是情感分析在思考人群行為方面所發揮的不可或缺的作用。所有用戶在網絡上產生的數據都被稱為社會媒體內容，這些進入動態網絡的數據沒有任何格式或順序可循。從其流動的數量和種類來看，是“大數據”的一部分。

4 結論

從海量的大數據中挖掘和分析信息，是一個高效的決策過程。回顧用于智能挖掘非結構化數據的主要文本分類算法的應用情況，并從各算法的優勢、劣勢、機會和威脅（SWOT）方面對其使用趨勢進行了結論性的分析報告。探討了這些算法的應用范圍，即情感分析為一種典型的文本分析。其目的是了解基于機器學習的社交媒體情感分析領域的任務，確定該領域有待解決的問題和研究空白。