輿情分析中自然語言處理的研究

2020-12-15 06:53:14杜芳

商情 2020年47期

杜芳

【摘要】輿情來源于網頁內容，對網頁內容的理解程度，即對自然語言處理的能力，在一定程度上決定了對網絡軍事輿情分析的準確性及有效性。自然語言處理屬于文本挖掘領域，隨著人工智能的發展，自然語言處理成為人工智能與語言學領域的交叉學科，對該學科的研究有著重要的現實意義，包括文本分類、信息檢索、智能摘要、機器翻譯等行業，因此，大量的專家和學者均對該課題進行了深入的探索。

【關鍵詞】自然語言處理;中文分詞;詞向量

自然語言處理通常包括了詞向量，文本向量，文本壓縮，模型預測四個方面。對自然語言進行處理，第一步是對文本進行詞向量，詞向量算法中，不僅要考慮詞本身的準確識別，同時還應考慮語義距離，使得對單詞的識別能夠結合上下文語義。第二步是文本向量，大多數自然語言處理問題面對的不是單個詞語，而是通篇的文章，根據詞向量的結果，將整個文章編碼為矩陣模型。第三步文本壓縮，也稱為注意力機制，將文本向量矩陣壓縮為向量表示，即對高緯度信息進行降維。第四步為模型預測，將壓縮好的文本向量輸入預測模型中，輸出相應的預測標簽。

一、中文分詞

在自然語言處理，尤其是對輿情信息進行分析前，需要對大量的文本信息進行處理，文本信息主要是抽象的非結構化信息，對于人類來說非常容易理解，但是對于機器而言，很難結合句子上下文，對整個文本的意見進行識別，挖掘文本中的話題、事件及情感傾向。

（1）中文分詞

中文分詞的主要難點包括歧義消除和未錄入詞語，分詞歧義的產生主要是由于分詞粒度難以標準化產生的，具體的包括詞語組合產生的歧義，單詞共用產生的歧義。如對于“軍事網絡輿情”為例，粗粒度的劃分可以直接識別出這個詞語是“軍事網絡輿情”，細粒度劃分可以識別為“軍事”，“網絡”，“輿情”三個詞。中文分詞在搜索引擎中屬于很重要的一個科學分支，通常的做法是，為保證搜索的召回率，在構建索引時使用細粒度分詞，為保證精度，在查詢的時候使用粗粒度分詞。

分詞算法主要包括基于詞典的分詞和基于機器學習的分詞，基于詞典的使用了傳統的基于字符串匹配的方法，以預先寫好的正則表達式作為策略，將待分詞的文本信息與一個類似詞典的知識庫進行匹配，若詞典中包含了該詞條，則識別為匹配，由于漢字固有特性，通常出現一個單詞屬于詞典中多個單詞的子集，出現一對多的關系，造成歧義，因此需要制定相關的匹配粒度，常使用的包括正向最大匹配法，在一些文章中也稱之為最長詞有限匹配法，雙向匹配法等。隨著機器學習和人工智能的興起，單純的使用正則匹配策略無法達到分詞應有的準確率和召回率?，F階段，通常使用機器學習與詞典算法相結合的方式，在保證精確度的前提下，提升領域適應性。

二、詞向量

語言作為人類進化過程中總結、傳承知識的載體，具有極高的抽象性，僅根據字面意義，機器幾乎無法判定兩個詞語之間的關系，因此，如何對文本數據進行合理的劃分，即特征工程，使得文本數據能夠被神經網絡等機器學習模型使用，變得尤為重要，常見的詞向量模型包括獨熱表示和分布式表示。

單詞的獨熱表示，是根據其英文含義one-hot representation翻譯而來的，獨熱表示在處理結構化數據的過程中表現了優異的性能，將數據進行符號化，在用戶推薦等領域占到了主導的地位[29]。設機器學習模型所有的輸入集合為N，定義一個列向量，V=[P1，P2，P3，……，PN]，其維度為N，且每個維度上的取值僅有0和1兩種選項，每個位置均描述了輸入的一種可能條件是否存在，如果存在，則置1，如果不存在，則為0，因此，為了描述單個節點的輸入內容，任何時刻，一個列向量中只可能有一位為1。以“機器學習”，“軍事”，“網絡”，“輿情”，“分析”這五個詞為例，其輸入集合N=5，則器編碼為：“分析”：[0，0，0，0，1]

當輸入情況較多時，為了避免向量維度過高產生的不必要運算，使用Hash表為每個單詞分配編號。這種表示方法在進行一般的二分類或多分類的過程中，極大地解決了計算機語言與實際情況之間的映射問題，如MINIST數據集中，對于手寫數字的識別只可能為0到9中的一個，共計10中可能，使用獨熱編碼完全可以滿足要求，而面對文本識別的問題時，文本中的單詞量非常大，以在“中華軍事網”2018年3月1日發布的文章“中國空軍發布殲-16宣傳片，飛行畫面披露”為例，其中共有498個字，使用中科院計算所的NLPIR的分詞器得到了共計169個單詞，為了能夠描述這篇短文，需要構建169維的列向量對每個單詞進行表示，隨著文章的篇幅不斷增加，這個數字會不斷擴充，最終由于維度過大導致計算量過載。在自然語言處理方面，獨熱編碼的缺點主要包括：一是使用獨熱編碼表示自然語言維度過大，難以計算;二是任意詞語之間是孤立的，無法結合上下文對語義進行分析，即無法解決詞匯鴻溝問題。

通過分析獨熱編碼的缺點，明確了在對自然語言進行處理時，單詞向量化的目標包括緯度不能過大，否則會出現計算過載的問題，同時，需要不僅要刻畫目標詞本身的含義，還需要刻畫其上下文的關系。根據Harris與1954年提出的分布假設，表明單個單詞的語義需要由其上下文決定。其核心思想為：通過對語言進行訓練，得出每個詞的低緯向量表示，通常維度為50到100之間，這里所談及的低緯度是相對于獨熱編碼動輒成百上千維度而言的，可以得到一個向量空間，該語言所有的詞語都可以在向量空間中進行定位，通過訓練，可以得到空間點的距離，在對語義進行相似度判定是，可以引入空間距離，很好的結合了上下文。將單詞映射到三維空間中，基于對已經人工標記文章的訓練，可以通過模型將所有單詞均映射在同一個三維空間中，亦可以得到其距離。根據建模方式的不同，將分布式表示分為基于矩陣的分布式表示、基于聚類的分布式表示和基于神經網絡的分布式表示。

綜上，詞向量在自然語言處理中扮演著重要的角色，使用機器學習、深度學習等模型能夠有效地對單詞進行分詞和向量化，為下一步的文本分析和話題識別提供適用于模型的優質數據。

參考文獻：

[1]朱丹浩，楊蕾，王東波.基于深度學習的中文機構名識別研究一種漢字級別的循環神經網絡方法[J].數據分析與知識發現，2017，32（12）：36-43.

[2]牛耘，潘明慧，魏歐，等.基于詞典的中文微博情緒識別[J].計算機科學，2014，41（9）：253-258.

商情2020年47期

商情的其它文章: ?？诮瓥|新區公共空間視覺文化研究; 經貿日語翻譯策略; 高校乒乓球俱樂部發展情況研究; 淺析農村生態文明建設的內容與對策; 商品包裝設計的視覺效應探析; 威海文創設計