




摘" 要:在大數據時代背景下,非結構化數據尤其是文本數據的分析處理技術成為當下科研熱點。該文介紹本數據分析技術的發展現狀和前沿技術,提出研究思路,并使用Word2vec和Single-Pass聚類算法進行數據處理。該文還整理和說明近年來該領域的技術突破,并對未來發展方向進行展望。
關鍵詞:自然語言處理;聚類分析;文獻數據;分析技術;數據處理
中圖分類號:TP391.1" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2025)09-0099-05
Abstract: In the context of the era of big data, the analysis and processing technology of unstructured data, especially text data, has become a hot topic in current scientific research. This paper introduces the development status and cutting-edge technologies of text data analysis technology, puts forward research ideas, and uses Word 2vec and Single-Pass clustering algorithms for data processing. The article also collates and explains the technological breakthroughs in this field in recent years and looks forward to the future development direction.
Keywords: natural language processing; cluster analysis; literature data; analysis technology; data processing
進入信息時代以來,信息技術創新日新月異。數字化、網絡化、智能化深入發展,深刻影響著社會各個層面。同時,伴隨著大數據分析、云計算、人工智能等相關信息技術的快速發展以及互聯網媒體群的大量涌現,網絡空間已成為人們社會交往、娛樂學習的重要場所。在這樣一個互聯網高速發展的時代,產生了大量開源的、流動的、實時可追蹤、可識別和可分析的數據,信息的獲取已經進入開源信息時代,且以網絡信息為主要表現特征[1],為深入分析開源情報提供了有效的數據基礎和技術支持。面對高維數據日益成為普遍性存在的趨勢,傳統的分析方法已無法與海量信息分析所需要的能力相匹配。同時,大量無用的、甚至是錯誤引導的信息充斥在互聯網空間中,阻礙人們作出正確判斷分析。在這樣的條件下,對這些海量的開源情報信息進行挖掘分析,就能夠為國家發展戰略決策和軍事行動提供重要依據。因此,在當前全球化、信息化發展更加深入的趨勢下,嘗試利用機器學習技術對開源文本數據進行分析是十分有必要且意義重大的。本文基于中文文獻檢索,通過運用文本分析、計量統計等手段,利用互聯網中文文獻信息,分析我國近年來自然語言處理技術的發展情況。
1" 研究主要內容
本文的研究目標是在互聯網的開源環境下,根據自然語言處理領域的信息需求,基于中文文獻檢索的方式進行數據采集,在此基礎上,通過對爬取的數據進行清洗、整理,運用計量統計進行宏觀分析,并利用文本挖掘手段進行深度分析,從而得出自然語言處理領域近年來的發展動向、技術突破和優勢團隊等信息,從而輔助相關人士進行決策,提供幫助。
1.1" 文本數據采集
在文本數據采集階段主要是利用網絡爬蟲等技術手段,爬取關于自然語言處理方面的文獻,形成條目清晰,覆蓋全面的領域知識庫。網頁采集模塊根據一級結果鏈接和內含二級鏈接抓取信息,網頁去重模塊利用正則表達式以去除無用文獻。鏈接匹配模塊根據鏈接格式從網頁內容中匹配待采集的鏈接并添加到待采集隊列。網頁入庫模塊將抓取到的具體網頁內容存儲到相應的領域知識庫內,為后續的數據處理與分析奠定基礎。
1.2" 文本數據處理
利用網絡爬蟲工具完成文獻數據采集工作以后,所得到的文本數據不能立即用于相關分析,必須先將文本信息轉化為計算機可識別的數字信息。為了對文本進行深入分析,需要對文本數據做出一系列預處理,其中包括文本分詞、去停用詞、詞向量訓練等等。流程如圖1所示。
1.3" 聚類分析
在對文本數據作特征化表示以后,采用Single-Pass算法進行文本聚類。在此算法中,每個樣本只會參與一次樣本聚類,每次面對一個新樣本,如果與現有的某個類足夠相似,那么就放入這個類,否則就自成一類。具體過程如圖2所示。
1.4" 結果分析
以前期采集獲取的文獻數據為基礎,進行數據的相關分析及展示,從多方面、視角全方位展示近年來自然語言處理研究的發展狀況,深入分析在該領域的優勢團隊與專家學者,進一步了解分析掌握該領域的發展情況。參照聚類結果,在聚類得到標題、作者類簇后,選取聚類結果中包含的高頻短語作為對應相關簇名稱,并根據主題描述內容劃歸到相應的信息類別,作進一步分析。
2" 關鍵技術
2.1 文本預處理
文本預處理是文本處理過程中最基本的一項內容,在網絡時代獲得的文本數據量大、內容雜亂,并且中文相對英文來說,分詞文本更加復雜,必須對原始數據進行預處理,幫助更好分析數據文本信息。
近年來,國內學者對文本預處理技術進行了系列的研究。葉娜[2]對形態固定的簡單實體進行精準識別,降低了歧義可能性。李英[3]提出了基于詞性的選擇的文本預處理方法,通過降低特征維數的方法來提高分類性能。王之鵬[4]在Web文本分類系統引入了基于同義詞統計的特征選擇方法,從而降低特征空間維數。實踐中,文本預處理主要用到了分詞、詞性標注及特征選取等,這里也作一介紹。
分詞。當前,中文自動分詞技術取得了重大發展,相繼產生了很多漢語分詞系統,如SEG系統、WSBN分詞系統等等。這些漢語分詞系統主要運用了機械分詞、基于理解的分詞和基于統計的分詞等方法。
詞性標注。詞性標注就是給定句子中判定每個詞的語法范疇,確定其詞性并加以標注的過程,包括基于規則的詞性標注方法、基于統計模型的詞性標注方法、基于統計方法與規則方法相結合的詞性標注方法和基于深度學習的詞性標注方法等。比如,TAGGIT詞性標注系統是典型的基于規則的詞性標注系統。
特征選取。其統計指標有文檔頻度、特征頻度、特征權等,后來又有了低損降維、貝葉斯準則法、F1準則法等。通過假設特征獨立,構造評估函數對特征集中的每個特征項評估,得到一個評估分,按分值大小,提取預定數目的特征值作為特征子集。目前特征詞權重計算方法有基于TF-IDF的改進方法,基于Shannon信息熵的詞權重算法。在應用中,算法需視情況而定,并沒有普適的最優公式。
通過這些手段,就可以讓文本信息變成計算機可識別并利用算法進行處理。
2.2 文本聚類
作為文本分析的主要手段之一,文本聚類可分為文本表示和聚類分析2個步驟。其中,文本表示即將文本數據做結構化處理的過程。目前主要表示模型有向量空間模型、語言模型等。
向量空間模型。該模型將文本向量化,維度對應文本特征,向量值代表對應特征權重。計算權重的方法有TF-IDF函數、頻度函數等。但由于傳統模型認為文本中詞語間是相互獨立的,忽略了內在的語義聯系。
語言模型。是指語言客觀事實基礎上進行抽象數學建模,主要表現形式為對應關系。例如,統計語言模型是通過前期大量積累從而獲取蘊含其中的詞間上下義關系等,并據此計算特定特征的概率,最終將文檔表示為整個特征集合的概率分布。由于具備深層挖掘語義信息的能力,語言模型的應用前景非常廣闊。
3 文本聚類算法
在本文中,選擇基于特征詞向量的文本表示和基于特征詞移動距離的文本聚類算法。具體過程如圖3所示。
3.1" 文本特征化表示
3.1.1" 文本特征表示模型選擇
在本文中,選擇的是向量空間模型。向量空間模型用一個大小為m×n的詞條——文本矩陣來表示包含n個文本和m個不重復詞語的文本集合。在向量空間模型中,文本空間常被看作是由一組正交詞條向量所組成的向量空間,每個文本表示為其中的一個范化特征向量:V(d)=(t1,w1(d));…t2,w2(d);…tm,wm(d)在這個特征向量中,ti代表單詞(詞組)的詞條項。wi(d)為ti在文本d中的權值,一般定義是將其視為ti在d中出現頻率或頻率的函數。t1,t2,…,tm可看成一個m維坐標系中的坐標軸,w1(d),w2(d),…,wm(d)分別是對應的文本在坐標系中的坐標值。這樣,每個文本都可以映射為向量空間的一個向量。
3.1.2" 構建詞袋空間VSM
將所有文本中的詞匯統一構建為一個不重復的詞條列表,再針對單個文本,構建一個向量,維度與詞條列表的維度保持一致,向量值即列表中每個詞條在文本中的出現次數,把非結構化和半結構化的文本表示為向量形式。具體流程如下:①將所有文檔讀入到程序中,再將每個文檔切詞;②去除每個文檔中的停用詞;③統計所有文檔的詞集合;④對每個文檔都構建一個向量,向量的值是詞語在本文檔中出現的次數。
3.1.3" 權值轉換
在研究過程中,需要尋到文本特征詞即能夠代表該文章觀點的一類詞。顯而易見,以單詞出現次數作為標準是一個明智的方法。如果某個詞非常重要,它應該在這篇文章中多次出現。于是,采用TF-IDF的權值計算方法來確定文本特征詞。結合課題實際和算法原理,有下式:
詞頻(TF)=某詞在文章中出現的次數/文章的總次數;
逆文章頻率(IDF)=log(文章總數/(包含該詞包含的文章數目加一));
特征權重(TF-IDF )= 詞頻(TF)X 逆文章頻率(IDF)。
由此可見,字詞的重要性與其在文本中出現的次數成正比,并在語料呈反比下降趨勢。
3.1.4" 求文本相似度
本文中,通過余弦距離來判別2個文本的相似性。當夾角余弦值接近1時,說明兩個文本高度相似,具有高度相關性。當夾角余弦值趨近-1,可證明兩文本沒有相關性。余弦距離公式如下:
3.2" 基于Single-Pass算法的文本聚類
Single-Pass算法又稱單通道法或單遍法,是流式數據聚類的經典方法。對于依次到達的數據流,該方法按輸入順序每次處理一個數據,依據當前數據與已有類的匹配度大小,將文本特征向量做相似度比較后,得到的相似度值大于閾值的文本歸為一類文本。從而使主題更容易被發現,使計算更精準。處理結果如圖5所示。
4" 自然語言技術未來展望
在信息化時代,自然語言處理技術的發展,必然是多學科交互學習推動的過程。其中,與深度學習和大數據網絡交叉融合是重要的發展方向。
4.1" 自然語言處理與深度學習
自然語言處理技術是一門結合于計算機科學、人工智能、語言學關注計算機和人類(自然)語言之間的相互作用的領域[5]。它既有語言學的歷史性與多樣性,也有計算機技術的嚴謹性和機器邏輯,而基于深度學習的文本情感分析是從淺層學習不斷地向深度學習探索。在深度學習當中,循環神經網絡(RNN)由于學習層數的加深,會導致一定的梯度彌散的問題,由此人們提出一種長短時記憶網絡模型解決該問題,從而使得文本的情感傾向與檢索者的需求建立起一定的聯系。因此,要使自然語言處理技術更加成熟,深度學習是突破點。
4.2" 自然語言處理與大數據網絡
從人文研究到政府決策,從互聯網優質教育到良好的人機交互等等,大數據承載著重要的信息,發揮著重要的作用,而自然語言處理技術使計算機具備識別并解釋非結構化的數據信息的能力。
同時,海量的數據給自然語言處理技術提供了堅實的數據支撐,自然語言處理技術也需要提高對文本、語言、圖像等多種數據類型的處理能力,自然語言處理與大數據相輔相成,可以更好地滿足大數據網絡的需求,這也將會進一步滿足市場產品的智能化需求,提高人們的生活水平。
5 文本數據分析總結
近年來,在相關學者及研究人員的努力下,文本數據分析技術發展迅猛,在情緒分析、搜索對非結構化數據的訪問、電子郵件垃圾郵件過濾器、自動化的廣告位置、社交媒體監測、競爭情報、企業業務智能和數據挖掘、電子證據發現、記錄管理、國家安全和情報、科學發現,特別是生命科學和競爭情報等相關領域,取得了一系列優秀成果和重大突破。
此外,文本分析方法對企業競爭情報分析同樣具有重要意義。隨著信息技術在大數據時代的日臻進步與完善, 當下的信息收集更加容易,長此以往出現的信息泛濫問題正廣泛存在于各行各業,如何從大量信息中篩選并提取出關鍵情報成為重點。獲取的信息越接近競爭對手的真實意圖, 推測其計劃和行動的準確性就越高。一方面能大致了解競爭對手對其目前地位和收益狀況的滿意程度和長短期目標,釋放市場信號;另一方面,可以此作為自身下一步行動的參照,及時調整戰略,對于提高市場敏感度和競爭力具有重要意義。
事實上,能做的還有很多,隨著相關技術的日益發展,取得的成就會越來越顯著,應用會越來越廣泛。
參考文獻:
[1] Department of Defense.Dictionary of Military and Associated Terms[Z/OL].https://fas.org/irp/doddir/dod/jp1_02.pdf.
[2] 葉娜.面向信息提取的文本預處理和規則自動學習技術研究[D].沈陽:東北大學,2004.
[3] 李英.基于詞性選擇的文本預處理方法研究[J].情報科學,2209,27(5):717-719,738.
[4] 王之鵬.Web文本分類系統中文本預處理技術的研究與實現[D].南京:南京理工大學,2009.
[5] 丁曉慶.微博熱點話題發現研究與實現[D].鄭州:鄭州大學,2014.