胡超


摘要:隨著我國信息的不斷膨脹,基于傳統算法模式下的文本分類已經不能滿足時代的需求,基于覆蓋算法的構造性神經網絡文本分類算法,可以有效地解決因為數據量過大而無法實現分類的弊端。因此,本文使用覆蓋性前后神經網絡算法,從文本的預處理入手,構造了文本的自動分類,并且做出了相應的實驗,從實驗結果當中來看,覆蓋性前后神經網絡算法無論是對于文本分類的準確度還是容納的數據量都遠遠高于傳統算法。
關鍵詞:覆蓋算法;文本分類;文本預處理;實驗構建
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)25-0278-02
隨著我國經濟的高速發展,科技水平的病毒案提高,我國已經全面進入了互聯網時代,以互聯網為基礎的信息出現了爆炸式的增長,文本信息作為信息的主體,但是目前我國對于文本信息的分類算法還存在各種各樣的不足,文本信息的搜索能夠實現文本的分享和查找,是我國廣大人民群眾最實際的需求。要從如此膨脹的文本信息當中找到自己所需要的信息,文本的自動分類的處理就顯得尤為重要,基于覆蓋式算法的文本分類可以幫助我們更好地查詢和發掘信息。但是由于互聯網產業的高速發展,基于傳統算法模式下的文本分類已經不能滿足廣大人民群眾的需求,如何利用新型的算法實現更加快速的文本分類,成為目前我國信息產業最需要解決的問題之一。
1 文本分類
隨著我國經濟水平的不斷發展,科技水平的日益提高,互聯網產業的不斷普及,特別是改革開放以后,我國的信息出現了爆炸式的瘋狂增長,文本信息作為信息當中最主要的一部分,在各種各樣的媒體信息當中,文本分析的分類也是目前我國廣大人民群眾最需要的地方,但是因為數據的日益膨脹,如何在如此多的文本信息實現分類的檢索從而方便客戶找到自己雖需要的資料,算法在文本分類當中的作用就顯得越來越重要。在文本的具體分類當中,首先需要對于文本實現基本的預處理,然后通過去除停用詞和去除稀有詞,通過特征提取,構造專門的自動分類器實現自動分類文本,大大節省了人力物力的同時有效地提高的文本分類的效率。
1.1 文本分類的預處理
目前我國的文本預處理和歐洲發達國家的文本預處理之間最大的一個差別就是在歐美發達國家詞匯之間存在一個明顯的空格,而我國卻規定了文本的預處理必須是連續的字符串,詞匯之間沒有空格,針對這一差別就要去我們在進行本文預處理的時候,必須確定好特征選項,例如字符,詞句,字符串等,現目前最實用的特征類型采用詞為基本單位是最高效的處理方式。從實質來看所謂的文本處理和分類就是在某一個特定的文本分類系統下,根據文本之間內容的差距自動分類文本,如果從數學的角度來看的話,其實文本的分類屬于一個映射的過程,就是將未標注的文本映射到現有的分類體系當中,這種分類可以一對一,也可以實現一對多。簡單來說就是一個文本可以對應一個分類,也可以對應多個分類。而且我們需要理解中英文之間的差距,對于中文的文本分類來說,我們需要基于字符串匹配的方式去實現文本的分類,還需要進行標注和識別,一般我國對于文本的預處理一般為以下三種。
1)去除停用詞
具體來說就是在實際根據文本特征進行分類的時候可以根據此行的標識去過濾一部分形容詞或者虛詞,只保留語句當中較為重要的名詞動詞。一般來說對于文本中文詞匯的分析分為三個主要階段,分別是詞匯的拆分,未登錄詞匯的識別,標注詞匯等三個步驟。進行具體的拆分之后將文本當中出現頻率較高但是概念模式并且范圍較為廣泛的詞匯停用。對于某一些詞匯使用概率較高的詞匯也可以當中停用詞停用。
2)去除稀有詞
所謂稀有詞,顧名思義就是在整個文檔當中出現頻率都較高的詞匯,這些詞匯不能作為文本的特征選項,一般我們會選擇設定一個詞匯數值,低于這個數值的詞匯就會當作稀有詞匯去除。
3)詞匯合并
詞匯合并就是將詞匯意思相同但是具體表達不同的詞匯進行合并,當作同一個詞匯進行計算和處理。
1.2 文本的基本表示方法
由于文本的處理和分類不是依靠人工而是使用計算機,所以我們需要將文本轉換成計算機能夠分別和識別的表示模式,因為大部分計算機不具有智能,不能識別文字,但是我們可以通過將文字轉換成0.1模式讓計算機進行識別。我們可以將文本當作的詞句拆分之后,通過詞句的組合來代替文本,以計算機為基礎實現文本的實現和分類。
目前在文本信息的處理上,文本的表示一般采用向量模式VSN,利用向量去表示文本,將文本當作的詞句作為特征選項,在實際的實踐當中我們發現,詞相對于句或者字來說,具有更好的特征性。所以我們要建立向量模型就必須要對于文本的詞匯進行分類,將文本用詞匯組合的方式表達出來,并且根據詞匯出現的頻率具體化的表示文本,主要使用TF-IDF公式來建設和實現文本的表示。
1.3 特征選擇
在信息文本的分類當中,特征選擇是最重要的部分,特征選擇就是通過去除不能表達信息的詞匯,分類和提取重要詞匯。特征選擇可以有效地提高信息文本分類的效率降低所需要的計算量。特征選擇的方式一般是通過構建評價函數,然后通過特征集的特征去對于分本進行分類,這樣會讓文本得到一個大概的分值,在根據所得分支大小將文本排序,選擇特征文本當中的特征子集,然后通過特征子集實現文本的分類。一般來說,我國目前常用的特征選擇為以下四種。
1)通過文本的頻率實現文本特征的選擇,當文檔當中某一個詞匯出現的頻率小于某一固定值或者大于某一固定值的時候就可以將該詞匯停用或者去除,提高文檔分類的準確性。
2)通過信息增益實現文本特征的選擇,所謂的信息增益也就是這個詞對于這個文檔分類的價值,如果該詞匯的價值較低就將詞匯停用。
3)X2統計量,所謂統計來就是文檔當中某一個詞匯和文檔的獨立性以及相關性,當詞匯和文檔的相關性越高,獨立性越小那么這個詞就當作文檔分類的重點詞匯,如果該詞和文檔的相關性較低,獨立性較高那么在文檔分類的時候就刪除或者停用這個詞。
4)期望交叉熵,期望交叉熵的特征選擇是通過鑒定詞匯對于本次分類的影響比重,如果本次詞匯對于文檔分類的影響比重超過某一固定值,那么就將該詞當作文檔劃分的重要依據。
2 覆蓋算法
2.1 前后神經網絡交叉覆蓋算法
如果一個文檔經過上述所有預處理之后,那么這個文檔就變成了一個特征選擇文檔,我們就可以通過前向神經網絡交叉覆蓋算法去進行文檔的分類,所謂前向神經神經網絡覆蓋算法就是通過某一個輸入集合例如K(K為N維的歐式空間的集合),然后我們在將集合K細分成八個不同的小集合K1,K2,K3,K4,K5,K6,K7,K8.然后再具體的網絡機構實現的時候,建立一個圓球性區域當作一個神經元,每一個神經元的功能函數表達式為
將X,Y分別當作內積,這時候就可以形成一個以X為主體,以O為具體值的覆蓋區域C,將樣品當中的每一個點都映射到最開始設定的神經元網絡當中,按照這樣的方法可以得到文檔的全部覆蓋和具體分類。
前向神經網絡交叉覆蓋算法可以快速地構建一個分類正確的神經網絡體系,對比于傳統的文檔分類算法,前向神經網絡交叉覆蓋算法可以提高效率。
2.2 算法的具體應用
要想實現前向神經網絡交叉覆蓋算法的具體應用,那么就必須學習算法,首先我們需要設定一個具體的樣本X并且將它劃分為N類,利用數學表達為X=(X1,X2,X3...XN),具體的應用為,先將X樣本當中計算得出一個最大的模R,然后將X當中的每一個類,映射到半徑為2R的圓球當中,分別設定好覆蓋的數值和類別的數值,將類別覆蓋到設定好的覆蓋數值當中,如果無法覆蓋則將這個類停用,如果可以覆蓋就按照具體構造公式計算這個類的覆蓋范圍,實現前向神經網絡交叉覆蓋算法的具體應用。
2.3 算法的準確性測試
要實現前向神經網絡交叉覆蓋算法的精準性測試,就必須通過給定一個具體的測試樣本,若果這個測試樣本符合之前設定的類別當中某一個類別的圓球形區域,然后將其帶入算法當中計算,如果計算結果和最后的文檔分類正確那么本次前向神經網絡交叉覆蓋算法準確性合格,如果帶入算法之后無法計算或者最后的文檔分類出現錯誤,那么本次前向神經網絡交叉覆蓋算法精準性測試不合格。
3 實驗結果和具體分析
本次的前向精神網絡交叉覆蓋算法的實驗,通過實現基于互聯網檢索并且人工審核之后確定分類的文檔,本次文檔的類別分別為交通類,體育類,自然類,災害類,生活類,娛樂類六個大類,每個大類挑選了200個文檔,將每一個大類的文檔分別挑選出100篇訓練和100篇測試。再訓練類文檔當中,通過稀有詞除去,停用詞去除以及詞匯合并的方式,確定每一個文檔的特征選擇,然后統計總計成為該文檔的特征詞匯表,再將100個測試文檔進行計算,通過對于前向神經網絡交叉覆蓋算法去進行分類,然后通過計算準確率和查全率兩個方法驗證本次覆蓋算法的準確性。準確性=正確文檔分類個數/總文檔個數,查全率=正確文檔分類個數/屬于該類別的文檔個數。
具體實驗如下所示:
根據實驗數據表可以看出本次前向神經網絡交叉覆蓋算法的精準性較高,可以較為快速快慰準確的分別出文檔的類別。
4 總結
文檔的分類實質上就是通過文檔的特性詞匯和內容的識別,將文檔劃分到不同的類別當中,可以讓用戶更加準確和快速地查找到自己所需要的相關資料,目前文檔的自動分類已經成為我國信息文檔處理最主要的方式之一,本次基于前向神經網絡交叉覆蓋算法通過去除停用詞和稀有詞以及詞匯合并的方式,構建一個類別文檔的選擇標準,然后實現對于該類別文檔的選擇和分類。本次基于前向神經網絡交叉覆蓋算法的文檔分類具有較高的準確性,而且文檔分類速度較快,比起傳統模式的文檔分類具有較大的優勢。
參考文獻:
[1] 高潔,吉根林.文本分類技術研究[J].計算機應用研究,2014(7).
[2] 王灝.文本分類實現技術[J].廣西師范大學學報,2011(9).
【通聯編輯:李雅琪】