王雪麗,宋啟祥
基于BP神經網絡的文本分類算法研究與設計
王雪麗,宋啟祥
隨著云計算、大數據、互聯網等多媒體技術的快速普及和發展,文本分類已經在多領域取得顯著應用成效,因此文本分類已經成為百度、天貓、京東等各大搜索引擎準確運行的關鍵技術.該文詳細地描述了BP神經網絡算法及其應用現狀,同時針對這些BP神經網絡算法引入自適應共振理論,構建一個自適應的BP神經網絡算法,與BP神經網絡算法、K均值算法相比,實驗結果表明文中的算法可以提高文本分類的準確度.
BP神經網絡;文本分類;自適應共振理論;數據挖掘
互聯網、云計算、多媒體等信息技術的發展,促進了分布式管理系統在電子政務、智能旅游、在線學習、電力通信、金融銀行等領域中的應用,這些自動化軟件運行積累了海量數據,并且這些數據增長速度較快[1].為了更好地利用數據資源,許多研究機構和產業公司提出了分類搜索、深度學習技術,尤其是在文本分類方面,根據用戶輸入的信息精確定位期望的信息,從海量數據中查找到有價值的知識,提出了BP神經網絡、支持向量機、K均值、貝葉斯理論等技術,將散亂的、無序的文本數據形成文檔簇,這些文檔簇內部具有高度相似性,簇之間高度相異,因此就可以根據用戶輸入的文檔信息主體劃分數據資源,提供一個合理的知識解釋和決策信息[2].但是,網絡文檔按照指數級速度上升,評價的維度也日益增多,提高聚類算法在文本數據中的應用精確度,已經成為人們研究的熱點.本文提出基于自適應共振理論改進BP神經網絡算法,該算法可以利用自適應反饋學習機制,提高模型分類的準確度,實驗結果表明該算法具有良好的可用性.
BP神經網絡又被稱為連接機模型,它是基于心理學、現代神經學等專業的研究成果建立的,是生物神經系統活動過程在其他領域的再現和表現,是模仿人的大腦神經系統活動的規律建立起來的計算模式,是對眾多需要處理的單元進行互聯形成的網絡系統,其基本特點或特征與生物系統所具有的基本一樣,很大程度上體現了人腦功能的反應,是對生物系統在一定程度上的模擬和再現,其包含自行學習和組織、分布式處理數據等優點,在語音分析、計算機視覺、圖像識別等方面具有突出的貢獻[3].目前,人工神經網絡技術得到跨越式的發展,已經成為模擬識別的主要工具,其應用開辟了新的領域,在一些領域已基本取代了其他模式識別的應用,尤其在模式識別與分類的應用上處于領先地位.傳統的神經網絡算法包括三個層次,分別是輸入層、隱含層和輸出層,如圖1所示[4].

圖1 BP神經網絡算法處理模型
BP神經網絡在語音識別過程中,可以利用語音波形進行擬合,從而實現語音的識別,目前已經在門禁系統、銀行取款、手機解鎖等領域得到普及.BP神經網絡在圖像分類過程中,可以提取圖像中的特征信息,利用特征信息進行分類和對比,將具有相同特征的圖像劃分到一起.BP神經網絡在計算機視覺處理過程中,可以將拍攝到的幀序列按照時序信息、空間信息進行處理,同時可以將計算機視覺圖像中的相同目標物體進行分類,實現人體、景物的分類和定位.BP神經網絡在文本圖像識別過程中,由于文本數據急劇上升,造成BP神經網絡運行速度慢,同時擬合分類的準確度較低,因此亟需引入新的算法進行改進.
為了改進BP神經網絡文本分類算法,本文提出引入自適應共振理論(Adaptive Resonance Theory,ART)之后,可以將其劃分為兩個關鍵的子系統,分別是注意子系統和調整子系統,因此算法通過兩個子系統和控制機制之間的交互作用就可以處理熟悉或不熟悉的事件,算法模型如圖2所示[5].

圖2 基于自適應共振理論的神經網絡算法
其中,F1表示神經網絡的隱含層,F2表示神經網絡的輸出層,調整子系統是由A和STM重置波通道組成,STM表示神經元的激活值,也即是由S函數經過處理的輸出值,LTM是指權系數[6].
基于自適應共振理論的神經網絡能夠實時地進行學習,具有自歸一能力,可以在系統不穩定的環境下進行有效的學習,并且可以很快地識別學習對象,建立一個新的輸出方式.基于自我學習機制的審計網絡可以與選擇性機制有效結合,應用于計算機視覺過程中包括兩個方面的內容,一方面是采用選擇性注意機制針對計算機視覺處理對象進行預處理,提取輸入圖像的顯著特征作為神經網絡的輸入向量.另一方面是利用神經網絡的自學習機制調整隱含層參數,這樣就可以根據應用需求形成一個強大的分類識別結果.基于自我學習機制的神經網絡可以通過競爭機制在F2中構建一個對應于輸入模式的相關編碼,實際上就是對外界輸入模式進行學習,以便能夠得到一個最佳的權系數.具體地,神經網絡算法主要內容包括從F1到F2,從F2到F1兩個權系數的學習過程.本文為了驗證算法的有效性,采用自下而上的權系數學習算法.F1到F2的學習方向又被稱為自下而上權系數學習模式.F1網絡中的神經元可以使用Ni描述,F2網絡中的神經元可以使用Nj描述,F1中的神經元Ni到F2的神經元Nj的權系數使用Wij描述,并且在學習時,權系數Wij可以使用的公式(1)描述.

其中:f(xj)描述神經元Nj到F1的輸出信號;h(Xi)描述神經元Ni到F2的輸出信號;Eij和K1表示相關的參數,參數Eij可以使用公式(2)表示.

其中,L可以描述常數L-1=1/L.如果參數K1取值為常數,則其取值為K1=KL,則權系數為Wij的微分方程如公式(3)所示.

當F2層中的神經元Nj的輸出為正值時,位于F1層中的神經元節點Ni可以按照速率為影響權系數Wij的改變.
因此,利用自適應共振理論BP神經網絡可以構建一個文本分類模型,并且針對這個文本分類模型進行訓練,提高數據發現的準確度,數據挖掘利用自學習功能,可以利用互信息距離作為相似性評價和度量指標,采用無監督分析模式,通常兩個數據對象的距離越近,這兩個數據對象的相似性就會越大[7].通常情況下,文本數據雖然量非常大,但是這些文本在協作風格、主題內容等方面都有特別的自身特點符號,具有內在的相似性行為和特征,系統可以針對這些數據進行分析和評價,從而不需要指定數據的類別標簽就可以獲取文本內部結構,將數據匯聚在一起,實現文本分類.基于自適應共振理論BP神經網絡的文本分類系統結構如圖3所示.

圖3 基于自適應共振理論BP神經網絡的文本分類系統
本文實驗數據集來源于Lang收集的數據集,這個數據集共計包含2000篇信息文檔,并且分為20個種類,對每一件文檔都進行了評論,每個評論組均包含100個用戶,因此評價指標包括2000個評價得分[8].本文通過對2000篇文檔進行評價,將其分為9個子數據集,每一個文本數據集包含了500篇文檔,每一個子數據集都是從2000篇文檔中隨機挑選的,具體的,Binary_1,2,3表示擁有兩個真實類別的文檔數據集;Multi5_1,2,3可以描述擁有五個真實類別文檔數據集;Multi10_1,2,3可以描述擁有十個真實類別文檔數據集.
通常情況下,文本數據挖掘采用精確度作為算法評價運行結果的標準,算法運行結果精確度評價如公式(4)所示.

其中,t∈T,其可以描述相關的數據對象;c∈C,其可以描述相關的類別號或簇標號;A1(c,T)可以描述相關的已經正確分配到c中的文檔或元組的數量;A2(c,T)可以描述相關的算法不正確地分配到c中的文檔或元組的數量;A3(c,T)可以描述相關的不正確地沒有分配到c中的文檔或元組的數量.
在MATLAB集成開發環境中實現了本文改進的BP神經網絡算法,并且將數據輸入之后進行運行,通過觀察可以得知,在9個數據集上,本文算法可以很好地發現真實文檔之間存在的模式,更加精準地尋找到潛在結構和類別,尤其是在兩類文檔中,算法分析的精確度可以達到95.23%,因此,可以發現針對二類的文本數據劃分具有最好的效果;同時,隨著數據集類別的增加,每一種算法的運行精確度都在下降,但是本文算法依然具有較高的準確度,這就表明隨著數據集的增加,本文算法具有較強的魯棒性和穩定性,能夠更好地發現文本數據集中蘊含的類別,能夠推薦更符合和滿足用戶需求的文檔數據搜索結果,具有非常重要的意義和價值,這些搜索數據集結果可以為百度搜索、搜狗、騰訊、京東等網站所使用,更好地為用戶提供真實文檔數據分析服務,發掘潛在的價值.算法運行結果如表1所示.

表1 三種算法的實驗結果精確度對比
文本分類作為智能搜索的重要技術之一,其已經在有監督學習和無監督學習兩個方面獲得了廣泛的研究和關注,提出了支持向量機、BP神經網絡、貝葉斯理論、譜聚類、K均值、密度聚類等多種技術,這些技術可以根據有標識或無標識等內容訓練一個分類模型,然后針對這個模型進行自動化學習,提高文本分類的精確度.
BP神經網絡作為一種先進的文本分類技術,文本分類過程中存在精確度低等問題,因此,引入了自適應共振理論,進一步利用文本數據中蘊含的有價值信息,將這些信息進行分類和挖掘,可以從不同的角度進行分類和操作,將文本信息劃分為多個類別,實驗結果顯示基于自適應共振理論的BP神經網絡能夠提高文本分類準確度.
Research and Design of Text Classification Algorithm Based on BP Neural Network
WANG Xue-li,SONG Qi-xiang
(Suzhou University,Suzhou,Anhui 234000,China)
With the rapid development and popularization of cloud computing,big data,Internet and multimedia technology has achieved remarkable results in many application fields and accumulated the massive text data.So text classification has become the key technology of Baidu,Tmall,Jingdong and other major search engines and accurate operation.This paper describes the BP neural network algorithm and its application status.At the same time,according to the BP neural network algorithm using adaptive resonance theory,BP neural network algorithm were used to construct an adaptive,compared with the BP neural network K algorithm,K-means algorithm.The experimental results show that this algorithm can improve the accuracy of text classification.
TP301.6
A
1008-7974(2018)01-0070-04
10.13877/j.cnki.cn22-1284.2018.02.018
2017-03-22
王雪麗,女,安徽宿州人,宿州學院教師(安徽 宿州
[1]黃磊,杜昌順.基于遞歸神經網絡的文本分類研究[J].北京化工大學學報(自然科學版),2017(1):98-104.
[2]鄒晴,鈕焱,李軍.基于模糊積分的多分類器融合文本分類研究[J].湖北工業大學學報,2015,30(2):95-98.
[3]李濱旭,姚姜虹.基于改進QPSO和RBF神經網絡的文本分類方法[J].計算機系統應用,2016,25(7):264-267.
[4]段建,翟慧敏.深度卷積神經網絡在Caltech-101圖像分類中的相關研究[J].計算機應用與軟件,2016,33(12):165-168.
[5]曾勇,舒歡,胡江平,等.基于BP神經網絡的自適應偽最近鄰分類[J].電子與信息學報,2016,38(11):2774-2779.
[6]鄧青,馬曄風,劉藝,等.基于BP神經網絡的微博轉發量的預測[J].清華大學學報自然科學版,2015,14(12):1342-1347.
[7]賈熹濱,李寧,靳亞.用于文本情感極性分析的動態卷積神經網絡超限學習算法[J].北京工業大學學報,2017,43(1):28-35.
[8]王全鑫,李可,王浚,等.基于改進神經網絡的航天器電信號分類方法[J].北京航空航天大學學報,2015,22(12):1774-1779.
王前)