999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

移動IP化網絡文本分類聚類模型

2014-07-29 02:13:11戴麗貞
中國新通信 2014年2期

戴麗貞

【摘要】 隨著移動運營商網絡IP化改造日益深入,運營商內部積累了大量跟IP化網絡相關的文本,現有處理移動IP化網絡文本的方法一般是采用人工分類歸檔的方式,這種手工的方法有很多不盡如人意的地方,本文在基于文本分類、聚類算法的基礎上,提出了一套移動IP化網絡文本分類聚類模型,該模型能夠對移動IP化網絡文本進行自動分類,并進行系統化管理。實驗結果表明,該模型的文本分類準確率很高,改變了中國移動在開展IP化過程中缺乏智能化分析系統的現狀,提高了網絡維護的針對性、主動性、和前瞻性。

【關鍵詞】 IP化網絡文本 文本分類 文本聚類 組織框架

一、引言

隨著移動運營商網絡IP化改造日益深入,運營商內部積累了大量跟IP化網絡相關的文本,而如果移動IP化網絡文本無法快速、準確地進行分類,將會直接造成網絡維護工作無章可循,進而影響到網絡的安全性。現有處理移動IP化網絡文本的方法一般是采用人工分類歸檔的方式,這種手工的方法有很多不盡如人意的地方,因此,迫切需要人們研究出相關工具以對大規(guī)模的文本信息進行有效的過濾并進行自動分類組織。

本文在基于文本分類[1] [3]、聚類算法的基礎上實現了一種建立移動IP化網絡文本組織框架的方法,提出了一套完備且可完善的文本組織框架:采用人工聚類與機器聚類相結合的方式得到了一套科學合理的文本組織方法;采用重復分類訓練學習過程及定期重復框架聚類過程的方式實現了該套文本組織框架的動態(tài)完善;將移動IP化網絡文本進行系統化管理,網管人員可隨時根據需要從文本庫中搜索和查詢所需要的文本,獲取相關知識。對文本分類聚類模型進行測試,結果顯示,多聚類算法得出的第二文本框架與專家分類框架具有很大區(qū)分特征[8-11],文本分類的正確率達到了70%以上,基于內容的索引搜索效率很高,提高了文本管理人員查找文本的效率。系統的部署與應用,改變了中國移動在開展IP化過程中缺乏智能化分析系統的現狀,提高了網絡維護的針對性、主動性和前瞻性。

二、文本分類聚類技術模型設計

2.1 現有文本處理方式存在的問題

現有處理移動IP化網絡文本的方法一般是采用人工分類歸檔的方式,網管人員通過查看一定數量的移動IP化網絡文本的全部內容、摘要或關鍵字根據個人的工作經驗、理解預先建立移動IP化網絡文本組織框架,然后根據建立的移動IP化網絡文本組織框架以及新的移動IP化網絡文本中包含的相關內容,對該新文本進行手工分類歸檔,并通過不定期的檢查和整理的方式維護分類歸檔的移動IP化網絡文本。當需要查詢IP化網絡相關文本時,輸入相關搜索特征詞,系統從移動IP化網絡文本組織框架的相應分類中查詢特征詞對應的文本,并輸出給查詢人員。

有上述可見,現有移動IP化網絡文本(以下簡稱為文本)處理方式存在以下缺點:(1)文本組織框架缺乏科學性及一致性。現有的文本處理方式屬于粗放式的文檔管理方式,文本組織框架以及文檔的整理分類完全取決于網管人員的專業(yè)知識水平、業(yè)務能力及工作態(tài)度,分類的方式受個人主觀因素影響較大,不同的人有不同的看法,在這樣的方式下,很難保證各個網管人員構建的文本組織框架采用統一客觀的分類標準,缺乏科學合理性。(2)效率較低,準確率不能保證。人工歸檔的方式需要消耗較多的時間,尤其在文本數量較大的情況下,不能實現較高的處理效率;并且這種人工歸檔的分類方式還會受到一些個人因素的影響,如專業(yè)知識水平、人為判斷的失誤等的影響,使得分類準確率不高[2]。(3)不利于網管人員的檢索、利用現有文本知識。采用現有的處理方式處理移動IP化網絡文本,即網管人員按照自身已經建立的文本組織框架以及閱讀文本后的理解來對文本分類,使得不同專業(yè)人員的分類方式存在偏差。由于未能采用統一客觀的分類標準,從而使得相應的網管人員對該文本的搜索、查詢與利用變得十分困難,致使文本知識的利用率低下,而且,檢索得到的文本出現重復,也增加了檢索所需的時間,浪費了系統資源。

2.2 文本分類聚類模型的設計思路

該模型的主要理論基礎是文件聚類和文本分類算法,前者的基礎是先把文本進行分詞[4]和向量化表示[5] [6],即預處理過程,之后根據一定的聚類算法把具有相似性質的文本歸為一類,以此為基礎可形成文本組織框架;分類的過程則是在已有文本框架的基礎上進行數據的訓練過程,形成一定的分類器模型,當有新文本進來時可以自動根據文本內容進行文本分類。具體過程如圖1所示。

為了改變目前IP化網絡文本管理過程中的不足,本文在對文本挖掘進行較為廣泛的探索與研究的基礎上,結合人工分類及基于統計方法的文本聚類與文本分類方法,設計了一種面向IP化網絡文本挖掘算法模型。該模型充分利用了IP化網絡中專業(yè)術語較多的特點,通過總結歸納這些術語,形成分詞庫,抽取文本的特征詞[8-11],計算文本特征向量[8-11],實現文本聚類及文本分類算法的應用。

2.3 文本分類聚類模型

對文本數據的建模和處理思路如圖2所示。

(1)模型數據源

IP承載網建設與維護相關OA文、維護管理辦法、建設文檔等。核心網VOIP改造相關OA文、維護管理辦法、建設文檔等。

(2)模型大致流程

首先為保證所形成的文本組織框架的質量,需要選擇精度高、適應性強的聚類算法作為聚類工具,在流程的開始階段需要進行小樣本的數據實驗,對K-means[7]、模糊C、蟻群以及層次聚類算法所形成的文本框架進行比較,并結合人工分類框架進行評估,最后選出蟻群算法這種最適合IP化網絡安全文本的聚類算法作為后續(xù)流程的主要聚類算法。

在選出最優(yōu)的聚類算法之后開始使用該算法對全部的文本集進行聚類,形成初步的文本組織框架;該框架作為分類的先驗知識進行分類的訓練形成分類器,訓練方法有很多,本文采用了支撐向量機(SVM [6])和KNN[7]兩種方法進行訓練,通過比較發(fā)現前者較優(yōu)。

分類器形成之后,當有新的文本進來時,分類器會自動根據文本內容對其進行分類,并將文本歸入相應的文件夾下。每周一段時間可以結合專家知識對誤判率進行計算和評估,如果誤判率高于臨界值,就說明原來的文本框架已經不再適用于新的文本集,需要對現有的全部文本集進行重新聚類形成新的文本分類框架,這樣就實現了文本組織框架的更新和完善過程。基于所形成的文本框架,網絡安全維護人員可以進行方便快捷的檢索和學習。

(3)模型預期效果

①可優(yōu)選一種與人工分類結果較為接近的文本聚類算法,可實現大數據量文本的準確聚類;②可對新增文本進行較為準確的分類,減輕網管人員進行文本管理的壓力;③可實現對文本的多為搜索,幫忙網管人員更為精確地找到所需要的文本。

三、文本分類聚類技術模型的實現

3.1 文本分類聚類技術模型實現概述

所述的數據輸入模塊用于采集IP化網絡安全文本數據;所述的數據分析模型用于接收數據輸入模塊傳遞來的數據,并且對接收到的數據進行挖掘分析,形成四個數據分析子模塊;所述的分析結果輸出模塊用于把數據分析模塊分析的結果結合輸出要求呈現給輸出端;在模型中,所述的移動IP化網絡文本數據包括設備指標文本、IP承載網文本、交換設備文本、全網業(yè)務文本及安全管理與網管支撐文本;所述的數據分析模塊中的四個數據分析子模塊分別是:專家處理子模塊、多聚類算法子模塊、文本分類及文本框架完善子模塊和文本組織框架合成模塊。具體如圖3所示。

本文同時提供上述文本數據分析模型的實現方法,具體步驟如圖4所示。

下面結合實例給予說明:

1.數據輸入步驟:通過數據輸入模塊導入IP化網絡文本數據,IP化網絡文本數據包括集團公司、省公司、地市公司的很多發(fā)文、管理辦法和不同地方網絡維護案例文本及不同部門交流文本數據。

2. 數據分析步驟:

A.專家處理子模塊步驟:本文的方法以IP化網絡文本數據為基礎,先通過專家處理子模塊讓專家對現有小樣本的文本數據進行整理,得出IP化網絡文本數據的分類框架。比如框架第一層氛圍分為指標類材料、IP承載網類材料、交換設備類材料、全網業(yè)務材料、安全管理與網管支撐材料五大類,每一大類都又分為不同子類。如表1所示。

B.多聚類算法處理子模塊:通過聚類算法子模塊采用不同的聚類算法對小樣本的IP化網絡文本數據進行分析,得出不同的分類結果;比如通過k-means聚類算法、模糊c均值聚類算法、蟻群聚類算法、層次聚類算法等不同聚類方法進行聚類計算,并輸出聚類結果。通過對小數據樣本聚類得出的結果作為評價來選出適合IP化網絡文本的聚類算法,當遇到大的數據樣本時,應用已經選出的聚類算法進行挖掘。比如小樣本中蟻群聚類算法結果最為貼近專家分類結果,后面的聚類方法就都采用蟻群聚類算法來進行挖掘。

C.文本組織框架合成模塊:把聚類算法子模塊輸出的分類結果和專家分類結果比對,采用專家分類結果作為文本數據分類的框架,將小樣本的專家分類結果作為指導,將和專家分類結果最相近的聚類算法的聚類結果填入專家分類結果中,實現全部文本數據的合理分類。

D.文本分類及文本框架完善子模塊:新的文本進來,文本分類及文本框架完善模塊會依據現有合理的文本組織通過文本分類算法對新進入的文本進行分類,專家判斷錯誤率到達了多少,如果錯誤率高于閾值,就會記錄為誤判,把所有的數據用在階段最優(yōu)的算法重新進行聚類計算,然后通過文本組織框架合成模塊合成新的文本組織框架;具體的邏輯框架圖如圖5所示。

3.分析結果輸出步驟:在數據分析結果輸出模塊,用戶可以根據自己的需求通過樹形框架結構找到自己想要的文本,也可以通過關鍵詞搜索,得到最相關的搜索結果。大大提高對公司現有文本資源的利用效率。

3.2 文本分類聚類技術模型的具體實現

本模型是一種建立移動IP化網絡文本組織框架的方法。該方法根據預先設定的樣本量建立第一文本組織框架,應用多聚類算法對所述預先設定的樣本量進行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法建立的第二文本組織框架,根據所述第一文本組織框架和所述第二文本組織框架建立文本組織框架。本模型在實現過程中具體流程如圖6所示。

步驟1:根據預先設定的樣本量建立第一文本組織框架。本步驟中,預先設定的樣本量為一定數量的IP化網絡文本,本實驗中,預先設定的樣本量為小樣本量,IP化網絡領域內的專業(yè)技術人員根據已有的專業(yè)技術框架、自身的工作過程中積累的經驗及對文本的理解來實現IP化網絡文本組織框架的制定,比如,根據各文本的文本特征向量[8-11],建立五大類的IP化網絡文本組織框架,即文本組織框架包括:指標類材料、IP承載網類材料、交換設備類材料、全網業(yè)務材料及安全管理與網管支撐材料,并計算每類對應的分類文本特征向量[8-11]。當然,實際應用中,也可以根據實際的需要,按照文本特征向量[8-11]構造其他類型的IP化網絡文本組織框架,比如,將IP化網絡文本按照集團公司、省公司、地市公司的發(fā)文、管理辦法、不同地方網絡維護案例文本及不同部門交流文本數據進行劃分,構造相應類別的IP化網絡文本組織框架。

在模型實現過程中,對于IP化網絡文本組織框架下的每個大類,又可以分為不同的子類并設置每個子類對應的子分類文本特征向量[8-11],比如,將IP化承載網類材料分為五大子類,分別為:設備建設方案、日常維護管理辦法、安全評估與巡檢、省際IP承載網相關文件、網絡改造與調整;交換設備類材料分為工程建設方案及管理辦法、專項提升活動等子類;全網業(yè)務材料分為網絡運行維護實施、應急處理與重大故障等子類;安全管理與網管支撐材料分為賬號與口令安全管理辦法、其他安全管理辦法及文件等子類。請參見表2所示的IP化網絡文本組織框架示例。

本步驟中,由于專業(yè)技術人員具有良好的專業(yè)技術水平及豐富的經驗,對文本的理解較為全面、準確,使得對文本進行分類的準確性高,描述各個分類的文本特征向量[8-11]恰當、準確性高。從而使得建立的文本組織框架科學性強、可信度高,可作為優(yōu)選聚類算法的主要依據;同時,由于預先設定的樣本數量不會太多,分類、歸檔所需的時間較少,屬于在人工可處理的范圍內。

步驟2:應用多聚類算法對預先設定的樣本量進行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法作為優(yōu)選聚類算法。

該優(yōu)選聚類算法將在第一文本組織框架已無法進行準確分類的情況下,啟動計算,得出第二文本組織框架,用于文本分類。

本步驟中,多聚類算法(文本挖掘算法)包括:k-means[7]聚類算法(k-means Clustering Algorithm)、模糊c均值聚類算法(Fuzzy C-means Clustering Algorithm)、蟻群聚類算法(Ant Colony Optimization Algorithm)、層次聚類算法(Hierarchical Clustering Algorithm)等。各算法及對文本的聚類流程屬于現有技術,其詳細描述請參見相關技術文獻,在此不再累贅。

實際應用中,由于不同的聚類算法對相同數量的樣本進行聚類時,其聚類結果可能存在較大的差別,且各聚類算法的聚類結果真實可靠性也無從評估,因而,采用不同的聚類算法將對聚類結果產生實質性的影響。本示例中,通過選用不同的聚類算法對預先設定的相同數量的樣本進行聚類,對聚類結果(文本組織框架)與第一步中建立的IP化網絡文本組織框架進行比較,選取與人工分類結果的相近程度最好的聚類算法結果對應的聚類算法,作為優(yōu)選聚類算法。

步驟3:以第一為文本組織框架作為文本分類依據。本步驟中,在得到第一文本組織框架及優(yōu)選的聚類算法的基礎。

步驟4:根據所述文本組織框架,對新文本進行分類。本步驟中,導入IP化網絡文本數據后,按照每個樣本包含的內容,抽取文本中的關鍵詞,構造各文本的文本特征向量[8-11],以文本組織框架為依據,將新文本的文本特征值與文本組織框架中各類包含的文本特征值進行匹配,將該新文本分類至文本組織框架中相應的類別中。

被分類的樣本經過預處理,抽取文本中的特征詞[8-11],獲取各文本的文本特征向量,與文本組織框架中各子類包含的文本特征向量進行匹配,將各文本分類到文本組織框架中相應的子類;于此同時,抽取新增的部分文本進行人工分類,比較人工分類與自動分類的誤差,當誤差超過閾值時,啟動已選出的優(yōu)選聚類算法建立的第二文本組織將文本分類,比如,上述示例第二步中,假設蟻群聚類算法對預先設定的樣本的算法結果(第二文本組織框架)最為貼近建立的第一文本框架。當誤差超過閾值時,重新啟動蟻群聚類算法計算第二文本組織框架。

本模型實現過程中,還可以利用文本分類結果,對所建立的文本組織框架進行調整,參見步驟5。

步驟5:從新的文本中,選取一定數量的文本,根據第一文本組織框架進行人工分類;本步驟中,選取的這一定數量的文本,在步驟4中已進行了自動分類,將自動分類結果與人工分類結果進行比較。

步驟6:將自動分類結果與人工分類結果進行比較,如果自動分類結果誤差大于預先設定的閾值,啟動優(yōu)選聚類算法,計算新文本組織框架,作為第二文本組織框架,代替第一文本組織框架。本步驟中,預先設定的閾值可以是自動分類結果與人工分類結果中包含的相異的文本個數與人工分類結果包含的文本個數之比。如果沒有超出該閾值,表明當前建立的文本組織框架運行良好,可靠性高;如果超出該閾值,需要按照人工分類結果調整文本組織框架中各大類相應子類對應的文本特征向量[8-11],或者重新應用前述優(yōu)選的聚類算法對所有文本(新舊文本)進行聚類,得到新的文本組織框架,用該新的文本組織框架代替原有的文本組織框架,當自動分類結果誤差大于預先設定的閾值時,重新啟動優(yōu)選的聚類算法進行聚類得到新的文本組織框架。

實際應用中,上述對所建立的文本組織框架進行調整,主要是在利用第一文本組織框架對新文本分類時,由于建立的第一文本組織框架是基于有限的樣本量,因而,在大樣本量的情況下,可能存在一定的分類誤差,而且隨著樣本量的不斷增大,其誤差可能也越來越大,因而,通過人工評估,當誤差超出預先設定的閾值時,可以用前述的優(yōu)選文本聚類算法結合人工評估結果重新生成文本組織框架,以替換該第一文本組織框架。

當然,在建立文本組織框架后,網管人員就可以利用該文本組織框架進行搜索和查詢,獲取所需的文本,例如,網管人員可以輸入搜索特征詞,文本組織框架查詢關鍵詞對應的文本特征值[8-11],將該文本特征值所屬的搜索結果(文本概述等信息以及文本所屬的大類及子類)輸出給網管人員,這樣,與傳統的關鍵詞的搜索方式不同,由于可根據文本特征值進行搜索,搜索情況更接近文本的內容,每個文本可供搜索的內容更多,使用文本搜索更貼近文本內容。

四、測試與分析

通過模塊層次圖和數據流圖的進一步設計,基于VC編程環(huán)境,本研究將設計的模型進一步在機器上實現,開發(fā)出IP化文本分類組織框架和基于文本內容的搜索。測試結果表明多聚類算法得出的第二文本組織框架與專家分類框架具有很大區(qū)分特征[8-11],文本分類的正確率達到了70%以上,基于內容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

4.1 測試系統

對于中國運營商來說,3G的日益臨近,網絡IP化成為一種不可逆轉的趨勢。通過對現有網絡進行IP化的改造來實現多網融合最終完成3G網絡的建設已經成為國內外各大運營商的共識,IP化網絡在核心網的比重越來越大。目前,對計算機IP網絡的評估已經有一些研究成果及應用系統。但是,針對運營商中IP化網絡具體特點,建立科學、可行的安全評估模型但成了擺在中國運營商面前的一個重要的問題,同時也是在地市公司在從事具體維護工作中不得不去思考的一個問題。

目前,對于IP網絡的評估方法一般需要一些先驗知識,如威脅出現的概率、無形資產賦值等,而準備獲得這些數據是存在困難的,為此,已有的模糊、神經網絡等方法建立的安全估計模型只能對于局部系統進行評價,且多局限的理論的說明,未能有一些全面的,可行的安全評估模型及可投入使用的評估系統的產生。因此,本產品希望從移動運營商IP化網絡的運營實際出發(fā),從技術、管理、安全意識等更加宏觀的層面來審視安全評估問題,并依托省網管已經建立的“網絡運營支撐平臺”,建立基于粗糙集的IP化網絡安全評估系統。

對于地市公司公司來說,隨著公司網絡集中化建設的進行,地市公司對IP網絡的維護權限多停留在設備的維護方面,維護行為也多以被動實施為主,往往缺乏對自身網絡安全性的科學及客觀的把握。為此,該系統所采用的模型也從地市公司IP化網絡的具體建設及維護實踐出發(fā),采用粗糙集的理論來建立網絡的安全模型、采用粗糙集理論來分析網絡各項安全因素的輕重關系,輸出決策規(guī)則,建立IP網絡下客戶感知及網絡質量的共同提升模型,從而建立起一套科學完善的IP網絡評估算法,從而為地市公司從事IP化網絡的建設和維護提供指導,變被動為主動,全面提升IP化網絡建設與維護的有效性。

本文設計的文本挖掘模塊作為該系統中重要的一個組成部分,對于IP化安全文的深入挖掘,實現IP化網絡的安全保障起著重要的作用。對于粗糙集實現網絡安全評估方面因為不是論文的主要內容。因此不作主要描述。本文重點描述了一種面向IP化網絡文本挖掘模型在系統中的具體實現。

文本模塊從文本導入、文本框架導入、聚類方法選擇、文本聚類、文本分類、文本搜索和瀏覽等方面把模型中的主要功能分別在不同模塊中實施。其中聚類方法選擇模塊中集成了K-means聚類算法、模糊C聚類算法、分層聚類算法和蟻群聚類算法,是模塊中的核心部分。系統的模塊層次如圖7所示。

在系統的模型層次圖的基礎上,進一步設計研究了系統的數據流圖,從數據輸入層、數據預處理層、核心算法層、用戶使用層等層面圍繞文本組織框架為核心全面鋪開。找出系統輸入、處理、輸出過程中的關鍵數據存儲和邏輯處理,理清了內部邏輯的相互關系。系統的數據流圖如圖8所示。

4.2 系統相關模塊的功能說明

在系統實現過程中,主要實現了如下幾個模塊:IP化網絡安全文本數據導入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊,各模型具體功能如下:(1) IP化網絡安全文本數據導入模塊:用于導入IP化網絡安全文本數據,分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2) 第一文本組織框架處理模塊:用于對接收的文本進行分類整理,建立第一移動IP化網絡文本組織框架,并將建立的第一移動IP化網絡文本組織框架信息分別輸出至聚類結果匹配模塊及文本組織框架生成模塊;(3)多聚類算法模塊:用于根據預先設置的多聚類算法對接收的文本進行聚類,向聚類結果匹配模塊輸出聚類結果;(4) 聚類結果匹配模塊:用于根據接收的第一移動IP化網絡文本組織框架信息匹配來自多聚類算法模塊的聚類結果,將與第一文本組織框架最為相似的聚類算法的聚類結果信息輸出至文本組織框架生成模塊;(5) 文本組織框架生成模塊:用于根據接收的第一移動IP化網絡文本組織框架信息以及聚類結果信息建立文本組織框架。

IP化網絡安全文本數據導入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊等5模塊具體邏輯關系如圖9所示。

在實現過程中,該模塊可以進一步包括如下可擴展模塊:(1)文本分類模塊,用于依據文本組織框架生成模塊中存儲的文本組織框架信息,對來自IP化網絡文本數據導入模塊的文本進行自動分類。(2)文本組織框架調整模塊,用于接收來自文本分類模塊的自動分類結果、以及來自第一文本組織框架處理模塊對同批量文本的人工分類結果并進行比較,如果自動分類結果誤差大于預先設定的閾值,按照人工分類結果調整文本組織框架生成模塊存儲的文本組織框架信息。(3)搜索和查詢模塊,用于接收來自外部的搜索關鍵詞,發(fā)送至文本組織框架生成模塊,將文本組織框架生成模塊根據存儲的文本組織框架信息查詢得到的關鍵詞對應的文本信息進行輸出。

系統中各模塊相互協同共同完成模型所要求的功能,流程如下:(1)IP化網絡文本數據導入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結果匹配模塊、以及文本組織框架生成模塊,其中,IP化網絡文本數據導入模塊,用于導入IP化網絡文本數據,分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2)第一文本組織框架處理模塊,主要有領域專家來完成,領域專家通過人工的方式來獲取接收的文本信息中包含的關鍵詞,根據關鍵詞構造各文本的文本特征向量[8-11],利用文本特征向量對所述預先設定的樣本量的IP化網絡文本進行分類整理,建立第一IP化網絡文本組織框架,并將建立的第一IP化網絡文本組織框架信息分別輸出至聚類結果匹配模塊及文本組織框架生成模塊;(3)多聚類算法處理模塊,用于根據預先設置的多聚類算法對接收的文本進行聚類,向聚類結果匹配模塊輸出聚類結果;聚類結果匹配模塊,用于根據接收的第一IP化網絡文本組織框架信息匹配來自多聚類算法模塊的聚類結果,將與第一文本組織框架最為相似的聚類算法的聚類結果信息輸出至文本組織框架生成模塊;(4)文本組織框架生成模塊,用于根據接收的第一IP化網絡文本組織框架信息以及聚類結果信息建立文本組織框架。

4.3 系統相關模塊的功能說明

通過移動公司的IP化網絡文本測試了本研究設計的功能模塊,測試結果顯示文本框架與專家分類框架具有很大區(qū)分特征,文本分類的正確率達到70%以上,基于內容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

4.3.1 文本聚類測試結果分析

該部分通過文本聚類實現文本框架的形成。系統提供四種聚類方法的實現:K-means[7]、模糊C聚類、層次聚類、蟻群聚類算法;每種聚類之后,都將在下方的顯示框中展示聚類的結果,也即文本組織框架。之后通過比較不同聚類的聚類結果,選出最優(yōu)的聚類算法。

K-means[7]聚類算法可以調整三個參數:聚類數目、最大迭代次數、文檔向量維數。現有文本專家聚類分為3類:IP承載網、全網業(yè)務、安全管理與網管支撐。

模糊C均值聚類算法可以調整五個參數:聚類數目、誤差限、參數m、最大迭代次數、文檔向量維數。其中參數m的調整范圍為1.5~2.5。如圖10所示。

其中K-means[7]聚類算法將文本通過迭代1000次,采用100個特征詞提取出文檔向量,分出第一類的文本數量為67,第二類的文本數量為2,第三類文本數量為1。如圖11所示。

4.3.2 文本分類測試結果分析

該部分暫時無需選擇路徑,僅采用樣本數據實現,因為專家分類文檔沒有經過聚類算法,提取不出特征值,無法作為分類;此環(huán)節(jié)耗時較長,可能需2-3分鐘,各機器性能不一可能略有差別。

本部分工作的基礎是使用上一步驟選取最優(yōu)的聚類算法對所有文本進行聚類形成合理的文本組織框架并訓練形成分類器。分類器形成后,就可以對新進入的文本進行分類,一般分類正確率在70%以上。

圖12展示了對實驗數據進行分類的結果,對34個文本進行分類,分類正確率達到80%。證明該文本框架所形成的分類器具有較好的分類能力。圖中標紅的文本本分到了錯誤的類別中了,其余是被正確分類的文本;分完后可以查看通過上面的選擇查看單個文本分類情況,如圖13。

4.3.3 文本搜索測試結果分析

本部分是基于前述文本組織框架的文本搜索模塊,目前系統可供使用的檢索詞包括發(fā)文單位(集團、省公司、使公司)、文本類別(通知、申請、報告、自查報告、緊急通知等)、文件名(輸入要找的關鍵詞,系統將使用該關鍵詞在所有文本的文件名中進行檢索)、發(fā)文時間等。系統正在實現的功能是基于特征詞的檢索,在文本分詞階段每一個文本都被分成若干特征詞所表示的向量,輸入特征詞就可以實現基于內容的檢索,大大提高了檢索的效率和準確度。

其中基于內容的特征詞的搜索是一個創(chuàng)新,通過文本訓練,提取出所有搜索范圍內的文本的特征詞,通過特征詞的頻率來確定不同文本的區(qū)別,如100維特征詞的訓練結果就將不同文本通過挑選出來的100個文本特征詞的頻率來表示,實現文本的向量化,如果某一特征詞在文本中沒有出現,則向量這個點上的取值為0。訓練后的文本集就形成了一張二維表,一個維度是文本,一個維度是特征詞,這個二維表是基于文本內容訓練出來的,通過此二維表的特征詞來搜索文本比其他幾個維度效率更好,效果更好。

如圖14所示,搜索范圍選擇IP化安全管理系統文件夾中的clusters文件夾(因為要基于特征詞搜索需要有能提供特征詞的文件夾)。

查詢得到的文本可直接在檢索結果欄中打開閱讀。如圖15所示。

五、結束語

本文主要圍繞運營商內部積累的數量驚人的IP化網絡安全相關文本的智能化處理這一問題展開討論。針對人工處理的方式迅速慢、準確率低,耗時長,不利共享這一難題,創(chuàng)造性地將文本聚類與文本分類算法用于該問題的解決。

主站蜘蛛池模板: 日韩欧美国产成人| 国产女人18毛片水真多1| 国产jizz| 一级毛片免费观看久| 成人欧美日韩| 99久久精品免费看国产免费软件| 天天摸夜夜操| 九九这里只有精品视频| 国产乱人视频免费观看| 色135综合网| 国产情精品嫩草影院88av| 制服丝袜一区| 无码精品福利一区二区三区| 久久99热这里只有精品免费看| 国产精品吹潮在线观看中文| 国产SUV精品一区二区6| 欧美精品成人一区二区视频一| 日韩欧美国产精品| 免费啪啪网址| 亚洲中文字幕在线一区播放| 国产91成人| 久久婷婷五月综合色一区二区| 亚洲天堂网在线观看视频| 欧美日韩一区二区三| 色香蕉影院| 亚洲视频无码| 女人18毛片久久| 熟女成人国产精品视频| 亚洲欧美天堂网| 99r在线精品视频在线播放| 国产乱子精品一区二区在线观看| 久久国产热| 久久综合结合久久狠狠狠97色| 国产小视频网站| 国产人成在线视频| 亚洲国产一区在线观看| 色网站免费在线观看| 亚洲综合色区在线播放2019| 色婷婷啪啪| 久久久亚洲色| 伊人久久大线影院首页| 日韩一二三区视频精品| 日韩精品免费一线在线观看| 无码 在线 在线| 日本高清免费不卡视频| 久久人人97超碰人人澡爱香蕉 | 日韩国产综合精选| 欧美另类第一页| 亚洲制服丝袜第一页| 欧美精品不卡| 四虎成人精品| 国产一区二区三区在线精品专区 | 超碰91免费人妻| 国产H片无码不卡在线视频| 在线观看亚洲国产| 在线中文字幕网| 亚洲国产成熟视频在线多多 | 中文字幕无码中文字幕有码在线| 亚洲综合色在线| 成人综合网址| 国产午夜精品一区二区三区软件| 亚洲欧美日韩视频一区| 国产爽爽视频| 亚洲无码久久久久| 欧美一级在线看| 免费看美女毛片| 免费国产福利| 亚洲精品免费网站| 色哟哟精品无码网站在线播放视频| 91在线激情在线观看| h视频在线播放| 国产成人永久免费视频| 91在线免费公开视频| 扒开粉嫩的小缝隙喷白浆视频| 91精品啪在线观看国产91| 亚洲色图欧美在线| 天天综合网亚洲网站| 亚洲swag精品自拍一区| 操国产美女| 91无码人妻精品一区| 国产精品无码AV片在线观看播放| 日韩无码视频专区|