999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡信息安全防范與Web數據挖掘系統的設計與實現

2017-03-23 21:19:09趙悅品
現代電子技術 2017年4期
關鍵詞:數據挖掘

趙悅品

摘 要: 傳統的信息挖掘方法挖掘面窄,擴展性差,無法有效挖掘出網絡中的不安全信息。因此,設計并實現了網絡信息安全防范與Web數據挖掘系統,其由Web文本采集模塊、文本分類模塊和類別判斷模塊構成。Web文本采集模塊從網絡Web網頁中采集文本信息,并將信息反饋給文本分類模塊。文本分類模塊由訓練模塊、分類模塊和分類器構成。訓練模塊采用完成分類的文本對文本分類模型進行訓練,獲取不同類別特征詞間的關聯性,塑造向量空間模型。分類模塊對將要進行分類的Web文本進行分詞處理,通過向量描述文本特征詞。分類器運算待分類文本特征向量同各類中心向量間的相似度,確保Web文本被劃分到具有最高相似度的文本類型中。類別判斷模塊辨識待分析的網絡文本信息是否屬于不安全信息類,并通過報警模塊對不安全信息進行報警。軟件部分給出了系統的功能結構以及文本分類模塊的程序實現代碼。實驗結果表明,所設計系統具有較高的查全率、查準率和較高的檢測性能。

關鍵詞: 網絡信息; 安全防范; Web數據; 數據挖掘

中圖分類號: TN711?34; TP309 文獻標識碼: A 文章編號: 1004?373X(2017)04?0061?05

Design and implementation of network information security protection and

Web data mining system

ZHAO Yuepin

(Hebei Jiaotong Vocational and Technical college, Shijiazhuang 050091, China )

Abstract: The traditional information mining method has narrow mining face and poor scalability, so it cannot effectively dig out the unsafety information in the network. Therefore, the network information security protection and Web data mining system was designed and realized. It is composed of Web text acquisition module, text classification module and category judgment module. The Web text acquisition module is used to collect text information from the Internet Web pages, and feeds the information back to text classification module. The text classification module is made up of training module, classification module and classifier. The training module adopts the text completing classification to train text classification model to obtain the correlation among different category feature words and establish vector space model. The classification module is used to conduct the segmentation processing of words in Web text under classification and diescribe the text feature words through vector. The classifier is used to operate the similarity between the character vector of the text under classification and all kinds of central vector to ensure that the Web text is divided into the text type with the highest similarity. The category judgment module identifies whether the network text information under analysis belongs to the unsafety information, and gives an alarm for the unsafety information through the alarm module. The system function structure and program implementation code of the text categorization module are given in the software section. The experimental results indicate that the designed system has a high recall ratio, high precision ratio and high detection performance.

Keywords: network information; security protection; Web data; data mining

0 引 言

隨著網絡信息技術的快速發展,其在人們的生產和生活中發揮著越來越重要的作用。網絡信息技術的發展促使網絡經濟發展速度提升,網絡信息安全問題限制了網絡經濟的發展。因此,尋求有效的方法,確保網絡信息安全,成為相關人員分析的熱點問題[1?3]。傳統的信息挖掘方法,挖掘面窄,擴展性差,無法有效挖掘出網絡中的不安全信息。而在網絡中充分運用Web 數據挖掘技術,可大大增強網絡信息安全的監測質量,具有重要應用意義[4?6]。

當前針對網絡不安全信息的挖掘方法大都存在一定的問題,如文獻[7]分析依據規則的網絡不安全信息檢測方法,其采用人工事先設置好的推理規則,對Web資料進行推理分析,檢測出不安全信息。但是該方法對待檢測資料的可理解性要求較高,存在一定的局限性。文獻[8]分析了基于回歸模型檢測網絡不安全信息,其統計不安全信息發生的概率,塑造概率的回歸模型,完成不安全信息的歸類。該方法可在實際運用中獲取滿意的結果,但是需要大量的數據為分析依據,且檢測效率較低。文獻[9]通過基于連接的形式,實現網絡不安全信息的檢測。其通過一定的算法模擬人的思維,完成網絡信息的有效分類。但是該方法檢測到的結果較為粗糙,存在較高的誤差。文獻[10]提出了基于向量的網絡不安全信息挖掘方法,塑造網絡信息的向量空間,通過分析網絡信息向量空間的相似度,挖掘出不安全信息。但其檢測精度較低,無法獲取令人滿意的檢測效果。

針對上述問題,設計并實現了網絡信息安全防范與Web數據挖掘系統,其由Web文本采集模塊、文本分類模塊和類別判斷模塊構成。實驗結果表明,所設計系統具有較高的查全率、查準率和較高的檢測性能。

1 網絡信息安全防范與Web數據挖掘系統

1.1 系統的體系結構

塑造的網絡信息安全防范與Web數據挖掘系統的體系結構如圖1所示。

圖1描述的系統體系結構由Web文本采集模塊、文本分類模塊和類別判斷模塊構成。Web文本采集模塊從網絡Web網頁中采集文本信息,同時將獲取的Web文本信息傳輸給文本分類模塊。文本分類模塊包括訓練模塊、分類模塊以及分類器,訓練模塊采用完成分類的文本對文本分類模型進行訓練,獲取不同類別特征詞間的關聯性,塑造向量空間模型。分類模塊對將要進行分類的文本進行分詞處理,過濾其中的停用詞,采集其中的特征詞,并通過向量描述獲取特征詞。分類器對比待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到最高相似度的文本種類內。類別判斷模塊分析待分析的網絡文本信息是否屬于不安全信息類,并通過報警模塊對網絡不安全信息進行報警,同時通知管理人員對不安全信息進行相關的處理。

1.2 Web文本采集模塊設計

Web文本數據采集流程如圖2所示。

圖2 Web文本信息自動采集流程圖

其中的Spider采集模塊位于Web 信息采集中底層,其通過不同Web協議自主采集互聯網網頁中的信息。Web 頁面的采集,應先過濾Web頁面的圖像、聲音等非結構數據,再從頁面采集鏈接、文本的標題以及正文,確保在Web網頁中僅存在文本信息。

超鏈接采集獲取URL,按照超鏈接分析算法,分析Web頁面種類,刪除無價值的分析鏈接頁面,保留頁面種類為“tex/html”的分析連接頁面。按照應答頭以及URL的文件擴展名分析頁面的種類。

規范文本將Web文本信息劃分成文章的標題和主體,確保分類模塊可基于不同的標題和主體,設置相應的參數。具體的過程如下:

(1) 分析正文開始位置,順次檢索文章的段落,直至某段長高于設置的正文最小長度,則說明該段文字為正文中的某段。

(2) 在正文位置向文章開始處檢索,按照字體大小,是否居中等特征,獲取最滿意的一段文字,將其當成標題。

(3) 檢索文章直至獲取非文字字符,將對應的內容當成文本的主體。

(4) 將獲取的標題和主體存儲到數據庫或格式文件內。

1.3 文本分類模塊設計

文本分類模型由訓練模塊、分類模塊和分類器構成。訓練模塊通過大量完成分類的文本進行訓練,獲取文本分類模型,獲取不同類型特征詞間的關聯性,塑造向量空間模型SVM。分類模塊將待分類的Web文本進行分詞處理,過濾其中的停用詞,獲取其中的特征詞,同時通過向量描述文本特征詞。分類器可運算待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到具有最高相似度的文本類型中。塑造的文本自動分類模塊的結構圖如圖3所示。

圖3中,本文訓練模塊通過分類文本訓練對文本分類模型進行訓練,獲取不同類別特征詞的關聯性,塑造向量空間模型。新文本分類模塊過濾將要進行類型劃分的文本中的分詞,獲取文本中的特征詞,并通過向量描述該特征詞。對比將要分類的文本特征向量同各類中心向量的相似度,確保文本被分類到具有最高相似度的種類中。文本訓練模塊持續進行自我學習,并接收新文本分類模塊反饋的訓練文本,提高文本分類精度。

其中的語料搜集是從積累的大規模不安全網絡信息資料中,采集代表性的文本資料,將其當成訓練分類模型的語料。按照不同的文本類別塑造各類專業詞表,其中含有文本的專業詞編號、所屬類別以及專業詞等內容。采用逆向最大匹配法采集Web文本中的最大符號串,并將其同詞典中的單詞條目進行匹配,若匹配不成功,則過濾一個漢字,再次進行匹配,直至在詞典中獲取相關的單詞,最終獲取Web文本的中文分詞。

將新文本劃分到分類體系中的某一類時,因為分類體系中的各類別間具有一定相似性,因此需要對各類別確定合理的閾值,若Web文本在該類的閾值之上,則將文本歸類到該類中,設置的分類類別閾值為65%。

2 軟件設計

0 引 言

隨著網絡信息技術的快速發展,其在人們的生產和生活中發揮著越來越重要的作用。網絡信息技術的發展促使網絡經濟發展速度提升,網絡信息安全問題限制了網絡經濟的發展。因此,尋求有效的方法,確保網絡信息安全,成為相關人員分析的熱點問題[1?3]。傳統的信息挖掘方法,挖掘面窄,擴展性差,無法有效挖掘出網絡中的不安全信息。而在網絡中充分運用Web 數據挖掘技術,可大大增強網絡信息安全的監測質量,具有重要應用意義[4?6]。

當前針對網絡不安全信息的挖掘方法大都存在一定的問題,如文獻[7]分析依據規則的網絡不安全信息檢測方法,其采用人工事先設置好的推理規則,對Web資料進行推理分析,檢測出不安全信息。但是該方法對待檢測資料的可理解性要求較高,存在一定的局限性。文獻[8]分析了基于回歸模型檢測網絡不安全信息,其統計不安全信息發生的概率,塑造概率的回歸模型,完成不安全信息的歸類。該方法可在實際運用中獲取滿意的結果,但是需要大量的數據為分析依據,且檢測效率較低。文獻[9]通過基于連接的形式,實現網絡不安全信息的檢測。其通過一定的算法模擬人的思維,完成網絡信息的有效分類。但是該方法檢測到的結果較為粗糙,存在較高的誤差。文獻[10]提出了基于向量的網絡不安全信息挖掘方法,塑造網絡信息的向量空間,通過分析網絡信息向量空間的相似度,挖掘出不安全信息。但其檢測精度較低,無法獲取令人滿意的檢測效果。

針對上述問題,設計并實現了網絡信息安全防范與Web數據挖掘系統,其由Web文本采集模塊、文本分類模塊和類別判斷模塊構成。實驗結果表明,所設計系統具有較高的查全率、查準率和較高的檢測性能。

1 網絡信息安全防范與Web數據挖掘系統

1.1 系統的體系結構

塑造的網絡信息安全防范與Web數據挖掘系統的體系結構如圖1所示。

圖1描述的系統體系結構由Web文本采集模塊、文本分類模塊和類別判斷模塊構成。Web文本采集模塊從網絡Web網頁中采集文本信息,同時將獲取的Web文本信息傳輸給文本分類模塊。文本分類模塊包括訓練模塊、分類模塊以及分類器,訓練模塊采用完成分類的文本對文本分類模型進行訓練,獲取不同類別特征詞間的關聯性,塑造向量空間模型。分類模塊對將要進行分類的文本進行分詞處理,過濾其中的停用詞,采集其中的特征詞,并通過向量描述獲取特征詞。分類器對比待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到最高相似度的文本種類內。類別判斷模塊分析待分析的網絡文本信息是否屬于不安全信息類,并通過報警模塊對網絡不安全信息進行報警,同時通知管理人員對不安全信息進行相關的處理。

1.2 Web文本采集模塊設計

Web文本數據采集流程如圖2所示。

圖2 Web文本信息自動采集流程圖

其中的Spider采集模塊位于Web 信息采集中底層,其通過不同Web協議自主采集互聯網網頁中的信息。Web 頁面的采集,應先過濾Web頁面的圖像、聲音等非結構數據,再從頁面采集鏈接、文本的標題以及正文,確保在Web網頁中僅存在文本信息。

超鏈接采集獲取URL,按照超鏈接分析算法,分析Web頁面種類,刪除無價值的分析鏈接頁面,保留頁面種類為“tex/html”的分析連接頁面。按照應答頭以及URL的文件擴展名分析頁面的種類。

規范文本將Web文本信息劃分成文章的標題和主體,確保分類模塊可基于不同的標題和主體,設置相應的參數。具體的過程如下:

(1) 分析正文開始位置,順次檢索文章的段落,直至某段長高于設置的正文最小長度,則說明該段文字為正文中的某段。

(2) 在正文位置向文章開始處檢索,按照字體大小,是否居中等特征,獲取最滿意的一段文字,將其當成標題。

(3) 檢索文章直至獲取非文字字符,將對應的內容當成文本的主體。

(4) 將獲取的標題和主體存儲到數據庫或格式文件內。

1.3 文本分類模塊設計

文本分類模型由訓練模塊、分類模塊和分類器構成。訓練模塊通過大量完成分類的文本進行訓練,獲取文本分類模型,獲取不同類型特征詞間的關聯性,塑造向量空間模型SVM。分類模塊將待分類的Web文本進行分詞處理,過濾其中的停用詞,獲取其中的特征詞,同時通過向量描述文本特征詞。分類器可運算待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到具有最高相似度的文本類型中。塑造的文本自動分類模塊的結構圖如圖3所示。

圖3中,本文訓練模塊通過分類文本訓練對文本分類模型進行訓練,獲取不同類別特征詞的關聯性,塑造向量空間模型。新文本分類模塊過濾將要進行類型劃分的文本中的分詞,獲取文本中的特征詞,并通過向量描述該特征詞。對比將要分類的文本特征向量同各類中心向量的相似度,確保文本被分類到具有最高相似度的種類中。文本訓練模塊持續進行自我學習,并接收新文本分類模塊反饋的訓練文本,提高文本分類精度。

其中的語料搜集是從積累的大規模不安全網絡信息資料中,采集代表性的文本資料,將其當成訓練分類模型的語料。按照不同的文本類別塑造各類專業詞表,其中含有文本的專業詞編號、所屬類別以及專業詞等內容。采用逆向最大匹配法采集Web文本中的最大符號串,并將其同詞典中的單詞條目進行匹配,若匹配不成功,則過濾一個漢字,再次進行匹配,直至在詞典中獲取相關的單詞,最終獲取Web文本的中文分詞。

將新文本劃分到分類體系中的某一類時,因為分類體系中的各類別間具有一定相似性,因此需要對各類別確定合理的閾值,若Web文本在該類的閾值之上,則將文本歸類到該類中,設置的分類類別閾值為65%。

2 軟件設計

0 引 言

隨著網絡信息技術的快速發展,其在人們的生產和生活中發揮著越來越重要的作用。網絡信息技術的發展促使網絡經濟發展速度提升,網絡信息安全問題限制了網絡經濟的發展。因此,尋求有效的方法,確保網絡信息安全,成為相關人員分析的熱點問題[1?3]。傳統的信息挖掘方法,挖掘面窄,擴展性差,無法有效挖掘出網絡中的不安全信息。而在網絡中充分運用Web 數據挖掘技術,可大大增強網絡信息安全的監測質量,具有重要應用意義[4?6]。

當前針對網絡不安全信息的挖掘方法大都存在一定的問題,如文獻[7]分析依據規則的網絡不安全信息檢測方法,其采用人工事先設置好的推理規則,對Web資料進行推理分析,檢測出不安全信息。但是該方法對待檢測資料的可理解性要求較高,存在一定的局限性。文獻[8]分析了基于回歸模型檢測網絡不安全信息,其統計不安全信息發生的概率,塑造概率的回歸模型,完成不安全信息的歸類。該方法可在實際運用中獲取滿意的結果,但是需要大量的數據為分析依據,且檢測效率較低。文獻[9]通過基于連接的形式,實現網絡不安全信息的檢測。其通過一定的算法模擬人的思維,完成網絡信息的有效分類。但是該方法檢測到的結果較為粗糙,存在較高的誤差。文獻[10]提出了基于向量的網絡不安全信息挖掘方法,塑造網絡信息的向量空間,通過分析網絡信息向量空間的相似度,挖掘出不安全信息。但其檢測精度較低,無法獲取令人滿意的檢測效果。

針對上述問題,設計并實現了網絡信息安全防范與Web數據挖掘系統,其由Web文本采集模塊、文本分類模塊和類別判斷模塊構成。實驗結果表明,所設計系統具有較高的查全率、查準率和較高的檢測性能。

1 網絡信息安全防范與Web數據挖掘系統

1.1 系統的體系結構

塑造的網絡信息安全防范與Web數據挖掘系統的體系結構如圖1所示。

圖1描述的系統體系結構由Web文本采集模塊、文本分類模塊和類別判斷模塊構成。Web文本采集模塊從網絡Web網頁中采集文本信息,同時將獲取的Web文本信息傳輸給文本分類模塊。文本分類模塊包括訓練模塊、分類模塊以及分類器,訓練模塊采用完成分類的文本對文本分類模型進行訓練,獲取不同類別特征詞間的關聯性,塑造向量空間模型。分類模塊對將要進行分類的文本進行分詞處理,過濾其中的停用詞,采集其中的特征詞,并通過向量描述獲取特征詞。分類器對比待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到最高相似度的文本種類內。類別判斷模塊分析待分析的網絡文本信息是否屬于不安全信息類,并通過報警模塊對網絡不安全信息進行報警,同時通知管理人員對不安全信息進行相關的處理。

1.2 Web文本采集模塊設計

Web文本數據采集流程如圖2所示。

圖2 Web文本信息自動采集流程圖

其中的Spider采集模塊位于Web 信息采集中底層,其通過不同Web協議自主采集互聯網網頁中的信息。Web 頁面的采集,應先過濾Web頁面的圖像、聲音等非結構數據,再從頁面采集鏈接、文本的標題以及正文,確保在Web網頁中僅存在文本信息。

超鏈接采集獲取URL,按照超鏈接分析算法,分析Web頁面種類,刪除無價值的分析鏈接頁面,保留頁面種類為“tex/html”的分析連接頁面。按照應答頭以及URL的文件擴展名分析頁面的種類。

規范文本將Web文本信息劃分成文章的標題和主體,確保分類模塊可基于不同的標題和主體,設置相應的參數。具體的過程如下:

(1) 分析正文開始位置,順次檢索文章的段落,直至某段長高于設置的正文最小長度,則說明該段文字為正文中的某段。

(2) 在正文位置向文章開始處檢索,按照字體大小,是否居中等特征,獲取最滿意的一段文字,將其當成標題。

(3) 檢索文章直至獲取非文字字符,將對應的內容當成文本的主體。

(4) 將獲取的標題和主體存儲到數據庫或格式文件內。

1.3 文本分類模塊設計

文本分類模型由訓練模塊、分類模塊和分類器構成。訓練模塊通過大量完成分類的文本進行訓練,獲取文本分類模型,獲取不同類型特征詞間的關聯性,塑造向量空間模型SVM。分類模塊將待分類的Web文本進行分詞處理,過濾其中的停用詞,獲取其中的特征詞,同時通過向量描述文本特征詞。分類器可運算待分類文本特征向量同各類中心向量間的相似度,將Web文本劃分到具有最高相似度的文本類型中。塑造的文本自動分類模塊的結構圖如圖3所示。

圖3中,本文訓練模塊通過分類文本訓練對文本分類模型進行訓練,獲取不同類別特征詞的關聯性,塑造向量空間模型。新文本分類模塊過濾將要進行類型劃分的文本中的分詞,獲取文本中的特征詞,并通過向量描述該特征詞。對比將要分類的文本特征向量同各類中心向量的相似度,確保文本被分類到具有最高相似度的種類中。文本訓練模塊持續進行自我學習,并接收新文本分類模塊反饋的訓練文本,提高文本分類精度。

其中的語料搜集是從積累的大規模不安全網絡信息資料中,采集代表性的文本資料,將其當成訓練分類模型的語料。按照不同的文本類別塑造各類專業詞表,其中含有文本的專業詞編號、所屬類別以及專業詞等內容。采用逆向最大匹配法采集Web文本中的最大符號串,并將其同詞典中的單詞條目進行匹配,若匹配不成功,則過濾一個漢字,再次進行匹配,直至在詞典中獲取相關的單詞,最終獲取Web文本的中文分詞。

將新文本劃分到分類體系中的某一類時,因為分類體系中的各類別間具有一定相似性,因此需要對各類別確定合理的閾值,若Web文本在該類的閾值之上,則將文本歸類到該類中,設置的分類類別閾值為65%。

2 軟件設計

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲激情99| 中文字幕乱码二三区免费| 无码久看视频| 99尹人香蕉国产免费天天拍| 亚洲男人天堂网址| 一本大道香蕉中文日本不卡高清二区 | 98超碰在线观看| 久久人体视频| 亚洲V日韩V无码一区二区| 国产日本视频91| 日韩精品毛片人妻AV不卡| 九九九久久国产精品| 91精品最新国内在线播放| 国产玖玖玖精品视频| 71pao成人国产永久免费视频| 1769国产精品视频免费观看| 久久黄色小视频| 亚洲 欧美 日韩综合一区| 久久综合国产乱子免费| 日韩精品亚洲精品第一页| 欧亚日韩Av| 青青草91视频| 毛片卡一卡二| 国产福利一区视频| 999精品免费视频| 婷婷激情亚洲| 国产亚洲第一页| 欧美无专区| 激情综合网激情综合| 国产男人的天堂| 女人18毛片久久| 青青国产视频| 亚洲美女一区| 天堂在线www网亚洲| 久久一级电影| 国产日本一区二区三区| 精品小视频在线观看| 欧美视频二区| 国产一级无码不卡视频| 国产本道久久一区二区三区| 久久综合九色综合97网| 乱系列中文字幕在线视频| 毛片网站观看| 亚洲一区网站| 亚洲国产中文欧美在线人成大黄瓜| 中文字幕啪啪| 精品91在线| 亚洲日本www| 日本三区视频| 成人小视频网| 日韩 欧美 国产 精品 综合| 久久永久免费人妻精品| 全午夜免费一级毛片| 无码AV日韩一二三区| 全午夜免费一级毛片| 麻豆AV网站免费进入| 欧美在线导航| 欧美一级高清免费a| 精品成人一区二区三区电影 | 亚洲福利片无码最新在线播放| 亚洲热线99精品视频| 欧洲免费精品视频在线| 久久久久亚洲AV成人人电影软件| 香蕉精品在线| 中文字幕在线视频免费| 无码日韩精品91超碰| 丁香婷婷综合激情| 国产永久免费视频m3u8| 亚洲区欧美区| 免费看a毛片| 狠狠色综合网| 国产高颜值露脸在线观看| 国产精品va| 伊人成人在线| 欧美精品成人一区二区视频一| 欧美福利在线| 欧美精品黑人粗大| 一本大道香蕉久中文在线播放| 国产成人乱无码视频| 浮力影院国产第一页| 亚洲手机在线| 国产91高清视频|