999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于樹的Whois文檔解析方法

2007-01-01 00:00:00王清賢
計算機應用研究 2007年3期

摘 要:從分析信息收集的關鍵問題入手,針對該類信息的表示特點,提出了一種基于樹的文本解析策略。該方法對于解決半結構化的文本信息解析具有一定的普遍意義。

關鍵詞:信息收集;Whois;文本解析

中圖分類號:TP393.08文獻標志碼:A

文章編號:1001—3695(2007)03—0072—04

目前,大多數對攻擊的研究與實踐是傳統的主動探測和對安全漏洞的利用。由于這種主動探測需要與目標交互,常常容易被目標的防火墻或入侵檢測系統記錄。但是,很多組織忽視了信息泄露的潛在威脅,攻擊者無須訪問組織內部的服務器就可以通過公共服務被動收集組織內部的信息,從而逃避非法檢測。2004年,NGS(Next Generation Security Software Ltd.)[1]提出被動信息收集(Passive Information Gathering)[2]的概念,引起很多組織對其信息泄露的重視。

信息收集的內容以Whois結果為主。本文從分析信息收集的關鍵問題入手,針對該類信息的表示特點,提出了一種基于樹的文本解析策略。該方法對于解決半結構化的文本信息解析具有一定的普遍意義。

1 相關研究

根據不同的獲取方法,信息收集的結果一般有兩種形式,即Web文檔和半結構化的文本。

1.1 Web信息抽取[3,4]

Web信息抽取通常利用包含在Web文檔中的一些元信息、簡單的句法、分隔符信息等來完成信息抽取工作。在該類信息抽取系統中多數使用包裝器來進行信息抽取。包裝器可以由手工創建,或者(半)自動化創建。在手工創建包裝器的過程中,既可以使用知識工程途徑,也可以使用由特定領域專家創建的本體論來手工創建包裝器。為了減輕設計者的勞動強度,逐漸將機器學習技術應用于信息抽取。越來越多的信息抽取系統是(半)自動化地使用機器學習技術和數據挖掘技術等來創建的。機器學習中的一些成熟技術被用來創建信息抽取系統,如歸納邏輯編程、命題規則學習、樸素貝葉斯網絡、隱馬爾科夫模型等。

1.2 文本挖掘[5]

文本挖掘(Text Mining)是信息挖掘的一個研究分支,用于基于文本信息的知識發現。文本挖掘是利用智能算法,如神經網絡、基于案例的推理、可能性推理等,并結合文字處理技術,分析大量的非結構化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網頁等),抽取或標記關鍵字概念,文字間的關系,并按照內容對文檔進行分類,獲取有用的知識和信息。文本挖掘研究的關鍵在于文本內容的量化表征。

針對面向信息收集的資源提取,目前已成形的文本挖掘和Web信息提取的方法過于復雜,需要找到更適合、更簡潔的方法。

2 問題分析

泄密信息收集往往是攻擊的前奏,不僅包括對目標實體信息的公開查詢和存儲,還包括對信息的歸類、提取和解析,為進一步分析和利用提供便利的信息基礎。泄密信息收集的外延很廣,針對其服務的對象,泄密信息收集的范圍主要是全球范圍內與目標網絡特性相關的網絡實體信息。這些信息可以通過各種渠道的公開查詢獲取。收集到的信息對于目標網絡的定位、網絡路徑與地理位置的有機統一、網絡規模和拓撲結構的探測與分析均有著重要的價值。

2.1 數據源

收集的數據主要來自以下在線資源:

(1)Internet服務注冊商[6—10]

全球IP地址、AS信息的注冊和維護機構。

(2)域名系統

域名的本地及全球注冊和維護機構。

(3)搜索引擎

獲取組織間鏈接關系的查詢工具。

(4)其他數據集

與信息采集相關的其他數據集,包括Whois服務器信息、IP地址管理信息、地理位置信息等。

這些信息一般可以借助Web查詢或相關協議查詢,由于通過Web方式得到的數據存在很多HTML的標記信息,解析比較煩瑣。在具體的實施中更側重于采用相關協議查詢返回的純文本信息,如Whois查詢、DNS查詢等。下面顯示了一段IP地址的Whois查詢結果。

2.2 關鍵問題

在實際情況下,不同的數據源返回的信息格式往往各不相同,甚至同一數據源返回的信息格式也有區別。另外,有些數據源還會更改其信息的表示格式,造成原來的解析算法完全不適用。

查詢得到的文本內容體現了數據源的部分信息結構;提取過程中無須過多考慮文檔結構,重點解決名稱的相似性問題,即不同數據源在描述同一類數據時會采用不同的名稱。這樣導致文檔解析功能的擴展和更新對數據源的依賴性很大。為了解決這一問題,需要找到一種適應性強、可擴展性好的解析策略。

3 信息解析過程

首先引入兩個特定的概念,即類型和格式。此處類型按照查詢請求分類,對不同類型的查詢所解析的內容有所不同,如對IP地址分配信息的查詢結果,需要解析該地址所在IP地址段的網絡名稱、組織名、地址、國家代號等;而對AS分配信息的查詢結果,需要解析該AS的AS名稱、所屬國家等,有幾種查詢就存在幾種不同類型。格式是針對同一類型的不同表示形式而言的,如同樣描述一個IP地址段,有的使用“NetRange:198.137.240.0198.137.241.255”,有的使用“inetnum:61.0.0.0—61.1.255.255”,這樣一種類型的查詢結果可能有很多種不同的格式。

從直觀上來講,對文本信息的解析往往側重于針對不同的文本格式解析不同的內容,即一種格式一個解析算法。此時針對不同的格式開發不同的解析算法,如果出現一種新的格式,則增加一種解析算法。這種解析策略適用于文本類型統一、格式較一致的情況。

隨著文本類型的增多,文本格式的差異也越來越大,一種格式一個解析算法的解析策略已遠遠不能適應軟件開發的要求。當出現不同格式的查詢結果時,增加一種解析算法,同時在調用這種解析算法前還需要額外的判斷和錯誤處理,增加了系統實現的復雜性和難度。其軟件效率低、可擴展性不好。考慮到同一類型不同格式的文本格式差異不大的特點,提出了一種類型一個解析算法的解析策略。

信息解析的基本步驟主要包含以下兩步:

(1)建立文本解析模型。從已收集到的大量文檔集中對文本分類,提取特征,建立特征集,形成解析模型的過程。該過程是信息解析的主要過程,只要文本解析模型能夠涵蓋大部分的文本特征,文本信息的解析就很容易完成了。

(2)解析文本信息。將一個待解析的源文件在(1)已經建好的文本解析模型中分類并與特征集匹配一次,評價解析效果,將解析結果以數據庫記錄的形式保存。

對于一個文檔集,文本的類型能夠使用該文檔的來源標志,分類后的文本基本上具有大致相同的特征,此時對每一類文本建立文本特征。為了提高解析模型的適應性,特征建立后需要針對文本特征中的同義詞(即指示同一內容的關鍵字)歸類,歸類的過程即是對文本特征集的優化,由此建立起來的文本特征能夠基本適應文本解析的需要。為了提高文本解析模型的適應性,解析模型應具有良好的可擴展性,隨著文檔集數量的增加,可以不斷對該模型進行質量評價和修正,使文本解析模型不斷完善。文本解析模型建立的一般過程如圖1所示。

4 文本解析模型

4.1 文本的分類

對于一個文檔集,文本的類型能夠根據該文檔的來源標志,從目前信息采集的內容來看,文本的類型主要有以下幾種:

(1)IP地址Whois查詢結果文本。

(2)域名Whois查詢結果文本。

(3)自治系統Whois查詢結果文本。

(4)地理位置信息查詢結果Web文檔。

分類后的文本基本上具有大致相同的文本描述特征,使得在確定文本類型的基礎上進一步分析文本的格式,建立文本特征相對簡化。

4.2 文本特征的建立

文本分類后,針對單一類型的文本分析其格式特點,以類型為單位建立文本特征。文本特征是指關于文本的元數據,

包含文本的名稱、日期、大小、來源、關鍵字、內容等。文本的解析尤其應處理好對文本特征中關鍵字的描述。

對文本特征的描述采用特征向量來表示,每一個關鍵字的特征向量描述為

其中,V(i)代表一種類型文本的某個關鍵字的特征向量;Keyi表示該類型文本中的某個關鍵字;N(Keyi)表示該關鍵字代表的內容;W(Keyi)表示在該類型文本中該關鍵字的權值,可以表示該關鍵字在文本中出現的頻率或出現的必要性等。多個關鍵字特征向量的集合就構成了該類型文本解析模型的特征矩陣:

對于域名Whois查詢,每一個正常的應答文本中均應存在特征矩陣中的若干個關鍵字,此處權值W(Keyi)表示該關鍵字是否必須存在于應答文本中。如果是0,則表示該關鍵字所指示的內容是可選的,在應答文本中未必存在。另外,同一種內容可能會在不同文本中用多個關鍵字指示,如“域名服務器”在該特征向量中分別列出了“Domain Servers”“Name Ser ̄ver”和“Domain Servers in Listed Order”三種關鍵字,這表示不同的文本指示一種內容使用的關鍵字可能不同。

4.3 特征集的優化

特征集的優化是對已經建立好的特征集的進一步分析和歸類,從對文本特征的描述來看,不同格式的文本中,對同一內容的指示可能采用的關鍵字并不相同,但該內容卻在每一個該類型的文本中存在(即權值為1)。從解析的角度來看,這些關鍵字是同義詞,解析時應一并考慮,同時解析過程中同義詞的選擇應該由一個度量來表示。在對特征集的優化過程中,我們在每一個關鍵字的特征向量中增加了關鍵字優先級的描述。

此時,對于同一種內容對應的多個關鍵字,如“域名服務器”在該特征向量中分別列出了“Domain Servers”“Name Ser ̄ver”和“Domain Servers in Listed Order”三種關鍵字,分別由不同的優先級來描述,相同的N(Keyi)表示同義詞,不同的優先級描述在信息解析過程中對關鍵字選取的次序。

優先級的引入雖然在特征集的存儲上增加了空間,但在解析過程中,通過選擇最可能出現的關鍵字,減少了關鍵字匹配失敗的幾率,解析效率有所提高。

4.4 模型質量的評價

通過以上三步對文檔集的分類、特征提取和特征集優化所建立起來的文本解析模型已經能夠基本滿足信息解析的需要。在本節中進一步給出了對文本解析模型質量的評價。評價文本解析模型的質量可以給出對解析結果的量化評價,找出導致解析質量降低的潛在因素,不斷優化文本解析模型。

對文本解析模型解析準確率和解析完整率的分析有助于評價文本解析模型的質量和在此基礎上的解析效率。

解析準確率<1,一般是由于一些關鍵字字符在解析文本中出現,但這些字符并沒有作為關鍵字存在,此時,可能需要重新描述文本特征或增加對解析狀態的判斷。

解析完整率<1,主要是由于一些表示某內容的關鍵字沒有在特征集中收集,造成可用信息丟失。當發現解析完整率小于一定的值,以至于影響到信息解析的效果時,需要重新檢查解析文本,增加關鍵字,更新文本特征集。

對文本解析模型質量的評價是對文本特征集的不斷完善,另外,由于文本的特征是分類并結構化組織的,由此建立起來的文本解析模型具有良好的可擴展性和適應性。

5 文本解析模型的實際應用

文本解析模型在計算機中的表示采用樹型結構,此處引入解析樹的概念。圖2所示是一棵解析域名信息用到的解析樹。

在解析樹中,內節點表示一個信息的比較,其內容與數據庫中域名分配數據集的相關屬性對應;葉子節點表示關鍵字,即不同格式的結果文件中針對其父親的描述關鍵字有若干種,每個葉子代表一種關鍵字。這樣建立起來的一棵樹,其樹的根就是解析后的結果,即由每個葉子節點名稱加解析結果組成的信息總和。

這樣一棵樹就代表了一種類型,同樣IP地址分配信息的解析需要一棵IP信息解析樹,AS分配信息的解析需要一棵AS信息解析樹。

信息是否解析成功由各個內節點是否解析成功決定。對一個內節點的解析是不斷嘗試其每個葉子的關鍵字,只要找到匹配的,就解析結果并返回,成功則該內節點解析成功。第一個內節點一般是數據庫表的主鍵,該節點是否解析成功決定了整棵樹本次解析是否成功。當每個內節點都已經解析完后,根開始回收節點,多個節點名稱加解析結果的集合就是本次解析的結果。

解析樹的存儲采用拉鏈法,如圖3所示。

圖3 解析樹的存儲結構

信息解析過程如下:

(1)建立文本解析模型。

(2)收到一個信息收集所得信息的文本描述。

(3)判斷信息來源,選擇不同的解析樹。

(4)解析每個內節點,選擇鏈接在其下的關鍵字葉子,按照關鍵字的優先級依次嘗試,直到找到匹配的關鍵字,提取出相關信息,若成功解析,置本內節點解析狀態為成功。

(5)如果第一個內節點的狀態為失敗,則解析失敗,返回;否則繼續(6)。

(6)進行模型質量評估,計算解析準確率和解析完整率,確定本次解析是否成功。

(7)返回解析狀態和解析結果。

使用解析樹對文本信息進行解析克服了一種格式一個解析算法策略的缺點,利用樹的葉子節點概括了所有可能的關鍵字。當發現新的格式時,只要簡單地添加一個葉子就完成了解析功能的擴展;當需要解析新的內容時,只要增加一個內節點,在其下鏈接相關的葉子節點就完成了解析內容的增加。內節點和葉子節點的增加不需要更改解析算法,系統適應性強、可擴展性好。另外解析過程中省去了判斷格式、選擇算法的時間開銷,使算法的執行效率有所提高。

6 結束語

本文從分析信息收集的關鍵問題入手,針對該類信息的表示特點,提出了一種類型一個解析算法進行解析策略,使用解析樹對文本信息的解析克服了一種格式一個解析算法策略的缺點,利用樹的葉子節點概括了所有可能的關鍵字。系統適應性強,可擴展性好,算法的執行效率有所提高。該方法對于解決半結構化的文本信息解析具有一定的普遍意義。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 色噜噜狠狠狠综合曰曰曰| 99精品福利视频| 在线va视频| 久久精品人妻中文系列| 久久亚洲欧美综合| 中文成人在线视频| 国产aⅴ无码专区亚洲av综合网 | 伊人久久精品无码麻豆精品 | 波多野结衣第一页| 国产中文在线亚洲精品官网| 亚洲男人在线天堂| 欧美综合成人| 伊人久久大香线蕉成人综合网| 欧美亚洲国产一区| 亚洲视频三级| 欧美日韩国产综合视频在线观看| 国产第二十一页| 高清无码手机在线观看 | 国模粉嫩小泬视频在线观看| 亚洲精品无码AⅤ片青青在线观看| 在线精品欧美日韩| 广东一级毛片| 色综合天天综合中文网| 国产毛片高清一级国语 | 国产资源免费观看| 亚洲热线99精品视频| 一级爆乳无码av| 91偷拍一区| 中文一级毛片| 国产永久在线观看| 亚洲三级a| 国产黄色片在线看| 福利视频99| 国产一二三区视频| 四虎精品国产AV二区| 日韩精品免费一线在线观看| 亚洲娇小与黑人巨大交| 国产精品入口麻豆| 欧美日韩国产精品综合| 五月天香蕉视频国产亚| 欧美亚洲另类在线观看| 免费无码网站| 亚洲精品不卡午夜精品| 2021国产精品自拍| 亚洲青涩在线| 伊人久久久久久久久久| 国产新AV天堂| 日韩一区二区三免费高清| 色国产视频| 国产亚洲视频中文字幕视频 | 亚洲AV永久无码精品古装片| 在线观看国产网址你懂的| 2020最新国产精品视频| 久久熟女AV| 亚洲国产清纯| 在线看片中文字幕| 第九色区aⅴ天堂久久香| 婷婷激情亚洲| 亚洲午夜福利精品无码| 久久成人国产精品免费软件| 国产成人精品一区二区三在线观看| 最新亚洲人成网站在线观看| 91人妻在线视频| 午夜色综合| 日本精品影院| 久久99国产精品成人欧美| 精品久久久久久中文字幕女| www.精品视频| 亚洲天堂成人在线观看| av一区二区三区在线观看| 热99re99首页精品亚洲五月天| 2019国产在线| 国产伦精品一区二区三区视频优播| 萌白酱国产一区二区| 女人爽到高潮免费视频大全| 国产免费黄| 欧美19综合中文字幕| 国产丝袜无码精品| 国产欧美在线观看一区| 国产视频久久久久| 欲色天天综合网| 国产成人一二三|