張帥帥,黃杰
〔1.東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,江蘇南京 211189;2.網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室,江蘇南京 211111;3.江蘇省計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇南京 211189;4.網(wǎng)絡(luò)空間國(guó)際治理研究基地(東南大學(xué)),江蘇南京 211189〕
1 引言
近10年物聯(lián)網(wǎng)技術(shù)迅速發(fā)展,物聯(lián)網(wǎng)設(shè)備數(shù)量也急劇增加。根據(jù)國(guó)際知名調(diào)研機(jī)構(gòu)Gartner[1]的報(bào)告,到2020年物聯(lián)網(wǎng)設(shè)備的數(shù)量將增加到200多億。日益發(fā)展的物聯(lián)網(wǎng)也存在巨大的安全隱患[2~3]。Liu等[4]人全面分析了物聯(lián)網(wǎng)設(shè)備在設(shè)計(jì)研發(fā)生產(chǎn)使用全過(guò)程的安全風(fēng)險(xiǎn)。
但是,物聯(lián)網(wǎng)設(shè)備具有海量和多樣的特點(diǎn),很難進(jìn)行統(tǒng)一的安全管理。所以,對(duì)物聯(lián)網(wǎng)設(shè)備進(jìn)行識(shí)別和分類(lèi)是進(jìn)行安全管理的第一步。
2 物聯(lián)網(wǎng)設(shè)備識(shí)別方法
物聯(lián)網(wǎng)設(shè)備識(shí)別就是通過(guò)主動(dòng)或被動(dòng)的方式,采集有效信息生成設(shè)備指紋,分為基于流量特征的指紋生成和基于標(biāo)語(yǔ)的指紋生成。
2.1 基于流量特征的指紋生成
主動(dòng)探測(cè)是向目標(biāo)設(shè)備發(fā)送探測(cè)包,對(duì)響應(yīng)數(shù)據(jù)包進(jìn)行分析提取特征。Nmap在探測(cè)目標(biāo)設(shè)備的操作系統(tǒng)時(shí),設(shè)定了16種畸形的TCP和UDP探測(cè)包,根據(jù)響應(yīng)數(shù)據(jù)分析協(xié)議序號(hào)(ISN)的生成規(guī)則、系統(tǒng)的時(shí)鐘情況等信息,可以有效地識(shí)別出目標(biāo)設(shè)備的操作系統(tǒng)[5,6]。
被動(dòng)監(jiān)測(cè)是在網(wǎng)關(guān)處監(jiān)控設(shè)備的通信時(shí)長(zhǎng)和頻率、數(shù)據(jù)大小等,來(lái)識(shí)別設(shè)備的不同行為模式。DEFT[7]分析DNS/HTTP/MQTT等多個(gè)協(xié)議的數(shù)字特征(均值、最大值和最小值),生成對(duì)應(yīng)的數(shù)字指紋。對(duì)于具有無(wú)線功能的設(shè)備,可以將無(wú)線電的物理特征作為設(shè)備指紋[8,9]。
得到指紋后利用不同的學(xué)習(xí)算法進(jìn)行設(shè)備分類(lèi)。一般采用監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。Li等人[10]采用決策樹(shù)、SVM和BP神經(jīng)網(wǎng)絡(luò)等監(jiān)督學(xué)習(xí)方法,對(duì)攝像頭設(shè)備的正負(fù)樣本進(jìn)行訓(xùn)練來(lái)識(shí)別聯(lián)網(wǎng)攝像頭。無(wú)監(jiān)督學(xué)習(xí)則被用來(lái)解決無(wú)訓(xùn)練數(shù)據(jù)時(shí)識(shí)別新出現(xiàn)的設(shè)備。
2.2 基于標(biāo)語(yǔ)的指紋生成
標(biāo)語(yǔ)信息常出現(xiàn)在Telnet/HTTP等協(xié)議中,含有設(shè)備的品牌型號(hào)信息。如圖1所示,是HTTP文本的頭部關(guān)鍵標(biāo)語(yǔ)信息。標(biāo)語(yǔ)信息能夠直接顯示設(shè)備的品牌型號(hào)。但各個(gè)廠家的標(biāo)語(yǔ)信息格式、位置、寫(xiě)法都不相同,對(duì)有效標(biāo)語(yǔ)信息的提取造成了很大的阻礙。Feng等人[11]提出了基于規(guī)則匹配和NLP的物聯(lián)網(wǎng)設(shè)備搜索引擎,標(biāo)語(yǔ)提取后利用Google對(duì)標(biāo)語(yǔ)信息進(jìn)行拓展并建立設(shè)備的指紋庫(kù)。

圖1 HTTP頭部標(biāo)語(yǔ)信息
3 基于登錄界面的指紋生成
3.1 交互界面指紋特點(diǎn)
不同品牌設(shè)備的頁(yè)面具有差異性。同時(shí),界面代碼是被寫(xiě)進(jìn)硬件存儲(chǔ)中的,具有持久性。這兩點(diǎn)確保了本文方法的有效性。
Ren等[12]人利用信息增益模型從Web頁(yè)面提取關(guān)鍵詞信息,利用正反饋增強(qiáng)的PU學(xué)習(xí)方法進(jìn)行分類(lèi)器訓(xùn)練。但這種基于特征字提取的方法,在遇到交互界面中缺少關(guān)鍵字,或者品牌型號(hào)信息都以圖片的形式顯示時(shí),難以提取有效的特征信息。針對(duì)這個(gè)問(wèn)題,本文提出了基于交互界面代碼結(jié)構(gòu)的特征提取方法,該方法的優(yōu)勢(shì)是適用性廣、正確率高。
3.2 指紋生成方法
HTML是一種標(biāo)簽語(yǔ)言,可以轉(zhuǎn)化成DOM樹(shù)。本文的設(shè)備指紋包含兩部分:標(biāo)簽使用情況和DOM樹(shù)的層次結(jié)構(gòu)信息。這些信息可以很好的代表一種品牌設(shè)備的頁(yè)面特征。
本文通過(guò)對(duì)其關(guān)鍵標(biāo)簽的使用情況以及DOM樹(shù)結(jié)構(gòu)的分析,提取了表1中的19種特征值。一個(gè)合法的HTML文本都包括了兩大部分,標(biāo)簽
和標(biāo)簽。標(biāo)簽定義了HTML文檔的頭部,是各種頭部標(biāo)簽元素的容器。標(biāo)簽中的內(nèi)容定義了HTML文檔的各類(lèi)屬性,腳本的調(diào)用等等配置信息。經(jīng)常在頭部出現(xiàn)的標(biāo)簽有
、、等。特征1和特征2統(tǒng)計(jì)了標(biāo)簽下子標(biāo)簽的使用情況,以及不同標(biāo)簽個(gè)數(shù)。標(biāo)簽定義了該頁(yè)面的標(biāo)題。這里統(tǒng)計(jì)后文本的長(zhǎng)度,如果為0則是沒(méi)有設(shè)置標(biāo)題。其他標(biāo)簽依次統(tǒng)計(jì)被使用的次數(shù)。
和常出現(xiàn)在標(biāo)簽下,同樣統(tǒng)計(jì)使用次數(shù)。標(biāo)簽是HTML文本的主體部分。頁(yè)面顯示的結(jié)構(gòu)和內(nèi)容都是由這部分決定的。利用python的pyquery庫(kù),將HTML轉(zhuǎn)化成DOM樹(shù),如圖2所示。該樹(shù)的根是標(biāo)簽,每個(gè)節(jié)點(diǎn)是一個(gè)標(biāo)簽,對(duì)應(yīng)的子節(jié)點(diǎn)是HTML文本中處在該標(biāo)簽下的子標(biāo)簽。整個(gè)樹(shù)狀結(jié)構(gòu)就是HTML文本的層次結(jié)構(gòu)。但記錄整個(gè)結(jié)構(gòu)信息會(huì)導(dǎo)致特征過(guò)于冗長(zhǎng)。本文采用BFS算法,統(tǒng)計(jì)10層代碼結(jié)構(gòu)信息。記為當(dāng)前節(jié)點(diǎn),初始時(shí)是標(biāo)簽,然后可以搜索它的所有子節(jié)點(diǎn),記為。那么當(dāng)前節(jié)點(diǎn)的特征值就是子節(jié)點(diǎn)的數(shù)量。對(duì)于任意一個(gè)子節(jié)點(diǎn),統(tǒng)計(jì)下子節(jié)點(diǎn)的數(shù)量,將中具有最多子節(jié)點(diǎn)數(shù)的節(jié)點(diǎn)設(shè)為,并將其子節(jié)點(diǎn)數(shù)記錄為下一個(gè)特征值。這樣共搜索10層結(jié)構(gòu)信息,特征值10~19就是連續(xù)10個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)目。
表1 設(shè)備交互界面HTML文本結(jié)構(gòu)特征表

圖2 HTML文本的DOM樹(shù)結(jié)構(gòu)圖
4 物聯(lián)網(wǎng)設(shè)備識(shí)別流程
如圖3所示,是物聯(lián)網(wǎng)設(shè)備識(shí)別的基本流程。首先準(zhǔn)備帶標(biāo)簽數(shù)據(jù)集進(jìn)行模型訓(xùn)練。在本文中,比較了隨機(jī)森林、SVM、邏輯回歸三種機(jī)器學(xué)習(xí)模型的分類(lèi)效果,并選擇效果最優(yōu)的隨機(jī)森林作為最終分類(lèi)器。
采用并行式的網(wǎng)絡(luò)探測(cè)來(lái)發(fā)現(xiàn)在線設(shè)備。然后向HTTP端口發(fā)送HTTP GET請(qǐng)求,將返回的HTML文檔保存成xml格式的文件。這些HTML文檔通過(guò)特征提取模塊提取特征向量,再利用訓(xùn)練好的分類(lèi)器識(shí)別設(shè)備品牌。但模型訓(xùn)練不可能覆蓋所有可能出現(xiàn)的品牌,為了發(fā)現(xiàn)新品牌設(shè)備,設(shè)定一個(gè)分類(lèi)器結(jié)果的可信閾值,如果大于可信閾值,就以IP地址為主鍵,將其具體的品牌信息存入數(shù)據(jù)庫(kù),否則就是未識(shí)別設(shè)備,存儲(chǔ)并作為新的訓(xùn)練數(shù)據(jù)。

圖3 物聯(lián)網(wǎng)設(shè)備識(shí)別流程
5 實(shí)驗(yàn)與分析
5.1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)通過(guò)對(duì)IPv4網(wǎng)絡(luò)隨機(jī)掃描采集,然后進(jìn)行人工識(shí)別標(biāo)定。探測(cè)目標(biāo)是暴露在公網(wǎng)中的開(kāi)放HTTP服務(wù)的物聯(lián)網(wǎng)設(shè)備。首先對(duì)隨機(jī)的IP地址發(fā)送SYN探測(cè)包。如果目標(biāo)返回ACK,則表明該目標(biāo)存活。如果沒(méi)有響應(yīng)或返回RSET,表明目標(biāo)關(guān)機(jī)或存在防火墻。然后與存活主機(jī)的HTTP服務(wù)端口(80,443,8081等)建立連接并采集HTML文檔數(shù)據(jù)。采集到的并不都是物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)。通過(guò)檢測(cè)HTML頭部server字段來(lái)去除非物聯(lián)網(wǎng)設(shè)備。因?yàn)槲锫?lián)網(wǎng)設(shè)備計(jì)算能力有限,一般采用輕型的網(wǎng)頁(yè)軟件,如Lighthttp、Boa等,而網(wǎng)站服務(wù)器都采用Apache、Ngnix等軟件。
數(shù)據(jù)采集過(guò)程發(fā)現(xiàn)100萬(wàn)的存活設(shè)備,過(guò)濾后的有效數(shù)據(jù)為42萬(wàn)條左右。通過(guò)隨機(jī)選取并人工標(biāo)記了幾千條設(shè)備數(shù)據(jù),如表2所示。

表2 帶標(biāo)簽數(shù)據(jù)集設(shè)備品牌及數(shù)目信息
數(shù)據(jù)來(lái)自多種類(lèi)別的設(shè)備,包括聯(lián)網(wǎng)攝像頭、網(wǎng)絡(luò)存儲(chǔ)設(shè)備、路由器等。這表明本文的方法具有廣泛的適用性。為了衡各類(lèi)設(shè)備的訓(xùn)練樣本數(shù)量,每個(gè)品牌隨機(jī)采樣600條數(shù)據(jù)。

圖4 特征向量分布(PCA 2D)
5.2 實(shí)驗(yàn)結(jié)果
首先利用Sklearn庫(kù)對(duì)所有訓(xùn)練數(shù)據(jù)進(jìn)行特征標(biāo)準(zhǔn)化,。然后利用主成分分析PCA(Principal Component Analysis)提取特征的前兩個(gè)特征值顯示其分布前兩個(gè)特征分量并顯示分布,如圖4所示。圖中展示了5種品牌的特征分布情況,基本每一同類(lèi)品牌的數(shù)據(jù)都能各自形成一個(gè)簇。
然后,采用三種基本的機(jī)器學(xué)習(xí)模型進(jìn)行分類(lèi)器的訓(xùn)練,包括邏輯斯蒂回歸(LG)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)。如圖5所示,展示了這三種機(jī)器學(xué)習(xí)模型訓(xùn)練后的F1值情況。三種方法在各個(gè)品牌的分類(lèi)上效果都很不錯(cuò),F(xiàn)1值均在0.9以上。其中隨機(jī)森林效果優(yōu)于其他兩種。所以最終選擇采用隨機(jī)森林訓(xùn)練的分類(lèi)器。為了達(dá)到最好的分類(lèi)效果,對(duì)隨機(jī)森林分類(lèi)器進(jìn)行了參數(shù)調(diào)優(yōu)。當(dāng)子樹(shù)達(dá)到65時(shí),分類(lèi)準(zhǔn)確率最高,達(dá)到了98.9%。表3中展示了基于隨機(jī)森林分類(lèi)器不同品牌設(shè)備的詳細(xì)分類(lèi)效果。可見(jiàn)本文的方法在設(shè)備品牌識(shí)別上具有很高的準(zhǔn)確率,大部分設(shè)備準(zhǔn)確率接近100%,準(zhǔn)確率最低的是Cisco,但也能達(dá)到96%。

表3 隨機(jī)森林模型下各品牌設(shè)備分類(lèi)效果

圖5 三種分類(lèi)器F1值比較
隨機(jī)森林的結(jié)果是以子樹(shù)投票判定的,結(jié)果類(lèi)的投票數(shù)占總子樹(shù)數(shù)量的比值就是結(jié)果的可信度。如圖6所示,實(shí)驗(yàn)選取了14種品牌設(shè)備,其中4種是未標(biāo)記的新品牌,在取不同可信度閾值時(shí)低可信度設(shè)備占比。選取可信度閾值的原則是未標(biāo)記設(shè)備應(yīng)盡可能多的被發(fā)現(xiàn),已標(biāo)記設(shè)備應(yīng)盡可能少的被判定為低可信度設(shè)備。所以,從圖6中發(fā)現(xiàn),將閾值設(shè)定為0.8左右時(shí)比較合適。此時(shí),幾乎所有未標(biāo)記設(shè)備都被發(fā)現(xiàn),而已標(biāo)記設(shè)備被錯(cuò)判的概率接近0。

圖6 不同可信閾值下低可信度設(shè)備占比
6 結(jié)束語(yǔ)
本文提出了一種基于登錄界面HTML文本結(jié)構(gòu)特征的設(shè)備指紋生成方法。該方法避免了關(guān)鍵文本信息難以提取的問(wèn)題。實(shí)驗(yàn)結(jié)果表明該方法在設(shè)備品牌分類(lèi)上具有很高的準(zhǔn)確率和召回率。未來(lái)將結(jié)合更多特征提高分類(lèi)細(xì)粒度。
主站蜘蛛池模板:
在线播放国产一区|
亚洲一级毛片在线播放|
国产亚洲精品在天天在线麻豆|
国产麻豆精品久久一二三|
欧美中文字幕一区|
日韩欧美成人高清在线观看|
丁香五月亚洲综合在线|
日本久久网站|
久久精品无码一区二区国产区|
91在线无码精品秘九色APP|
欧美在线观看不卡|
精品国产中文一级毛片在线看|
一本大道AV人久久综合|
999国内精品视频免费|
黄色三级毛片网站|
久久成人18免费|
国模私拍一区二区三区|
波多野结衣一区二区三区四区|
91视频精品|
亚洲男人的天堂网|
视频一区视频二区中文精品|
亚洲六月丁香六月婷婷蜜芽|
国产成人精品男人的天堂
|
日韩a级片视频|
天天色天天综合|
久久国产热|
午夜高清国产拍精品|
国产激情无码一区二区APP|
国产无码制服丝袜|
国产丰满成熟女性性满足视频|
国产精品第5页|
亚洲成人在线免费观看|
久久久黄色片|
久久精品人人做人人爽电影蜜月|
亚洲另类国产欧美一区二区|
91破解版在线亚洲|
67194在线午夜亚洲|
99久久无色码中文字幕|
中文字幕日韩欧美|
尤物国产在线|
国产剧情一区二区|
国产日韩欧美在线视频免费观看
|
五月天久久婷婷|
91在线精品麻豆欧美在线|
久久香蕉欧美精品|
久久永久免费人妻精品|
天堂在线视频精品|
国产精品美女网站|
成人在线观看不卡|
亚洲成a人片|
av性天堂网|
小蝌蚪亚洲精品国产|
国产精品亚欧美一区二区|
国产高潮视频在线观看|
三级欧美在线|
欧美怡红院视频一区二区三区|
久久精品人人做人人爽电影蜜月|
国产亚洲一区二区三区在线|
国产Av无码精品色午夜|
日韩视频免费|
激情在线网|
欧美在线中文字幕|
无码电影在线观看|
亚洲经典在线中文字幕|
亚洲青涩在线|
尤物成AV人片在线观看|
国产精品美女自慰喷水|
日韩一区精品视频一区二区|
国产欧美高清|
成人噜噜噜视频在线观看|
99热这里只有免费国产精品|
精品久久综合1区2区3区激情|
久久不卡国产精品无码|
四虎国产永久在线观看|
九九热精品免费视频|
99精品一区二区免费视频|
亚洲人成影院在线观看|
中文字幕资源站|
亚洲爱婷婷色69堂|
www.99在线观看|
91网红精品在线观看|
一本综合久久|