張帥帥,黃杰
〔1.東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,江蘇南京 211189;2.網(wǎng)絡(luò)通信與安全紫金山實(shí)驗室,江蘇南京 211111;3.江蘇省計算機(jī)網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗室,江蘇南京 211189;4.網(wǎng)絡(luò)空間國際治理研究基地(東南大學(xué)),江蘇南京 211189〕
1 引言
近10年物聯(lián)網(wǎng)技術(shù)迅速發(fā)展,物聯(lián)網(wǎng)設(shè)備數(shù)量也急劇增加。根據(jù)國際知名調(diào)研機(jī)構(gòu)Gartner[1]的報告,到2020年物聯(lián)網(wǎng)設(shè)備的數(shù)量將增加到200多億。日益發(fā)展的物聯(lián)網(wǎng)也存在巨大的安全隱患[2~3]。Liu等[4]人全面分析了物聯(lián)網(wǎng)設(shè)備在設(shè)計研發(fā)生產(chǎn)使用全過程的安全風(fēng)險。
但是,物聯(lián)網(wǎng)設(shè)備具有海量和多樣的特點(diǎn),很難進(jìn)行統(tǒng)一的安全管理。所以,對物聯(lián)網(wǎng)設(shè)備進(jìn)行識別和分類是進(jìn)行安全管理的第一步。
2 物聯(lián)網(wǎng)設(shè)備識別方法
物聯(lián)網(wǎng)設(shè)備識別就是通過主動或被動的方式,采集有效信息生成設(shè)備指紋,分為基于流量特征的指紋生成和基于標(biāo)語的指紋生成。
2.1 基于流量特征的指紋生成
主動探測是向目標(biāo)設(shè)備發(fā)送探測包,對響應(yīng)數(shù)據(jù)包進(jìn)行分析提取特征。Nmap在探測目標(biāo)設(shè)備的操作系統(tǒng)時,設(shè)定了16種畸形的TCP和UDP探測包,根據(jù)響應(yīng)數(shù)據(jù)分析協(xié)議序號(ISN)的生成規(guī)則、系統(tǒng)的時鐘情況等信息,可以有效地識別出目標(biāo)設(shè)備的操作系統(tǒng)[5,6]。
被動監(jiān)測是在網(wǎng)關(guān)處監(jiān)控設(shè)備的通信時長和頻率、數(shù)據(jù)大小等,來識別設(shè)備的不同行為模式。DEFT[7]分析DNS/HTTP/MQTT等多個協(xié)議的數(shù)字特征(均值、最大值和最小值),生成對應(yīng)的數(shù)字指紋。對于具有無線功能的設(shè)備,可以將無線電的物理特征作為設(shè)備指紋[8,9]。
得到指紋后利用不同的學(xué)習(xí)算法進(jìn)行設(shè)備分類。一般采用監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。Li等人[10]采用決策樹、SVM和BP神經(jīng)網(wǎng)絡(luò)等監(jiān)督學(xué)習(xí)方法,對攝像頭設(shè)備的正負(fù)樣本進(jìn)行訓(xùn)練來識別聯(lián)網(wǎng)攝像頭。無監(jiān)督學(xué)習(xí)則被用來解決無訓(xùn)練數(shù)據(jù)時識別新出現(xiàn)的設(shè)備。
2.2 基于標(biāo)語的指紋生成
標(biāo)語信息常出現(xiàn)在Telnet/HTTP等協(xié)議中,含有設(shè)備的品牌型號信息。如圖1所示,是HTTP文本的頭部關(guān)鍵標(biāo)語信息。標(biāo)語信息能夠直接顯示設(shè)備的品牌型號。但各個廠家的標(biāo)語信息格式、位置、寫法都不相同,對有效標(biāo)語信息的提取造成了很大的阻礙。Feng等人[11]提出了基于規(guī)則匹配和NLP的物聯(lián)網(wǎng)設(shè)備搜索引擎,標(biāo)語提取后利用Google對標(biāo)語信息進(jìn)行拓展并建立設(shè)備的指紋庫。

圖1 HTTP頭部標(biāo)語信息
3 基于登錄界面的指紋生成
3.1 交互界面指紋特點(diǎn)
不同品牌設(shè)備的頁面具有差異性。同時,界面代碼是被寫進(jìn)硬件存儲中的,具有持久性。這兩點(diǎn)確保了本文方法的有效性。
Ren等[12]人利用信息增益模型從Web頁面提取關(guān)鍵詞信息,利用正反饋增強(qiáng)的PU學(xué)習(xí)方法進(jìn)行分類器訓(xùn)練。但這種基于特征字提取的方法,在遇到交互界面中缺少關(guān)鍵字,或者品牌型號信息都以圖片的形式顯示時,難以提取有效的特征信息。針對這個問題,本文提出了基于交互界面代碼結(jié)構(gòu)的特征提取方法,該方法的優(yōu)勢是適用性廣、正確率高。
3.2 指紋生成方法
HTML是一種標(biāo)簽語言,可以轉(zhuǎn)化成DOM樹。本文的設(shè)備指紋包含兩部分:標(biāo)簽使用情況和DOM樹的層次結(jié)構(gòu)信息。這些信息可以很好的代表一種品牌設(shè)備的頁面特征。
本文通過對其關(guān)鍵標(biāo)簽的使用情況以及DOM樹結(jié)構(gòu)的分析,提取了表1中的19種特征值。一個合法的HTML文本都包括了兩大部分,標(biāo)簽
和標(biāo)簽。標(biāo)簽定義了HTML文檔的頭部,是各種頭部標(biāo)簽元素的容器。標(biāo)簽中的內(nèi)容定義了HTML文檔的各類屬性,腳本的調(diào)用等等配置信息。經(jīng)常在頭部出現(xiàn)的標(biāo)簽有
、、等。特征1和特征2統(tǒng)計了標(biāo)簽下子標(biāo)簽的使用情況,以及不同標(biāo)簽個數(shù)。標(biāo)簽定義了該頁面的標(biāo)題。這里統(tǒng)計后文本的長度,如果為0則是沒有設(shè)置標(biāo)題。其他標(biāo)簽依次統(tǒng)計被使用的次數(shù)。
和常出現(xiàn)在標(biāo)簽下,同樣統(tǒng)計使用次數(shù)。標(biāo)簽是HTML文本的主體部分。頁面顯示的結(jié)構(gòu)和內(nèi)容都是由這部分決定的。利用python的pyquery庫,將HTML轉(zhuǎn)化成DOM樹,如圖2所示。該樹的根是標(biāo)簽,每個節(jié)點(diǎn)是一個標(biāo)簽,對應(yīng)的子節(jié)點(diǎn)是HTML文本中處在該標(biāo)簽下的子標(biāo)簽。整個樹狀結(jié)構(gòu)就是HTML文本的層次結(jié)構(gòu)。但記錄整個結(jié)構(gòu)信息會導(dǎo)致特征過于冗長。本文采用BFS算法,統(tǒng)計10層代碼結(jié)構(gòu)信息。記為當(dāng)前節(jié)點(diǎn),初始時是標(biāo)簽,然后可以搜索它的所有子節(jié)點(diǎn),記為。那么當(dāng)前節(jié)點(diǎn)的特征值就是子節(jié)點(diǎn)的數(shù)量。對于任意一個子節(jié)點(diǎn),統(tǒng)計下子節(jié)點(diǎn)的數(shù)量,將中具有最多子節(jié)點(diǎn)數(shù)的節(jié)點(diǎn)設(shè)為,并將其子節(jié)點(diǎn)數(shù)記錄為下一個特征值。這樣共搜索10層結(jié)構(gòu)信息,特征值10~19就是連續(xù)10個節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)目。
表1 設(shè)備交互界面HTML文本結(jié)構(gòu)特征表

圖2 HTML文本的DOM樹結(jié)構(gòu)圖
4 物聯(lián)網(wǎng)設(shè)備識別流程
如圖3所示,是物聯(lián)網(wǎng)設(shè)備識別的基本流程。首先準(zhǔn)備帶標(biāo)簽數(shù)據(jù)集進(jìn)行模型訓(xùn)練。在本文中,比較了隨機(jī)森林、SVM、邏輯回歸三種機(jī)器學(xué)習(xí)模型的分類效果,并選擇效果最優(yōu)的隨機(jī)森林作為最終分類器。
采用并行式的網(wǎng)絡(luò)探測來發(fā)現(xiàn)在線設(shè)備。然后向HTTP端口發(fā)送HTTP GET請求,將返回的HTML文檔保存成xml格式的文件。這些HTML文檔通過特征提取模塊提取特征向量,再利用訓(xùn)練好的分類器識別設(shè)備品牌。但模型訓(xùn)練不可能覆蓋所有可能出現(xiàn)的品牌,為了發(fā)現(xiàn)新品牌設(shè)備,設(shè)定一個分類器結(jié)果的可信閾值,如果大于可信閾值,就以IP地址為主鍵,將其具體的品牌信息存入數(shù)據(jù)庫,否則就是未識別設(shè)備,存儲并作為新的訓(xùn)練數(shù)據(jù)。

圖3 物聯(lián)網(wǎng)設(shè)備識別流程
5 實(shí)驗與分析
5.1 實(shí)驗數(shù)據(jù)集
實(shí)驗數(shù)據(jù)通過對IPv4網(wǎng)絡(luò)隨機(jī)掃描采集,然后進(jìn)行人工識別標(biāo)定。探測目標(biāo)是暴露在公網(wǎng)中的開放HTTP服務(wù)的物聯(lián)網(wǎng)設(shè)備。首先對隨機(jī)的IP地址發(fā)送SYN探測包。如果目標(biāo)返回ACK,則表明該目標(biāo)存活。如果沒有響應(yīng)或返回RSET,表明目標(biāo)關(guān)機(jī)或存在防火墻。然后與存活主機(jī)的HTTP服務(wù)端口(80,443,8081等)建立連接并采集HTML文檔數(shù)據(jù)。采集到的并不都是物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)。通過檢測HTML頭部server字段來去除非物聯(lián)網(wǎng)設(shè)備。因為物聯(lián)網(wǎng)設(shè)備計算能力有限,一般采用輕型的網(wǎng)頁軟件,如Lighthttp、Boa等,而網(wǎng)站服務(wù)器都采用Apache、Ngnix等軟件。
數(shù)據(jù)采集過程發(fā)現(xiàn)100萬的存活設(shè)備,過濾后的有效數(shù)據(jù)為42萬條左右。通過隨機(jī)選取并人工標(biāo)記了幾千條設(shè)備數(shù)據(jù),如表2所示。

表2 帶標(biāo)簽數(shù)據(jù)集設(shè)備品牌及數(shù)目信息
數(shù)據(jù)來自多種類別的設(shè)備,包括聯(lián)網(wǎng)攝像頭、網(wǎng)絡(luò)存儲設(shè)備、路由器等。這表明本文的方法具有廣泛的適用性。為了衡各類設(shè)備的訓(xùn)練樣本數(shù)量,每個品牌隨機(jī)采樣600條數(shù)據(jù)。

圖4 特征向量分布(PCA 2D)
5.2 實(shí)驗結(jié)果
首先利用Sklearn庫對所有訓(xùn)練數(shù)據(jù)進(jìn)行特征標(biāo)準(zhǔn)化,。然后利用主成分分析PCA(Principal Component Analysis)提取特征的前兩個特征值顯示其分布前兩個特征分量并顯示分布,如圖4所示。圖中展示了5種品牌的特征分布情況,基本每一同類品牌的數(shù)據(jù)都能各自形成一個簇。
然后,采用三種基本的機(jī)器學(xué)習(xí)模型進(jìn)行分類器的訓(xùn)練,包括邏輯斯蒂回歸(LG)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)。如圖5所示,展示了這三種機(jī)器學(xué)習(xí)模型訓(xùn)練后的F1值情況。三種方法在各個品牌的分類上效果都很不錯,F(xiàn)1值均在0.9以上。其中隨機(jī)森林效果優(yōu)于其他兩種。所以最終選擇采用隨機(jī)森林訓(xùn)練的分類器。為了達(dá)到最好的分類效果,對隨機(jī)森林分類器進(jìn)行了參數(shù)調(diào)優(yōu)。當(dāng)子樹達(dá)到65時,分類準(zhǔn)確率最高,達(dá)到了98.9%。表3中展示了基于隨機(jī)森林分類器不同品牌設(shè)備的詳細(xì)分類效果。可見本文的方法在設(shè)備品牌識別上具有很高的準(zhǔn)確率,大部分設(shè)備準(zhǔn)確率接近100%,準(zhǔn)確率最低的是Cisco,但也能達(dá)到96%。

表3 隨機(jī)森林模型下各品牌設(shè)備分類效果

圖5 三種分類器F1值比較
隨機(jī)森林的結(jié)果是以子樹投票判定的,結(jié)果類的投票數(shù)占總子樹數(shù)量的比值就是結(jié)果的可信度。如圖6所示,實(shí)驗選取了14種品牌設(shè)備,其中4種是未標(biāo)記的新品牌,在取不同可信度閾值時低可信度設(shè)備占比。選取可信度閾值的原則是未標(biāo)記設(shè)備應(yīng)盡可能多的被發(fā)現(xiàn),已標(biāo)記設(shè)備應(yīng)盡可能少的被判定為低可信度設(shè)備。所以,從圖6中發(fā)現(xiàn),將閾值設(shè)定為0.8左右時比較合適。此時,幾乎所有未標(biāo)記設(shè)備都被發(fā)現(xiàn),而已標(biāo)記設(shè)備被錯判的概率接近0。

圖6 不同可信閾值下低可信度設(shè)備占比
6 結(jié)束語
本文提出了一種基于登錄界面HTML文本結(jié)構(gòu)特征的設(shè)備指紋生成方法。該方法避免了關(guān)鍵文本信息難以提取的問題。實(shí)驗結(jié)果表明該方法在設(shè)備品牌分類上具有很高的準(zhǔn)確率和召回率。未來將結(jié)合更多特征提高分類細(xì)粒度。
主站蜘蛛池模板:
国产va在线|
无码在线激情片|
欧美日韩国产在线观看一区二区三区
|
久久久黄色片|
亚洲一区二区精品无码久久久|
av午夜福利一片免费看|
无码人妻热线精品视频|
爽爽影院十八禁在线观看|
99久久无色码中文字幕|
国产不卡一级毛片视频|
亚洲αv毛片|
午夜欧美理论2019理论|
一级黄色网站在线免费看|
小说区 亚洲 自拍 另类|
亚洲美女AV免费一区|
四虎在线观看视频高清无码|
日韩经典精品无码一区二区|
日韩小视频在线播放|
伊人无码视屏|
国语少妇高潮|
高潮毛片无遮挡高清视频播放|
热热久久狠狠偷偷色男同
|
一边摸一边做爽的视频17国产|
国内精品视频在线|
亚洲无码日韩一区|
欧美狠狠干|
无码福利视频|
操操操综合网|
久久综合色视频|
欧美精品一二三区|
日韩精品一区二区三区免费|
亚洲综合在线最大成人|
高清国产va日韩亚洲免费午夜电影|
久久综合色视频|
免费a级毛片视频|
国产精品视频系列专区|
久久午夜夜伦鲁鲁片无码免费|
久草视频精品|
99热这里都是国产精品|
伊人激情综合网|
青青草原偷拍视频|
97se综合|
国产精品偷伦视频免费观看国产|
国产亚洲美日韩AV中文字幕无码成人
|
国产免费高清无需播放器|
成人综合在线观看|
婷婷六月综合|
中文字幕va|
88av在线|
2022精品国偷自产免费观看|
女人18毛片一级毛片在线
|
少妇极品熟妇人妻专区视频|
亚洲国产午夜精华无码福利|
麻豆国产原创视频在线播放|
日本免费一区视频|
亚洲黄色高清|
高清国产在线|
999福利激情视频|
久久精品人人做人人爽97|
国产激情在线视频|
国产毛片片精品天天看视频|
四虎国产精品永久一区|
色综合网址|
国产精品自在线拍国产电影|
日本91在线|
亚洲综合色区在线播放2019|
性欧美久久|
国产亚洲一区二区三区在线|
啪啪永久免费av|
992tv国产人成在线观看|
国产va在线观看|
男女男精品视频|
A级毛片无码久久精品免费|
国产一区二区网站|
国国产a国产片免费麻豆|
久久www视频|
国内精自视频品线一二区|
呦视频在线一区二区三区|
人妻中文久热无码丝袜|
国产精品女在线观看|
国产亚洲精品在天天在线麻豆
|
亚洲动漫h|