馮健飛,張 毅,馬 迪,張京京
(國防科學技術大學 計算機學院,湖南 長沙 410073)
基于網絡協議和頁面特征的物理設備發現
馮健飛,張 毅,馬 迪,張京京
(國防科學技術大學 計算機學院,湖南 長沙 410073)
互聯網存在著大量網絡攝像頭、PLC、傳感器等物理設備,對這些設備進行自動發現有助于了解其分布和部署情況;從人機物多域融合的角度表示物理設備,有助于全面刻畫物理設備,并為跨域攻擊分析提供支持。文中提出一種基于網絡協議報文和Web頁面特征在互聯網中發現物理設備的方法。該方法主要通過HTTP、SNMP和PPTP協議的握手報文頭部信息和物理設備訪問控制Web頁面的結構特征發現物理對象并獲取物理對象的基本信息,然后通過預置的產品信息庫充分感知設備硬件信息,通過IP信息庫獲知設備物理地點和社會域屬性,從而實現對物理對象的人機物多域融合分析。最后利用文中所提出的方法,開發了物理對象感知和分析系統NetThing,并對運用文中方法獲取的物理設備數據進行了分析和驗證。
互聯網;物理設備;協議報文;Web頁面
隨著網絡規模的不斷擴大,越來越多的物理設備接入到互聯網中,包含了被感知的現實對象、感知信息的傳感器件、信息處理設施[1],比如無線家用WIFI熱點、網絡攝像頭及溫度傳感器等。而由于部分用戶安全意識的淡薄,這類設備存在較大的安全隱患。
2014年底,華為公布了家庭網關的RomPager漏洞。RomPager是小型網絡設備內置的網頁服務器,攻擊者可能利用該漏洞獲取管理員權限或者發起拒絕服務攻擊[2]。而同樣采用了RomPager的中興[3]和TP-Link[4]設備也發布了相似的漏洞。除了路由器外,網絡攝像頭等新興網絡設備也面臨較大安全隱患,比如江蘇省警用攝像頭被境外控制的重大安全事件[5]。除了網絡設備外,以“震網蠕蟲”為代表的通過擺渡攻擊等方式破壞工業設施的案例也越來越多[6],且這些攻擊大部分具備APT攻擊特性。
網絡設備的安全隱患主要來自于三方面:一是網絡設備系統自身的漏洞;二是設備配置時的漏洞;三是管理的疏忽[5]。
在網絡漏洞挖掘中,目標對象范疇已經涵蓋了數據通信網絡基礎設施[7]。發現這些目標的存在,為后續安全防護提供了依據。
目前發現物理對象的方法有Snoogle[8]、Microsearch[9]、MAX[10]、OCH[11]、Dyser[12]等模型,這些模型都是針對無線傳感器網絡所設計的,部分思想可借鑒到在互聯網中發現物理對象上。關于物理對象的多域融合研究模型有Cyber-Physical System[13]、Social Cyber Physical System[14]、Physical-Cyber-Social Computing[15],而這些模型都需要可行的技術方法提供物理對象的多域信息,這也是文中工作的一個重要應用。
文中描述了基于常見的網絡協議握手報文和Web頁面的特征發現網絡設備的方法。分析了HTTP、SNMP和PPTP協議報文中可能存在的物理設備信息,量化分析了作為設備登錄界面的Web頁面的結構特征,并通過設備信息庫和IP信息庫將信息向社會域和物理域進行擴展。最后基于文中的方法設計開發了原型系統NetThing,并對實驗數據進行了分析。
目前主流的聯網物理設備都提供了基于Web頁面的訪問和控制接口,在缺乏有效的防火墻隔離下,這些頁面有可能被遠程訪問。據此,文中設計了基于常見的網絡協議報文和設備登錄頁面特征的物理設備發現系統,取名為NetThing。
NetThing系統基本結構如圖1所示,總共分為三層。第一層為報文獲取和協議預處理層,主要工作是對某特定IP進行HTTP、SNMP、PPTP協議的探測分析。第二層為信息擴展部分,主要是對上一步獲取的信息進行豐富。首先,進行Web頁面分析,主要是針對HTTP協議返回狀態為200 OK的情況進行分析,提取頁面基本信息和主要關鍵字。其次,對于某些可以獲取具體型號的設備,可以預置設備的信息庫,通過型號匹配獲取關于設備硬件的詳細參數。最后,對于IP信息,可以通過查詢已有的數據庫,獲取某個IP的地理位置、AS號以及所屬的ISP等,從而進一步擴展設備的信息。統一將信息存入數據庫對外提供查詢接口,查詢效果如圖2所示。輸入關鍵字router,返回含有router的IP和詳細信息。

圖1 系統結構

圖2 結果展示界面
2.1 協議應答報文分析和Web頁面分析
文中主要涉及到了HTTP、SNMP和PPTP協議的握手報文,這些報文的頭部都可能含有基本的關于物理設備的描述。基本方法是對某一IP的上述協議的工作端口發送請求報文,如果收到應答報文,提取其中的有價值字段進行統計分析。
對HTTP協議,首先提取應答報文中的server字段。在各大廠商設備的訪問控制界面的響應報文中,該字段常帶有關于廠商或者設備的簡單描述,為確定該設備的存在提供了一定的依據。如果含有location字段,也進行提取,此字段一般指示了服務器地址遷移后的新地址。
對于返回狀態為401 Unauthorized的報文,含有WWW-Authenticate字段。該字段規定了信息的加密方式,對于很多網絡設備,這個字段也提供了設備的型號信息。
SNMP(Simple Network Management Protocol),即簡單網絡管理協議,是用來對互聯中由眾多軟硬件廠商生產的網絡設備進行管理的一組協議。向SNMP代理進程發送GET查詢報文就可能返回被管理系統的相關信息。文中主要查詢了OID為.1.3.6.1.2.1.1.(1,4,5,6).0的對象,分別可以獲取被管理系統的基本信息、聯系人、機器名和機器所在位置信息。
PPTP(Point to Point Tunneling Protocol),即點對點隧道協議,是目前VPN的主要支持協議。通過簡單地向PPTP服務器發送建立連接請求報文,就可以收到一個應答報文,該報文的hostname和vendor string字段對該服務器的所屬機構和設備廠商進行簡單的描述,從而反映了設備和擁有該設備的機構的基本信息。這進一步擴展了一個設備的社會屬性。
2.2 多域信息擴展
主要通過三個途徑對信息進行擴展,分別是Web頁面分析、產品信息庫匹配和IP信息庫擴展。
首先對HTTP協議返回狀態為200 OK的情況,進行Web頁面分析。圖3顯示了HTTP報文獲取和頁面分析的流程。
第一步讀取HTML文檔信息,提取HTML文檔的title字段和meta字段,在meta字段中分別提取keyword、description、author子字段。下一步提取頁面的純文本內容,并計算文本長度。在此基礎上,進一步將含有大寫字母和數字的單詞提取出來,因為對于一個物理設備的描述很可能涉及到設備廠商等專用名詞和具體參數指標。

圖3 HTTP報文和Web頁面分析
進一步分析是否含有用戶名密碼輸入框,主要是通過對HTML的input標簽的id和name屬性采用如下正則表達式進行匹配:
(us)+e*(r)+|(name)+|(login)
(1)
p+((ass)+|w+(or)*d+)
(2)
式(1)匹配了諸如username、user、login等常見的用戶名表述方式;式(2)匹配了諸如password、pass等常見的密碼的表述方式。
如果匹配成功,則表示含有用戶名和密碼輸入框,從而證明該頁面很可能是一個設備的登錄頁面。接下來統計頁面中的圖片和鏈接數量,并保存鏈接內容。最后提取頁面中表格內的文本信息,并計算表格文本信息長度及其所占頁面文本信息長度的比例。
在通過產品信息庫匹配進行信息擴展中,首先搜集了常見產品的基礎參數信息,并將它們結構化存儲在數據庫中。對于發現的可以確定其產品型號的網絡設備,在信息庫中匹配查詢出具體記錄,從而擴展設備的詳細參數信息。
最后IP地址信息擴展是通過網絡中已有的數據庫進行匹配查詢,例如對于IP地址36.72.231.20,可以獲取如下信息:
City: Semarang. Country: Indonesia. Organizati-on: PT Telkom Indonesia. ISP: PT Telkom Indon-esia. ASN: AS17974
其中包含了該地址所處的地理位置、所屬的組織機構以及網絡服務供應商等,這些信息同時也與對應的物理設備關聯,從而對此物理設備形成了從自身物理信息,到網絡信息,再到社會域信息的多域融合的全面描述。
對搜索結果采用傳統的倒排方式進行索引。具體過程如圖4所示。

圖4 倒排索引
單詞字典采用哈希加鏈表的形式構造。對于給定的搜索詞,首先計算其哈希值,然后通過哈希值索引對應的單詞鏈表找到該單詞,接著訪問該單詞的倒排索引。倒排索引中同時記錄了某條記錄的索引值itemX和該記錄中含有此單詞的字段,比如title、host等。最后根據記錄的序列號查詢該條記錄的詳細信息。
在搜索結果的排序上,按照含有搜索單詞的字段的重要性進行排序。首先對不同字段賦予不同的權重,比如一個單詞在title字段或者realm字段出現,賦予比在頁面文本中出現更高的權重。在賦予權重之后,可以計算出每條記錄對其包含的每個單詞的權重。
假設對某一查詢Q,得到的結果R中含有m條命中記錄:
R=(I1,I2,…,Im)
其中第k條記錄Ik命中了Nk個字段:
Ik=(Fk1,Fk2,…,Fknk)
字段Ft權重為Pt。在此基礎上,對于記錄Ik,其匹配權重為:
(3)
其中,Pki是Fki的權重,從而根據Sk的值對Ik進行排序。
當命中記錄較少時,還應當推薦相似度高的命中記錄。首先要提出相似度的衡量方法。可以認為地理位置相近或者是產品型號相近的記錄與用戶的搜索要求相近。可以將地理位置、產品型號等組成樹狀結構,記錄從根節點到葉節點的路徑作為葉節點的向量表示,例如對地理位置有如下構造:
ChinaHunanChangsha(1,4,1)
ChinaHunanYueyang(1,4,2)
對產品型號有如下構造:
HuaweiAR-1200 (1,1,1)
HuaweiAR-1220(1,1,2)

依然假設Ft的權重為Pt。對某查詢Q:w1,w2,w3…,其中wi是第i個查詢關鍵詞,αt是wt的向量表示。第k條記錄Ik的命中字段為:
(Fk1,Fk2,…,Fknk,fk1,fk2,…,fkxk)
對于記錄Ik,其匹配度為:

(4)
其中:Pki是Fki的權重;βkj是fkj字段對應的向量;αj是βkj對應的查詢單詞的向量。
根據Sk的值對Ik進行排序。
為了確保實驗的準確性,采用了隨機生成IP地址的方法。首先根據IANA的分配情況,隨機選擇了12個A類地址,涵蓋了ARIN、RIPENCC、APNIC三大機構。隨機且不重復地生成IP地址后三個字節,共生成了288 000個IP,對這些IP進行協議分析和Web頁面分析。下面分別介紹獲取的物理信息,并提取作為設備登錄頁面的Web頁面的特征。
4.1 結果統計
所有的HTTP協議返回5 305條,其中server字段統計結果排名第三的是RomPager/4.07 UPnP/1.0,共出現377次,這是大部分家用網絡設備內置的網頁服務器。
返回401狀態的共1 072次,對realm字段進行統計,前幾位分別是Broadband Router,BEC 7800TN R2,TD-8817,ZXV10 W300S,TD-W8101G,這些都是網絡設備。其中TD開頭的是TP-link的家庭網絡路由器型號,這對后續的通過產品庫進行信息擴展提供了依據。在加密方式上,有1 046個為Basic,10個為Digest,13個為指定。說明絕大部分只是采用簡單方式對用戶名和密碼進行加密,這存在被竊取和仿冒的危險。
另外,從SNMP報文中提取出了Netopia 3341,Netopia 2246N-VGx,Netopia 4652,Netopia 3341,Netopia 3346N-ENT等設備型號,也為后續分析提供了線索。
4.2 設備登錄頁面特征分析
實驗中HTTP協議返回200 OK狀態的共2 706個。對這些頁面進行分析,含有用戶名和密碼輸入框的為315個,假設這些是設備的登錄頁面,對這些頁面進行分析。
對頁面特征進行統計,結果顯示絕大部分頁面純文本信息長度小于1 000 B,鏈接數目小于5個,圖片數目小于10張,而表格文本長度占頁面文本長度的比例則分布較為隨機,沒有具體特征體現。頁面文本長度統計如圖5所示,頁面鏈接數量統計如圖6所示。

圖5 頁面文本長度統計

圖6 頁面圖片數量統計
進一步對頁面中的文字進行統計,在title字段出現次數最多的詞是Login,共95次,configuration和router并列72次。對所有的鏈接提取統計,發現出現次數最多的前幾項為:http://www.arris.com有204次,http://mikrotik.com有72次,http://www.mikrotik.com/有8次。這些都是相關廠商的頁面。
文中提出一種基于網絡協議報文和Web頁面特征在互聯網中發現物理設備的方法,并通過多種手段擴充了設備的信息,對設備進行了物理、信息和社會多域描述。實驗還存在一些不足之處,比如在Web頁面分析中,某些頁面需要根據腳本或者location字段進行二次跳轉,對這些頁面進一步分析會擴充發現的物理設備的數目。通過該文,可以認識到互聯中存在很多沒有高級安全防護措施的設備,主要是小型化家用網絡設備,這其中潛在著較大的網絡安全隱患。
[1] 于海寧,張宏莉,方濱興,等.物聯網中物理實體搜索服務的研究[J].電信科學,2012,28(10):111-119.
[2] 華為技術有限公司.安全預警-涉及華為家庭網關產品的多個RomPager漏洞[EB/OL].2014-12-19.http://www.huawei.com/cn/security/psirt/security-bulletins/security-advisories/hw-407667.htm.
[3] 中興通訊公司.中興通訊家庭網關產品受多個RomPager漏洞影響[EB/OL].2015-01-09.http://support.zte.com.cn/support/news/LoopholeInfoDetail.aspx?newsId=1006322.
[4] 紅黑聯盟.多個TP-Link路由器RomPager拒絕服務漏洞[EB/OL].2014-06-22.http://www.2cto.com/Article/201406/310905.html.
[5] 張 慶,宋 芬,沈國良.網絡設備安全措施分析與研究[J].網絡安全技術與應用,2008(8):33-34.
[6] 武傳坤.物聯網安全關鍵技術與挑戰[J].密碼學報,2015(1):40-53.
[7] 張友春,魏 強,劉增良,等.信息系統漏洞挖掘技術體系研究[J].通信學報,2011,32(2):42-47.
[8] Wang H,Tan C C,Li Q.Snoogle:a search engine for pervasive environments[J].IEEE Transactions on Parallel and Distributed Systems,2010,21(8):1188-1202.
[9] Tan C C,Sheng B,Wang H,et al.Microsearch:when search engines meet small devices[C]//Proceedings of the 6th international conference on pervasive computing.Sydney,Australia:[s.n.],2008:93-110.
[10] Yap K K,Srinivasan V,Motani M.MAX:human-centric search of the physical world[C]//Proceedings of 3rd conference on embedded networked sensor systems.San Diego:[s.n.],2005:166-179.
[11] Frank C,Bolliger P,Mattern F,et al.The sensor internet at work:locating everyday items using mobile phones[J].Pervasive and Mobile Computing,2008,4(3):421-447.
[12] Ostermaier B,Romer K,Mattern F,et al.A real-time search engine for the web of things[C]//Proceedings of internet of things.Tokyo,Japan:[s.n.],2010:1-8.
[13] Kr?mer B J.Evolution of cyber-physical systems:a brief review[M].New York:Springer,2014.
[15] Sheth A,Anantharam P,Henson C.Physical-cyber-social computing:an early 21st century approach[J].IEEE Intelligent Systems,2013,28(1):78-82.
A Searching Physical Devices Method Based on Internet Protocols and Web Page Features
FENG Jian-fei,ZHANG Yi,MA Di,ZHANG Jing-jing
(School of Computer Science,National University of Defense Technology,Changsha 410073,China)
There are many physical devices in the Internet,including webcams,PLC,sensors etc.Searching and finding these physical devices helps to know more about their distribution and deployment.Describing physical devices in “social cyber physical multi-domain” model is also good for fully depicting them and analyzing possible existence of cross-domain threats.A method for finding physical devices in the Internet based on the protocols’ datagrams and Web page features is proposed.This method mainly uses the shake hands datagrams of HTTP,SNMP,PPTP and the features of Web pages to find physical devices and get their basic information.Then it expands hardware information of the devices through the products information base,and social domain information,such as location information,through the IP information base.At last,a proto type system named NetThing is developed using method proposed,and the data of experiments is analyzed and verified.
Internet;physical devices;protocol datagram;Web page
2015-06-23
2015-09-24
時間:2016-05-05
國家自然科學基金資助項目(61170285)
馮健飛(1991-),男,碩士研究生,研究方向為計算機網絡與信息安全。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0815.038.html
TP393
A
1673-629X(2016)05-0031-05
10.3969/j.issn.1673-629X.2016.05.007