自動采集網站數據與反自動采集網站數據方法的研究

2015-04-20 21:25:06陳國耀

科技創新與應用 2015年11期

關鍵詞：研究

陳國耀

摘要：網站安全問題一直都是網絡安全領域的技術人員研究的重點問題之一，其不僅包含網站受非法攻擊、入侵、服務器端代碼被篡改、被注入木馬等問題，而且包含被特定自動采集數據軟件自動采集網站數據等問題。若自動采集網站數據軟件長時間運行，必然對網站服務器造成巨大壓力，甚至直接導致網站服務器的崩潰。文章基于windows平臺下的JAVA編程語言如何實現自動采集網站數據以及如何反自動采集網站數據進行深入研究。

關鍵詞：自動采集；網站數據；反自動采集；研究

1 研究背景及意義

現代社會是一個信息社會，工作、生活越來越離不開信息的支撐，信息技術和信息產業在經濟、社會發展中的作用日益增強，并逐漸發揮著主導作用，成為比物質、能源更為重要的資源。數據已經成為一種商品進行交易，對數據進行再加工、提取、去噪、排序、整合后得出的數據往往具有非常高的商業價值，因為這些經過處理的數據能夠更有效地指導商業決策，以使得公司、企業能夠在競爭激烈的商業環境中處于不敗之地。比如要獲取某市年溫度、降雨量等信息，則從該市氣象局網站上獲取的數據較為權威、可信；要獲取某市的高新技術企業信息，則從該市負責注冊高新技術企業的政府網站獲取的數據較為準確；即準確的數據往往來自官方網站、權威性網站，而官方數據、權威數據的獲取往往具有一定的困難或限制，比如只能按條進行順序查詢，不能進行批量查詢，如果采用人工復制、采集的方式獲取完整的、大批量的數據，時間、開銷等各個方面均不允許，于是采用具有自動采集數據功能的軟件采集網站數據往往成為人們獲取官方、具有權威性、完整、大批量數據常用的手段。

目前比較流行的編程語言c++、c#、java、python等實現自動采集網站數據的原理類似，只是語法或所使用的組件不同，文章對基于windows平臺下的java編程語言實現自動采集網站數據以及反自動采集網站數據的方法進行探討。

2 自動采集網站數據的方法

通常由編程語言實現的自動采集網站數據均要通過模擬客戶端向服務器發送請求的方式，獲取服務器返回的數據，從中提取所需數據。

具體又分為兩類：

（1）模擬客戶端向網站服務器發送請求，直接獲取服務器返回的html格式的數據，并對該數據進行解析從中提取所需數據。采用java語言實現的核心代碼如下：

URL url = new URL（websiteAddress）；

// websiteAddress為請求網址，為待查詢數據的查詢結果頁面

URLConnection connection = url.openConnection（）；

//創建與網站服務器的連接

connection.setDoOutput（true）；

connection.setDoInput（true）；

OutputStreamWriter out = new

OutputStreamWriter（connection.getOutputStream（）， "GBK"）；

//根據網站服務器端操作系統編碼設置相應的請求參數編碼

out.write（otherRequestParams）；

//otherRequestParams為請求附帶的參數

out.flush（）；

out.close（）；

//以下代碼用于接收、讀取服務器端返回的數據

InputStream l_urlStream=null；

l_urlStream = connection.getInputStream（）；

BufferedReader l_reader = new BufferedReader（new InputStreamReader（l_urlStream））；

while （（sCurrentLine = l_reader.readLine（））！= null） {

sTotalString += sCurrentLine；

}

然后采用Java提供的subString（）函數或正則表達式對從服務器端獲取的字符串組合進行解析，從中提取所需數據。

（2）當網站服務器端對返回值進行一定的加密設置，或者通過其它手段使得客戶端獲取的響應內容無效等，即通過正常的請求、響應機制獲取不到服務器端后臺返回的數據。而通過在客戶端的瀏覽器中輸入請求網址，能夠正常獲取服務器端響應的html文件；即網站服務器返回數據并將其裝配成html文件返回到客戶端，在客戶端的瀏覽器中能夠讀取到該html文件，但是我們的后臺應用程序卻獲取不到服務器端返回的數據。此時可采用JAVA提供的Robot類進行相應的操作以獲取數據。

關于Robot類：此類用于為測試自動化、自運行演示程序和其他需要控制鼠標和鍵盤的應用程序生成本機系統輸入事件。Robot的主要目的是便于JAVA平臺實現自動測試。該類提供的模擬鍵盤、鼠標功能使得我們不僅能夠利用其開發自動測試應用程序，而且能夠開發其它無需手動控制、自動執行的“機器人”應用程序。采用java語言的Robot類實現的自動采集網站數據的核心代碼如下：

//通過模擬鍵盤按鍵在地址欄中輸入請求網址

Robot robot = new Robot（）；

robot.keyPress（KeyEvent.鍵值）；

robot.keyRelease（KeyEvent.鍵值）；

//通過復制、粘貼的方式獲取從網站服務器端返回的html頁面

robot.keyPress（KeyEvent.VK_CONTROL）；

robot.keyPress（KeyEvent.VK_C）；

robot.keyRelease（KeyEvent.VK_C）；

robot.keyRelease（KeyEvent.VK_CONTROL）；

//得到剪貼板中的內容

Transferable contents=sysc.getContents（this）；

stringEachPageGet = （String） contents.getTransferData（DataFlavor.stringFlavor）；

}

然后利用java語言的subString（）函數或正則表達式對獲取的字符串進行解析，從中提取所需信息。

3 反自動采集網站數據的方法

針對上述基于windows平臺下的JAVA編程語言實現的自動采集網站數據的方法，我們可以采取以下方法進行應對，以防止網站數據被數據采集軟件自動采集：

（1）定期或隨機更改返回客戶端瀏覽器html文件的格式。目前網站服務器與客戶端間的通信基本上都是基于http協議，該協議是一個請求-響應式的協議，服務端返回的內容多為html文件。數據采集軟件依據html文件內容的格式對從服務端返回的內容進行解析，隨機改變返回html文件的格式就可以阻斷解析的過程，從而阻斷數據采集的過程。

（2）針對不同的瀏覽器，通過在服務器端返回的html頁面中加入防復制、禁止保存網頁等功能的JS代碼，可以阻斷自動采集網站數據軟件的采集過程。