肖良玉 安陽市第三十六中學高三四班;
爬蟲技術在互聯網領域的應用
肖良玉 安陽市第三十六中學高三四班;
隨著科學技術的不斷發展,云計算和大數據技術也在不斷的進行著更深層次的研究和探索,網頁信息的搜索技術是如今計算機領域的焦點問題,需要借用大數據技術來對信息進行采集和過濾,這是目前計算機領域的一個熱點問題。本論文針對爬蟲技術的自身特點做了概述,并且分析了爬蟲技術在實際運用中的優點和劣勢,針對目前互聯網行業的難點問題,都利用爬蟲技術試著解決,進一步對數據進行分析和過濾,從而達到技術的支持。特別是針對互聯網金融信息數據的獲取和搜集上目前研究的難點問題,進一步針對三種網絡爬蟲技術的搜索技術進行比較分析,對深度優化搜索和廣度優先搜索進行理論分析,繼而對一種改進算法——最好優先搜索方法進行JAVA程序實現,運用到的多線程技術可以提高程序的搜索效率。
爬蟲技術 互聯網 JAVA多線程 網頁挖掘
隨著時代的進步,科學技術在不斷的發展中,大數據也同時在進行著相應的發展進程,這是計算機時代的發展趨勢和目標。大數據一般運用在公司和企業進行數據處理,這是一項復雜而且繁重的工作,需要對數據進行大量的分析和處理,并且收集相應的數據建立數據庫,這些工作都需要人力和物力的支持。公司在運行過程中,必然需要使用互聯網作為信息傳遞的支撐和技術的支持,所以企業需要建立自己的數據庫,通過大數據進行用戶信息的處理,對用戶的行為進行分析,從而應對市場的沖擊和變化。收集用戶的信息是非常繁重的一項工作,同時對信息數據的處理,更是難上加難,所以需要大數據對這個龐大的數據群進行處理和過濾,這就需要爬蟲技術來收集網絡的信息,是最主要的信息采集手段。
互聯網時代下,經濟的發展需要大量的市場數據對市場環境進行調節和控制,這個過程需要非常龐大的數據群來進行分析和參考,這是一個很重要的過程,在實際的信息采集中,比較困難。通過計算機的相關技術,并且和經濟金融領域的知識進行有機的結合,對金融領域的數據進行收集和過濾,將收集到的金融數據進行統一的處理,通過數據分析整個市場的發展變化情況,對企業的發展進程進行調節和控制,迎合市場的需求和變化。金融經濟的發展和企業的正常運轉,需要海量的數據群進行分析支撐,這就需要大量的數據采集工作,并且需要建立大量存儲功能的云端服務器。如今隨著科學技術的發展,互聯網領域也在不斷的進步,各種金融信息都可以在網上查詢得到,并且有著更快的更新速度和更大的存儲空間,所以互聯網已經成為了當前金融領域進行數據收集的主力軍,例如Butler,Leone,Willenborg和 Frank等公司都已經建立了自己的云計算服務中心,并且利用爬蟲技術抓取網絡上的金融信息,運用大數據技術對數據庫進行分析處理和過濾。
1.1.1 數據量大,種類繁多。對于一些基礎的采集工作,只需要運用爬蟲技術進行抓取,或者人工進行復制粘貼,就可以完成對數據的采集,并不需要技術的支持,都是一些很簡單的計算機操作。可以這只僅僅局限于小規模的信息采集,對于龐大的信息處理群,比如金融經濟市場領域的信息采集,將最近五年的數據進行整合分析,這是一項非常繁重的技術工作。在實際進行數據收集的過程中,會出現各種各樣的問題和阻力,因為很多數據的來源點不同,由不同的機構控制和掌握,想要獲得準確的信息需要相關的文件,所以這又給數據收集帶來了一定的壓力。
1.1.2 可靠性、實時性。在實際的金融領域中,數據的實時性非常重要,只有保證數據的實時性,才可以對市場的變動進行掌握,同時也間接的提高了數據的安全性和可靠性。如今的金融領域中,信息變化莫測,市場的各種信息處于不同的環境中,為了對市場環境有一個清晰的認識,需要大量的數據進行分析,所以信息的實時性非常重要,只有信息的實時性和完全性得到了保證,才可以讓市場的變動一目了然。
1.1.3 金融經濟領域的數據類型較少,最為常見的是數值類型,其次是文本數據,這兩種數據類型在金融經濟領域運用比較廣泛,利用圖片來傳遞信息的數據比較少,不如前兩者的使用率。
1.1.4 數據主要來自官方網站。為了使數據的安全性和可靠性的得到保證,數據采集人員和機構都會從相關權威網站進行信息的抓取,只有這樣,才可以獲得第一手的數據信息,并且通過實時的信息數據,對市場的變動進行掌握,隨時調整企業和公司的生產策略。
1.1.5 抓取數據的目標網頁主要有兩種類型。第一類是URL固定,信息可以實現實時的更新,并且可以正常的聯網進行數據的收集和分析;第二類的規模比較大,并且具有獨特的數據情況,比如一些金融機構進行數據信息的發布時,都會有固定的數據要求和格式,必須嚴格按照數據的要求來進行公布和處理。
我們根據金融經濟領域的數據特點,采用不同的信息采集方法進行數據的收集,并采用正確的方法對數據進行處理和過濾,從而達到市場對數據的運用需求,完成對市場的調節和控制。對于有著固定地址的數據,可以對網頁的數據進行統一的抓取和過濾,集中對數據進行處理,考慮各種經濟環境條件變化的因素,正確的對信息進行采集,明確自身對信息采集的需求,制定相應的爬蟲抓取策略。
從目前互聯網的發展情況分析,主要的程序開發技術有PHP、net和Java等一系列的計算機語言和技術。這些開發工具雖然采用不同的格式,有著各自的編程規定和邏輯要求,但是對于數據的傳輸和獲取的方式都采用同一種原理,這項原理就是超文本傳輸協議(HTTP協議),通過這項傳輸協議,把需要的信息傳送到用戶的主機中,用戶接收之后,可以對信息進行下一步的處理和過濾。除此之外,微軟公司還對開發語言進行了更進一步的改進,提供了一些可以用于擴展功能的標記語言,這些語言都是依據HTTP協議作為基礎的,內部做了很多的改進和優化,對算法程序的性能有著一定的提升效果。
數據的采集和存儲,是一項繁重的任務,這同樣也是金融領域的數據處理的一項重要工作。整個互聯網中的數據量是非常龐大的,而且涉及到很多范圍和領域,并且處于不斷的更新和變化中,因此實時性和準確性是信息重要的衡量依據,這也為金融經濟的發展做好了雄厚的數據分析基礎,提供了相當充足的數據庫來滿足金融領域的分析。計算機通過爬蟲技術來獲取網絡中用戶需要的信息,更加高效的在互聯網數據庫中尋找到自己需要的數據信息,從而靈活的制定相應金融方案,靈活變通的設計爬蟲程序代碼,有針對性的對數據進行收集,為金融經濟的發展提供良好的技術支持。
根據目前互聯網的整體情況來看,想要做好搜索引擎工作,.需要精通爬蟲技術,利用爬蟲技術來編寫相應的搜索程序,爬蟲技術編寫的程序,其質量的好壞和性能的優良直接會影響到搜索引擎實際應用中的情況。通過大量的代碼運行,實際操作得到的實驗數據可以發現,最好優先算法是這么多算法中性能最優秀的,并且可以較好的滿足搜索信息的需求,但是實驗數據同時也表明這種算法的自身有著一定的不足,相應的儲存速度過快,容易使得信息的搜索不能夠全面的完成,并且會容易出現數據的缺失等問題。針對這些問題的存在,本論文概述了如果對爬蟲技術進行優化和更新,做好網絡信息的搜索引擎。
爬蟲技術本身的自由度很高,可以隨時對網絡信息進行收集和搜索,自動識別網頁信息,對用戶需要的信息進行收集和儲存,自動下載相應的程序和瀏覽數據,抓取對應網頁的數據信息,建立一個完整的數據庫。這樣一來,整個爬蟲技術程序工作的過程,可以完全的拖離人工控制和操作,程序自身就可以按照代碼預先設定的模式來進行工作,實現了自動化。算法是提取一個網頁的鏈接作為核心,逐步向外部的網頁進行擴散,對網頁的內容不做要求,只需要一個足夠大的網絡數據庫,需要足夠多的網頁信息作為支持。
模擬最佳優先算法的搜索,先設定A1,A2,B1,B2,B3,B4,B5為相關的URL,其中設置A2提供一個干擾因素,作為網絡中的無關網頁,爬蟲程序設定從網頁A1開始,對整個網絡環境進行覆蓋和信息的抓取。改進思想如下:網絡爬蟲程序通過抓取信息進行比對,計算機對數據進行分析和過濾之后,如果發現A2這個網絡信息不符合用戶的要求,但是A1確實用戶需要的數據信息,爬蟲程序就會自動排除A2網頁的信息,對A1網頁進行下一步的搜尋和查找。通過這樣的方式,就可以極大的降低爬蟲程序抓取信息的錯誤率,通過這樣的排除機制,一步一步將不符合用戶要求的網頁過濾掉,提高網頁抓取的正確率,并且提高了程序的運行速度,可以覆蓋整個網絡,抓取正確的用戶需要的信息。、
改進算法利用了JAVA中的多線程機制,核心算法如下:

本論文對爬蟲技術做了簡單的概述,使得讀者對這項技術有了一定的了解和認識,并且對目前互聯網領域對爬蟲技術的應用做了一定的分析,將爬蟲搜索技術作為重點關注的目標和側重點,結合Java技術對主要的算法進行優化和改進,使得這項技術更加的切合市場的需求和計算機的發展進程。跟隨著科技的發展,計算機領域各項技術在不斷革新,信息技術的未來會有著另一番天地和景象,逐漸會有更加優秀的算法和程序用來獲取網絡上的信息,各種新型的網絡技術也會不斷的出現在計算機領域。計算機的硬件性能也在不斷提升,各項技術成果都可以得到更好的運用和融合,這些都將是計算機領域未來的重點和支持,可以更好的提升計算機的性能,并且提升計算機的運算能力和互聯網的數據分析能力。
[1]鮑薇. 爬蟲技術在互聯網領域的應用探索[J]. 電腦迷,2017,(10):109.
[2]楊青松. 爬蟲技術在互聯網領域的應用探索[J]. 電腦知識與技術,2016,12(15):62-64.
[3]王彥博,樊營,高潛. 大數據時代網絡爬蟲技術在商業銀行中的應用[J]. 銀行家,2016,(06):114-116.
[4]王躍, 于世偉, 路博,等. 基于爬蟲技術的國內移動互聯網應用監測與分析系統研究[J]. 電視技術, 2015,39(13):88-92.
[5]卞偉瑋, 王永超, 崔立真,等. 基于網絡爬蟲技術的健康醫療大數據采集整理系統[J]. 山東大學學報(醫學版),2017, 55(6):47-55.