羅天
摘 要:隨著社會的發展,科學技術的不斷提升,促進了計算機網絡技術的不斷進步,逐漸的被應用到了人們的生活與工作當中。在互聯網視頻網站對數據進行獲取時,就應用了爬蟲技術。為了使爬蟲技術更好的在互聯網視頻網站中進行應用,本文就對互聯網視頻網站使用爬蟲技術獲取數據進行了研究,使人們更好的利用互聯網視頻網站觀看視頻。
關鍵詞:互聯網視頻網站;爬蟲技術;獲取數據
中圖分類號:TN915.08 文獻標識碼:A 文章編號:1671-2064(2017)03-0030-01
在當前階段中,隨著計算機網絡技術的不斷完善,各個領域當中的數據在不斷增加,從而使當前社會進入到大數據時代,這些數據可以為各個領域的發展提供良好的幫助。這種情況下,為了使互聯互聯網視頻網站更好的為人們提供視頻,就要更好的對這些數據進行獲取。因此,加強對互聯網視頻網站使用爬蟲技術獲取數據的研究具有重要意義,促進我國互聯網視頻網站更好的發展。
1 互聯網視頻網站數據獲取的特點
1.1 一般特點
隨著社會的發展,科學技術的不斷進步,計算機網絡技術得到了飛速的提升,從而出現了大量的數據,其中就包括了互聯網視頻網站數據,在這些數據當中,就會體現出很多的特點,主要有以下幾個方面:(1)數據體量巨大。在人們的生活當中,利用網絡觀看視頻是主要的娛樂方式之一,因此,在觀看的過程中,就會出現很多的網絡信息,如用戶的個人信息,用戶對節目觀看的信息,節目自身具有的信息等等,從而使其具有了數據體量巨大的特點;(2)數據類型繁多。在對視頻網站進行應用時可以發現,在其中包含了很多形式的內容,如圖片、視頻、文字等,因此,就說明視頻網站產生的數據出現了類型繁多的特點;(3)價值密度低。在視頻網站運行的過程中,是連續不斷的產生數據的,而在這些數據當中,包括了各個種類的信息,而在這些信息當中,有些信息存在的價值往往不是很高,不會影響到視頻網站的發展;(4)處理速度快。這一特點就體現在人們對視頻觀賞時,能夠立刻的產生數據,據相關部門統計,互聯網視頻網站每秒產生的數據是以PB為單位的[1]。
1.2 獲取網頁信息
在互聯網視頻網站數據當中,除了具有上述的一般特點之外,還具有獲取網頁信息的特點。在對視頻網站開發的過程中,可以利用很多技術來完成,如英文超級文本預處理語言技術、面向對象程序設計語言技術等,雖然這些技術的方式具有一定差異,但是在對數據進行傳輸時,使用的原理相差不是很大,都是利用相應的HTTP協議,將數據傳遞到用戶當中。并且,由于互聯網視頻網站數據具有上述的一般特點,因此,在其對數據進行獲取時,還可以獲取一些網頁當中的信息,通過對網頁中的信息進行應用,從而為視頻網站更好的運行提供了幫助[2]。
2 互聯網視頻網站獲取數據時爬蟲技術的應用
2.1 網絡爬蟲的算法分析
在應用爬蟲技術對互聯網視頻網站數據進行獲取時,是利用相應的算法來完成的,而在當前的算法當中,主要有以下三種:第一種是深度優先搜索算法,該算法是爬蟲技術當中最基礎的算法,同時也是出現最早的一種算法,其目標是要到達結構的最外結點,即在搜索時不能將具有鏈接的HTML文件檢索出來。該算法運行當中,首先沿著一條鏈接進行檢索,直到邊緣節點為止,將該條連接中的所有數據搜索出來,然后在對另一條鏈接進行搜索,從而使視頻網站獲得了相應的數據。使用該種算法獲取數據時,能夠準確的檢索出整個文件中的數據,但是由于網絡的復雜性,在對數據搜索時,常常會導致該算法中斷,不能對其他鏈接進行檢索;第二種為寬度優先算法,就是在視頻網站信息獲取的過程中,根據網站的結構不同,沿著寬度的方面,一層一層的進行搜索[3]。
2.2 算法改進
由于上訴的基本算法都存在一定的缺陷,對互聯網視頻網站的數據獲取帶來了一定的影響,其中最好優先搜索算法的缺陷較小,只是存在查全率不高的問題,因此,就要對該算法進行改進。在利用改進算法進行檢索時,在對一個文件查找完成后,就算該文件與本次查找關系不大,但是也不會對其進行忽略,而是將其儲存到相應的位置,對其進行深入的分析,分析出每個信息中是否會存在視頻網站有用的信息,如果不存在這一類信息,才可以繼續對其他文件進行檢索,然后利用該種算法對整個網絡進行檢索,從而改善了查全率不高的問題,使互聯網視頻網站數據獲取的效果更高[4]。
3 結語
綜上所述,在當前的互聯網當中,大數據為其發展提供了重要的幫助,但是,由于大數據具有的開放性、共享性等特點,在使用的過程中還會存在一定的風險,因此,在利用爬蟲技術對互聯網視頻網站的數據進行獲取時,要加強對數據風險的防范,能夠保證網站的安全性、可靠性。
參考文獻
[1]孔濤,曹丙章,邱荷花.基于MapReduce的視頻爬蟲系統研究[J].華中科技大學學報(自然科學版),2015,09(05):129-132.
[2]鄧炳光,郭慧蘭,張治中.移動互聯網用戶行為分析系統中聚焦爬蟲的設計與實現[J].重慶郵電大學學報(自然科學版),2015,11(03):359-365.
[3]饒軍,華申峰,吳曉璐.關于互聯網視聽節目監測中網絡爬蟲的應用研究[J].江西通信科技,2015,02(03):34-36.
[4]劉名.視頻聚合網站內嵌鏈接行為現有法律規制的不足與改進以新制度經濟學視角為路徑[J].電子知識產權,2015,04(10):15-21.