劉輝
摘 要數據聚合是指通過同時聚集和多個數據源分析數據來獲取信息全貌的數據。在數據信息的多樣化發展下,為了實現對各類數據的多元化分析和應用,相關人員需要結合實際采取多樣化的策略來處理多源數據下載,從而提升數據信息應用效率。
【關鍵詞】多源數據聚合系統 視頻網站 聚合 傳輸加速
網絡技術的快速發展使得視頻分享技術也得到了進步,由此在社會上出現了一批視頻分享網站。成功的視頻網站往往需要具備節目內容豐富和節目播放流暢的特點。但是現階段一些視頻網站應用的都是B/S結構,服務器自身承載能力和視頻播出流暢性是有限的。為了提升視頻播放質量,在聚集互聯網各類視頻的基礎上提出了一種新型多源數據聚合系統。在這個系統上能夠讓用戶瀏覽更多網站的內容,幫助用戶聚合資源,提升視頻播放流暢性。
1 多源數據聚合系統概述
1.1 概要設計
多源數據聚合系統建設的目的是為用戶提供高質量、能夠交互的的媒體播放服務,并在此基礎航完成定向廣告、個性化搜索。多源數據聚合p2p流媒體點播系統——CloudMedia,是一個視頻分享網站系統,在視頻點播中添加了p2p技術。CloudMedia由爬蟲、視頻網站、客戶端、索引服務器、視頻網站等共同組成,以網絡視頻的形式向用戶展現信息。其中,爬蟲服務器主要是針對不同網站采用不同的方式來播放視頻。索引服務器主要是用來索引在線peer,實現對peer地點信息的有效管理。用戶(peer)主要負責的是從其他節點和網站服務器中獲取媒體數據,完成任務的調度操作、拓撲的維護以及緩沖地帶的管理。
1.2 工作流程
(1)爬蟲在視頻網站上獲取加載頁面以及一些相關節目的信息,具體包括縮略圖、評論、簡介等。
(2)將獲取的數據信息在CloudMedia 網站上進行展現。
(3)打開用戶客戶端口實現對網站的訪問。
(4)用戶結合自己的需要來選擇播放視頻節目,FLASH 播放器將視頻地址發送給客戶端。
(5)在播放的時候,用戶點擊視頻節目,Flash播放器就會自動播放視頻。
(6)客戶端向索引服務器匯報自己的信息。
(7)索引服務器根據客戶端所在的位置來選擇信息,提升視頻節目播放速度。
2 多源數據聚合系統的詳細設計
2.1 系統模塊劃分
多源數據的聚合系統模塊劃分如圖1所示。根據圖發現,爬蟲和網站模塊公共完成了聚合功能,客戶端和索引服務器完成相應的加速功能。其中,爬蟲的工作流程是首先輸入一些網頁地址作為起始數據信息,對頁面中的內容進行分析,結合需要提取重要的網頁地址,及時剔除掉和網頁分析算法不相關的鏈接,保留有意義的鏈接。在爬蟲系統中,經過改進之后的系統針對不同的視頻網站設置了不同過濾策略,最終獲取視頻播放網頁。門戶網站的工作主要是將數據庫中的節目展現出來,并加以索引進行管理和引導。
2.2 視頻網站爬蟲模塊
CloudMedia 網站會通過爬蟲來獲取網絡視頻節目,并實現對這些節目的分類管理。爬蟲級別低的劃分有以下幾種:
2.2.1 輕量級爬蟲Spider
輕量級爬蟲Spider將輸入的鏈接作為起點,并通過多線程分析鏈接,最終將鏈接結果存入到數據庫中。Spider是一種多線程的爬蟲,每個線程操作都需要從等待的隊列中選擇一個分析隊列,在下載文本信息鏈接之后從中獲取有價值的信息。這種爬蟲設計操作比較簡單,分析線程數量無法自動調整。
2.2.2 Heritage
Heritage是一個開源的網絡爬蟲,具有很強的可拓展性,由此在操作的過程中也顯示出其結構的復雜。 Heritage主要包括數據采集器、資源抽取器、邊界控制器、處理器鏈。其中,數據采集器主要是用來解釋網絡傳輸協議。資源抽取器則是對采集器信息內容的一種解析。
2.3 Cloud Media網站模塊
Cloud Media 網站是一個動態化的網站,在應用過程中主要是將數據庫中的視頻展現給用戶,并同時具備視頻的分類、搜索、登錄、評論等功能。
2.3.1 Cloud Media 網站設計
網站的設計需要應用PHP語言,對系統分類欄目、視頻播放、用戶信息等都有著明確的顯示。
2.3.2 數據庫的設計
Cloud Media 網站模塊常見的數據表有Crawler 和 Video Info 表。前者主要是存放爬蟲獲得的鏈接,在表中有代表視頻序號、播放頁面地址、圖片地址爬蟲下載的標識。后者則主要是存放播放頁面的信息。
2.4 Cloud Media的客戶端模塊
2.4.1 設計
Cloud Media客戶端模塊向HTTP服務器請求數據信息,服務器在收到之后會將某一時間點上的數據全部發送過來,并借助P2P的形式實現數據信息的傳輸。Cloud Media客戶端模塊包括網絡視頻地址、網絡視頻數據下載、網絡視頻壓縮包等。客戶端在下載視頻數據之后,對數據視頻進行打包操作處理,在打包操作之后將信息發送給各個播放器進行播放。經過HTTP下載的數據信息,需要確定估算時間點,進而開展P2P數據調度。
2.4.2 實現
用戶啟動客戶端的時候會向系統索引服務器發出請求,在連接上索引服務器之后,向上級匯報自己的節目信息。如果客戶端有能夠p2p加速節點,則是可以向這個節點請求操作。在數據下載的過程中需要檢查播放器操作,借助播放器來播放緩沖區數據內容。
2.5 索引服務器模塊
Cloud Media媒體播放系統需要設定一個專門的索引服務器,將所有的節點接入到p2p網絡初始點上。在節點登錄的時候相索引服務器匯報節點本地緩沖區的視頻文件信息。在節點加入頻道觀看節目的時候,系統會將所要觀看的節目信息和具體播放位置發送到索引服務器上,進而完成p2p的網絡過程。
3 結束語
綜上所述,Cloud Media多源流媒體數據系統由爬蟲、網站、客戶端和索引服務器共同組成,文章就這些系統的組成和設計實現問題進行了分析,并對系統的功能做出了說明,經過運行測試證明了Cloud Media系統的各項功能都達到了預期目標。
參考文獻
[1]劉經緯.多源媒體數據聚合與傳輸加速系統[D].華中科技大學,2011.
[2]孟宇龍.基于本體的多源異構安全數據聚合[D].哈爾濱工程大學,2010.
作者單位
貴州省郵電規劃設計院有限公司 貴州省貴陽市 550003