摘 要:隨著社會的日益發展,數據量的增長日益加快,特別是隨著互聯網行業的迅猛發展,基于網頁而生成的影視傳媒領域海量日志數據正在成為各個互聯網公司必須面對和需要認真處理的重要數據形式,面對如此影視傳媒領域海量的數據,不僅需要考慮如何快速、靈活、高效的存儲這些數據,也需要充分的利用這些影視傳媒領域海量數據幫助進行分析,因此面向影視傳媒領域海量數據的數據挖掘技術,將成為一個重要的研究方向。
關鍵詞:互聯網 數據存儲 傳媒 技術
中圖分類號:TQ59;G220.7文獻標識碼:A文章編號:1674-098X(2012)07(a)-0032-01
1 引言
當今社會計算機技術在各領域廣泛的應用,在商業、金融、互聯網等領域每天都在產生影視傳媒領域海量的數據信息,而互聯網的迅猛發展也使得網絡中的各種信息日益豐富。面對GB級、TB級甚至更多的數據,如何處理日益增長的數據成為當今數字化社會面臨的一個極具挑戰性的問題。而這些數據中蘊含的價值正在被越來越多的人所關注和研究,比如對于影視傳媒企業而言,客戶群是巨大而復雜的,市場也變得更大,更復雜,其數據也就變得更加豐富,從而使挖掘其中的數據信息,找出其中的價值知識,成為了必然需求。對于互聯網等行業進行數據挖掘時,所需有的數據主要是Web內容,Web結構,Web使用記錄、用戶的背景信息、交易信息、查詢信息等。
2 新型存儲傳輸影視傳媒應用工程技術在影視傳媒領域方案
2.1 數據存儲工程與影視傳媒結合
對于互聯網這個新興行業,其在未來的發展速度必然是極其迅速的,而互聯網行業中Web文本日志是它的數據信息中占比重最大的部分,對于影視傳媒類的企業,這種信息可以直接反映出客戶的購買,產品的銷售等重要的商業信息,對于指導市場,引導資源合理配置可以起到十分重要的作用。據資料顯示,2006年全球數據總量達到0.18ZB,并且預測2011年將達到1.8ZB,很多傳媒集團每天處理的信息量已經超過了20PB;
著名社交網站FaceBook的主機存儲著約100億張照片,占據PB級的空間;
淘寶每天增量數據達TB級,全量數據超過PB級這些信息均顯示了,目前互聯網行業數據增加的迅猛程度,面對如此巨大的數據規模和數據增長趨勢,各個企業都在思考如何將這些影視傳媒領域海量的數據中蘊含的價值轉化真正的黑金。
目前對于數據處理中,人們首先考慮到的是使用傳統的新型存儲傳輸影視傳媒應用管理系統,來對數據進行統一的管理,在此基礎上進行數據清理,去掉其中的噪聲,糾正不一致,數據集成通過搜集各個不同的數據源,進行統一的數據匯總,聚合,并進行數據歸約,實現對數據的聚集,維度歸約,數值歸約。
2.2 數據存儲媒體應用特點
(1)存儲成本不斷提高,由于像Oracle這類新型存儲傳輸影視傳媒應用,每一次新型存儲傳輸影視傳媒應用的擴容便帶來企業運營成本的不斷提高,例如,目前淘寶網擁有國內日處理量最大,最忙的數據倉庫,淘寶網于2004年開始基于Oracle產品構建企業級的數據倉庫(EDW)07、08、09三年對于Oracle RAC進行升級,目前部署在由20個節點組成的單一新型存儲傳輸影視傳媒應用集群之上,但是隨著企業業務的飛速發展,利用這種需要高昂費用的企業級新型存儲傳輸影視傳媒應用管理系統,對于企業成本必然是相當大的負擔。
(2)運算相應時間開始變得比較緩慢,特別是面對影視傳媒領域海量web日志數據,傳統的新型存儲傳輸影視傳媒應用,由于都是嚴格按照關系型新型存儲傳輸影視傳媒應用進行設計,對于二維表結構的數據能夠很快的處理,但是面對互聯網的日趨發展,非結構化,非關系化的文本日志數據,圖片數據,音頻數據,越來越多,使用傳統的方式分析這些數據,將導致單個節點無法承受如此巨大數據量的輸入,運行時間變得不可預測。
(3)新型存儲傳輸影視傳媒應用高并發讀寫的需求,web2.0網站要根據用戶個性化信息來實時生成動態頁面和提供動態信息,所以基本上無法使用動態頁面靜態化技術,因此新型存儲傳輸影視傳媒應用并發負載非常高,往往要到達每秒鐘上萬次讀寫請求,上萬次的SQL查詢新型存儲傳輸影視傳媒應用還是可以應付得了,但是對于上萬次的SQL寫數據請求,硬盤I/O就已經無法承受。
(4)對于高擴展性和高可用性的需求,傳統關系型數據基本很難進行橫向擴展,不能像web server或者app server一樣通過直接增加一些硬件和服務節點來實現擴展和負載均衡。
3 存儲技術在媒體領域應用創新
其實這種對于新型非關系型數據的研究早在上個世紀90年代就已經提出過,不過當時由于數據處理的規模不大,對于這種需求不是很旺盛,因此使像Oracle、Mysql等這類關系型新型存儲傳輸影視傳媒應用占據了新型存儲傳輸影視傳媒應用的主流地位。
而目前一切開始改變了,當很多傳媒集團的工程師于幾年前提出GFS的設計理念后,整個對于這種大規模數據處理的方式,開始發生了根本的改變,后來Dong Cut根據他以前開發的Apache Lucene,結合很多傳媒集團提出的GFS以及MapReduce編程模式,開發了Hadoop開源分布式計算框架,通過這個開源項目并且結合數據倉庫和數據挖掘的理論,可以構建一套適用于影視傳媒領域海量文本數據的數據挖掘系統。
基于影視傳媒領域海量數據的分布式計算目前發展狀況,云計算對于影視傳媒領域海量數據的處理是現在的一個研究熱點,其實早在20世紀60年代,麥卡錫(John McCarthy)就已經提出了像水電供應一樣,將計算能力作為一種基礎服務提供給每個人,云計算第一個里程碑出現在1999年salesforce.com提出使用一個網站,來為企業提供計算服務平臺。
隨后影視傳媒集團(Amazon)開發出了彈性計算云(EC2)和簡單服務存儲(S3),提供給企業計算服務,影視傳媒集團發布這樣服務不到兩年已經有了44萬的企業用戶,其服務項目包括CPU、帶寬、存儲服務等,這些基本都是按照時長進行收費,目前云計算服務已經成為影視傳媒集團重要的增長最快的業務。
4 結語
針對數據挖掘技術,目前的研究概況可以從兩方面進行分析:
從實際應用方面分析包括:通過對數據挖掘原型系統DBMiner分析研究可以更好的存儲媒體西悉尼。這是一個交互式的多層挖掘系統,包括功能:概括、特征、分類、預測。并且提供了一種交互式的類SQL語言—DMQL(數據挖掘查詢語言),能與關系新型存儲傳輸影視傳媒應用平滑集成。研究開發的多任務數據挖掘系統Quest,實現了關聯規則、分類規則、序列模式和相似序列等。通過開發原型系統,用于處理不同媒體領域的知識,從而能夠實現數據存儲傳輸。
參考文獻
[1]韓家煒,堪博著.2007.數據挖掘:概念與技術[M].范明,孟小峰,譯.第1版.北京:機械工業出版社,200-205,401-407.
[2]張原,高向陽.2008.數據挖掘中分類算法分析與量化研究.西北工業大學學報,26(6):718-721.
[3]林士敏,田鳳占.2001.貝葉斯網絡的建造及其在數據采掘中的應用.清華大學學報,41(1):49-52.