999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代下廣電人的思考與對策

2014-07-07 13:48:02國家新聞出版廣電總局廣播科學研究院副院長
電視技術 2014年2期
關鍵詞:數據挖掘內容用戶

國家新聞出版廣電總局廣播科學研究院 副院長 周 毅

大數據時代下廣電人的思考與對策

國家新聞出版廣電總局廣播科學研究院 副院長 周 毅

從廣電的大數據挖掘系統入手,闡述了基元數據結構的含義,并對該系統的重要部分網絡爬蟲和雷達應用進行了介紹,在此基礎上分析了導頁(HomingPage)的生成流程和該系統的兩個具體應用。最后就廣電應有的大數據處理體系架構,以及大數據在廣電系統的應用進行了系統解釋。

大數據;廣電系統;UCL;業務運營

互聯網及移動互聯網的發展,使得網絡數據迅速膨脹,這些數據中包含了大量的冗長信息,也包括人們的消費習慣、興趣愛好、企業需要的大量有用數據。毋庸置疑,媒體大數據時代已經來臨,從龐大的大數據中挖掘有價值信息的重要性也已日漸凸顯。

短信推送、消息推送、網頁產品推送,從中人們可以發現很多感興趣的內容,這就是大數據挖掘的價值。幾年來,電信業和互聯網業這方面做得很好。然而就大數據而言,媒體人需要看到自己的優勢,新聞出版和廣播影視系統也是大數據的擁有者。據了解,大數據的擁有者一個是新華社,另一個是廣播影視部門,新華社擁有幾十萬小時已經數字化完畢的、可供利用的大數據庫,廣播影視系統中僅中央電視臺一家就擁有數十萬小時以上的數字音視頻資源。雖然如此,如何很好地使用這些大數據,如何挖掘這些大數據的價值,確實是個值得研究的現實問題。

一種大數據挖掘系統

大數據可分為業已存在的和每天產生的數據兩類。對于后者,大多數上網的人會遇到這樣一種狀況:每天在特別熟悉的十幾個網站里面反復尋找感興趣的內容,在看內容時,常常發現幾十條里有大部分內容是近似或重復的,雖網站不同,但內容相似,這種雷同會耽誤上網者的大量時間。通常,人們需要的其實是所關注領域的最新的或者點擊率最高的內容,而且對這些內容多數時候并不需要知道全文,只需知道概述。除非極有興趣或者確有需要,才會進入網絡,觀看全文。考慮上述特點,中國工程院李幼平院士率先提出了UCL(UniformCon?tentLabel)概念,本文在此基礎上,介紹一種幫助用戶進行自動篩選內容的新聞大數據挖掘系統。

1 基元數據結構(UCL)

李幼平院士對漢字傳播進行深入分析后,發明了結構簡單的基元數據及HomingPage(導頁)。將1kbyte數據包定義為UCL,在UCL包中漢字是可按語義取舍的最小基元。如果UCL在互聯網絡上傳輸,其表達的內容也可以按照人們理解的語義,創建一個最小的文化基元,這個文化基元即UCL。

UCL作為泛在播存的基本內容結構,也稱為統一內容標簽,它最早源新華社的《中文新聞信息置標語言》標準[1],但是該標準中的內容標簽是不等長的。工程院的李幼平院士在此基礎上,將現在各種新聞內容進行統一歸并,制定了一個等長的UCL,1kbyte大約300個漢字,是可以傳送概述性內容的基本單位。UCL的基本結構如圖1所示。

2 UCL可實現互聯網“最后一跳”

圖1 UCL結構圖

UCL發明的另一個優點是可實現減少互聯網挖掘數據所需要的中間環節,即跳數。從統計學和業界公認的情況來看,任何一個用戶,要想在互聯網找到一條有用信息,需要經過約30個路由器或者交換的過程。而最新的理論推出,最佳跳數能夠減少到2~3跳,跳數越少,延遲時間就越短,對信道的阻塞也就越少。那么如何能夠用很少的跳數將信息傳送給用戶呢?李院士提出如下構思:結合用戶的上網習慣,人們首先需要知道最新的、最感興趣的、點擊率最高的內容,而不是詳細內容,所以可用UCL傳送300字以下的文章概述,并能通過無線廣播和衛星廣播兩個方面解決傳輸的跳數問題。具體實現過程見圖2。

圖2 借助廣播與衛星實現互聯網的“最后一跳”

利用B-S-C傳輸三角,把傳統互聯網無法利用的傳統廣播通道和廣播衛星通道,升級或者改造成可以傳遞UCL和全文信息的新型媒介。隨著調頻與調幅廣播的數字化,可直接用無線廣播傳輸UCL數字信息,并可實現各地同頻覆蓋,只需2跳或3跳,就可將UCL信息直接傳到最末端的收音機、未來的數字接收終端或者移動終端上。當有些用戶不滿足只看UCL還想看全文時,通過每一條UCL下面的鏈接,將鏈接指向自動轉到衛星(BS),這里S理論上是最接近用戶的服務器,廣播衛星的模式是對最接近用戶的S進行鏈接覆蓋,使它能夠在最少跳數的情況下鏈接到全文。

3 數據挖掘方法:爬蟲與網絡雷達系統

首先利用了目前業界比較常用的一些基本概念:網絡雷達和語義的聚合。網絡雷達系統理論上可以達到每天自動尋找上萬甚至十萬左右的重點網站,目前本系統主要實時重點關注150家網站,每天利用大量的時間實時地對這150家網站進行重點分析,并抽取一些主要內容、最新內容和點擊率高的內容,把其中重復和冗長的內容去掉,按照標題聚合,轉成一個1kbyte的UCL。這些內容按照時間排序以后,通過一個工作平臺進行審核,然后工作流產生內容、時間可管可控,通過分發、適配到相應的播出平臺和接收平臺,最后實現大數據的關聯分析。網絡雷達系統框圖如圖3所示。該大數據挖掘系統的整體技術制作系統如圖4所示。

圖3 網絡雷達系統框圖和對外接口

圖4 整體技術制作系統

4 導頁生成和制作流程

導頁(HomingPage)是由眾多UCL組成的向用戶推送的主頁面,具體的制作生成與數據流程圖如圖5所示。

圖5 導頁制作生成與數據流程圖

在調頻或調幅廣播數字化之后,未來數字調頻收音機的接收模塊可以直接嵌入進手機,所以未來可能是數字收音機和手機一體。圖6為智能終端APP分類,按體育、文藝、新聞等分成若干個大類,然后選擇界面中最感興趣的內容自動標記到收音機,收音機根據每天推送的UCL概述,篩選出跟這個類別一致的相關內容進行存放,這樣用戶打開收音機或者打開手機時,只能看到自己感興趣的內容,圖7所示為UDRadio的HomingPage。

5 具體應用

實驗系統完成之后,利用該系統做了兩個應用:1)某單位擁有150~200左右的海外站點,將此系統作為向各個站點進行播送每天通稿的實驗平臺,把每天播發的通稿自動篩選,并在整理之后,推送給每個站參考。2)在某重大活動組織機構里,利用該系統進行挖掘,可以對活動相關事宜進行自動調查和挖掘,這些內容每天進行更新,每周做一次歸納審核,反響非常好。

該系統可以自動挖掘整理現有的各種大數據產生的內容,并通過互聯網、衛星或者未來的廣播電視系統播出。廣播的數字化,特別是調頻廣播的數字化,是可以兼容的,既不影響用戶使用模擬調頻收音機,又在通道里疊加了數字信號,可以傳遞聲音和互聯網大數據挖掘以后形成的概要。因此,這個系統必須具備廣播系統所必須的流程和審查。

基于大數據的用戶行為及業務運營分析

廣播電視的數據一般來說是半結構化的,具有4個特點:數據量大、類型多、價值密度低、處理速度要求快。如何從這些數據中獲得有價值的信息,所需要的是大數據處理技術。具體到哪些商業環節可以獲益,對新聞廣播電視系統來說,最大的環節就是訂閱和熱點分析,當然也包括其他如內部控制、客戶管理、財務計劃、預算管理、雇員管理等。

圖6 智能終端APP(截圖)

圖7 UDRadio接收(擬)“自尋導頁”與鏈接(截圖)

1 廣電的大數據處理體系架構

2011年,廣電相關的部門開始推出云系統,在推云系統的過程中真正意識到大數據處理的重要性。過去都在關注大數據,但并沒意識到對大數據進行分析和處理。那么廣電到底應該有什么樣的體系,是需要有自己特點還是完成跟IT系統結合,這都有很大的爭議。

經過幾年的發展,觀點逐步在轉變,廣電應有的大數據處理體系架構思路如圖8所示。

圖8 大數據處理體系架構

2 大數據在廣電系統的應用

大數據在廣電系統中的應用如下:

1)系統的運行維護。例如,過去制、播、存都是分開的,哪個環節壞了,可以很快找到問題,現在全是數字工作站、數字存儲、服務器制播,如果出現問題,無法確定是哪個環節出了問題,所以基于大數據運維管理系統的大致工作可以分為:系統狀態的趨勢分析、系統健康度檢查、系統故障診斷定位、系統隱患提示、設備性能趨勢分析、系統負載能力分析、信息安全審計。

2)商業運營數據分析。(1)用戶注冊,通過將近10年,有些有線電視網絡公司和相關的服務性公司,這方面的數據統計非常好,包括這個月有多少用戶、具體某個臺有多少用戶,對節目中某些欄目都分析得比較準確。(2)用戶訂購,包括訂購時間敏感度、對價格的敏感度、訂購最多節目統計、訂購金額等。

3)用戶行為數據分析。隨著互聯網和新媒體的發展,廣電面臨巨大的挑戰,廣電對收視收聽行為的分析曾經不及電信和很多互聯網公司。所以最近幾年,廣電大力加強了這方面的分析。過去分析都是靠單向的收視率調查,100萬用戶放置幾萬個收視調查設備,返回的調查結果中變化趨勢是可以接受的,但是無法統計到絕對準確的收視率。例如有些好節目,在晚上八九點鐘播出時收視率非常高,但同樣的節目放在10點以后播出收視率就會變低,這就說明收視群體采樣點多數放在了那些早休息的群體中,導致數據不準確。這幾年廣電已經開始重視交互式收視行為分析,所以對大數據的應用和挖掘還是有很大需求的。

總結

總之,如何利用現有廣播、有線、衛星優勢,很好地結合互聯網系統,對現有的大數據進行綜合分析和挖掘,并產生一定效益,值得深入研究。這幾年廣電部門在對用戶的精確管理、對節目的精確管理方面有了很大的提升,當然也意識到在這方面經驗還不夠,還需要學習。特別是在大數據時代,不僅在理論上有很多事情需要探索,而且在具體實踐方面更需做大量工作。大數據挖掘對廣播影視系統未來趨勢的影響,尤其是大數據挖掘中有針對性的音視頻搜索、有針對性的目標挖掘,都會對未來廣播影視起到很好的促進作用,也能對節目、用戶、內容進行更加精準的管理。

[1] GB/T20092—2006,中文新聞信息置標語言[S].2006.

TN94

A

【本文獻信息】周毅.大數據時代下廣電人的思考與對策[J].電視技術,2014,38(2).

猜你喜歡
數據挖掘內容用戶
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 精品久久国产综合精麻豆| 2021天堂在线亚洲精品专区| 亚洲成人一区二区三区| 老司国产精品视频91| 欧美在线一二区| 在线不卡免费视频| 中文字幕啪啪| 亚洲狼网站狼狼鲁亚洲下载| 国产视频一区二区在线观看| 人妻21p大胆| 国产成人91精品免费网址在线| 在线欧美一区| 亚洲欧美h| 在线日本国产成人免费的| 99这里只有精品在线| 亚洲嫩模喷白浆| 高清不卡毛片| 成人免费一级片| 99热这里只有精品2| 另类欧美日韩| 午夜成人在线视频| 国产第一页亚洲| 成人欧美日韩| 99久久精品国产麻豆婷婷| 欧美成人免费| 国产情精品嫩草影院88av| 日韩免费成人| 99热这里只有精品免费国产| 爽爽影院十八禁在线观看| 色婷婷综合激情视频免费看| 国产激情国语对白普通话| 免费毛片全部不收费的| 四虎成人精品| 日本免费精品| 国产成人精品2021欧美日韩| 爱做久久久久久| 亚洲国产成熟视频在线多多| 中文字幕乱码二三区免费| 国产区在线看| 人妻出轨无码中文一区二区| 日韩精品成人在线| 亚洲中字无码AV电影在线观看| 日韩天堂在线观看| 任我操在线视频| 久久青草免费91线频观看不卡| 97视频免费在线观看| 日韩欧美国产综合| 成年女人18毛片毛片免费| 五月天久久综合| 亚洲第一成年人网站| 中国一级毛片免费观看| 亚洲天堂视频网站| 国产jizz| 亚洲国产欧美国产综合久久 | 国产玖玖视频| 大学生久久香蕉国产线观看| 无码免费视频| 五月天福利视频| 欧美啪啪精品| 欧美亚洲日韩中文| 国产精品视频久| 国模私拍一区二区| 毛片基地视频| 老司国产精品视频| 国产h视频在线观看视频| 国产精品成人AⅤ在线一二三四| 另类综合视频| 亚洲欧美另类久久久精品播放的| 伊人久久影视| 在线看AV天堂| 国产成人综合网在线观看| 色欲不卡无码一区二区| 激情综合网址| 午夜综合网| 国产成人精品亚洲77美色| 亚洲天堂啪啪| 欧美成人精品一区二区| 亚洲精品第一在线观看视频| 欧美亚洲国产精品第一页| 无码国产伊人| 欧美激情网址| 日本在线免费网站|