999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據斷層分析在廣播電臺數據處理中的應用

2016-11-09 01:11:25夏驕雄周時強
計算機應用與軟件 2016年9期
關鍵詞:用戶分析檢測

徐 俊 夏驕雄 周時強

1(上海廣播電視臺技術運營中心 上海 200051)2(上海大學計算機工程與科學學院 上海 200444)3(上海市教育委員會信息中心 上海 200003)

?

數據斷層分析在廣播電臺數據處理中的應用

徐俊1,2夏驕雄2,3周時強2

1(上海廣播電視臺技術運營中心上海 200051)2(上海大學計算機工程與科學學院上海 200444)3(上海市教育委員會信息中心上海 200003)

隨著大數據技術的不斷升溫,數據斷層現象的分析與處理已經成為數據挖掘領域重要的方式與手段。數據斷層理論作為描述數據對象之間發生局部位移趨勢的分析理論,對于數據預處理過程具有十分重要的指導性意義。在初步描述數據斷層理論基本概念的基礎上,以上?!皠痈?01”音樂電臺的移動客戶端應用日志數據為例,構建數據斷層理論分析系統來處理電臺數據中所存在的數據斷層現象,提高了數據對象預處理的質量,得到了有效的電臺決策輔助信息,從而充分說明了數據斷層理論的科學性和有效性,為進一步研究奠定了堅實基礎。

數據斷層數據挖掘數據預處理日志數據分析移動客戶端應用

0 引 言

在大數據時代,眾多信息的迅速傳播正由平面媒體轉向以互聯網為代表的先進移動終端媒體[1]。通過把握這一契機,在手機、平板電腦等移動設備平臺上開發一系列應用程序,并通過網絡載體主動地推送到用戶面前,將極大提高人們獲取有用信息的效率。用戶訪問應用時,服務器將產生大量的日志文件,包括用戶的IP地址、訪問時間、終端類型號等。對于這些日志文件進行數據挖掘,可以得到日志數據的總體特征,及時掌握與日志文件產生有關的應用程序使用情況,并可以進一步預測該應用程序未來的發展趨勢,從而為決策支持提供支撐[2,3]。

與應用程序配套的日志文件信息是按照一定格式存儲的,屬于半結構化的數據,其中包含著一些不完整的、冗余的、錯誤的數據。同時,根據不同用戶的需求,也有可能存在大量的不相關數據。這些數據造成了數據斷層現象,對數據挖掘的準確性有著一定的負面影響[4]。因此,對這類數據斷層進行分析和處理,是更好獲取應用程序使用情況的有效途徑。

1 數據斷層

文獻[5]結合大數據環境,借鑒地質學的理論,首次在數據挖掘領域提出數據斷層的理論體系。通過數據斷層剖面的分析,系統闡述了數據預處理過程中的數據斷層現象,并給出數據斷層在顯隱斷層、內間斷層之間相互轉化的規則和算法。初步說明了數據斷層理論體系的基礎。

定義1數據斷層大數據環境中,各個數據對象之間的性質隨著各種主題、結構、時效屬性等維度變化而變化所產生相關性描述的具體表象,稱為數據斷層。

按照不同的分類原則,數據斷層有不同的分類。根據數據斷層的表現形式,可以將其劃分為數據顯斷層和數據隱斷層。

定義2數據顯斷層相對于大數據環境,常存在于數據庫與數據庫之間,受到主題、結構、時效等因素影響而發生變化的數據斷層稱為數據顯斷層。

定義3數據隱斷層相對于大數據環境,常存在于數據庫內部,受到結構、成分、數據關系等因素影響而發生變化的數據斷層稱為數據隱斷層。

本文引入數據庫中的孔隙定義,用于描述造成顯斷層的問題數據對象。

定義4孔隙數據庫中存在的各種無關用戶主題的異常數據對象,包括噪聲數據對象、空白數據對象、重復數據對象等,統稱為孔隙。

定義5孔隙度某一特定主題的數據資源中,存在的孔隙數量與數據對象總數量之間的比值,稱為孔隙度。

孔隙度反映數據資源中數據對象關于特定主題的緊密程度。顯然,孔隙度越小,數據質量越高。事實上,實際應用中的數據庫所包含的孔隙往往不能完全被消除,在數據對象不斷更新的情況下,對孔隙的處理只能以盡可能地減少孔隙為目標,從而減小孔隙對數據對象分析的影響。為了進行正常的數據分析和處理工作,必須對數據庫進行孔隙檢測,剔除盡可能多的孔隙。

定義6數據壓實了減小孔隙對數據分析結果的影響而對數據對象進行各種處理操作的過程,包括處理空白數據對象、轉換格式不一致的數據對象、刪除重復數據對象等,稱為數據壓實。

同樣,對于隱斷層數據對象,可以將其提取出來進行分析;若是無用數據對象,則需要使用數據壓溶技術對數據對象進行處理。

定義7數據壓溶對與用戶需求不相關的數據進行處理得到有用信息的過程稱為數據壓溶。

2 應用背景

廣播電臺是公共媒介的一種重要表現形式。通常情況下,人們收聽電臺廣播都是通過傳統方式(即利用無線電波向一定區域的聽眾傳送聲音節目信號方式),利用收音機等設備接收信號[6]。20世紀90年末期,通過互聯網收聽廣播電臺節目的方式應運而生[7]。只要在能夠訪問互聯網的地方,用戶就能夠在計算機或者各種先進移動終端上收聽到全世界范圍內的廣播電臺節目。

本文以“全亞洲頂尖華語音樂電臺”——上海“動感101”移動客戶端為例,研究用戶訪問的日志數據,構建數據斷層理論分析系統來分析并處理日志中存在的數據斷層,獲取有關決策支持信息。

“動感101”自1992年以來,一直是上海市收聽率第一的電臺。進入移動互聯網時代,“動感101”也于2011年9月與時俱進地推出了移動客戶終端應用程序(如圖1所示)。移動終端用戶可以通過Android或IOS系統的移動設備訪問該應用程序,不僅可以隨時隨地地收聽廣播節目,更融合了錄音、歌曲查詢、一鍵互動、在線評論等一系列實用功能。

圖1 “動感101”應用程序界面

數據斷層理論分析系統的數據來源于“動感101”電臺移動客戶端的日志訪問記錄,分別從IP為222.XXX.YYY.167、222.XXX.YYY.207、222.XXX.YYY.208三臺服務器下載用戶訪問的日志信息。選取從2012年5月28日0時到2012年6月3日24時的日志數據用于分析,日志文件大小為3.63 GB。日志文件中每條記錄分別為一個切片,每個切片代表用戶訪問了十秒鐘的時長。

日志文件分析主要是通過分析日志數據,獲得用戶的行為模式和各種數據資源之間的關聯關系,以便了解用戶對哪些數據資源比較感興趣。然后根據數據挖掘的結果來預測未來發展趨勢及行為,做出前瞻性決策,改善服務器的性能,提高服務質量[8]。

通過數據斷層理論分析系統對電臺日志文件進行分析,不僅可以掌握用戶收聽“動感101”的情況,而且可以針對現有情況做出調整,從而提高電臺客戶端的實用價值和廣播節目的收聽率。分析日志數據必然涉及統計數據環節,本文案例中需要統計的信息主要有三個方面:一周內每天收聽節目的總時長和聽眾人數;一周內每天收聽觀眾的地區分布情況;一周內每個時段的收聽總時長和聽眾人數。

3 數據斷層理論分析系統構建

針對“動感101”電臺日志文件數據的特點和用戶的實際需求,數據斷層理論分析系統設計了如圖2所示的總體結構圖。主要分為四個模塊,即日志集中模塊、日志存儲模塊、日志處理模塊和日志分析模塊。系統主要在日志處理模塊和日志分析模塊中對顯斷層和隱斷層的數據進行重點分析。

圖2 數據斷層理論分析系統的具體架構

在日志集中模塊、日志存儲模塊和日志處理模塊主要使用C#和SQL Server數據庫方式實現數據存儲、處理算法和數據統計等功能。在日志分析模塊結合Excel、Matlab等工具進行分析。通過使用多種工具,較好地完成了利用移動客戶端收聽“動感101”電臺節目日志文件數據對象的數據斷層分析和處理工作。

用戶利用移動客戶端收聽“動感101”電臺節目時,用戶的移動設備會自動連接到一個虛擬的IP地址。虛擬IP地址接受到用戶的請求后,根據各服務器的負載量,“動感101”電臺負載均衡LVS(Linux Virtual Server)選擇調度算法,將用戶的請求路由連接到最適合的服務器上。

移動客戶端收聽“動感101”電臺節目的原始日志數據數量巨大,涉及十個以上的數據屬性,但是并不是所有的數據屬性都屬于日志數據分析的范疇。為了減小存儲空間,在日志數據文件導入SQL Server數據庫的過程中,數據斷層理論分析系統只選擇了部分數據屬性(如表1所示選擇了五個數據屬性),按照固定格式制作規范化文檔。然后在導入程序中引用格式文檔,導入后的數據狀態可以由半結構化狀態轉化為結構化狀態,實現了數據屬性的約簡。這樣不僅有利于對日志數據的管理,而且為后續的數據處理和分析提供了極大的便利條件。

表1 SQL Server數據庫中數據屬性所表示的含義

數據斷層理論分析系統的SQL Server數據庫中,按照服務器的不同可以分為三個數據對象集合。三臺服務器的數據對象按照格式化文檔導入,有相同的格式,所以三個數據對象集合在屬性上是相同的,且都屬于同一主題的數據庫,消除了宏觀數據斷層中結構不一致的問題。但在數據數量和數據內容上仍然存在差異,屬于微觀數據斷層范疇。

4 數據顯斷層的分析與處理

日志處理模塊主要采用數據斷層理論的四種處理方法,即孔隙檢測、數據壓實、隱斷層檢測和數據壓溶。對顯斷層數據和隱斷層數據的檢測和處理并無嚴格意義上的先后順序,但是為了保證顯斷層數據的處理不會影響隱斷層數據分析結果的準確性。因此,數據斷層理論分析系統采用“先處理顯斷層數據,后分析隱斷層數據”的模式。

顯斷層數據分析分為孔隙檢測和數據壓實兩個步驟。

4.1孔隙檢測的處理與分析

數據斷層理論分析系統按照以下步驟對孔隙進行檢測。

1) 以其中一臺服務器的數據對象集合為樣本例,按照日期將整個數據對象集合分為7個分區,分別命名為{p1,p2,…,p7},其中p1代表2012年5月28日的日志數據,依次類推。

2) 對分區內的所有數據對象進行層次聚類。

(1) 將分區內的每個數據對象看作一個類,若兩個數據對象的值相等,則直接歸并為一類,否則計算各類之間的相關能。由于數據對象屬于非數值型數據,所以按照文本的長度作為計算能量的標準。

(2) 將相關能最大且滿足閾值條件的兩類歸并為一類,不滿足閾值條件的歸為另一類。

(3) 重新計算新類和其他類之間的相關能。

(4) 重復執行步驟(2)和步驟(3),直到分區內所有數據對象都經過閾值條件驗證為止。

3) 若經過步驟2)的層次聚類后的分區只有一個類,則該分區不包含異常數據,將該分區剪除。

4) 在剩余的分區內重復步驟2)和步驟3),直到7個分區都被檢測,保留存在異常數據的分區作進一步分析和處理。

一般情況下,若分區越多,則執行這樣步驟的孔隙檢測方法的效率將越高。數據斷層理論分析系統對移動客戶端收聽“動感101”電臺節目的原始日志數據按日期分區,每天的數據數量巨大,且每個分區都存在孔隙,所以沒有剪除分區操作。

通過孔隙檢測,數據斷層理論分析系統實驗數據的孔隙主要有三種。

一是缺失數據。在數據屬性ts中,存在部分記錄顯示為空,此類記錄為訪問內部IP地址222.XXX.YYY.168,并沒有下載或上傳任何信息。

二是噪聲數據。在數據屬性mobile中,存在部分記錄顯示為LiveRadioEncoder,該記錄為內部編碼器向服務器發送音頻切片文件的訪問記錄;另外還有部分記錄顯示為ChinaCache,這些記錄對數據對象集合而言是一種噪聲數據。

三是重復數據。數據庫中每個數據屬性都相同的記錄屬于重復數據,多見于訪問頁面的記錄,而下載ts流量的重復數據相對較少。

由以上分析可知,影響數據質量的訪問記錄大多數產生于內部IP地址對應用程序的訪問,所以在數據統計和分析之前需要對這些孔隙進行相應的處理。

存儲的日志數據屬于結構化數據,相對于半結構化或非結構化數據而言,存在的顯斷層數據比較少。在數據斷層理論分析系統中,通過孔隙檢測檢測出來的孔隙,三臺服務器一周的總孔隙數量達到1 902 949條記錄,相對于總切片數量20 867 199條記錄來說,孔隙度大約在9%左右。

通過統計每一天的孔隙度,可以在一定程度上了解電臺日志數據的訪問情況。在數據斷層理論分析系統中,工作日(2012年5月28日至2012年6月1日)的日志數據孔隙度結果如圖3所示,維持在比較穩定的水平,在8%~10%之間波動,而周末兩天(2012年6月2日至2012年6月3日)的孔隙度明顯提高。這說明在內部系統對應用程序訪問量不變的情況下,用戶對應用程序的訪問量減少,從而導致孔隙度增加。針對以上各種孔隙類型,結合數據斷層理論分析系統的實驗需求,需要對孔隙進行數據壓實操作。

圖3 電臺數據的孔隙度

4.2數據壓實的處理與分析

缺失數據和噪聲數據主要是由應用程序內部訪問服務器所產生的。不同IP地址代表不同的用戶,但相同IP地址未必是同一用戶,所以重復數據可能是因為多個設備收聽節目時使用的是同一個公網IP地址,基于端口轉換的NAT、代理、防火墻等都有可能導致多個用戶使用同一個公網IP地址進行訪問。根據以上分析,數據斷層理論分析系統的數據壓實步驟中主要采用刪除的方法,便可以較好地處理數據顯斷層。

數據斷層理論分析系統中顯斷層分析系統界面如圖4所示,選擇需要處理的時間段和服務器,然后按照孔隙檢測方法執行檢測,最后對孔隙進行數據壓實操作。

圖4 顯斷層分析界面

5 數據隱斷層的分析與處理

完成顯斷層數據的處理,日志處理模塊將對隱斷層數據進行分析和處理。隱斷層數據分析分為隱斷層檢測和數據壓溶兩個步驟。

5.1隱斷層檢測的處理與分析

數據對象集合中存在的隱斷層數據隨著用戶需求的不同而會有不同的結果。根據“動感101”電臺的需求,數據斷層理論分析系統中需要檢測的隱斷層類型主要有四種:

第一種為確定用戶收聽情況時,不是從服務器下載ts流量的記錄不屬于分析范圍;

第二種為北京時間2:00-6:00屬于“動感101”電臺停播時間段,此段時間數據記錄屬于隱斷層數據;

第三種為檢測服務器發生故障、主持人變更等突發狀況發生時產生的隱斷層數據;

第四種為檢測用戶的地區分布差異引起的隱斷層數據。

針對以上四種隱斷層類型檢測內容,需要制定不同的檢測方法。簡單的隱斷層數據不需要算法便可以檢測出來;有的隱斷層數據則需要通過計算其信息熵,再與用戶閾值條件進行比較才能確定隱斷層的實際狀態。例如:通過觀察法可知,第一種隱斷層數據還包括網頁訪問和圖片下載的記錄;第二種隱斷層數據就是停播時間段內的數據;第三種和第四種隱斷層數據的發現相對復雜,需要一系列步驟進行檢測。

1) 用戶地區分布差異的獲取

數據斷層理論分析系統以第四種隱斷層數據為例,設計移動客戶端收聽“動感101”電臺節目地區分析系統,展示隱斷層數據檢測的方法。將一周內訪問“動感101”電臺應用程序的IP地址做無重復的數據統計,可以獲得一周的用戶人數,將這些數據對象看作一個數據空間,對數據空間里的所有數據對象通過統計、計算信息熵和斷層概率的方法進行隱斷層檢測。

由于“動感101”在不同地區的知名度并不一樣,所以用戶的地區分布必然存在著差異性。地域相差較遠的不同省市之間存在數據斷層是一種客觀現象,而數據斷層理論分析系統通過處理方法檢測數據斷層是針對同一區域內的。所以需要先對數據對象進行分區,然后逐步細化分析,最后確定隱斷層數據產生的原因。

(1) 匯總需要檢測的數據對象

本文實驗以中國地區的數據對象為主要研究對象,所以需要對國外訪問的數據對象進行溶蝕操作,即提取每天不重復的IP地址,查詢其歸屬地區,然后將國外的訪問記錄分離出去。

(2) 統計IP地址數量

圖5是數據斷層理論分析系統實驗數據所在的一周內每天訪問服務器的IP地址數量。在這一周內數據波動并不顯著,初步可以看出前四天的IP地址數量比較平衡地微微增加,周四達到最高值,而周末兩天訪問IP地址的數量明顯下降。這種變化與人們的生活作息習慣、周末電臺節目的變化等多種因素密切相關。

圖5 一周內每天訪問IP數量圖

由于中國地區數量較多,每個地區依次分析需要投入較大的工作量。因此數據斷層理論分析系統根據“數據空間進行初步分區”的思想,采取先對IP地址按地區分為多個集合,然后進行統計和分析。由于“動感101”是屬于上海的電臺,其在傳統收聽模式下的知名度和支持度就較高,上海的用戶眾多是必然的。另外,江蘇和浙江與上海毗鄰,“動感101”節目在江蘇和浙江的用戶數也不在少數。所以東部沿海地區的用戶數量遠遠高于其他地區也屬正常情況,并進而導致東部沿海地區與其他地區之間在用戶數量上產生了明顯的斷層。

2) 用戶地區斷層分布的獲取

盡管通過分析可以判斷出東部沿海地區數據存在著斷層,但并不是所有的案例都有如此明顯的數據特征。所以必須通過科學方法來計算與驗證,增強說服力,進一步反映數據斷層的狀態。數據斷層理論分析系統采取的方法是:先根據定義計算各個地區集合的信息熵,找出斷層最為顯著的地區;然后計算該地區內各個數據對象的斷層概率,確定數據斷層數據所對應的省份;最后分析該省存在數據斷層的原因。

(1) 計算各地區集合的信息熵

圖6 地區分析程序界面

(2) 計算集合對象的斷層概率

通過計算各地區集合的信息熵從而確定了數據斷層存在的區域之后,需要進一步追蹤該區域的重點數據對象,獲得相應的斷層概率分布。在確定東部沿海地區是存在數據斷層的地區之后,追蹤東部沿海地區所包含的城市,查看IP地址數量,獲得各個省市的斷層概率。例如:上海市的用戶人數為24 895人,斷層概率為0.5302;浙江省的用戶人數為1286人,斷層概率為0.2887;江蘇省的用戶人數為2648人,斷層概率為0.2415等。

5.2數據壓溶的處理與分析

根據實際情況,不同的隱斷層有著不同的處理方式。有的隱斷層正好是被分析的數據對象,有的隱斷層則需要進行數據壓溶處理。對于以用戶分布情況為例的隱斷層檢測結果,由于電臺方面的需求只為了解分布情況和哪些地區存在斷層情況,所以并不需要進行數據壓溶。

通常情況下,圍繞系統用戶的需求,類似案例中可能需要進行數據壓溶的處理內容主要有三方面。

一是那些不是ts流的數據對象。因為圍繞統計用戶收聽時間的需求,訪問頁面的aspx相關內容并不在分析范圍之內,只需要統計用戶從服務器下載的ts流數據即可。

二是處理那些收聽不超過10秒的切片。因為若某條記錄在連續時間里只出現一次,訪問應用的時間不超過10秒,很可能是用戶操作失誤或無意訪問應用造成的。這些數據信息會對統計結果產生一定的誤差,不利于有用信息的獲取。

三是處理那些每天停播時間段的數據對象。因為北京時間凌晨兩點到六點是沒有節目的,而這段時間內若存在大量數據對象,則需要將這些數據對象單獨提取出來進行分析。

6 統計數據結果的斷層分析與處理

經過斷層處理的數據對象相比原始數據對象而言,其數量將明顯減少,而且會更加符合用戶需求,對這些數據對象進行分析得出的結果將有助于得到更加準確的信息。對于不同的需求,有著不同的統計結果數據斷層分析思路。針對數據斷層理論分析系統而言,斷層分析的主要需求包括三個方面。

6.1每天的ts切片數量和IP數量

通過數據斷層理論分析系統統計每天的ts切片數量和IP數量,可以計算出收聽的總時長和平均收聽時長。

為了對比斷層處理后的數據對象與原始數據對象之間的差別,通過統計原始數據對象和斷層處理后數據對象的相關內容,得到的結果如表2和表3所示。

表2 原始數據對象的統計表

表3 斷層處理后數據對象的統計表

其中,總切片數是指導入的所有記錄數量,包括ts切片、aspx切片以及其他記錄數據;總IP數是指對所有訪問的IP地址進行的數量統計;下載(ts)切片數是指只有下載ts流的記錄數量統計;收聽IP數是指下載ts切片的IP地址數量統計;收聽時長是指ts切片數的10倍除以3600得到的小時數。通過分析表2和表3,斷層處理后壓實了孔隙,有助于清楚地了解實際收聽情況。

6.2每小時的切片數和收聽時間

若需要了解每檔節目的收聽情況,就不可避免地需要統計每小時的數據對象。通過對這些數據對象一周內的波動情況,了解某個節目的收聽趨勢,從而做出相應地調整。

通過數據斷層理論分析系統,可以得到所選的服務器在00:00-24:00之間每個小時的統計數據。一周內不同時間段的數據是三臺服務器統計數據的總和。因此,分別統計三臺服務器的數據,然后進行匯總,得到如表4所示的統計結果。

表4中,北京時間22:00-24:00時間段的平均收聽時長占比較低,而在該時間段內的收聽時長和用戶(聽眾)數量卻處于較高水平。這說明總時長增長的比率遠遠趕不上用戶(聽眾)增長的比率,較多的用戶(聽眾)在該時間段內通過移動設備收聽節目,但收聽時間較短。平均收聽時長占比最高的19:00-20:00區間上,收聽時長不高,但是用戶(聽眾)人數明顯下降,所以收聽時長占比反而提高。

綜合分析表4,在北京時間15:00和23:00左右,用戶通過移動客戶端收聽電臺的收聽時長和用戶(聽眾)數量達到較高峰。這兩個時間點分別對應于接近下班的時間和臨睡覺的時間,人們通過手機等智能移動客戶端設備收聽電臺,也符合當前人們的生活作息時間。盡管北京時間2:00-6:00是節目停播時間,但是仍然存在有用戶收聽的情況,原因在于用戶在移動設備上沒有關閉動感101的客戶端。即便此時沒有節目信息,應用程序仍然在后臺運行,從服務器下載的切片處于忙碌狀態。

表4 一周不同時間段的統計表

續表4

6.3其他情況

除了以上情況之外,還存在著其他各種數據斷層的情況,例如三臺服務器出現故障的情況,可能的原因是編碼器到流媒體服務器的網絡中斷或者流媒體服務器服務中斷。具體在日志文件中會有所體現,即一段時間內沒有新的ts流文件被下載。但是服務器出現故障的情況一年不會超過5次,屬于特殊情況,本論文不作詳細分析。

7 結 語

本文以上?!皠痈?01”電臺移動客戶端的日志訪問記錄數據為分析對象,構建了數據斷層理論分析系統。分四個模塊對數據對象進行處理和分析,檢測數據對象中存在的顯、隱斷層。然后進行數據壓實和數據壓溶操作,得到高質量的數據對象。最后針對不同的需求,對數據對象進行分析得到有用的決策輔助信息。

數據斷層理論分析系統的具體實踐表明,在廣播電臺數據這樣實時性較強的數據處理應用中,數據斷層理論具有較好的科學性和有效性。

[1] Yi Sun,Yang Guo,Xiaobing Zhang,et al.The Case for P2P Mobile Video System over Wireless Networks:A Practical Study of Challenges for A Mobile Video Provider[J].IEEE Network,2013,27(2):22-27.

[2] Francesco Bonchi,Fosca Giannotti,Cristian Gozzi,et al.Web Log Data Warehousing and Mining for Intelligent Web Caching[J].Data and Knowledge Engineering,2001,39(2):165-189.

[4] 夏驕雄.數據資源的聚類預處理[M].上海:上??茖W普及出版社,2011.

[5] 夏驕雄,汪晶玲,嚴琛瓊,等.數據斷層現象的研究[J].計算機應用與軟件,2013,30(8):9-13,77.

[6] Philippe Perebinossoff,Brian Gross,Lynne Schafer Gross.Programming for TV,Radio,and the Internet:Strategy,development,and evaluation[M].Burlington,MA:Focal Press,2005.

[7] Gene Youngblood.Secession from the Broadcast:The Internet and the Crisis of Social Control[J].Millennium Film Journal,2013(58):174-189.

[8] Naga Lakshmi,Raja Sekhara Rao,Sai Satyanarayana Reddy.An Overview of Preprocessing on Web Log Data for Web Usage Analysis[J].International Journal of Innovative Technology and Exploring Engineering,2013,2(4):274-279.

APPLICATION OF DATA FAULTAGE ANALYSIS IN RADIO DATA PROCESSING

Xu Jun1,2Xia Jiaoxiong2,3Zhou Shiqiang2

1(Technical Center,Radio and Television Shanghai,Shanghai 200051,China)2(SchoolofComputerEngineeringandScience,ShanghaiUniversity,Shanghai200444,China)3(InformationCentre,ShanghaiMunicipalEducationCommission,Shanghai200003,China)

With the increasing heating up of big data,analysis and process on data faultage phenomena has become the important ways and means in data mining field.Data faultage theory,as the analysis theory describing the tendency of partial displacement between data objects,has the extremely instructive significance on data preprocessing.Based on the preliminary description on the rationale of data faultage theory,we took the log data of mobile client application on “Shanghai Music Radio FM 101.7” as an example and built an analysis system of data faultage theory to deal with the data faultage phenomena in radio log data so as to improve the quality of data objects preprocessing,and gained the effective auxiliary information of radio decision-making.Therefore,the scientific property and effectiveness of data faultage theory are fully explained,this lays the sound foundation for further studies.

Data faultageData miningData preprocessingLog data analysisMobile client application

2015-04-06。國家自然科學基金項目(40976108,61303097);上海市重點學科建設項目(J50103);上海大學研究生創新基金項目(SHUCX070037,SHUCX120105)。徐俊,工程師,主研領域:數據挖掘,智能決策支持系統。夏驕雄,研究員。周時強,助理工程師。

TP311.131G202

A

10.3969/j.issn.1000-386x.2016.09.009

猜你喜歡
用戶分析檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統及其自動化發展趨勢分析
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應用
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 亚洲欧美成人综合| 又粗又硬又大又爽免费视频播放| 亚洲欧洲日产无码AV| 99久久99视频| 欧美日韩在线亚洲国产人| 国产又粗又爽视频| 国产在线拍偷自揄观看视频网站| 亚洲黄色视频在线观看一区| 欧美午夜在线视频| 亚洲综合极品香蕉久久网| 一区二区三区高清视频国产女人| 欧美一级夜夜爽www| 亚洲国产日韩在线观看| 亚洲黄色高清| 亚洲国产精品日韩av专区| 久久精品国产91久久综合麻豆自制| 国产欧美日韩免费| 亚洲中文在线视频| 亚洲啪啪网| 99久久精品国产精品亚洲| 中文字幕精品一区二区三区视频| 99这里只有精品免费视频| 日韩中文字幕免费在线观看 | 亚洲区欧美区| 区国产精品搜索视频| 国产精品无码AV片在线观看播放| 久久综合九色综合97网| 亚洲码一区二区三区| 国内熟女少妇一线天| 无码又爽又刺激的高潮视频| 国产新AV天堂| 91久久国产热精品免费| 亚洲愉拍一区二区精品| 精品视频免费在线| 国产精品v欧美| 手机在线国产精品| 国产第八页| 91久久国产成人免费观看| 日韩精品中文字幕一区三区| 亚洲中文字幕在线一区播放| 亚洲视频无码| 久草视频福利在线观看| 亚洲精品国产成人7777| 国产99精品久久| 色婷婷电影网| 日韩第九页| 国产精品30p| 亚洲精品无码久久久久苍井空| 国产综合网站| 中文字幕在线一区二区在线| 麻豆国产精品一二三在线观看| 超碰精品无码一区二区| 亚洲综合精品香蕉久久网| 亚洲床戏一区| 免费网站成人亚洲| 2019国产在线| 国产凹凸一区在线观看视频| 伊人福利视频| 国产区免费精品视频| 污视频日本| 中文字幕在线免费看| 欧美日韩国产成人高清视频| 992tv国产人成在线观看| 国产在线视频自拍| 呦系列视频一区二区三区| 另类重口100页在线播放| 亚洲欧州色色免费AV| 亚洲成人www| 大陆国产精品视频| 特级精品毛片免费观看| 国产欧美精品一区aⅴ影院| 99re在线免费视频| 91 九色视频丝袜| 在线播放国产99re| 国产成人亚洲毛片| 国产一区二区精品福利| 午夜视频www| 免费国产高清视频| 欧美笫一页| 99免费在线观看视频| 国产乱肥老妇精品视频| 色噜噜在线观看|