999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

挖掘大數據的發展潛力

2015-12-04 09:24:10胡春明陶海亮羅洪濱袁揚揚
互聯網天地 2015年4期
關鍵詞:百度分析

胡春明,陶海亮,羅洪濱,袁揚揚

(1.北京航空航天大學計算機研究院 北京100191;

2.百度在線網絡技術有限公司 北京100085;

3.億瑪科技有限公司 北京100024;

4.艾司隆軟件技術咨詢(上海)有限公司 上海200052)

大數據的理論及特征

胡春明:大數據在今天已經不是一個新鮮的詞匯。不管以前是不是叫大數據,人們都是在用數據看世界。數據分析方法往往采用了統計學上的采樣法。只要采樣方法在一些情況下足夠好,樣本數據就能足夠反應真實世界的特點。從得到的樣本數據里面獲得知識,采用的辦法是基于統計的分布,或是假設檢驗等方法得到一些支持,通過支持獲得預測。

大數據依賴的基礎是大量被記錄下來的數據。如買東西的記錄、訂房間的數據、攝像頭等傳感設備采集到的信息,甚至人本身就是一種傳感設備。人們把看到的信息放在微博、微信上,讓這些信息被刻畫和傳播,如果這些數據不是采樣,而是全樣記錄,數據足夠大,就得到了多源的大數據集。真實世界的“總體”我們無從制造,但在大數據時代,我們認為多源的大數據集合就代表了這個總體,這是大數據的“大”和原來的“小”之間是最根本的方面。處理問題還是要回到現實可操作的層面,所以同樣對多元的大數據做預處理和重新采樣,得到特定問題相關的采樣。通過以前數據挖掘的技術和學習方法,可以在相關采樣數據集里發揮作用,得到基于模型的預測。

這個過程中可能面臨一系列問題。

第一個問題,如何找到多源大數據集來代表總體。在大數據中,我們覺得多源大數據集就代表了真實的世界,但是在實際采樣的過程中,日志和數據可能有偏差。例如,許多人經常用對網民的調查來代表社會大眾的態度,但是網民不一定能代表大眾群體,還有一群人不上網。從這個角度來看,數據是不是真正接近全樣本、數據本身會不會在采樣中產生結構性的偏差,都是一個不容忽視的問題。

第二個問題,大數據大到我們處理不了,計算過程中就需要“把大數據變小”,這需要針對具體問題,在算法設計上更仔細地考慮。降維可能面臨丟失重要維度的風險,如何降維是我們要考慮的問題。

第三個問題,如何從數據中尋找知識和進行預測。預測的方法比之前的數據挖掘更進一步,盡管對問題做了重采樣,得到了一個相對小的數據,但是這個小數據相對于以前做分析的數據還是很大,因此,需要在新的統計理論、數學工具、計算理論、設計方法和大數據分布式計算機基礎設施方面做一些工作,這就是今天為什么大數據得到學術界和產業界共同關注的原因。

目前普遍認為,大數據具有4“V”的特點,即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。通過進一步研究,我們認為,從對大數據進行計算的角度來看,大數據計算還存在三個特征,我們稱為大數據計算的3“I”特征。

第一個“I”是Inexact(非精確),包括兩個層面:第一個層面是今天做的很多計算本身并不需要那么精確,往往需要知道一個大的方向和態勢;另一個層面是我們面臨的環境沒有辦法做得那么精確,數據在不斷變化,新的數據不斷產生,沒有辦法得到穩定的視圖。在滿足應用需求的前提下,放松結果的精度,可能換取更快的處理速度、更小的計算開銷。但在計算里堅持非精確的思路并不意味著隨便去做,仍然需要對質量做最基本的保證。

第二個“I”是Incremental(增量性)。這個特征和大數據里的動態持續變化緊密相關。因為數據是持續變化的,可能新來的數據占到歷史上所有數據積累的比例很小。如果能夠把計算變得增量化,只針對新到來的、比較小的數據做計算,然后以可接受的計算代價,把計算的結果融合到已有的計算結果里,這在一定程度上能實現“將大數據變小”,增強我們進行大數據計算的能力。但增量不僅要求計算框架有特殊的支持,可能對算法本身也有一些要求,有一些問題是適合增量處理的,而有一些算法并不一定適合。從這個角度看,可能要運用一些新的思想和方法來設計支持增量的算法,同時,在大規模的分布式計算系統中支持增量計算的處理。

第三個“I”是Inductive(歸納性)。大數據是多源融合的數據,這些數據代表了現實世界,代表了統計學上所謂的“總體”。從這個角度看,如果能夠把來自不同源的數據相互參照,不但可以彌補在所關心的維度上數據稀疏的問題,同時還可以通過多源數據的參照,在一定程度上控制因為非精確計算帶來的誤差,幫助控制解的質量。

這就是從大數據計算角度總結的一些內容。非精確性、增量性和多源數據之間的歸納性成為大數據設計系統和算法設計的重要參考。大數據本身是一個交叉學科,是應用驅動的垂直整合,也是理論算法、分布式系統、數據挖掘和機器學習方法等諸多方面的整合。從數據開放和標準化角度看,數據開放是構成大數據整個產業生態鏈的重要起點,開放數據有一些好的平臺。開放數據、數據格式、數據語義的標準化將有助于我們建造一個更加豐富的大數據應用生態環境。

大數據的新應用

陶海亮:百度是中國重要的互聯網公司,其本身是一個大數據公司,因為做搜索引擎業務,因此必須要掌握大數據技術。通過與很多行業、企業和政府的接觸,我們發現大數據對一些行業的應用提出了很多挑戰,主要有三個方面:一是最底層數據存儲和計算的規模面臨挑戰;二是在大部分的傳統企業中,在數據的管理和挖掘技術方面比較缺乏;三是在大部分的傳統企業中,機器學習和人工智能技術并不被IT 人員所掌握。

百度在4月發布了百度大數據引擎戰略。這個戰略是把百度多年積累的、在大數據應用方面的技術能力開放出來,讓各行各業都可以使用。大數據引擎包括了三個部分,最底層是開放云,可以理解為云計算,但是百度的云規模更大一些,因為有一些獨有的技術,包括低能耗的數據中心、分布式架構和智能化運維。開放云上層有數據工廠。數據工廠是新一代數據庫管理技術和挖掘方法。數據工廠上層有一個最核心的百度技術,叫作“百度大腦”。百度大腦已經達到了非常先進的程度,把深度學習的技術、超大規模學習能力和平臺都開放了出來。

百度管理的數據超過了EB 級別。每天新增的數據是PB 級別,整體服務器超過了幾十萬臺,單集群達到上萬臺。數據工廠提供了超大規模的數據查詢能力,單次查詢可以快速掃描上百個TB數據。數據庫在不同的應用場景下對性能的要求不一樣。在大查詢、低并發的情況下強調數據的掃描速度,在高并發、小查詢的情況下強調并行服務能力,可以達到十萬的QPS 指標。

百度利用大數據的技術和能力開發了新的應用產品。在搜索和廣告的業務外,還做了新的嘗試。主要有以下幾個產品。

(1)旅游預測

旅游預測有兩個部分:一是包括景點的預測,這是與旅游局和各地的旅游管理機構合作,基于他們的數據和百度的數據,可以對未來一周每一個旅游景點的人流情況進行預測;二是還可以基于旅游數據對城市旅游的出發地和目的地進行預測,這個預測結果對于旅行社和管理部門都很有價值。

(2)疾病預測

通過中國疾病控制中心提供的數據,將這些數據與百度的數據相結合,可以對全國330個地級市、2 800個縣區的多種疾病發病態勢進行預測。甚至在北、上、廣可以做到商圈級別,如在王府井某一種級別發病的態勢可以給出預測。

(3)指標預測

百度每年有50 萬的活躍企業客戶,遍布了27個行業和所有省份。百度每個季度、每個月都會發布一些相關的新的統計數據。百度與中科院進行合作,通過中科院和百度數據的統計分析,可以預測中國的經濟走勢,與統計局相關數據的指數相比較,得出宏觀數據的指標誤差很低,且時間比統計局提前了3個月。這對于很多做經濟研究的學者來說會非常有幫助。另外,目前中國統計中小工業企業的數據指標較少。百度基于數據推出了中小企業的指標,填補了國內中小企業景氣分析的空白,并做到了可以區分行業和不同的地域。

(4)百度司南

百度司南是基于大數據的商業決策平臺,能夠對市場格局進行定量研究,對消費者動態進行洞察,還可以直觀地給出媒體投放的策略,為廣告主/代理商的廣告投放決策提供了非常有價值的量化數據。

精準的大數據營銷平臺

羅洪濱:互聯網廣告的投放過程中需要不斷地搜集產生的數據,同時,也要積累數據的分析。做產品的過程中,經常要做市場調研,要了解趨勢、競爭對手以及規模。市場調研是為了明確營銷者的位置以及未來走向。

大數據營銷也存在一些問題。在做營銷推廣的過程中,有很多產品可以選擇,包括經常用的SEM、網盟、P2P 社區廣告和視頻廣告等。如何選擇這些投放產品,哪些用戶是適合發展的用戶,這是存在的一個問題。隨著目前互聯網終端的增多,如何在多個終端上有效地展現投放的廣告,同時能夠在不同的地方對這些用戶進行統一識別,能夠把零散的行為匯集起來,這也是存在的一個問題。

對于以上的問題,在應用中可以使用大數據營銷平臺。大數據通過全面、大量的實時數據支撐,使得做市場分析時有更及時、更準確的數據依據;通過各種渠道的分析,每一次的廣告展現得到最終效果時,有全路徑的分析;每個渠道能夠進行各種指標的回顧分析。

首先,大數據營銷平臺采集用戶的數據信息,對用戶的所有行為特征基本都能夠做到實時跟蹤。另外,隨著移動產品的增加,目前能夠真正實現跨平臺、跨終端對用戶和數據進行采集。不但可以在搜索社區展示類廣告進行投放,同時也能夠實現從移動終端到PC 之間的直接投放。

大數據營銷平臺可以幫助營銷者做決策,通過數據支持進行用戶行為分析。廣告主可以通過數據分析結果得知其網站的用戶經常做什么,對什么感興趣,哪一種產品最熱銷,能夠了解這些網站用戶的行為特點以及興趣特點。

大數據營銷平臺每天能夠監控到數十億媒體廣告的曝光,從中可以掌握每個媒體目前的流量和人群覆蓋、價格趨勢變化以及每一個定價的參與者和廣告投放。通過和搜索引擎公司的合作,能夠知道用戶最近在搜索什么、關注什么,從而掌握用戶的即時興趣。同時,也能得知用戶在站內的搜索內容,因此能夠給用戶推送其最感興趣的內容。

目前,大數據的精準廣告投放一般分為三類,包括搜索廣告、社交廣告、精準展示廣告。精準展示廣告主要是在行業內,數據使用性比較強,轉化率相對比較高,規模非常大。搜索廣告主要是根據用戶的搜索意見進行定位,規模也比較大,轉化率和點擊率相對來說比較好,用戶的注冊信息比較明確。社交廣告更加豐富一些,能夠對目前的變化趨勢做更好的分析。隨著精準技術得到大家的認可,互聯網領域會有更多人使用精準廣告技術,會有更多的資源。這個發展是一個藍海,目前表面上只有110 億的投放,未來還會呈現至少翻倍的增長速度。另外,點擊率比傳統廣告高很多,效果轉化率也非常高。因為做了人為的精準,每天產生的效果數已經超過了一般的社交和傳統廣告的展現效果。

目前,億瑪大數據營銷平臺覆蓋的人群超過6 億,有效的行為數據超過2 億,日增購物定單超過百萬,每天能夠監控到的搜索行為超過50 萬。這些數據可以支持客戶的數據分析,并且能支持精準人群的定位,同時能夠支持客戶和用戶對各種渠道的分析。另外,數據可以實現跨平臺、跨終端的投放。跨平臺能夠實現目前所有的開放流量投放數據,包括媒體流量、搜索平臺、社交平臺等。跨終端能夠做手機和相應的平板電腦、PC 等各種設備的投放。目前,優化的手段很簡單,通過廣告的投放進行優化。基于不同的人群,在投放過程中實時進行數據分析,根據不同指標的異常進行調整,找到調整的最關鍵的內容,從而實現廣告投放的優化。

大數據的文本分析

袁揚揚:營銷代理商給企業制定最相關的營銷推廣計劃,并且取得營銷目標對象群體的回應。營銷計劃的分析內容一般包括以下幾個方面:首先是識別,即幫助客戶對消費者進行全面的了解,從而挖掘潛在的商業機會;其次,對消費群體進行細分,將消費者分成不同的群體,以便實施最有效、最相關的營銷溝通;再次是預測,建立各種類型的預測模型,目的是為了預測最能夠呈現出企業所需要的消費行為的人群;最后是測量,運用高端的測量設計與分析,幫助企業評估基于數據分析基礎上的營銷策略與手段的績效。

大數據時代的確可以給商家帶來無限商機,然而現實是企業擁有大量的消費者數據,其中有用的信息卻很少。

在過去,因為信息渠道的缺乏,消費者對企業或品牌信息的了解也相當有限。因此,傳統的營銷方式可以奏效。今天,消費者手里擁有大量信息,他們可以從各個渠道獲得企業或品牌的信息,也擁有了前所未有的自主權。因此,企業今天就不能再用傳統營銷方式與消費者進行溝通,消費者更希望的是一對一的個性化溝通方式。企業已經越來越意識到精準數據分析的重要性,并正在嘗試用數據分析改變與消費者互動的方式,將這種互動方式慢慢轉化成更加接近于一對一的方式。

消費者數據分為結構化數據和非結構化數據。結構化數據是可以量化的數據,包括問卷調查中的封閉式回答、交易記錄、網上評分等數據。非結構化數據包括電話、郵件、在線聊天以及問卷調查開放式的回答。這些信息可以由企業內部直接從消費者手里獲取。另外,還有博客和社交媒體等網民信息,這些信息是外部公開的。今天消費者在與品牌的每一個接觸點都留下了足跡,企業也試圖從各個媒體渠道獲取消費者信息。但是,獲取信息僅是第一步,如果要實現對消費者全面的認知,必須要有效整合這些多媒體數據,深度挖掘,并且進行精準的分析和提煉,這樣企業才能夠全面地認識消費者,全面地了解消費者的行為與愛好,從而進行一對一的定制服務。

據IDT 一份報告的分析,80%以上的商業信息以文本形式存在,20%的信息是結構化的數據。結構化的數據在未來幾年將以22%的年復合增長速度增長,而非結構化數據則以62%的速度增長。一般的企業對結構化的數據可以進行分析,而對于80%的非結構化數據,因為分析難度很大,并且需要花費大量人工成本,如果沒有合適的工具,企業的做法就是擱置一邊,或者采用關鍵詞搜索的方法進行分析,但搜索分析會有很大的局限性。

因此,我們建議客戶使用文本分析方法(Text Analytics)將數據結構化。文本分析是用一系列語言學和統計學的方法將文本結構化。首先提取觀點和模式,識別句子的意義和關系;其次辨析情緒是正面還是負面;然后將文本轉化為可量化的結構化數據;最后把非結構化的數據和結構化的數據整合起來,形成對消費者的全面認識。

文本分析的方法有兩個組成部分。第一個部分是利用自然語言處理來解析語意和語境,把一句話分成幾個組成部分,對每一個組成部分貼上標簽;然后分析這幾個部分之間的關系;最后做語言學關系的分析。第二個部分是情緒分析,每一個詞被賦予了正到負的情緒分值,分別代表了正面、中立、負面態度;對于修正詞還要調整情緒分值,因為每一個行業有其特殊性,所以對每個客戶需要調整默認值并且設立例外的原則;最后給每一個句子賦予一個分值。

總之,文本分析就是運用尖端的文本分析工具來量化非結構性數據,并與結構性數據相結合,進行深度分析與建立預測模型,以實現對消費者的全方位認知。

猜你喜歡
百度分析
隱蔽失效適航要求符合性驗證分析
Robust adaptive UKF based on SVR for inertial based integrated navigation
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
百度年度熱搜榜
青年與社會(2018年2期)2018-01-25 15:37:06
電力系統及其自動化發展趨勢分析
做一個“百度”不知道的老師
學周刊(2016年26期)2016-09-08 09:02:52
百度遭投行下調評級
IT時代周刊(2015年8期)2015-11-11 05:50:22
百度醫生
中西醫結合治療抑郁癥100例分析
百度“放衛星”,有沒有可能?
太空探索(2014年4期)2014-07-19 10:08:58
主站蜘蛛池模板: 伊人久综合| 亚洲精品无码人妻无码| 亚洲国产中文在线二区三区免| 久久中文字幕不卡一二区| 青青草原国产精品啪啪视频| 好吊妞欧美视频免费| 五月天久久婷婷| 麻豆AV网站免费进入| 国产精品刺激对白在线| 日韩经典精品无码一区二区| 日韩中文字幕亚洲无线码| 99无码中文字幕视频| 免费福利视频网站| 最新国产你懂的在线网址| 国产一区二区三区免费| 亚洲精品视频在线观看视频| 亚洲成年人片| 91尤物国产尤物福利在线| 福利一区三区| 久久久久国产一区二区| 亚洲国产中文精品va在线播放| 人妻无码中文字幕第一区| 成人亚洲视频| 亚洲第一精品福利| 精品视频一区二区观看| 久久精品人妻中文视频| 亚洲欧美综合另类图片小说区| 四虎影视国产精品| 露脸真实国语乱在线观看| 熟妇丰满人妻av无码区| 国产精品一老牛影视频| a级毛片免费播放| 激情六月丁香婷婷四房播| 99成人在线观看| 色精品视频| 国产精品午夜福利麻豆| 国产不卡一级毛片视频| 午夜福利视频一区| 欧美国产日韩在线| 第一页亚洲| 亚洲香蕉伊综合在人在线| 亚洲黄色激情网站| 国产成人亚洲无吗淙合青草| 国产精品一区二区久久精品无码| 久久免费视频播放| 国产免费好大好硬视频| 亚洲视频免费播放| 国产综合另类小说色区色噜噜| 久久永久精品免费视频| 日本欧美午夜| 亚洲美女操| 亚洲va在线观看| 麻豆国产原创视频在线播放| 青青青国产视频| 久久精品人人做人人综合试看| 中文字幕天无码久久精品视频免费| 亚洲另类色| 好久久免费视频高清| 制服丝袜亚洲| 亚洲欧美激情另类| 欧美翘臀一区二区三区| 国产欧美视频在线观看| 亚洲三级视频在线观看| 欧美成人精品一级在线观看| 精品久久久久成人码免费动漫| 人妻一本久道久久综合久久鬼色| 91年精品国产福利线观看久久| 91毛片网| 欧美视频免费一区二区三区| 日本一区二区不卡视频| 国产91蝌蚪窝| 99热国产这里只有精品9九| 久久婷婷六月| 欧美精品不卡| 国产精品极品美女自在线网站| 重口调教一区二区视频| 国产成人一区| 久久性视频| 日韩av在线直播| av一区二区三区高清久久| 日韩成人在线网站| 日韩欧美国产另类|