999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下的數據分析及應用研究

2015-09-16 07:04:24姚瑤中州大學信息工程學院鄭州450044
中州大學學報 2015年1期
關鍵詞:文本分析

姚瑤(中州大學信息工程學院,鄭州450044)

大數據環境下的數據分析及應用研究

姚瑤
(中州大學信息工程學院,鄭州450044)

大數據蘊含著巨大的商業價值和社會價值。針對大數據的分析與應用面臨的新挑戰,文章重點闡述了文本分析、Web分析、網絡分析及移動數據分析等數據分析技術,并從商務智能挖掘、公共安全預警等領域介紹了大數據分析與挖掘的熱點應用。

大數據;文本分析;Web分析;網絡分析

隨著社會信息化和網絡化的快速發展,數據量急速增長。據統計,全球每秒發出的E-mail有290萬封,每分鐘上傳到YouTube上的視頻長20小時,每天Twitter上發布的微博有5000萬條。早在2008年,Google一天的數據處理量就有20PB,目前已經達到每天處理24PB的數據量。同時,科學計算、醫療衛生、金融、零售業等各行業也有大數據在不斷產生,預計到2015年全球信息總量會達到8ZB[1],數據計量單位如表1所示。互聯網、物聯網、社會化網絡的應用對數據的增長起主要作用,當前已進入了大數據(Big Data)時代。

1 大數據的新特征

相對于傳統數據,大數據不僅僅表現在巨大的數據量,還具有如下幾方面的新特征。

第一,數據來源更加廣泛。傳統的數據來源于科學研究產生的數據、企業數據、互聯網數據等。隨著移動網絡、物聯網及社會網絡的發展,移動設備數據、傳感器數據、RFID(射頻識別)數據及網絡自媒體數據增長迅速,且生成形式更加靈活、多樣。云計算、物聯網、社交化媒體、地理信息系統(GIS)為大數據提供了豐富的數據來源。因此大數據中包括的每個網絡用戶的身份、地點、時間、喜好、厭惡、社會關系等大量的信息。

第二,大數據的數據類型更加復雜。包括圖片、音頻、視頻等結構化、半結構化、非結構化數據等類型,其中采用傳統數據處理手段難以處理的非結構化數據已接近數據總量的75%[2]。

第三,數據處理平臺并行性更高。因大數據的移動和傳輸會消耗較大的計算資源,基于SQL的關系數據庫系統已滿足不了大數據的深度分析。以Google公司的MapReduce、Apache的Hadoop為代表性的非關系數據管理、存儲和分析技術具有良好的擴張性、容錯性和大規模并行處理的特點,成為大數據分析的主流架構和平臺。

表1 數據計量單位表

數據處理和分析技術主要有數據庫技術、數據挖掘技術、機器學習、經濟計量學、商業智能技術、數據統計及數據可視化等。當前,數據分析的面向內容有:基于DBMS(數據庫管理系統)的結構化數據的內容,基于Web的非結構化內容,基于移動網絡和傳感器網絡的數據內容。大數據分析的研究領域主要有文本分析、Web分析、網絡分析及移動數據分析等。

2 數據分析

2.1文本分析

文本分析技術主要包括文本信息抽取、文本分類、文本聚類、文本數據壓縮、文本數據處理等。文本分析技術起源于信息檢索和計算語言學。當前,存在于Web頁面、E-mail和社會媒體中的相應文檔,它們的內容通常都是非結構化的。信息檢索、文獻表示法和查詢處理是提升向量空間模型的基礎。布爾檢索模型和概率檢索模型成為現代數字圖書館、搜索引擎、和企業搜索管理系統的支撐技術。在計算語言學中,自然語言處理(Natural Language Processing,NLP)統計技術用來進行詞語識別、詞義消歧、詞性標注、概率上下文文法等方面。另外,文檔和查詢表示、用戶模型和相關反饋技術在改進查詢性能方面都很重要。

20世紀90年代,在成熟的商業系統就引入了搜索引擎技術,包括快速、分布式的爬蟲系統;高效的倒排索引;基于內鏈接的網頁排序;搜索日志分析。它們廣泛應用在基于文本的企業搜索和文檔管理系統中。

由于大數據和自然語言統計處理工作的發展,文本分析技術又繼續應用于幾個新的領域。例如,信息抽取、主題建模、問答系統和意見挖掘。信息抽取主要研究如何自動地從文檔中抽取特定分類的結構化的信息。信息抽取的一個應用為實體識別,即從文本中識別原子數據項,并分成指定的類別(名字、地點、時間等);主題建模是設計一些算法,用來在大量非結構化的文檔中發現特定的主題。像LDA這種新主題建模算法和其他概率統計模型都在實際中有所應用。問答系統依據與NLP、信息檢索和人機交互技術。最初的問答系統僅限于實際的問題和回答(例如,何人、何事、何時、何地等)。問答系統需要用到問題分析、大案抽取、來源檢索、問題表示等技術。問答系統常用于教育、健康和攻防領域中。IBM公司的Watso和Apple公司的Siri問答系統做的很成功。

意見挖掘指利用計算技術從文本內容中來抽取、分類、理解和評定相關的意見表達,文本內容來自在線新聞、社會媒體評論、其他媒體產生的內容等多個方面。情緒分析是意見挖掘技術的一個具體應用,常用于在線文本內容的識別情緒、情感、主觀意愿及其他情緒狀態。Web2.0和社會媒體內容已經產生了大量且能引起刺激公眾情緒的機會,包括社會事件、政治運動、企業戰略、市場競爭的認知。文本分析技術體系如表2所示。

表2 文本分析技術體系

除了上述研究方向外,文本分析還在如下幾個方向具有重要的研究機遇和挑戰:Web在線文檔作者歸屬分析、Web文檔的多語種檢索分析、大規模文本可視化工作。而多媒體信息檢索和移動信息檢索是除了核心的多媒體和移動技術外,也需要文本分析技術支持的另外兩個領域。同大數據分析一樣,文本分析也要用到MapReduce、Hadoop和云計算等服務,這些會促進文本分析研究方向的進一步發展。

2.2Web分析

在過去的10年,Web分析技術一直是個活躍的研究領域。Web分析面臨著特有的分析挑戰和機遇。基于HTTP/HTML的超鏈接Web站點、相關聯的Web搜索引擎、Web內容定位系統,它們都促進了基于Internet特有的技術:Web站點爬蟲、Web頁面更新、Web站點排序、搜索日志分析。針對用戶的訪問記錄進行Web日志分析通常用在內容推薦系統,然而,隨著Web服務和Web2.0系統的發展,Web分析技術會有更多的應用。

基于XML格式和Internet協議(HTTP、SMTP),Web服務可以重用和集成第三方或者代理系統的功能。新的Web服務功能和相應的API(應用程序接口)部件能使開發者很容易地從不同的Web應用系統集成豐富的內容。例如,在調用遠程服務時的狀態轉移表示、新聞推送的RSS、輕量級數據交換的JavaScript對象表示等。同樣,Google Web服務的應用程序接口支持搜索、地圖API、Google翻譯、Google應用程序引擎等。

Web信息的多樣性決定了Web挖掘的多樣性。Web挖掘研究可以分為三類,如圖1所示。

圖1 Web挖掘的分類

Web內容挖掘:從Web內容中發現有用的信息,Web內容主要包括文本、圖形、圖像、音頻、視頻等。

Web結構挖掘:研究Web鏈接結構的建模分析,主要用于搜索引起結果排序、Web網站結構優化及其他Web應用。

Web使用挖掘:Web使用挖掘旨在通過對網絡日志進行有效的數據挖掘,發掘隱藏在日志數據背后的Web用戶訪問模式[3]。利用數據挖掘技術分析Web搜索日志,來找出用戶興趣方式。

目前,在Web分析技術中一個主要的領域為云計算服務平臺的發展,該平臺包括通過Internet部署的應用系統、系統軟件、硬件設備等。基于面向結構的服務、服務器虛擬化和效用計算方式的實現,云計算可以看作一種軟件服務、一種基礎設施服務或者一種服務平臺。

當前的Web分析技術涵蓋了社會網絡搜索與挖掘、聲譽機制系統、社會媒體分析、Web可視化等研究領域。另外,基于Web的拍賣、Internet貨幣、Web隱私與安全等方面也和Web分析技術相關聯。

2.3網絡分析

現代社會典型的特征是“網絡”和“信息”。“網絡”是現代社會發展形成的社會結構的一種實例。例如人們的社會關系、不同階層的人群、商業活動、交通、通信、計算機網絡、犯罪組織、虛擬網絡社會等,都體現了一種“網絡”關系。網絡社會分析的主要內容有:網絡社會構成、網上社會行為與互動、網上人與人之間的關系、網上群體、網上組織、網絡社區、Web2.0、博客、微博、網絡公共領域、互聯網上的社會網絡分析、網絡社會秩序、網絡犯罪及其它網絡社會問題等。網絡分析技術還處于初始的研究階段,主要包括文獻引用統計分析、在線社區計算模型、社會網絡分析等。不同的社會網絡理論、網絡性能指標、網絡拓撲結構、網絡模型用來衡量網絡屬性及其相互聯系。

最近的網絡分析研究集中在鏈接挖掘和社區發現上。通過鏈接挖掘,可以發現或預測一個網絡中節點間的鏈接關系。在網絡中,節點可以代表消費者、終端用戶、產品和(或者)服務;節點間的鏈接可以表示社會聯系、合作關系、E-mail收發或者產品的采用等。甚至僅利用拓撲信息就可以進行聯結挖掘。近鄰關系(Common Neighbors)、群落系數、Adamic Adar Measure、卡茨傳遞方式等理論常用來預測丟失或未來的鏈接。準確的鏈接挖掘還可以進一步推測節點及其鏈接屬性的關聯性。社區發現也是一個研究熱點。若用圖形表示網絡,可以利用圖分割算法來找出最優割截圖,以便在用戶團體中得到密集子圖。

社會網絡分析理論適合于社會網絡和計算機網絡形成各種網絡關系的分析方法。網絡關系可以用圖2的方式表示。

圖2 常見的網絡關系圖

常見的社交軟件,網絡關系圖具有一定的規律性。例如QQ好友的網絡關系、微博的網絡關系圖如圖3所示。

圖3 微博關注的網絡關系圖

多種技術被應用在研究動態的社會網絡中。例如,采用智能主題仿真模型來研究疾病傳播網絡、罪犯或恐怖分子網絡。在線虛擬社區、罪犯或恐怖分子網絡、社會政治網絡、信任與聲譽網絡等將是網絡分析應用的新場所。

除了文本分析、Web分析、網絡分析領域外,當前發展迅速的還有移動數據分析技術。移動計算在IT行業中增長迅速。隨著智能手機的廣泛普及,Android(安卓)系統從2010年就占據移動平臺上的首位。這個基于Java和XML的開源平臺易于掌握,成為IT行業流行的應用環境。移動數據分析的研究領域包括:用于位置確定和活動識別的移動感知應用、移動社會網絡和群包、移動可視化、移動應用的個人和行為建模。

3 數據分析的應用

當前數據分析的熱點應用主要有智能商務(例如,電子商務和市場預測)、電子政務及管理、科學技術應用、智能健康和福利、公共安全等領域。

3.1商務智能挖掘

商務智能(Business Intelligence,BI)挖掘是企業利用現代信息技術收集、管理和分析結構化和非結構化的商務數據和信息,以獲取更大的利益的技術。上世紀美國零售業巨頭沃爾瑪對自己的商品銷售數據庫發現了“啤酒和尿不濕”的關聯是數據挖掘中最經典的案例。

大數據時代下的商務智能稱為BI2.0,不僅僅只是對企業內部數據進行收集、處理和分析,還需要對互聯網上網絡瀏覽、微博、微信等非結構數據進行處理,這樣才能建立一個具有全面、完整的數據價值發展平臺。不管是商務智能的應用還是大數據的處理,都是為企業的決策分析服務的,只有將兩者有機的結合起來,才能挖掘出真實有效的信息和知識[4]。國內知名的電子商務企業京東商城從2012年推出的“數聚匯”功能,通過深度分析8000多萬用戶,頁面匯集了來自全國各地的網絡購物信息和數據,分析本年度用戶的購物行為,挖掘數據背后的信息。比如,根據網購電視機的尺寸來推斷同一客戶擁有的客廳面積大小、根據不同地區客戶網購加濕器的數量來推斷該地區的干濕程度、根據不同地區網購電飯煲的容量推斷相應家庭成員的數量及結構組成等。

傳統的數據挖掘是指在結構化的數據中發現潛在的關系和規律,但隨著商業競爭的白熱化,非結構化的數據如各種文本、圖像、音頻、視頻等達到空前規模,如何把散布在網絡上的資源整合起來,從中挖掘出有價值的信息,是當前數據挖掘面臨的最大挑戰之一,迫切需要更加高端的數據挖掘的方法和技術[5]。為了充分運用大數據資源,國外的互聯網企業Google、eBay、Facebook、Twitter及國內的百度、騰訊、阿里巴巴等都投入巨大的力量來進行用戶行為分析、企業決策推薦、社交媒體分析等應用。

3.2公共安全預警

數據分析技術在公共安全預警的主要應用領域有:智能預警、邊界和運輸安全、國內反恐、重要基礎設施(包括網絡)保護、突發事件應對。公共安全問題監測與信息預警是現代社會公共管理的重要內容[6]。利用大數據可以有效地預測相關領域的未來趨勢。早在2009年,Google根據人們網絡搜索的關鍵詞數據成功預報了流行病的出現,比疾病控制中心早一周左右。2010年惠普實驗室利用Twitter的數據精確預測了好萊塢電影的票房收入。

大數據能夠揭示人類行為的社會規律。從“9·11”事件以來,公共安全研究得到各國的重點關注,尤其是全球安全越來越依賴于數字化的技術和方法。計算科學、信息系統、社會科學等領域的專家學者都在和愈加頻繁的暴力、恐怖、網絡犯罪及其他危害網絡安全的行為作斗爭。可以利用網絡輿情分析進行公共安全預警、基于威脅情報分析的安全防范預警、多源數據的融合與輿情分析、大數據熱點情報跟蹤等。

4 結束語

在信息化社會中數據就是財富。針對于不同數據的文本分析、Web分析、網絡分析及移動數據分析技術在大數據時代必將得到更廣泛的應用。但在新媒體環境下,時刻記錄我們的位置數據、通話數據、網絡行為數據等可以輕易獲得,留下了數據安全的隱患。在進行大數據分析的同時,如何保護大數據的安全值得重點關注。

[1]馮登國,張敏.大數據安全與隱私保護[J].計算機學報,2014(1):246-258.

[2]馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013(2):10-17.

[3]郭巖,白碩.網絡日志規模分析和用戶興趣挖掘[J].軟件學報,2005(9):1483-1496.

[4]范明武,瞿斌.大數據下商務智能課程體系產學結合教學研究[J].才智,2014(24):172-172.

[5]李艷玲.大數據環境下的技術變革與管理創新[J].控制工程,2014(21):142-145.

[6]歐三任.社會公共安全預警信息發布研究[J].重慶郵電大學學報:社會科學版,2013(9):107-112.

(責任編輯趙冰)

Research on Data Analysis and Application in Big Data Environment

YAO Yao
(School of Information Engineering,Zhongzhou University,Zhengzhou 450044,China)

The big data contains enormous commercial and social value.Based on the new challenges brought by the analysis and application of big data,this paper aims at expounding different analysis technology:the analysis of text,web,network and mobile data.Meanwhile,the analysis of big data and mining are also introduced in different fields such as the intelligent mining of business data and the early warning public security.

big data;text analysis;Web analysis;network analysis

10.13783/j.cnki.cn41-1275/g4.2015.01.028

TP311

A

1008-3715(2015)01-0120-04

2014-10-23

2015年度河南省高等學校重點科研項目(15A120014)

姚瑤(1982—),女,湖南保靖人,碩士,中州大學信息工程學院講師,研究方向為網絡信息技術。

猜你喜歡
文本分析
隱蔽失效適航要求符合性驗證分析
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
中西醫結合治療抑郁癥100例分析
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 无套av在线| 久久精品人人做人人爽电影蜜月| 欧美国产日产一区二区| 一本久道热中字伊人| 亚洲一区黄色| 国产精品亚洲va在线观看| 香蕉综合在线视频91| 九九这里只有精品视频| 日韩在线2020专区| 九九热精品免费视频| 风韵丰满熟妇啪啪区老熟熟女| 国产又爽又黄无遮挡免费观看 | 国产精品自拍露脸视频| 亚洲精品第1页| 99久久精品免费观看国产| 婷婷午夜影院| 中文字幕在线一区二区在线| 免费在线看黄网址| 夜色爽爽影院18禁妓女影院| 九色视频一区| 国产精品久久久久无码网站| 欧美在线综合视频| 免费观看成人久久网免费观看| 国产精品一线天| 狠狠综合久久| 99久久精品国产麻豆婷婷| 日韩A∨精品日韩精品无码| 亚洲精品日产精品乱码不卡| 国产精品一线天| 国产精品999在线| 国产在线一二三区| 久久精品中文字幕免费| 狠狠亚洲婷婷综合色香| 在线精品自拍| 99久久国产综合精品2023| 中文字幕乱码二三区免费| 亚洲美女视频一区| 国产精品欧美在线观看| 在线播放91| 超薄丝袜足j国产在线视频| 在线观看国产精品第一区免费| 狠狠ⅴ日韩v欧美v天堂| 成人午夜视频网站| 麻豆精品在线播放| 91小视频在线| 亚洲精品视频在线观看视频| 精品一区二区无码av| 国产自在线播放| 欧美激情第一区| 欧美日韩理论| 欧美中日韩在线| 久久精品91麻豆| 久久香蕉国产线看观看式| 国产一区二区三区在线观看视频| 中文无码日韩精品| 人妻中文字幕无码久久一区| 欧美视频在线观看第一页| 亚洲va视频| 久久99精品国产麻豆宅宅| 亚洲熟妇AV日韩熟妇在线| 亚洲A∨无码精品午夜在线观看| 亚洲福利视频一区二区| 欧美a在线看| 最新亚洲av女人的天堂| 欧美成人午夜视频免看| 欧美精品成人一区二区视频一| 国内嫩模私拍精品视频| 性视频一区| a级毛片一区二区免费视频| 免费国产在线精品一区| 超碰91免费人妻| 久久免费视频6| 亚洲动漫h| 日韩小视频在线观看| 国产91在线|中文| 天天综合网色| 亚洲无码在线午夜电影| 久久亚洲AⅤ无码精品午夜麻豆| 99在线视频免费观看| 制服无码网站| 波多野结衣视频一区二区 | 韩日无码在线不卡|