999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的認識與分析

2017-08-02 09:10:57合肥工業大學王勝利
電子世界 2017年14期
關鍵詞:數據挖掘語義規則

合肥工業大學 王勝利

基于大數據的認識與分析

合肥工業大學 王勝利

在前些年里,由于云計算等新型技術的出現,使得人類的生產生活方式發生了根本性轉變,同時這些技術的發展使得人們匯聚、存儲和處理數據的能力超過以往,因此提取有價值信息的能力也在日益提高,開啟了大數據的大門。電子商務、互聯網、社交媒體、數碼設備、物聯網的快速發展推動了數據的增長,人類已經真正進入到大數據時代,“大數據”概念的出現逐漸成為了一種發展趨勢,必將帶動人類朝著一個更加有利的方向發展。

SEMANMR架構;代價估計;數據挖掘

0 引言

自從出現“云”的概念進入云的時代以來,全世界的各個國家各個領域保存了大量的數據,這些海量的數據使得三個方面發生了巨大的變化。其一是大數據的硬件由原來的單機系統變成現在多機系統即分布式處理系統,所以并行編程及其模型將是研究的重點;其二就是數據的表示即大數據流處理規則和語義描述;其三,就是大大的促進數據挖掘技術的改善。因此我將從上述三個方面做出討論。

1 基于大數據的并行編程及其模型

大數據的整個處理過程是基于分析模型SEMANMR而產生的。一般處理流程為用戶提交SEMANMR作業,分配到線程池,通過基于語義的作業調度完成調度,形成線程池,存放到SLAVES里面,通過SEMANMR控制器實現控制,最后將計算結果放入緩存器,存入本地文件,返回給用戶即可,這個處理流程是大數據處理的核心過程,具體流程如圖1所示。

在整個系統實現過程中,包含了幾大關鍵技術:

1.1 S E MA N MR交互方法

該交互方法主要相對于傳統交互方法而言具有極大的優越性,傳統交互方法即HADOOP與其框架MAPREDUCE交互規則為每發送一個信息就產生一個響應應答信息(TRACKER到TOBTRACKER PING),這樣產生的直接后果就是JOBTRACKER一直在處理發過來的信息且忙于應答,交互效率及其低下。而SEMANMR采用一種交換角色的方法,將發送更換為JOBTRACKER(只需要發送一條PING消息),正常的TRACKER接收者不產生應答消息,只有當該接收者出現錯誤時才產生應答消息,具體流程圖如圖2所示。

圖1 具體流程圖

圖2 具體流程圖

1.2 S E MA N MR中基于語義的調度算法

在這個架構實現過程中,作業調度是實現有序操作的關鍵,主要將MASTER集群的M臺節點里面的很多作業分配到相應的作業緩存池,現在一般采用二維數組的方式存儲,當然也可以采用一維數組存儲,只是訪問方式比較繁瑣,采用二維數組結構設定如下:

線程池一:{M[1][1],M[1][2],M[1][3]…………M[1][n]}

線程池二:{M[2][1],M[2][2],M[2][3]…………M[2][n]}

…………………

上述線程池里面的每個任務只要滿足優先排序語義規則、負載均衡、故障調度、語義調度四個規則即可完成SEMANMR調度。

2 基于大數據流處理的規則

對于數據流語義規則的描述。在SEMANMR里面一般采用規則節點圖形化模型表示,而描述對于數學而言一般采用計算的方法,所以計算規則節點相關參數成為了該部分的關鍵。相對于離散數學而言,規則節點計算基本保持了離散數學對于笛卡爾積等關系運算的實用性。主要包括流量計算和代價分析。

流量計算:主要以規則交點集為計算目標,設有N個入度,稱為L1,L2…..LN,同時設出度流量為M,則:

其中規則交集流量節點入度一般大于三,即L1,L2,L3……..,一般對于最小流量而言,只要其中條件有一個不滿足,則M=0;對于最大流量而言,若均滿足條件,則:

對于規則聯合節點而言,出度流量的計算一般是入度與聯合操作參數的乘積,設規則聯合入度有二個即X1、X2,聯合條件一般為關系運算“或”,根據最小最大流量分析,可得到聯合操作參數的取值集和為:

所以只要滿足上述取值,則可以得到C=(X1+X2)*V。

代價分析主要是基于上述規則交點集流量計算而推導的代價的分析。計算規則節點代價雖然有多種模式,但是其一般模型為Cost(A)=Cost(B)+Cost(C),其中A為各種節點或者節點集,B一般是搜索手段采用遍歷,C一般為比較選擇判斷,從而計算出各種節點的代價。

其中重要的是規則聯合節點計算,仍然設N個入度,稱為L1,L2…..LN,V為節點的可聯合性,P設為遍歷一次的時間(也可以設為多次遍歷的時間,因為一次時間太小,不利于統計),I為一次的總時間,則可以得到:

代價相對而言還是容易估計的這對于我們選擇合適的節點度量其代價,設計出代價相對較小的數據處理而言具有重要的意義。

3 數據挖掘技術的演變

由于數據復雜程度增加,因此必須發現數據之間的相互關系,使得數據大致滿足一定的規律,因此數據分析將變得尤其重要。一個極好的算法可以大大優化代碼,提高數據關聯度。目前國際上主要使用:分類算法、聚類算法、關聯算法等等。其中比較有難度的就是關聯規則算法,該算法是用兩個概率公式衡量的:

這兩個公式目前對于關聯規則的數據挖掘具有特別重大的意義。

4 結束語

通過對大數據的具體任務的分析,必須了解處理海量數據的方式方法。大數據云計算目前展現出了計算機前所未有的活力,各個行業數據云集,促進了計算機產業、數據分析、數據挖掘等技術的出現,在將來大數據必將以海量化、多樣化、速度化、價值化面向世界。

[1]毛國君.數據挖掘原理與算法[M].清華大學出版社,2017.

[2]賈雙成,王奇.數據挖掘技術核心揭秘[M].機械工業大學出版社,2016.

猜你喜歡
數據挖掘語義規則
撐竿跳規則的制定
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
語言與語義
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規則對我國的啟示
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
一種基于Hadoop的大數據挖掘云服務及應用
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产女人在线| 日日拍夜夜操| 亚洲色图另类| 亚洲AV成人一区二区三区AV| 蜜臀AV在线播放| 最新日韩AV网址在线观看| 看av免费毛片手机播放| AV无码国产在线看岛国岛| 在线网站18禁| 亚洲V日韩V无码一区二区| 亚洲高清中文字幕在线看不卡| 日韩精品久久久久久久电影蜜臀| 91精品视频在线播放| 色综合婷婷| 日韩不卡免费视频| 国产一区二区视频在线| 中文无码影院| 国产精品三区四区| 国产精品理论片| 国产精品手机在线播放| 免费在线国产一区二区三区精品| 亚洲香蕉在线| 欧美日本二区| 日韩乱码免费一区二区三区| 91国内在线观看| 午夜老司机永久免费看片| 呦女亚洲一区精品| 亚洲国模精品一区| 999国内精品视频免费| 亚洲天堂2014| 久久香蕉国产线看观看亚洲片| 欧美色99| 国产精品精品视频| 亚洲欧洲日韩综合| 国产粉嫩粉嫩的18在线播放91| 欧美区一区| 波多野结衣视频网站| 亚洲免费福利视频| 制服丝袜亚洲| 亚洲精品爱草草视频在线| 一区二区欧美日韩高清免费| 老司机午夜精品视频你懂的| 99久久国产综合精品2020| 18禁黄无遮挡免费动漫网站| 欧美黄色a| 亚洲第一成网站| 九九热这里只有国产精品| 国产精品思思热在线| 久久精品欧美一区二区| 欧美色视频日本| 久久国产V一级毛多内射| 曰韩人妻一区二区三区| 欧美va亚洲va香蕉在线| 99精品一区二区免费视频| 91色在线视频| 在线精品亚洲国产| 亚洲91精品视频| 久久成人国产精品免费软件| 日韩第九页| 国产在线日本| 97视频精品全国免费观看| 亚洲综合精品香蕉久久网| 好吊色妇女免费视频免费| 欧美在线综合视频| 国产区成人精品视频| 精品国产成人a在线观看| 国产精品欧美亚洲韩国日本不卡| 亚洲无码视频喷水| 欧美亚洲国产视频| 免费无码网站| 成人福利在线看| 亚洲免费黄色网| 国产精品免费福利久久播放| 亚洲欧洲日韩综合色天使| 国产欧美日韩另类精彩视频| h网站在线播放| 夜夜高潮夜夜爽国产伦精品| 日本一本在线视频| 色国产视频| 欧美国产菊爆免费观看| 国产真实二区一区在线亚洲 | 国产网站免费观看|