999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向社會(huì)化商務(wù)的大數(shù)據(jù)分析系統(tǒng)研究方法

2018-05-21 08:46:30孫志剛
科學(xué)與財(cái)富 2018年7期
關(guān)鍵詞:數(shù)據(jù)分析數(shù)據(jù)處理數(shù)據(jù)挖掘

孫志剛

摘 要: 本文圍繞社會(huì)化商務(wù)呈現(xiàn)出的分析型應(yīng)用需求,根據(jù)多源異構(gòu)大數(shù)據(jù)特點(diǎn),設(shè)計(jì)合理的數(shù)據(jù)結(jié)構(gòu)和索引結(jié)構(gòu)。將對(duì)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進(jìn)行重新設(shè)計(jì),提出了更多地采用基于磁盤的算法、增量算法、近似算法、和隨機(jī)算法,使數(shù)據(jù)挖掘技術(shù)真正適于大數(shù)據(jù)計(jì)算,大數(shù)據(jù)計(jì)算真正能服務(wù)于社會(huì)化商務(wù)智能。同時(shí)將基于已有計(jì)算模型,通過模型的融合、優(yōu)化、耦合,設(shè)計(jì)并實(shí)現(xiàn)具有高擴(kuò)展性、高性能、跨異構(gòu)數(shù)據(jù)的大數(shù)據(jù)計(jì)算框架。

關(guān)鍵詞: 大數(shù)據(jù);NoSQL;數(shù)據(jù)挖掘;數(shù)據(jù)分析;數(shù)據(jù)處理

一 研究目的和意義

融合社會(huì)網(wǎng)絡(luò)的社會(huì)化商務(wù)比傳統(tǒng)電子商務(wù)更為復(fù)雜,更迫切需要借助面向大數(shù)據(jù)的商務(wù)智能技術(shù),才能有效實(shí)現(xiàn)一系列智能化電子商務(wù)應(yīng)用,包括:海量客戶關(guān)系管理、個(gè)性化推薦、口碑營(yíng)銷和精準(zhǔn)廣告投放等。而幾乎所有的基于數(shù)據(jù)挖掘、處理和分析的商務(wù)智能技術(shù)無不與底層多源異構(gòu)大數(shù)據(jù)存儲(chǔ)、管理和分析密切相關(guān)。本文面向社會(huì)化商務(wù)這一新興應(yīng)用之需求,對(duì)適應(yīng)大數(shù)據(jù)計(jì)算的數(shù)據(jù)挖掘分析、處理兩個(gè)層面的若干關(guān)鍵技術(shù)問題展開描述。

世界范圍的信息化變革使得幾乎每個(gè)行業(yè)都面臨著大數(shù)據(jù)(Big Data) 問題。社會(huì)媒體、云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興應(yīng)用的逐步推廣,進(jìn)一步加劇了大數(shù)據(jù)的井噴態(tài)勢(shì),讓大數(shù)據(jù)挑戰(zhàn)成為一個(gè)迫在眉睫的問題。大數(shù)據(jù)是蘊(yùn)含各類敏感信息和商業(yè)價(jià)值信息等的流動(dòng)的“新石油”,是涉及國(guó)家安全的戰(zhàn)略資產(chǎn)。

隨著Web 2.0理念的逐漸深入和社會(huì)網(wǎng)絡(luò)的欣欣向榮,電子商務(wù)正在向著社會(huì)化商務(wù) (social commerce)過渡。大型電子商務(wù)系統(tǒng)的用戶和交易積累數(shù)據(jù)量和增量已經(jīng)相當(dāng)驚人,如淘寶每天新增數(shù)據(jù)量已超過20TB;社會(huì)網(wǎng)絡(luò)則已成為全民盛宴,如全球最大的社會(huì)網(wǎng)絡(luò)Facebook注冊(cè)用戶數(shù)達(dá)8億多,成為排在中國(guó)和印度之后的全球人口第三大社會(huì)。融合社會(huì)網(wǎng)絡(luò)的社會(huì)化商務(wù)比傳統(tǒng)電子商務(wù)更為復(fù)雜,更迫切需要借助面向多源異構(gòu)大數(shù)據(jù)的商務(wù)智能技術(shù),才能有效實(shí)現(xiàn)對(duì)海量用戶的客戶關(guān)系管理,進(jìn)行最有效的口碑營(yíng)銷和精準(zhǔn)廣告投放,并實(shí)現(xiàn)快速準(zhǔn)確的戰(zhàn)略和戰(zhàn)術(shù)決策。

二 現(xiàn)有研究基礎(chǔ)和條件

近年來,我們?cè)跀?shù)據(jù)挖掘、社會(huì)網(wǎng)絡(luò)分析及商務(wù)智能應(yīng)用做了大量的基礎(chǔ)研究工作,具體包含以下幾個(gè)方面:

方向一:數(shù)據(jù)挖掘

我們對(duì)余弦興趣模式挖掘進(jìn)行了深入研究,證明了余弦興趣度滿足條件反單調(diào)性 (CAMP, Conditional Anti-Monotone Property),進(jìn)而提出基于FP樹的余弦興趣模式挖掘方法CosMinert,給出CosMinert挖掘余弦興趣模式的例子,CosMinert能同時(shí)利用支持度和余弦興趣度進(jìn)行剪枝,大幅度提升了余弦興趣模式挖掘的效率,并能有效發(fā)現(xiàn)稀有的興趣模式。

方向二:社會(huì)計(jì)算

在對(duì)大規(guī)模社會(huì)網(wǎng)絡(luò)抽取問題開展研究后,提出近似等價(jià)結(jié)構(gòu)(Asymptotically Equivalent Structure, AES)來刻畫局部結(jié)構(gòu),近似等價(jià)結(jié)構(gòu)與其他等價(jià)結(jié)構(gòu)的思想類似:公共鄰居越多的節(jié)點(diǎn)越相似,這些節(jié)點(diǎn)組成緊耦合局部結(jié)構(gòu)。抽取出的點(diǎn)就定義為被近似等價(jià)結(jié)構(gòu)包含的節(jié)點(diǎn)。AES定義減輕了挖掘等價(jià)結(jié)構(gòu)、clique的計(jì)算復(fù)雜性,因?yàn)橥诰?AES可以歸化為余弦興趣模式挖掘,從而借助于研究成果CosMinert來解決。

方向三:數(shù)據(jù)及系統(tǒng)安全

我們對(duì)推薦系統(tǒng)托攻擊(shilling attack)檢測(cè)進(jìn)行深入全面的研究,這對(duì)提高系統(tǒng)安全性和健壯性具有重要意義。首先,分析了十種類型托攻擊對(duì)不同協(xié)同過濾算法產(chǎn)生的危害性,定義托攻擊檢測(cè)的一系列指標(biāo),提出一種特征選擇算法,這種特征選擇方法能有效提高監(jiān)督學(xué)習(xí)檢測(cè)器的性能。其次,提出一種基于半監(jiān)督學(xué)習(xí)的推薦系統(tǒng)托攻擊檢測(cè)算法,使用樸素貝葉斯分類器作為初始分類器,再用EM-算法來改進(jìn)分類器。

三 主要研究?jī)?nèi)容

(1) 面向社會(huì)化商務(wù)應(yīng)用的NoSQL數(shù)據(jù)庫(kù)管理關(guān)鍵技術(shù)

社會(huì)化商務(wù)應(yīng)用外延極廣,將涉及大規(guī)模多源異構(gòu)數(shù)據(jù)。研究?jī)?nèi)容致力于解決社會(huì)化商務(wù)涉及到的多源異構(gòu)大數(shù)據(jù)的存儲(chǔ)問題,RDBMS僅能滿足傳統(tǒng)商務(wù)交易數(shù)據(jù)存儲(chǔ)需求,對(duì)于大部分NoSQL類型的數(shù)據(jù),需借助于NoSQL數(shù)據(jù)庫(kù)。大數(shù)據(jù)存儲(chǔ)的基礎(chǔ)上,集成大數(shù)據(jù)預(yù)處理和分析的共性模塊,結(jié)合計(jì)算模型,高效提供大數(shù)據(jù)共性計(jì)算服務(wù)。

A. 社會(huì)化商務(wù)需求分析

社會(huì)化商務(wù)系統(tǒng)是一個(gè)多源異構(gòu)復(fù)雜系統(tǒng),必須廣泛借助商務(wù)智能技術(shù)才能實(shí)現(xiàn)其社會(huì)化戰(zhàn)略。本研究立足于兩個(gè)典型社會(huì)化商務(wù)應(yīng)用需求展開:1) 推薦系統(tǒng):除了利用用戶評(píng)分或產(chǎn)品屬性實(shí)現(xiàn)傳統(tǒng)的協(xié)同過濾或基于內(nèi)容的推薦外,更重要的是結(jié)合社會(huì)網(wǎng)絡(luò)信息進(jìn)行社會(huì)化推薦,而這就需要跨平臺(tái)大數(shù)據(jù)的聯(lián)合分析;2) 網(wǎng)絡(luò)口碑營(yíng)銷:借助商品評(píng)論系統(tǒng),企業(yè)實(shí)現(xiàn)了初步的口碑營(yíng)銷,但借助聯(lián)系更為緊密的消費(fèi)者社會(huì)網(wǎng)絡(luò),企業(yè)則可以實(shí)現(xiàn)廣告的精準(zhǔn)投放和無縫的客戶關(guān)系管理,從而實(shí)現(xiàn)真正的網(wǎng)絡(luò)口碑營(yíng)銷。

B. NoSQL分布式數(shù)據(jù)庫(kù)數(shù)據(jù)模型及索引結(jié)構(gòu)設(shè)計(jì)

電子商務(wù)交易數(shù)據(jù)可以利用RDBMS進(jìn)行管理,但對(duì)于文本數(shù)據(jù)、圖數(shù)據(jù)、點(diǎn)擊流數(shù)據(jù)等半/無結(jié)構(gòu)化數(shù)據(jù),則需訴諸于NoSQL技術(shù)。各類NoSQL技術(shù)在設(shè)計(jì)的時(shí)候,考慮了一系列新的原則,首要的原則就是如何對(duì)大數(shù)據(jù)進(jìn)行高效、可擴(kuò)展的存取操作,這對(duì)于微博平臺(tái)等寫入操作密集的應(yīng)用而言尤為重要。目前較為流行的NoSQL數(shù)據(jù)模型包括鍵/值模型,以及基于鍵/值模型的列存儲(chǔ)模型和文檔存儲(chǔ)模型。盡管這些數(shù)據(jù)模型都較好地滿足了可擴(kuò)展性要求,但和關(guān)系模型相比仍存在許多數(shù)據(jù)管理方面的不足,如對(duì)查詢操作的支持較弱、索引結(jié)構(gòu)較為復(fù)雜等。

C. 大規(guī)模異構(gòu)數(shù)據(jù)預(yù)處理技術(shù)

大規(guī)模異構(gòu)數(shù)據(jù)來源于多個(gè)數(shù)據(jù)源的未被加工、高維、冗余、含有噪音且非均勻分布的復(fù)雜數(shù)據(jù),在數(shù)據(jù)模型、含義、模式、結(jié)構(gòu)和語義上存在不一致性和沖突,因此需要研究大規(guī)模異構(gòu)數(shù)據(jù)預(yù)處理技術(shù),為進(jìn)一步實(shí)施挖掘和分析奠定基礎(chǔ)。

(2) 適應(yīng)大數(shù)據(jù)計(jì)算的數(shù)據(jù)挖掘、分析、處理關(guān)鍵技術(shù)

傳統(tǒng)數(shù)據(jù)挖掘技術(shù)更關(guān)注解決模型學(xué)習(xí)問題,與底層的數(shù)據(jù)管理銜接不緊。但當(dāng)面對(duì)多源異構(gòu)半結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù)時(shí),大規(guī)模數(shù)據(jù)遷移成本極高、完全內(nèi)存計(jì)算容易導(dǎo)致空間不足,因此,亟需對(duì)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進(jìn)行重新設(shè)計(jì),使之適應(yīng)大數(shù)據(jù)計(jì)算。本部分將沿著兩條途徑解決這一難題:1) 從內(nèi)在角度,研究高擴(kuò)展性數(shù)據(jù)挖掘算法;2) 從外在角度,借助于分布式計(jì)算框架,擴(kuò)展現(xiàn)有典型框架包括BSP和MapReduce,使之更加適合大數(shù)據(jù)的挖掘與分析。

A. 高擴(kuò)展性數(shù)據(jù)挖掘算法研究

針對(duì)大數(shù)據(jù)規(guī)模大、更新快的兩個(gè)特征,需著重如何將完全基于內(nèi)存的、迭代的批量算法調(diào)整為基于磁盤的、增量的算法。同時(shí),商務(wù)智能的實(shí)現(xiàn)依賴于分類、聚類、關(guān)聯(lián)規(guī)則等不同方面的數(shù)據(jù)挖掘算法,而且并不是每種算法都適合于向基于磁盤的、增量的算法擴(kuò)展。

B. 基于磁盤存儲(chǔ)的擴(kuò)展BSP模型設(shè)計(jì)

BSP將待處理數(shù)據(jù)存儲(chǔ)在內(nèi)存,清晰分割計(jì)算任務(wù)和通信任務(wù),提供一種可編程性極佳的分布存儲(chǔ)MIMD計(jì)算模型,特別適于大數(shù)據(jù)高性能分析。很多實(shí)際系統(tǒng)如Pregel、Giraph、Hama等,都是基于BSP開發(fā)的。盡管BSP在迭代計(jì)算控制和可編程性方面具有優(yōu)勢(shì),但是,BSP目前僅支持內(nèi)存存儲(chǔ)數(shù)據(jù),缺乏對(duì)磁盤存儲(chǔ)數(shù)據(jù)的支持,這是制約BSP用于大數(shù)據(jù)計(jì)算的關(guān)鍵因素。

C. 面向大數(shù)據(jù)的MapReduce存儲(chǔ)優(yōu)化與數(shù)據(jù)類型支持

與BSP模型不同,MapReduce將待處理數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng),將作業(yè)分為本地計(jì)算的Map任務(wù),以及合并Map任務(wù)結(jié)果的Reduce任務(wù),MapReduce因其高度的可擴(kuò)展性和容錯(cuò)性呈現(xiàn)出強(qiáng)大的生命力。MapReduce設(shè)計(jì)初衷是處理半/無結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)商務(wù)交易數(shù)據(jù)卻利用結(jié)構(gòu)化模型存儲(chǔ),而很多應(yīng)用經(jīng)常需綜合使用結(jié)構(gòu)化和半/無結(jié)構(gòu)化數(shù)據(jù)。因此,需要研究MapReduce支持的數(shù)據(jù)類型擴(kuò)展機(jī)制。同時(shí),還需對(duì)MapReduce存儲(chǔ)優(yōu)化展開研究。

猜你喜歡
數(shù)據(jù)分析數(shù)據(jù)處理數(shù)據(jù)挖掘
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營(yíng)銷策略
新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷模式的影響
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
主站蜘蛛池模板: 91美女视频在线观看| 伊人AV天堂| 国产精品va免费视频| 午夜影院a级片| 亚洲午夜综合网| 精品福利视频导航| 国产性爱网站| 久久美女精品国产精品亚洲| 日韩精品成人在线| 老司机精品一区在线视频| 久久成人免费| 最新国产网站| 中国一级特黄视频| 综合网天天| 狠狠久久综合伊人不卡| 国产精品.com| 在线视频亚洲色图| 九九久久精品免费观看| 99久久国产精品无码| aaa国产一级毛片| 天天综合网亚洲网站| 国产美女精品人人做人人爽| 高清精品美女在线播放| 国产精品自在在线午夜| 亚洲狠狠婷婷综合久久久久| 国产免费怡红院视频| 亚洲国产成人精品青青草原| 她的性爱视频| 国产在线观看第二页| 综合色亚洲| 国产成人综合在线观看| 国产亚洲欧美另类一区二区| 亚洲精品无码高潮喷水A| 精品国产一区二区三区在线观看| 色成人综合| 日韩一级二级三级| 毛片基地视频| 日韩在线2020专区| 国产无码在线调教| 日本久久免费| 国产精品综合久久久| 国产精品va免费视频| 九色91在线视频| 亚洲欧美人成人让影院| 亚洲国产欧美目韩成人综合| 中文字幕久久亚洲一区| 欧美日韩精品一区二区视频| 女高中生自慰污污网站| 谁有在线观看日韩亚洲最新视频| 国产无遮挡裸体免费视频| 国产日本欧美在线观看| 欧美在线综合视频| 视频一区视频二区中文精品| 欧美日韩一区二区三区四区在线观看| 久久国产免费观看| 2021最新国产精品网站| 无码中文字幕精品推荐| 久久精品视频一| 91久久偷偷做嫩草影院精品| 国产在线98福利播放视频免费| 亚洲天堂精品在线观看| 日本在线国产| 九一九色国产| 免费一级无码在线网站| 国产玖玖玖精品视频| 国产欧美日韩视频怡春院| 天天躁狠狠躁| 亚欧成人无码AV在线播放| 免费无码网站| 欧美国产综合视频| 国产玖玖视频| 欧美激情伊人| 波多野结衣爽到高潮漏水大喷| 国产精品 欧美激情 在线播放| 日韩一区二区三免费高清| 亚国产欧美在线人成| 国产99热| 色AV色 综合网站| 国产成人1024精品下载| 91娇喘视频| 蜜芽一区二区国产精品| 国产凹凸视频在线观看|