龔松杰+林婉怡
摘要:在電子商務教學與應用中,很多內容已經在向大數據的方向前進,用大數據進行分析和總結,教學效果可以由大數據分析總結出來。因此,在這個大數據化的時代,不與大數據有一定關聯性,很可能會被社會所淘汰。本文研究了在電子商務教學中,大量的微博和微信內容,進行大數據挖掘研究。
關鍵詞:電子商務;大數據;挖掘
1 引言
電子商務已經成為中國戰略性新興產業中的一個重要組成部分,代表了全球信息經濟的發展趨勢。隨著電子商務的發展,出現了基本問題,如支付和分配,雙方的信任和聲譽,這些已成為了電子商務和電子服務發展的瓶頸。在虛擬市場中,信任的缺失、信任危機和信任狀況的惡化等問題越來越嚴重。
Web2.0技術的應用和發展為表達自己的欲望和感情的用戶提供了豐富的渠道和方式。各種各樣的人通過網絡、網站、博客、微博、微信等發表評價商品,產品和服務的意見。特別是,微博和微信在電子商務的應用領域中,提供了一種人們可以表達各種物品的感情,業務和服務渠道。這種用戶評價和微博客評論已成為一種形式,所有的用戶都可以發布、關注、評價、評論和分享信息。用戶微博客的信息和數據和電子商務的意見和評價不僅包括結構化、半結構化和非結構化的數據,還包括文本、鏈接、圖片、音頻和視頻內容,電子商務發展迅猛。信息和數據的快速膨脹。通過數天和數月的時間逐漸形成了大量的數據,大容量和復雜的結構,還有各種類型的大數據。
2 微博和微信
微博起源于新浪媒體,是一個社會媒體平臺,微信是一個社交平臺。吳軍先生在《浪潮之頂》中提到的企業基因,認為新浪是一個網絡媒體,而騰訊是社交軟件和聊天工具,所以它也決定了兩種產品的方向。微博客是社會媒體的核心,還具有社會功能;社交工具的本質,還有一些媒體的功能。微博作為一種媒體工具,關系主要建立在興趣上,關系質量薄弱,更多的是單向傳播,更多的是注重傳播速度和內容的公開,這些信息很快就能在微博上傳播。微信是一個社交工具,是在社會關系的恢復,關系主要在社交上,關系質量強大,更多的是雙向的關系,關注的是私人之間的交換和互動內容,信息傳播的速度不是很快,但觀眾的消化率很高。
舉一個例子,同樣的內容,在微信上的評論和回復要比在微博多很多,一個可見的關系,在你的生活中有很多的關系,微博客是單向的或更多一些的人之間的關系,看到和接受的信息,是不愿意花時間復習和反饋的,因為是一個單向的關系。
微博和微信這兩種產品的優劣長短,在核心業務上沒有直接的沖突。就像在互聯網時代之前,你也得看電視,或者打個電話。微博要做的是媒體,主要是賣廣告;社會和銷售增值服務平臺。雖然微博也有很多做平臺的行動:微博支付等等,但是,更多的是有關媒體的。吳軍的企業基因決定論中,認為新浪的基因是深的,而騰訊的基因則更純,在未來聯想微信產品方面有更多的空間。
3大數據關聯規則挖掘
關聯規則挖掘的過程主要包括兩個階段:第一階段必須從數據集合中找出所有的高頻項目組,第二階段是從這些高頻項目組中生成關聯規則。關聯規則挖掘的第一階段必須從原始數據集中找出所有的高頻項目。高頻意味著一個項目組的頻率相對于所有的記錄必須在一定的水平。
關聯規則挖掘的第二階段是生成關聯規則。從高頻項目組產生關聯規則,將產生高頻率的項目的規則,在最小置信度閾值的條件下,所得到的規律和最小的可靠性就是關聯規則。
首先,我們必須設置最小支持度和最小信任度兩個閾值。因此,滿足超市的要求的關聯規則將在同一時間滿足上述兩個條件。如果在挖掘過程中發現的關聯規則符合下列條件,可接受生成關聯規則。
1 Apriori算法
Apriori算法是一種最具影響力的挖掘布爾關聯規則的算法。核心是一個在遞歸算法的基礎上的兩個階段的頻率集理論。關聯規則屬于一維,一層,布爾關聯規則。在此,所有的支持度都大于最小支持度。
該算法的基本思想是找出所有的頻率集,就是相同的最小支持度。然后,通過頻率集,產生關聯規則,它必須滿足最小支持度和最小置信度。然后,第一步是用找到所需的規則所產生的所有規則,其中只包含一組條款,只有一個在這里使用的每一個規則的權利之一。一旦生成這些規則,只有那些大于用戶給定的最小信任度的規則被留下。為了生成所有的頻率集,使用遞歸的方法。可能會產生大量的候選集,以及可能需要重復掃描數據庫,這是Apriori算法的主要缺點。
2 頻集算法
雖然Apriori的算法有缺陷,但Han J.提出了不產生候選頻繁項集挖掘的方法:FP樹算法采用分而治之的策略,在首次掃描數據庫時,將頻率集壓縮成一個FP樹(樹),與他們相關的信息分化為條件FP樹庫,再將每個庫的頻率設定到長度為1。條件為開采基地,當原始數據量大時,也可以結合劃分的方法,使FP-tree可以放入內存。實驗表明,和Apriori算法進行比較,FP增長有不同長度的規則,適應性好,具有良好的效率。
3.劃分算法
劃分算法是一個基于分區的算法。該算法首先將數據庫邏輯上劃分為幾個不相交的塊,每個塊單獨考慮它生成所有的頻繁集,然后將產生的頻率集,用于生成所有可能的頻率集,最后計算項集。塊大小的選擇在這里可以使每個塊被放入到主存儲器中,每個階段只是一個掃描。并且該算法至少保證在一個塊的頻率集的正確性。該算法可以是高度并行的,而且每個塊可以被分配到一個處理器,然后產生頻率集。在生成集的每個周期后,處理器與處理器通信會產生一個全局候選項集。通常通信過程是算法執行時間的主要瓶頸,而另一方面,每個處理器的時間也是一個瓶頸。
4 結束語
在這個大數據時代,如果沒有和大數據有一定的相關性,很有可能會被社會淘汰。本文是對電子商務教學以及大量的微博和微信內容,開展了大數據挖掘研究。
參考文獻:
[1] 高海建.基于大數據視角的電子商務產業研究[D].首都經濟貿易大學,2015.
[2] 韋偉.大數據背景下的微博在高校管理中的作用[J].高教學刊,2015(24):147-148.
[3] 時妍婧,張麗.大數據時代微信營銷的創新方式探析[J].電子商務,2015(8):31-32.
[4] 沈志榮.基于大數據的社會化媒體營銷研究[D].北京化工大學,2015.
[5] 孟肖虎.大數據技術在新媒體產業中的應用[J].科技視界,2015(5):383-383.