(四川大學商學院 四川 成都 610000)
大數據的出現依托于互聯網的發展,并很大程度上來源于互聯網,由于大數據具有重要價值,且有著巨大的隱藏價值,因此,對于大數據的關注越來越高。龐大的數據總量和共享的互聯網只是表象。數據如果能夠提煉出規律,它就擁有了更高的價值,數據能夠借助于各種各樣的工具在分析的基礎上為我們提供正確的決策,如何進行合理的挖掘和分析成了亟待考慮的問題。
在互聯網環境下,數據來源十分廣泛,也就意味著數據的多樣化,可是也容易雜,結構多樣化并且伴隨著質量不高的問題。大數據的大并不意味著數據質量的高,有些數據并不一定真實有效。除此以外,來源廣泛也意味著數據的復雜性,需要進行分析與篩選。大數據下,數據類型慢慢從單一的結構化數據轉向融合型數據,即結構化、非結構化、半結構化三者融合。傳統的數據分析無法應對如今類型眾多的數據,所以如何通過優化資源配置、重組架構等方式實現更高效率的提取信息成了一大挑戰。
大數據每時每刻都在不斷地以驚人的速度產生,信息更新換代的周期越來越短,并且面對如此巨大且仍在繼續擴大的數據規模,數據庫的存儲能力也在接受著考驗,大數據和存儲設備之間的協調如何達到平衡,如何設計出與之相匹配的存儲架構成了關鍵。若不能克服互聯網大數據的這個特點,面對從海量的數據中獲取有用信息這一想法便無法實現。
互聯網數據產生速度快也伴隨著價值的時效性強,很多數據信息是需要實時集成挖掘的,如果沒有及時處理,則會大大降低其價值甚至失去其價值,在數據類型單一的情況下進行數據實時處理是比較容易的,但是囿于其規模巨大、形式多樣的現狀,數據環境變得更加復雜,很難做到實時處理數據,系統也很難把數據全貌,提升技術手段并實現對多個領域進行數據實時挖掘,采用在線處理手段成了數據處理效率提高的關鍵。
如果從數據挖掘的具體任務實現步驟進行闡述。那么數據挖掘即是:首先,從海量數據中尋找一定的規則與邏輯,即確定數據挖掘的目標任務,明確需求;其次,根據數據挖掘需求,確定挖掘分析對象,進行數據的準備及一系列預處理動作;再次,選擇挖掘技術,建立數據模型;最后,數據規則與邏輯的展示,并得到深層的信息。無論是數據挖掘技術的方法選擇還是過程的確定,都應其應用領域的不同或者需求目標的不同而有一定的差異性,數據挖掘技術的應用可以幫助從海量數據中獲取想要的信息。
數據預處理是指在主要的處理以前對數據進行的一些處理,指的是對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理,來提高數據挖掘的質量。因為互聯網大數據大體上都是不完整且不一致的雜亂數據,無法直接進行數據挖掘,或挖掘結果差強人意。
數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。這些數據處理技術在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間。
數據挖掘在技術上的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的且人們事先不知道的,但又是潛在有用的信息和知識的過程。數據挖掘在商業上的說法是一種新的商業信息處理技術,其主要功能是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。數據挖掘是一門很廣義的交叉學科,匯聚了不同的技術,尤其是信息技術、統計分析技術等。其的主要目的是為商業決策提供真正有價值的信息,進而獲得利潤。但所有數據挖掘者面臨的一個共同問題是:互聯網數據量非常大,而其中真正有價值的信息卻很少,因此從大量的數據中經過深層分析,獲得有利于商業運作、提高競爭力的信息,就成了最大的考驗。
數據預測是一種挖掘連續取值數據并從已有數據中推斷獲得信息的一種重要方法,在對數據進行了一定處理的基礎上,通過合適預測手段建立模型以獲得目標期望值。
從商務預測的角度可以把數據預測分為定性預測和定量預測。定性預測是基于預測者的知識、經驗、綜合觀察,或者集體的智慧和直觀的材料,對事物未來發展變化的特點及變動趨勢做出主觀判斷,優點是能夠節省時間和節約費用。但是缺點則是無法準確嚴謹地把握這些因素的影響模式,無法解釋清楚和固化為具體的流程。一些常用的定性預測方法諸如:經驗判定預測法、專家意見預測法、調研判定預測法、主觀概率預測法等方法。
定量預測是指在數據挖掘的基礎上選擇和建立適當的數學模型,再使用歷史數據對模型進行訓練,根據數學模型估計預測對象在未來的狀態。這樣預測結果穩定且準確,可重復和改進,并且易于學習和交流。難點和缺點是對數據資料的質量要求高,并且對使用者提出了較高要求,需要使用者具備相應的數學、統計學、算法等知識。定量預測又可以通過原理的不同分為兩類,一類是時間序列,包括移動平均法、指數平滑、三次指數平滑、ARIMA等。另一類是因果法,包括線性回歸、非線性回歸、灰色系統預測法、馬爾科夫預測法和機器學習的方法。
數據預測是大數據最核心的應用,大數據預測的優勢體現在它把一個不容易知道的信息轉化成一個相對簡單的描述問題,并且能通過一定手段實現。從預測的角度看,大數據預測所得出的結果不僅僅得到處理現實業務簡單、客觀的結論,更能用于幫助預測者提供決策,基于收集的信息規劃進程,從而達到目的。
如在網絡營銷中,通過如爬蟲這樣的手段獲取網絡信息數據,然后有依據地進行分析、處理、挖掘,在結合現有信息和目標規劃的基礎上,選取適當手段,如回歸方法或建立神經網絡,設計模型最終獲得最佳的營銷手段及決策建議,更好地進行網絡營銷。
在基于互聯網大數據的時代,準確及時地獲取數據信息并利用處理,根據目標期望結果,配以合適的數據挖掘方法,建立模型運用預測技術得到指導性的結果,這便是互聯網大數據的真正價值所在。