劉 芬
(延安大學計算機學院,陜西 延安 716000)
現如今是大數據時代,海量的數據隨處可見,可能有真有假,可能數據不完整,可能是垃圾數據,也可能是極有價值的數據。但是這些海量的數據都有其存在的意義,數據背后必然隱藏著重要的信息和知識,所以在模糊隨機的、不完整的、有噪聲的數據中挖掘出有價值的那部分信息是十分重要的。數據挖掘,也就是通過對海量數據的分析,基本上就是自動化分析,對其進行歸納整理,提取有用信息,通過這些信息,對應用對象提供幫助。例如幫助企業或者個體用戶對市場進行重要評估,確定實施方案,根據市場政策的變化,降低投資風險,獲取更大利益,它可以幫助很多行業領域更好地應對政策的變化,提供最佳市場營銷手段,掌握最優營銷策略,制定最佳管理方案,甚至是企業面臨資金或者管理危機時,它都能夠貢獻一份力量。
對于大數據的挖掘,目前已經有許多種挖掘方法,例如回歸分析、關聯規則、神經網絡方法、Web數據挖掘以及最簡單的分類聚類等,不同方向運用不同的挖掘方式,基于目前的數據挖掘的方式方法,未來也會出現更多種可靠的方法,甚至是方法的聯用等,有很可觀的發展前景。下面對于這些方法做一個簡單的介紹。
回歸分析通過函數關系式或是關系圖表發現數據之間的關聯性,實際上是對數據所具有的一種屬性值特性的體現,可以有效地對整體數據進行預測,也是分析數據相關性的一種常用方式。例如在銷售行業領域中,常常會利用回歸分析的方式,根據本月或者本季度的銷售額進行回歸分析之后對下個月的銷售情況進行預測,及時有效地調整策略。
關聯規則的定義比較抽象,需要考慮置信度和支持度兩個概念,都在閾值范圍內,則說明兩個事務關聯性是有效的。實際上想要反映兩個事務之間的相關性,其挖掘過程有兩個階段:第一個階段是從原始的數據庫或是說原始數據集合中找到出現的頻率達到一定水平的事務組,也就是說,支持度要超過規定的最小值;第二個階段就是對關聯性分析,產生關聯規則,這里就需要考慮到置信度,二者置信度需要滿足最小置信度,才能說明具有關聯規則。例如,超市運營中常見的購物籃分析,根據顧客購物籃中出現的物品的頻率,分析它們之間的關聯性,確定哪些物品是顧客會一次性一起購買的,這也是關聯規則的起源,現在關聯規則常被用在金融行業中預測客戶的需求[1]。
神經網絡方法實際上是對動物神經系統的模仿,它的基礎有兩種,一種是M-P模型,另一種是Hebb學習規則。通過對數據的挖掘,構建神經網絡模型,累加計算或是反復迭代,最后計算權值。神經網絡的這樣一種人工智能技術,優點有許多,比如高容錯、自行學習處理,還有非線性等,使得它在處理一些不完整有漏洞的數據或是信息時能夠比較恰當地處理好,這也正是它能夠用于數據挖掘的原因之一。這種模擬人的思維的方式,在研究中有以下幾個方面:一是生命科學中,生物神經系統原型和結構,二是根據生物原型構建理論模型,三是模型的算法研究,這里就需要構建具體的一種神經網絡模型,最后是進行實際應用,例如信號探索識別,甚至是制造機器人等。
這是一種利用數據挖掘應用于Web的方式,從相關的資源中得到所需要的隱含信息,主要有三種類型:結構挖掘、內容挖掘和使用挖掘。
分類,從字面意義來看非常簡單,就是從海量的數據中找出某幾組或是某幾個數據的共同點,然后根據特點和具體的分類模式對其進行分類。這種分類技術可以運用到未來數據的預測當中,例如,超市根據產品的購買情況進行分類,再根據分類情況選擇可以對消費者推薦的關聯產品,以此來增加銷售業績。和分類相似的另一種叫做聚類,但實際上也有差別,這里需要強調的就是聚類中相似特點的產品關聯性很大,而對于不同類別的產品數據,特點的相似性很小,關聯性就很低。也就是說,聚類強調的是不同類別的產品關聯性低[2]。
現如今信息技術發展迅速,而檔案的管理對象也逐漸增加,利用數據挖掘技術,建立一個檔案管理的系統,對處理對象的檔案進行有效的歸納整理有極其重要的意義。利用以上介紹的數據挖掘方法,實現檔案的有效分類,檔案數據快速搜索。可以先構建一種數據分布的結構模型,接著對數據進行分類整理,尋找數據特性并對數據對象進行關聯性的處理,對數據進行挖掘,最后進行一個監測分析,根據以往的眾多研究表明,利用數據挖掘對檔案進行管理,可以有效提高安全性,同時檔案的檢索速度有了相應的提高。
類似于淘寶京東的電子商務在市場上占有重要地位,消費者頻繁地交易使得電子商務成為了一種重要的消費手段,交易方式簡單,基本可以人人都會,也為消費者購買商品提供了便利條件,受到廣大消費者的歡迎。
電子商務上,數據挖掘尤其是Web挖掘的應用是非常廣泛的。之前有提到Web挖掘是利用Web從相關資源中找到隱含信息,例如從網絡用戶的瀏覽記錄數據、電子商務中的購買記錄數據找到客戶主要需求,找到他們的主要興趣,然后利用這些數據,做出相應的調整改善,推出客戶最感興趣的產品,提高產品銷量,創造銷售業績[3]。
數據挖掘技術現在快速發展,在世界范圍也有廣泛應用,因此需要對這個技術的方法、過程、應用等有充分的認識和了解,從而更好地深入研究和開發應用,對于數據挖掘面臨的挑戰,才能有更好的解決方案,為人類生活作出更大貢獻。
[1]周碧珍.淺析計算機數據挖掘技術在檔案信息管理系統中的應用[J].黑龍江科技信息,2009(1):208.
[2]李智勇.數據挖掘在計算機網絡病毒防御中的應用探究[J].電子測試,2014(12):46-48.
[3]應用Web數據挖掘技術進行電子商務的分析[J].電子技術與軟件工程,2014(7):216-217.