劉樹寶
摘要:由于現代科技的發展,網上的各類信息數據越來越多,面對這些海量數據,數據挖掘技術得以開發和發展。數據挖掘技術可以將大量數據信息進行處理從而輸出想要的結果,其中融合了多種算法。相比于傳統方法,具有一定的可行性和優越性。該文主要是分析數據挖掘技術相關的開發和應用,探究數據挖掘技術的工作流程和所帶來的貢獻。
關鍵詞:數據挖掘技術;開發;應用
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2020)15-0057-02
隨著“大數據”時代的到來,海量的信息數據給用戶和商家都帶來了不必要的麻煩,然而,數據挖掘技術的出現緩解了這個麻煩的問題,因此,數據挖掘技術越來越被各行各業的研究人員重視。
1大數據中的數據挖掘技術
1.1大數據的現狀
從現在來看,大數據無非是指的來自各個商業或是平臺的海量信息,對于現有的傳統數據庫無法表示或是處理這些過載的信息。隨著時間和技術的進步,信息匱乏的時代已經結束,隨之而來的是“海量數據”或是“信息過載”等爆炸式信息涌來,這便是大數據的到來,一些文章中對大數據做了定義,大數據指的是各種類型的數據集組合在一起的大數據集合。
由于這些大量數據的出現,給人們帶來了很多不必要的麻煩,例如,我想要看一部電影,我打開一些電影方面的網站,發現有海量的電影數據,我無法找到比較心儀的一部電影,對我造成了很大的困擾。如何處理這些數據成為如今將要解決的問題,由于大數據所包含的范圍很大,它包含了很多傳統數據分析工具很難處理的問題,因此,數據挖掘技術被提出用于緩解大數據所造成的困擾。
1.2數據挖掘技術
數據挖掘技術指的是結合現有的數據集,分析數據并在其中挖掘一些對我們有益的信息或是規則。并且,數據挖掘技術給各行各業都帶來了便利,例如:需求比較大的物聯網,互聯網平臺等。數據挖掘技術通過分析和處理大數據,能夠幫助平臺精準的預測或是推薦一些信息數據。
數據挖掘技術通過發掘數據庫中的大量信息來獲取平臺或是商家所需要的信息。雖然數據挖掘技術融合了很多種復雜算法,但是它遵循著一套總體的流程或是規則。在運行的時候,各個算法按著秩序分工合作從而擺脫了很多麻煩,達到自己的目標。數據挖掘技術一般分為三個階段,分別是翻譯數據、預處理數據和分析數據建模。其中,翻譯數據其實就是轉換數據的意思,將數據做轉換使其在計算機允許的格式范圍內,在這個階段中,會選擇一些有價值的數據供后續使用;預處理數據階段對上一步所篩選和轉換的數據進一步初始化,提高數據質量,保障后續工作高效運行,不會因為數據問題干擾后續工作;后面是對數據的建模,根據實際所提出的需求,對上面處理后的數據進行分析和建模,發現其中所存在的規則,這些數據會遵循這些規則所運行,得出最后的結果。
總之,數據挖掘技術是針對大數據做處理的,它幫助各個平臺和商業解決了不少麻煩,數據挖掘技術是目前大數據領域和信息化領域所重視的一個研究課題,加快了現代科技的腳步。
2數據挖掘技術的開發
2.1傳統方法
在開發計算機數據挖掘技術的過程中,統計是相較于其他方法來說最為傳統的方法,主要包括了以下幾種:第一是抽樣分析方法。主要是從所有數據中抽取一部分數據來當作研究樣本,旨在降低人們的工作壓力,有效減少數據分析的數量。第二則是多遠統計分析方法。此方法所面對的對象基本是那些具有復雜結構以及較高維數的因子與數據。除此之外就是統計預測方法,主要內容包含了回歸分析預測分析法以及序列分析法。
2.2數據挖掘技術中的六種算法
數據挖掘技術是融合了各類算法,各個算法分工合作來提高對于數據的處理,相比普通的數據分析處理方法,數據挖掘技術更具有高效性、優越性和全面性。從現實生活來看,大數據對于可視化數據的處理能力在廠商和平臺看來應用更為便利和廣泛。因此,大數據中的有價值的信息是更為重要的,也就是說,數據挖掘技術對于數據的加工能力是研究人員所要重視的地方。目前的數據挖掘算法有很多,主要分為六類,分別是回歸算法、分類算法、聚類分析、神經網絡方法、關聯規則和Web數據挖掘嘲。其中,回歸算法是指分析因變量與它的多個自變量的關系并發掘變量的屬性值之間是否有一定的規則或是相似性,這樣就可以得到兩個數據點之間的聯系從而設計一些算法;分類算法指的是根據數據的類型不同點,將數據分為幾種類型;聚類分析相當于找出數據之間的相似性,根據分類分析的方法再次做劃分;神經網絡方法是一種學習的方法,就像大腦一樣思考和學習,對于輸入的訓練集進行學習和訓練,對神經網絡算法中的參數進行設定,然后到測試集中測試,即處理實際數據;關聯規則是指數據中數據集合與數據集合之間的某種聯系的算法;Web數據挖掘方法即從網頁中不斷挖掘并收集所需數據。
數據挖掘技術通過結合六類算法中的一個或是幾個解決目前的需求,而不是只運用其中一個算法,它對大數據制定了一套規則,形成一套具有通用性的算法解決大數據的問題。相比傳統方法,更加滿足客戶和商戶以及平臺的需求。
2.3數據挖掘法之軸線型
軸線型方法指把處理數據的整個過程看成一條軸線,這條軸線的整個流程即為數據挖掘的過程,從數據的輸入開始,經過數據的預處理和分析,最后將數據輸出。這個方法使得各個步驟分工明確,實現起來也很方便,但是也有很大的缺點,如果前一個步驟出現問題,將影響下面的步驟無法繼續進行,比較耗時。
2.4數據挖掘法之環形
環形方法也就是將數據處理過程分布在一個環中,環的周長也就是數據挖掘的工作時長。環中的數據也就是數據的輸入和輸出,中間經歷預處理和分析,和軸線型相同,但是這種方法相比軸線型效率更高,因為此次數據挖掘工作完成后可以馬上運行到下一次循環中,不斷持續,不會間斷,但是整個過程相對復雜,實現比較困難。
2.5數據挖掘法之決策樹
決策樹數據挖掘法是一種內含有龐大數據,并圍繞這些數據展開統計分類以及計算預測的挖掘手段,這種方式主要是依照有關數據,以此為基礎展開數據操作。決策樹中涵蓋了許多針對數據分析的方法,現階段比較完善的是CHAID以及RINT這兩種計算統計方法。而當今計算機技術正在不斷向前發展,有關數據統計的方式也在隨之變得更為完善與科學,例如SLIQ和SPRINT技術就對連續屬性的處理提出了更優良的解決策略,能夠將繁雜的數據有序統一到決策樹上。
3數據挖掘技術的應用
3.1市場方面
對于市場需求的統計是比較麻煩的,因為一個公司要推出一款產品之前,首先需要調查市場上面能夠使用該產品的用戶以及用戶的需求,對于如何了解市場人群的興趣點是一個問題,這時候就可以用數據挖掘技術來解決這個問題,通過數據挖掘技術統計這些需求數據并根據算法計算出用戶的需求偏好度,遵循用戶的需求和滿意度去設計產品的質量。例如,如今流行的電商平臺像淘寶、京東等,它們都會有一些猜你喜歡或是興趣度推薦提供,這些提供是根據用戶的歷史行為數據進行建模,預測用戶的興趣度和喜好度,然后將用戶可能喜歡的商品展示在用戶面前,這樣既省去了用戶找某類不能描述的商品的時間,提高了購買率,也給商家帶來了豐厚的利潤。
3.2電信行業
電信行業與數據原本就有比較密切的聯系;正因如此,運用數據挖掘技術能夠有效促進此行業穩步發展。縱觀目前電信行業的發展現狀,其在價格競爭方面的態勢是十分激烈的,而伴隨著通信市場的日新月異,對電信行業中的各大運營商也提出了巨大挑戰。現階段中國電信行業正處于改革大背景之下,不僅促進了市場的有序競爭,也推動了電信市場的“更上一層樓”,電信行業朝著信息化與集團化方向發展已然成了該行業發展的大趨勢。除此之外,移動、電信、聯通等各大運營商之間的競爭日趨激烈以及5G技術的出現,使得其在客戶服務水平上也向前邁出了一大步,很顯然,現階段移動信息化對于全球信息化服務起到的作用是決定性的。利用數據挖掘技術來深入探索大數據信息,主要內容涵蓋了數據統計、業務數據、網絡數據、交易數據以及日常數據分析等等,并與預測預警以及數據試驗等模型相結合,從而為客戶打造更優良完善的服務體系,以此來促使經濟的進一步發展;但是,由于數據挖掘的工具基本上都屬于共享形式,因此,運營商應該以挖掘工具為基礎形式,不斷展開創新創造,全面增強自身的市場競爭力。
3.3半導體行業
將計算機數據挖掘技術應用于半導體這個領域當中,其主要作用就是對軟件進行精準檢測。大體流程如下:在生產半導體元件的過程中,通過采集有關的元件數據信息,結合數據挖掘技術對元件信息展開精準的分析,從而判斷此元件的質量是否符合規格標準,從而確保半導體能夠正常投入使用。因此,計算機數據挖掘技術的使用,有效提高了判斷元件合格與否的正確率。
3.4金融方面
不單單是指上述方面,數據挖掘方法在各個領域都有很大的應用,每個企業都有對于金融的管理,因為一個公司的金融支持著整個公司的運作,所以企業的規模與金融的管理和分析有著密切的聯系。例如,通過處理和分析數據去預測公司股票,防御投資所帶來的風險。這里可以投資某個股票前,通過數據挖掘技術,建模股票的生命周期中的數據,做出未來所出現的可能性比較大的各類風險,防止公司的錯誤投資,為公司的金融作保障,減少公司所帶來的不必要的損失;除了這方面,它對于工作環境的預測和分析也有很大便利,例如,對于一些危險系數比較高的行業,可以通過數據挖掘技術建立模型對周圍環境做分析,并設計周圍環境的危險系數預警算法,如遇危險,立即拉響警報,減少人員傷亡,為公司的工作人員的安全作保障;還有關于開采方面,數據挖掘技術也做出了不少貢獻,這方面的公司通過數據挖掘技術來幫助工作人員制定很好的開采方案,使得開采工作的效率增加。
3.5其他方面
除了以上幾種實際應用之外,挖掘技術在稅務行業也被較為廣泛的使用。通過采取這項技術,能夠及時發現和追蹤某些單位的偷稅和漏稅問題,并展開第一時間的調查。數據挖掘技術圍繞不同領域的納稅人,對其商業行為的基本規律進行分析與研究,提高了中國稅收工作的實際操作效率。此外,也有效預防了偷稅與漏稅等等問題的發生,從而進一步保障了征稅工作的有序開展。
4結束語
總的來說,隨著科技的進步和大數據的發展,網上的數據量會越來越多,數據挖掘是緩解這個麻煩的有效方法之一,目前的數據挖掘技術已經很好地解決了很多問題,但是還是遠遠不夠的,因為它的準確性和普遍性還需要進一步提高,因此,它仍然是相關領域的研究熱點。