季萌
摘要:在計算機技術迅猛發展、電子業務遍及人們生活的時代背景下,計算機數據挖掘一瞬間成為了各行各業的流行詞匯和前沿技術。數據挖掘技術中步驟較為簡單的一般利用了統計學知識,如抽樣調查、估計和假設檢驗等。較為復雜的一般需要建立復雜的模型,結合深度學習、模式識別和人工智能的技術。同時,計算機挖掘技術還需要融合其他領域的知識,如金融、股票和證券等,這一系列綜合的知識與場景促成了計算機數據挖掘技術的復雜性以及其重大的研究價值。
關鍵詞:計算機數據挖掘;研究;開發;應用
互聯網的發展使信息的傳遞和交互打破了時間和空間的限制,導致信息的爆炸性增長。首先,數據挖掘可以被應用的領域有很多,如最廣為人知的金融領域。很多數據挖掘的研究著作都是在市場、證券的語境下。不只是在金融領域,其他必要引入計算機數據挖掘技術領域的專業知識也廣泛地出現在數據挖掘研究著作中。其次,作為一門計算機技術,其使用的工具本身也正被學者們更深入地研究,如機器學的各類算法至今仍層出不窮。
一、計算機數據挖掘技術概況
數據挖掘(也稱為數據庫中的知識發現)是從大量數據中提取和挖掘未知且有價值的模式或規則以及其他知識的復雜過程[1]。概括來講,進行數據挖掘的主要步驟如下:
(一)數據收集
真正體驗過數據挖掘過程的專業人士都會認為,數據收集過程是進行數據挖掘時最艱難也很重要的步驟。首先,數據量要足夠,大多數時候要稍微超量。數據量不夠將導致數據挖掘模型無法訓練精準,預測效果欠佳。其次,數據質量要過關,很多時候收集到的數據原本很多,但在數據清洗階段后會被清洗到數據量不夠,這說明這批數據的質量不過關。由于現在網絡上公開的高質量數據庫也在逐漸減少,所以推薦在有官方大量數據來源的情況下,進行相關開發和研究。
(二)數據整理
1.數據清洗
消除明顯錯誤的噪聲數據以及有殘缺不完整的問題數據。首先要判別哪些信息列是顯然對預測結果沒有影響的,直接刪除這些列。然后,大多數時候收集到的數據不是所有列信息都完整的,將沒有關鍵列信息或列信息錯誤的數據刪除。
2.數據規約
很多情況下數據挖掘模型需要對數據進行歸一化等規范處理,以使模型的使用更加便利和準確[2]。
(三)數據挖掘過程
通過(一)和(二)的前期準備,我們獲得了待分析的數據集,并將其存儲于數據庫中。接下來就是最關鍵和最核心的數據挖掘步驟。數據挖掘實際上可以被簡單描述為從輸入數據得到輸出結果(有價值信息)的過程。為實現這一過程,最簡單地可以使用統計學的相關技術,復雜一些的將會使用到復雜的數學知識或者機器學習和人工智能等專業的計算機技術。
大多數時候挖掘模型絕不會很簡單,復雜的模型才能挖掘出人類個體無法提取到的隱藏價值信息。復雜的模型首先是復合的,不會是單一的一種技術。很多時候會需要最優值求解與多層神經網絡的復合,還有很多時候會使用深度學習。而且模型在嵌入數據測試的過程中需要調整,以達到最好的擬合效果。
(四)模型評估與展示
1.模型評估
模型能夠基本運行后,最好請該領域專業的分析師或專家來評判該模型的好壞,從而進一步完善模型。
2.知識表示
在模型較為完善且可以為企業或個人所使用后,開發商通常會設計可視化知識圖譜,在報告會上為客戶展示該模型的核心思想。
二、計算機挖掘技術的具體應用
計算機數據挖掘技術已被廣泛應用于金融行業,其預測能力為金融產品用戶帶來了巨大的收益[3]。除了老生常談的數據挖掘在市場營銷、金融投資、電信行業等方面的應用,下文著重提及了一些較冷門但價值很大且處于前沿的領域研究。
(一)自然災害預測
自然災害影響著全球的人類和動物的生命和財產。在許多情況下,原因不在我們的控制之下[4]。在計算機數據挖掘技術的幫助下,政府或其他國家管理人員通過在系統中輸入本國的自然和人文概況信息,系統就可以預測出未來一段時間內該國發生各類自然災害的概率。該應用對于國家制定自然災害防范措施將具有重要意義。
(二)信息安全管理方面的應用
將數據挖掘技術應用于網絡信息安全管理系統,可以實現對網絡信息中各類安全事件的深度分類和關聯分析,從而提供有效的策略支持,以及描述網絡信息安全管理的狀況,為提高網絡信息安全的主動防御能力提供技術支持。在信息安全管理方面,可以應用計算機數據挖掘技術構建互聯網信息數據安全體系。同時,由于計算機數據挖掘技術更新速度快,更有利于信息安全管理體系的及時完善,使互聯網信息安全管理體系更好地發揮信息安全保障作用。
(三)公共衛生醫療體系的應用
當前公共衛生醫療體系的現狀是大多數以線下公共衛生平臺為主,依照傳統的公共衛生醫療體系管理模式,沒有實現將其與現代科技技術融合。所以,為實現公共衛生醫療服務的便利性,改變傳統的管理模式,更多地依賴線上平臺進行公共醫療服務。同時在線上公共衛生醫療服務平臺,依托計算機數據挖掘技術實現各項數據和信息的收集整理,節省人力物力,減少資源的浪費。而且將計算機數據發掘技術應用于公共衛生醫療體系,保證公共衛生醫療服務的全面覆蓋,數據接收的及時性和提高信息更新速度,提升公共衛生醫療服務水平。
結語:
計算機數據挖掘的研究對于各領域的發展具有重要意義。越來越多的領域將會把計算機數據挖掘技術納為本領域未來發展的研究重點,因而對于數據挖掘技術的研究不應只限于金融一個領域。發散思維,將數據挖掘應用拓展到多個領域將會是不錯的創新創業出發點。同時,從電子信息專業方面展望,計算機數據挖掘技術的深度研究將是被崇尚和鼓舞的事業。
參考文獻:
[1]李智峰,段蔓.淺談計算機數據挖掘技術的開發及應用探究[J].信息技術與信息化,2019(05):231-232.
[2]趙起超.數據挖掘與數據倉庫技術的應用和前景分析[J].黑龍江科技信息,2016,(13):190-190.
[3]溫淑斐.大數據背景下的企業集團財務管理[J].經濟研究參考,2016(38):87-90.
[4]KimYM,HwangMN,KimT,etal.Bigdataminingfornaturaldisasteranalysis[J].JournaloftheKoreanData&InformationScienceSociaty,2015,26(5):1105-1115.