
摘要:合理的利用信息技術帶來的相關成果,并且運用到物流領域、電力控制等多個行業,能夠使信息技術在其中發揮卓越的作用。目前在信息化時代,針對大數據、AI人工智能等多項信息技術均得到廣泛的關注和深入的探究。企業以及政府的管理往往依靠大量的數據資料,對于相應數據的挖掘深度和分析能力決定該數據的價值,因此需要提升數據的利用有效性,可靠性以及數據傳輸能力和分析的深度。應用數據挖掘技術能夠使相應的管理能力和質量水平有較高的提升。基于此,梳理了大數據時代數據挖掘的相關概念,并且對具體的數據挖掘過程進行分析探究,最后對該技術相關的應用進行多方面的闡述。結果表明,科學合理地應用數據挖掘技術,可快速從海量的情報數據信息中提出隱藏的、具有價值的情報數據,促使相應的決策和管理更加高效科學。
關鍵詞:大數據;數據挖掘技術;應用探究
中圖分類號:TP311.13文獻標識碼:A文章編號:1672-9129(2020)03-0045-02
Abstract:Therationaluseofinformationtechnologybroughtaboutbytherelevantresults,andtheuseoflogistics,powercontrolandotherindustries,canmakeinformationtechnologyplayanoutstandingrole.Atpresent,intheinformationage,manyinformationtechnologiessuchasbigdataandAIartificialintelligencehavereceivedextensiveattentionandin-depthexploration.Enterprisesandgovernmentsoftenrelyonalargenumberofdata,andtheminingdepthandanalysisabilityofthecorrespondingdatadeterminethevalueofthedata.Therefore,itisnecessarytoimprovetheeffectivenessandreliabilityofdatautilization,aswellasthedatatransmissionabilityandanalysisdepth.Theapplicationofdataminingtechnologycanimprovethecorrespondingmanagementabilityandqualitylevel.Basedonthis,relevantconceptsofdataminingintheeraofbigdataaresortedout,specificdataminingprocessisanalyzedandexplored,andrelevantapplicationsofthistechnologyareelaboratedinvariousaspects.Theresultsshowthattheapplicationofdataminingtechnologyscientificallyandreasonablycanquicklyproposethehiddenandvaluableintelligencedatafromthemassiveintelligencedatainformation,andpromotethecorrespondingdecision-makingandmanagementtobemoreefficientandscientific.
Keywords:Bigdata;Dataminingtechnology;Applicationtoexplore
1數據挖掘的概念及作用
1.1數據挖掘的概念。數據挖掘(DM)可以從大量,嘈雜,不完整,模糊和隨機的數據源中提取潛在、有價值和不可見數據,通過對這些數據對應的信息和傳遞的知識進行檢索,即可高效的利用數據。在數據的利用過程中首先應保證真實度,再者,在數量級龐大且繁雜的數據中應該針對自身需要的數據目標進行方向性的選擇,不能盲目的將所有的數據知識應用到任意問題中,應該在發現問題的基礎上帶著問題在找到數據中相應的知識,進行概念的理解和規則的判定,通過在龐大數據體系中進行分析統計能夠對未來的發展形勢以及可預見性的行為進行推測,從而能夠使決策者采取更加科學的管理手段和決策方法。數據挖掘是多種專業領域相應知識進行交叉的學科,對人工智能、神經網絡、數據管理等多種學科均有密切的聯系。數據庫技術,機器學習和統計信息對數據挖掘的影響最大。迄今為止,數據挖掘技術已應用于許多方面,以解決相關問題。
1.2數據挖掘技術主要作用。從數據量龐大,并且在有噪點或噪音以及相對模糊隨機的數據庫中,對潛在價值的信息和知識進行過濾和篩選,能夠搜索出人們有利用價值的信息和數據,使人們對信息能夠更好的接受,理解并且適當的運用。在數據挖掘過程中,并不能保障所有的數據全部能夠被人們理解所應用,但是能夠對特定的檢索內容進行數據挖掘工作的開展。最后提取到的相應數據可以以多種表達形式進行展示,比如通過概念規則,模式,圖形等方式。合理運用數據挖掘技術能對未來的目標的發展導向進行展望,幫助做出科學合理的計劃。
1.3數據挖掘的過程。數據挖掘可以大致分為6個階段,主要由業務分析、數據分析與理解、數據處理組成。下圖展示的為數據挖掘的整體流程:
a)業務分析,通過明確具體挖掘任務的需求,根據需求和目標定制網挖掘計劃。
b)數據收集,根據業務需求,搜集相關數據,篩選數據,甄別出有可以利用的數據。
c)數據處理,在已搜集的數據中,結合具體業務需求和目標,對數據進行處理,刪除數據中不必要的屬性,對數據進行清洗等。
d)數據建模,主要是運用相應的數據挖掘技術,創建相應的模式,調節相應的數據讓模型達到最好。模型效果不佳,則需要從數據處理階段或者業務分析重新開始。
e)評估模型,評價模型的合理性和可靠性,未經過評估的模型不能直接去應用。
f)部署應用,將通過評估的模型,制作相應的應用策略,最后應用到業務上。
2數據挖掘的算法
2.1聚類挖掘算法。該算法首先選取k一個對象作為分析中心,然后對不同對象與該中心的距離進行相應數學模型的構建,是廣泛應用于數據挖掘技術中的一種基礎算法,屬于聚類挖掘的開端。在各行業根據需求在獲取數據過程中,可以相應的將數據情報數據進行聚類存放。
2.2關聯規則挖掘算法。Apriori算法通過兩階段的鏈接矩陣運算,能夠探索相應安全、交易等多種數據庫不同事件和物體之間的相應聯系和內在的規則。該算法可以高效、準確地收集相應的數據,為順利完成各項任務奠定基礎。Apriori算法在大量的數據中通過項目集創建關聯規則,最后對對應的候選項目,出現的頻率和次數進行統計,根據人為設定相應支持度為判斷依據,從而分析關聯規則是否有顯著作用。該算法水平方向通過m項目集來尋找下一個項目集,以此形成相互的聯系,從而能夠開展高效的項目集搜索,實現所有高頻項目集均被檢索。
強關聯規則是否成立,需要通過上述的檢驗才能進行有效的利用,接著哪些有效的關聯規則對當前管理具有實際使用價值,需要經過管理人員和數據控制人員的判斷才可以認為是關聯的最終結果;通過相關性分析獲得的關聯規則結果的前后項之間的相關性是可能同時發生的一種相關性,而不是因果關系。根據算法的思想和執行步驟,Apriori關聯算法的優勢在于對數據要求不高,容易分析、簡便,但是也發現存在著相應的缺陷:
(1)對項目集生產過程所需要的循環和相對應的步驟較多,并且不能較好的去除非參與組合的元素。
(2)對項目集的運算需要支持度的評估,并且每次計算均需要與數據庫T中整體的記錄進行對比,如果該數據庫較大,那么掃描對比需要耗費大量的時間,并且占用計算機系統較大的資源,數據庫記錄越大,那么導致相應的運算壓力呈指數增加。
3數據挖掘技術運行過程
3.1數據轉換處理。Clementine是能夠兼容并且支撐整個挖掘體系的相關軟件,該軟件擁有眾多的分析技術,將相應的技術融為一體,并且配合多種接口,能夠展現出更加簡單且可視化的操作應用環境。對于數據的讀取和寫入等多項工作均能高效的運行,并且配合人工智能以及數據統計等多種模型能夠實現更加有效的數據挖掘。數據信息系統可以利用該軟件,并且借鑒此軟件的設計思想,將數據挖掘工作變得簡單化和易行化,降低算法的復雜程度以及軟件操作的困難度,從而使相關數據挖掘工作人員效率翻倍。
3.2異常錯誤分析和解決。Python應用廣泛的開源計算機編程語言,在該體系的內部已購置高級數據分析結構,并且將相應的數據能夠分解成模塊和包,在多種硬件平臺均能進行應用和拓展。該編程語言最大的優勢在于學習難度較低,并且易開展維護工作,對于理論知識薄弱的工作人員也能進行快速的上手,并且高效讀取展示的信息和內容,并且伴隨著NumPy、Pandas等程序庫的完善,能夠使數據分析領域不斷完善和發展。
3.3數據最終處理。通過對相應的數據庫掃描,根據相應的項出現在數據庫中一次,則該項的計算相加1,則相應的支持度計數也加1。根據預先設定的最小支持度的值與相應項的支持度數值,當兩者相等時,可以判定該項是頻繁項,所以可以停止對該項的掃描,開始掃描下一個項集。數據搜索到的知置信度和支撐的能力可以通過關聯規則進行分析,從而將各數據的屬性和相關的聯系進行有效歸納。為了避免太多規則的產生以至于不能突出真正重要的規則,必須適當定義最小支持量以過濾大多數不必要的規則,并且所生成規則的置信度和增益值必須高于決策者給出的最小值,這樣的規則才滿足需求條件。總之定義了相關閾值,就可以相應地搜索數據庫中的滿足條件的關聯規則。將系統收集到繁雜的、混亂的各種數據信息通過特定的具有數據處理、計算和制圖功能的軟件系統,將情報數據分門別類、打包裝進特定的數據庫,為之后的數據挖掘提供便利。
4大數據時代的數據挖掘技術的應用
4.1在物流方面的應用。在傳統物流管理過程中,通常都是采用定點配送的方式,將產品運送到經銷商手上就算完成了物流運輸任務。但是在這一過程中產品質量保證以及物流運輸質量管理等方面都缺乏一定的管控,在產品送到消費者手上之后,針對消費者滿意度的調查和反饋更是一片空白。這樣不利于物流行業不斷發展,也不利于其科學合理地制定市場營銷戰略,容易讓物流相關的行業陷入閉環發展的困局。數據挖掘技術和大數據技術在其中的應用,能夠結合RFID技術應用,對產品的物流路徑進行科學追蹤和管控,并將最終的管理數據信息集中于MES系統中來,能夠大大提升物流管理質量以及產品追溯管理效果。首先,可以對相關物流產品的配送時間、配送路徑以及主要供應地區進行數據挖掘,并利用大數據技術進行云端分類管理。這樣能夠更好地統計不同類型產品的物流時效等。其次,依托大數據庫建設,能夠更為直觀地看到不同產品倉儲情況,節約物流調控的中間環節,節約大量的時間成本。最后,大數據技術和數據挖掘技術的應用還能夠通過分析多次物流運輸線路所遇到的路況問題以及時效問題,科學計算出最優物流運輸和配送路線,最大限度地降低物流運送環節的時間成本,提升客戶滿意度。利用大數據技術和RFID技術對整個流程進行追蹤,能夠在面對客戶問詢時準確有效地匯報產品所在地。依托MES系統的數據挖掘和信息整合,可以對產品進行追溯分析,明確物流出現的質量不佳或者客戶不滿意的具體原因。
4.2電力行業的應用。通過大數據和數據挖掘技術,能夠保障電網安全運行,提升管理效益、決策能力,優化電網運行方式、降低管理成本。在電力大數據安全防護方面,一方面需要先進的技術做支撐,另一方面需要提升數據的安全管理能力,有效保護電力大數據的安全。這主要是因為在大量的電力數據中,不僅包括企業的運營信息和用電用戶的隱私信息,而且還有一些關系國國家和社會決策的重要信息。電力數據挖掘技術的應用,需要統一的電力行業數據標準,建設更高效、準確率更高的大數據分析系統,更好地應用電力大數據技術為了建設更高效、準確率更高的大數據分析系統,需要建設和完善電力行業知識管理系統。不斷電力行業知識管理系統,建設電力數據共享中心,統一電力行業數據標準。
4.3政府及其多個領域的綜合應用。在傳統的信息環境下,我國政府及企業開展的數據研究主要依靠圖書館等有特定歷史背景的檔案機構。在這種環境下,受傳統的信息環境和技術條件的限制,他們不能及時、廣泛地獲取信息,也不具備組織和處理大量信息的技術手段,不能滿足信息的分析和研究的要求。然而,網絡化和計算機技術的發展使信息收集和研究發生了一些變化。SASEnterpriseMiner(簡稱SASEM)是一種數據挖掘工具,已被中國的政府及國有企業廣泛使用。典型的應用是上海寶鋼的礦石分配系統的應用、招商銀行的系統應用以及鐵路部門的客運運營研究。SAS是通過數據庫將數據進行集成,然后簡化相應提取數據和捕捉數據的工作,能夠實現“端到端”的數據捕捉。可以根據情況存儲、修改、更新和重新調整此過程以供以后使用。它的優點是可以指導沒有足夠的數學統計理論知識和經驗積累的淺層次用戶,并且針對經驗豐富的專家而言,SAS還可以為有經驗的專家提供許多選擇,以執行精細調整分析和處理。
5結語
在大數據時代背景下,大數據已經成為重要的國家戰略資源,對社會經濟發展產生了深遠影響。數據挖掘工作作為國家宏觀調控、產業結構調整、企業戰略發展的重要依據,必須適應大數據時代的發展,強化大數據和數據挖掘應用能力和范圍,運用大數據思維、技術和方法,積極推進各行業的數字化變革,加大數據在統計數據生成、處理、交換和發布等各個環節的應用力度,構建起適應大數據時代的現代化發展模式。
參考文獻:
[1]田志民,梁品超,任艷紅,等.大數據時代下數據挖掘技術與應用[J].當代教育實踐與教學研究(電子刊),2017,000(010):4.
[2]周凌.淺析大數據時代的數據挖掘技術與應用[J].中小企業管理與科技旬刊,2018,No.540(05):194-195.
[3]劉春琳,冷紅.基于大數據挖掘的城市關注平臺的構建與應用[C]//城鄉治理與規劃改革——2014中國城市規劃年會.0.
作者簡介:徐文平(1983-),女,四川德昌縣人,副教授,碩士研究生,主要研究方向為計算機應用、大數據。