郭 暢
(沈陽現代制造服務學校,沈陽 110045)
隨著計算機技術的高速發展,我國已經邁入信息化高速發展時代,計算機數據挖掘技術應運而生,助力我國各行各業的創新發展與變革,能夠有效促進我國社會經濟的增長和企業行業的轉型。數據挖掘技術的運用能夠使數據庫技術不斷升級與發展,實現數據信息的檢索、查詢更加便利,并且還能夠直接對大量數據信息之中的隱藏數據進行辨別,使數據運用更加高效,推動了整體信息技術的發展。
在計算機數據挖掘技術的開發過程之中,統計是一種較為常見的使用方式,屬于傳統型,主要有以下三種方法。第一種是“抽樣分析法”,這種方式主要是通過在全部數據之中抽取一部分的數據內容來進行研究,從而幫助人們減輕工作壓力,并且減少對數據分析的工作量;第二種是“多元統計分析法”,這種方式主要是對一些結構較為復雜并且高位數的因子進行數據分析;第三種是“統計預測法”,這種方式主要是對數據內容進行回歸分析預測,并且進行序列分析。
數據挖掘技術是通過對各種算法的融合從而有效提升數據處理的效率。針對傳統的數據分析處理方式來說,運用數據挖掘技術可實現更加高效的工作效率,并且能夠更加全面進行數據分析。對日常的實際運用來說,數據挖掘技術能夠直接將可視化數據的處理能力運用到企業當中,給企業帶來更多的便利。所以數據之中一些有價值的信息內容就是數據挖掘的重點對象,也是具有數據加工能力的人員需要特別重視的地方。當前的數據挖掘算法有很多種,主要有六大類,主要是回歸算法、神經網絡算法及聚類分析等。其中回歸算法是指分析因變量和其他多個自變量之間的關系,從而發掘出變量的屬性值是否具有一定的規律性,這樣就能夠迅速得到兩個數據點之間的聯系,然后進行計算。分類算法指的是根據不同數據的類型將數據進行分類。文章只針對個別常用算法進行了說明,其他算法在此不予詳細說明。數據挖掘技術是運用這六種算法之中的單獨一個或者幾個去滿足自身需求,并不是只使用一種算法,對數據形成了一套規定,其中具有通用性的算法,能夠解決數據的相關問題,相較于傳統方式來說,更加容易滿足客戶的實際需求。
軸線型方式:數據挖掘的整個過程就是將數據的整個處理過程看成一條軸線。從數據輸入開始,通過數據的預處理分析,然后把數據輸出。這個方式雖然能夠使數據處理的各部分分工十分明確,并且具有較強的便利性,但是存在的問題就是如果前一個步驟出現了問題,那么就會直接導致后面的步驟也無法正常開展,較為浪費時間。
環形處理方式:把數據處理的過程分布在環中環的周長,就是實際數據發掘的工作時間。其中的數據也就是數據的輸入和輸出之間,在通過預處理和分析之后就能夠形成數據的挖掘,而這種方式相較于軸線型來說效率更加顯著。由于數據挖掘工作在完成一次挖掘工作之后就可以立刻進行下一次挖掘工作,不斷持續開展工作,中間沒有間隔時間,但是整體的挖掘工作流程較為復雜,因此在實施上會有一定的難度。
決策樹數據挖掘法具有較大的數據量,并且按照這些數據進行分析,同類之后采取計算預測,就能夠根據相關的數據內容展開數據操作。決策樹中有許多數據分析方式,較為完善的就是CHAID 和RINT 這兩種計算方式。當前我國的計算機技術發展十分迅速,而相關數據統計的模式也開始逐漸趨于科學化,如SLIQ 技術就已經對連續屬性的處理提出了相關的解決措施,能夠使復雜的數據內容更加有序地統一在決策樹上。
市場需求統計工作較為復雜,在一個企業推出產品之前,首先就要對市場上使用該產品的用戶和用戶的實際需求進行分析,這樣才能了解到市場的實際情況。但是想要更好地了解市場人群的實際需求,就需要通過數據挖掘技術的運用,對用戶實際的偏好進行統計與計算,然后按照用戶實際的需求設計產品。例如:當前人們日常生活中經常用到的購物平臺淘寶、京東等,都會根據用戶的偏好給用戶推薦一些相關的產品,而這些數據都是依據用戶的歷史行為進行建模,如經常瀏覽的產品、習慣性購買的商品、收藏并加載購物車的物品等,然后對用戶的喜愛物品進行推測,從而將用戶感興趣的商品直接呈現在用戶面前,這樣既能減少用戶搜索商品浪費的時間,還能提升購買率。
電信行業對數據的依賴性較強,所以通過數據挖掘技術的運用能夠促進電信行業的發展。根據我國當前電信行業的整體發展現狀進行分析可知,電信行業價格競爭十分激烈,并且我國通信市場發展十分迅速,對電信行業的運營商提出了更高的要求。當前我國的電信行業正處在一個改革的關鍵時期,這種改革能夠有效促進市場環境更加有序推動電信行業的發展。當前電信行業正朝著信息化方向發展,已經成為行業整體發展趨勢,并且移動、聯通和電信等各大運營商之間的競爭越來越激烈。隨著我國5G 技術的應用,客戶服務的水準得到了顯著提升,所以當前移動信息化對全球信息化服務具有重要的影響。通過數據挖掘技術的運用能夠檢索數據信息,其中包括數據統計、業務數據及交易數據分析等,并且能夠預測預警和數據試驗模型結合在一起,從而使客戶具有更好的體驗,促進行業經濟整體發展。數據挖掘所使用的工具通常都是共享、開源的模式,所以,運營商要以數據挖掘工具應用為契機,創新升級、不斷改造,增強自身市場競爭力。
計算機數據挖掘技術運用在半導體行業之中,能夠對軟件內容進行精確的檢測。生產半導體元件可以直接采集到元件的相關數據信息內容,并且通過使用數據挖掘技術對元件進行更加精準的分析,從而判斷出其是否符合質量標準、能否正常使用,所以計算機數據挖掘技術能夠有效提升元件的合格率。
數據挖掘方式在我國的各行各業之中都有著廣泛的運用,不同的企業都需要開展財經管理工作,企業的資金支撐著企業整體運轉,因此企業規模與財經管理分析之間具有密切的聯系。比如:可以通過對數據的分析和處理,預測企業股票,防止投資風險的發生。企業在投資股票之前,可以首先通過對數據的挖掘,將股票周期之中的相關數據進行建模,進而能夠預測出相對來說可能性較大的風險,防止企業出現投資失誤,從而為企業的資金起到保障作用,減少企業投資風險帶來的損失。
2020 年開年并不平靜,新冠疫情洶涌而至,給人們的生活帶來了嚴重沖擊。在全民共抗疫情的斗爭中,為了控制疫情的蔓延態勢,大數據挖掘技術真正起到了助力作用,通過數據追蹤、數據分析、數據預判,有效預防并控制了疫情。疫情的全球蔓延變異,導致全球政治、經濟格局出現變革與演變,進而轉變了人類的思維模式,加速改變了人們的生產生活方式。疫情大大加快了數字化轉型進程,有望讓大數據、人工智能、工業互聯網、物聯網等的發展步入快車道——從疫情監測、病毒溯源、行程跟蹤到物資調配、醫療救治、疫苗研發,再到政府決策、產業轉型、政務服務,臺前幕后隨處可見大數據挖掘技術的力量。大數據驅動政府由“權力本位”向“數據本位”轉型,政府則要樹立大數據觀,注重數據治理,做到凡事心中有“數”,形成“用數據說話、用數據決策、用數據管理、用數據創新”的思維。通過大數據體系把政府建設成為系統戰略型政府、科學管理型政府、高效實施型政府及精準服務型政府。
伴隨著生物技術、大數據技術的發展,個體基因檢測治療疾病已經成為現實。最廣為人知的是美國好萊塢女星安吉麗娜·朱莉,經過檢測,她發現自身攜帶致癌基因——BRCA1 基因,為防止罹患卵巢癌,切除了卵巢和輸卵管。目前,國內外已經有多家基因檢測機構,如我國的華大基因、貝瑞和康、美國的23andMe、Illumina 公司等。華大基因一直致力于腫瘤基因組學研究,已經研究20 多類癌癥。近日,華大基因推出了自主研究的腫瘤基因檢測服務,采用了高通量測序手段對腫瘤病人的癌組織進行相關基因分析,對肺癌、乳腺癌、胃癌等多種常見高發癌癥進行早期、無創傷檢測。智慧醫療應以人為本,以第一性原理回歸醫療本質,集成大數據、人工智能等現代智慧科技手段,深度融合健康醫療體系,直擊醫療實踐的痛點,破解健康醫療服務的難題,通過全要素、全流程、全鏈條的系統優化,實施覆蓋全人群、全生涯、全維度的全域照護,實現優質、高效、經濟的價值醫療,打造全新的國家大健康生態體系。
除此之外,數據挖掘技術還能夠運用在網絡安全的未知威脅檢測之中。通過混合算法對模型進行檢測,在網絡安全未知威脅檢測中發揮數據挖掘技術效能。首先使用KDD CUP99 中的數據對入侵的檢測進行分析,并且對數據之中的484 027 條網絡鏈接數據進行選擇,然后根據網絡之中的32 個特點,對484 027條網絡鏈接數據中隨機選擇的6 000 條數據內容進行異常檢測。在檢測之前,首先對數據開展分散化處理,處理之后的數據就可以使用決策樹混合算法,形成規則庫。然后把最小支持度設置為0.4,置信度設置為100%。實驗結果表明,關聯規則和決策樹的混合算法對異常數據的檢測準確率達到了97.23%,說明采用這種方式進行網絡安全未知威脅檢測能夠起到較好的效果。
數據挖掘是一個對海量數據“沙里淘金”的過程,它能將多元、異構的信息轉化成可以直接運用的知識和商業價值。隨著我國信息科技的飛速發展與數據技術的創新突破,互聯網之中的數據越來越多,數據挖掘能夠有效地對數據之中存在的問題進行處理。綜合以上分析能夠得知,數據挖掘技術對我國的各行各業都能夠起到重要的作用,能夠有效提升各行各業的運營效率,改變其工作模式,推動我國經濟快速發展。