黃偉
摘要:該文將基于大數據挖掘技術的基本,分析大數據與大數據挖掘之間的相互聯系,對當今主流數據挖掘算法進行分類說明,最后以大數據時代中主流數據形態——非結構數據為例,闡述大數據挖掘的數據處理方法,以期能夠為業內人士提供理論參考。
關鍵詞:大數據;數據挖掘;數據處理方法
中圖分類號:TP3? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)08-0023-02
隨著信息技術的不斷發展和普及,如今人們日?;顒舆^程中所產生的數據信息也越來越龐大,該如何在龐大的數據信息中挖掘出可以促進科學技術及社會發展的有用信息,其將是大數據時代中需要解決的重要難題。大數據挖掘技術的出現促使人們可以在海量的數據信息中挖掘出有用的知識和信息、總結出相關規律,進而促使原本“無用”的數據信息發揮出更大的利益價值。
1 大數據挖掘的基本概念
所謂數據挖掘,就是指在大量的、不完善的、沒有規律的數據信息中,挖掘出可以對當今科學技術以及社會發展有價值的知識和規律?,F如今,數據挖掘多是采用相應的分析工具,在海量的數據中發現數據與分析模型之間的關系,此過程中會經過數據清洗與集成、數據轉換、數據分析、模型評估、知識表示等一系列過程,最終為數據挖掘工具使用者提供有價值的數據信息[1]。為能夠有效發揮數據挖掘效果,數據挖掘分析工具中不僅融入了數據庫、模式識別、數據建模、數理統計等一系列信息分析處理技術,還集成了人工智能等高新科學技術,促使分析工具可以不斷進行完善升級,進而更快、更有效地獲取數據挖掘結果。其中數據庫、數理統計以及人工智能三種技術是數據挖掘的核心技術組成。
大數據是指常規軟件工具無法實現短時間內抓取、管理的數據集成,此類數據具有海量性、高速性、多樣性、真實性以及價值性等特點。隨著信息技術的不斷發展和普及,如今人們日常活動中所產生的數據信息也越來越多,這些信息中雖然包含著諸多有價值的數據信息,但由于數據體量過大,難以實現有效抓取,使得相關數據信息難以得到有效利用。為能夠解決這一問題,眾多科研人員以數據挖掘技術為基礎,結合大數據的實際特點開發出了大數據挖掘技術,也就是人們常說的大數據技術[2]。
從表面上來看,大數據技術和數據挖掘均是以在海量的數據信息中挖掘出有價值數據信息為目的,但從實際上來說,數據挖掘雖然發展起步時間更早,其并非僅適用于少量的數據挖掘過程中,對于海量數據信息中的數據挖掘也同樣可以使用,只不過隨著技術手段的革新發展,其被人們命以新的稱呼“大數據”,進而使得很多未進行過深入研究的人們認為數據挖掘和大數據技術是兩種目的相同,但內容不同的兩種技術手段。另外,大數據雖然是以“大”來命名,但其關鍵點卻不是“大”,而是采用一種全新的數據挖掘思維和技術手段,對海量的數據信息進行分析研究,進而獲取到其中有價值的數據信息,這些數據信息不僅可以用于對未來發展的分析和評估,還可以根據其中所表現的趨勢,對技術和產品進行有效更新[3]。因此,在未來的一段時間內,數據挖掘和大數據技術將會出現共存的情況,此時間將會持續到大數據技術可以完全替代數據挖掘為止。
2 數據挖掘算法
對當今主流的數據挖掘算法進行歸納匯總,可以分為關聯規則分析算法、聚類算法、預測與回歸算法以及索引排序算法四大類,具體內容如下。
2.1 關聯規則分析算法
關聯規則分析算法可以有效確定頻繁項集。以著名的啤酒和尿布為例,關聯規則分析算法可以通過超市現有的購物數據發現,很多男人在購買啤酒的同時,還會購買尿布,基于此種特點,超市可以通過縮小啤酒和尿布擺放距離的方式來提高兩種產品的實際銷量。常見的關聯規則分析算法有Apriori算法、FP-Growth等,這些算法可以通過設置最小支持度的方式在海量的數據信息中快速搜索頻繁項集[4]。
2.2 聚類算法
聚類算法可以在海量的數據信息中尋找出較為相似的數據項集。聚類算法可以將諸多具有相似屬性的數據信息聚為一類,常見的聚類算法應用如電子商務商品中的相似推薦、音樂軟件的相似推薦等。聚類算法中以Kmeans算法和KNN算法最具代表性。很多電子商務平臺在為相似的商品推薦相似的用戶的時候,就可以通過KNN算法來對相似用戶進行尋找,進而達成用戶商品推薦效果。
2.3 預測與回歸算法
預測與回歸算法可以以海量的數據為基礎,對數據信息的未來走勢和發展趨向進行分析判斷。常見的預測與回歸算法有樸素貝葉斯算法、線性回歸算法等。這些算法在實際應用過程中可以通過訓練集來有效獲取數據預測模型,再通過數據預測模型來獲取某些數據信息的未來的預測返回值。其中線性回歸算法一般是通過梯度下降法來獲取到與模型最匹配的數據參數。
2.4 索引排序法
索引排序法中最具代表性的就是谷歌的PageRank算法,此算法是谷歌網絡搜索排序中所采用的主要算法,在實際應用過程中,PageRank算法會將某一網站上所鏈接的數量視作此網站的“熱度”,鏈接數量越多,網站的“熱度”也就越高,如此算法便可以判斷此網站的潛在價值越高,可以賦予更高的排序,進而使得此網站的實際排序越靠前。具體來說,PageRank算法會將網站視作為圖片的節點,將訪問網站的鏈接視作為此網站圖片的有向邊,并通過鄰近矩陣對圖片進行表示,通過矩陣的相乘和轉置等方式來獲取相應的運算結果。
3 非結構化數據處理流程及方法
通常來說,非結構化數據處理流程主要分為信息采集、網頁分類以及網絡預處理三個環節,具體內容如下。
3.1 信息采集
信息采集過程就是在海量的,雜亂無序的數據信息中采集到具有一定循序的數據,并將數據存儲分門別類存儲到數據庫中的過程。從功能上來說,信息采集的主要面向對象為業內專業技術人員,且在結合硬件設備性能以及信息采集成本考慮后,信息采集一般不考慮實現全網絡信息的快速收集,而是會局限在一定范圍中,此范圍就是信息采集過程中對互聯網上海量的網頁進行判斷分析,確定哪些網頁值得訪問,哪些網絡不需要進行訪問,值得訪問的網頁就是信息采集局限范圍[5]。在確定信息采集范圍后,信息采集還會根據自主確定采用何種訪問策略進行網頁訪問,在此過程中不僅需要確保網頁訪問效率,還需要確保信息采集效果。即先合理設置種子鏈接集,然后經由HTTP協議訪問頁面,并對頁面進行下載,再通過數據轉換、數據分析、模型評估等一系列確定網頁與主題之間是否具有聯系,最后提取出與主題關聯性較大的鏈接,通過各不相同的爬行策略來獲取與主題相關的信息。以采集信息主題的不同對當今常見的信息采集方法進行劃分,可以分為基于內容的主體信息采集和基于超鏈接的主體信息采集兩大類。前一類方法在實際應用過程中需要預先構建出一個較為完善,且具有針對性的主題詞表;后一類方法則是根據網頁之間的相互應用關系進行信息采集。
3.2 網頁預處理
網頁預處理就是對信息采集所收集到的數據信息進行篩選的過程,其不僅可以有效提高非結構化數據處理效率,還能夠確保數據信息的精準性和有效性。常用的網頁預處理算法有哈希算法和文本相似度算法等。其中哈希算法主要用于網頁的URL對比去重;文本相似度算法則主要是用于對網頁內容的對比去除,兩種方法雖然針對的內容不同的,但均是采用的網頁歸類去重方式。在實際應用過程中,網頁預處理需要先對網頁內容進行特征提取,即將網頁內容分解成為若干個特征集合,此步驟的主要作用是方便后續的特征提取以及相似度對比分析[6]。然后,網頁預處理會對特征信息進行壓縮編碼,此過程不僅可以有效降低特征信息所占用的存儲空間,還可能進一步提高網頁預處理效率。最后,網頁預處理會對分解壓縮后的特征信息進行相似度計算分析,基恩洛根據一定的重復比例來判斷各網頁中是否存在重復網頁。在網頁預處理過程中,在對網頁進行特征信息提取后,通過特定的算法將可以對特征信息轉化為一組特定的代碼,此代碼如指紋一樣具有不重復性,所以也被稱之為信息指紋。網頁預處理的實質就是對信息指紋進行對比分析,若是兩網頁之間的信息指紋重復量非常大,那么便可以確定此兩個網頁就是重復網頁,需要進行去重處理。
3.3 網頁分類
網頁分類就是通過數據挖掘所獲取的分類模型,對去重后的網頁進行分類提煉,進而在網頁中獲取到相關有價值的信息。結合實際情況來看,很多時候人們在對數據信息進行處理時所面臨的問題就是信息分類問題,合理的分類將可以將世界變得井井有條,進而降低人們對世界的理解難度。非結構化數據處理流程中的網頁分類也發揮著相同的作用,所以在實際應用過程中網頁分類環節多使用于信息檢索、機器翻譯、信息審核、消息分類等領域中,此過程中網頁分類會合理選擇分類特征詞,然后判斷數據信息與分類特征值的相似權重來對數據信息進行合理分配。
4 結束語
在大數據時代,互聯網中海量的數據信息中蘊含著諸多具有利用價值的信息內容,如何對有價值信息進行有效挖掘,是數據使用的重要環節內容。大數據挖掘作為海量數據發掘的技術工具,其可以根據數據信息中某些規律,對海量數據信息進行有效分類整合,然后供使用者進行使用。隨著大數據技術的不斷普及應用,如今各行各業對于大數據挖掘均有著一定的應用,且隨著社會經濟與科學技術的不斷發展,此應用需求還會不斷增加。因此,對大數據挖掘進行相關研究將有著極為重要的現實意義,需要對相關技術進行不斷地完善和升級。
參考文獻:
[1] 龍虎,張小梅.基于大數據的多媒體弱關聯數據智能壓縮方法研究[J].現代電子技術,2020,43(19):102-105,110.
[2] 權潔,王麗.基于云計算技術的數據挖掘平臺建設策略[J].計算機產品與流通,2020(11):11.
[3] 郝林倩.基于關聯規則的數據挖掘算法分析[J].太原學院學報(自然科學版),2020,38(3):42-45.
[4] 郭偉偉,吳文臣,隋亮.大數據時代的數據挖掘技術與應用[J].數字技術與應用,2020,38(8):103-105.
[5] 李金玲.智慧檔案系統的功能與數據挖掘及智能利用系統設計研究[J].蘭臺內外,2020(25):4-6.
[6] 王茜,平金珍.基于大數據背景的數據挖掘技術算法研究[J].信息與電腦(理論版),2020,32(15):56-58.
【通聯編輯:代影】