劉敏 楊陽 武警山西省總隊
社會經濟的不斷發展與時代的變革,人們加大了對數據挖掘的重視,為了進一步了解和掌握大數據信息,人們加大了對大數據的研究分析。本文接下來先對大數據挖掘相關問題進行了有效的闡述,便于我們對于大數據信息的進一步了解。
大數據挖掘從大面上的意思就是指技術人員通過從海量的數據信息中提取到那部分自己所需的信息。也就是指從大量的、不完善的、信息不清晰的信息數據中,抽絲剝繭的找到對人類有效發展的信息和知識的“尋找”過程。其具體的操作流程是工作人員早在海量的信息數據中利用分析處理工具對數據與模型之間的關系進行詳細的研究分析,并在尋找的過程中幫助使用者尋找數據與數據之間的聯系,明確數據信息,因此,對大數據的有效挖掘是目前人們解決信息不足問題的重要手段。從數據本身角度來看,一般對大數據的挖掘需要有數據清理、數據挖掘實施過程、數據變換、知識評估和模式評估等步驟。
大數據則是通過對海量數據信息內容的高速采集,對數據進行發現和解析的過程,是目前一種新型的從海量數據中摘取重要數據的技術結構平臺,具有提取信息速度快、種類繁雜、字母體量大、價值高等特點。
在對大數據的挖掘過程中可以發現,大數據挖掘中不僅涉及到了數據倉庫、模式識別以及建模技術,還涉及到了機器學等多個領域內的專業理論知識和專業技能。其中存在的數據統計、人工智能技術和數據倉庫是現階段大數據挖掘中的至關重要的三道技術支柱。
大數據時代下,目前我國的數據形式屬于剛發展階段,主要還是以對數據的挖掘為主體內容,也就是加深對大數據挖掘概念的進一步理解,對大數據的挖掘是人們進一步了解和掌握大數據的基礎。大數據和數據挖掘都是以提取對人類發展更有效的信息而進行的數據信息挖掘,從表面層次看,兩者之間沒有顯著的區別,但隨著對數據挖掘的不斷深入就會發現,數據挖掘的針對目標不只限于少量的數據,對海量數據同樣適用,只是在挖掘方法和挖掘技術上進行了有效的改變與更新,并更換了一種新的叫法成為“大數據”,其次,大數據的關鍵點不在于“大”,而是挖掘者需要轉變自身傳統的思想觀念,采用新型的思想和新型的技術手段對海量的數據進行解析,并有效提取其中的有用信息數據,這樣就可以對社會未來的發展形勢進行有效的預估工作,同時還可以根據其中所包含的結構形式,創新新型的產品和服務工程。因此大數據與數據的挖掘在一定的時期內仍處于相互共存的形式,究其兩者之間的差別就在于如何實現數據價值的最大化。
大數據是數據發掘產業化的重要表現,數據的價值在于數據關鍵信息的提取,利益則是技術價值的重要體現,數據挖掘作為專業技術領域當中的一種專業性名詞,在高端的商業領域當中也是需要修飾和升級的。現階段的大數據的有效發展已逐漸成為了增強我國市場經濟競爭力的至關重要的因素的一種,被譽為創新發展和生產力進一步提升的下一個戰略目標,得到了各國的高度重視,相關國家的各個政府部門在對大數據的發展上給予了最大程度的幫助與支持,甚至將其有效發展升級到了國家的戰略發展層次上。
非結構化處理流程的內容主要包含了對數據信息方面的采集工作、網頁分類和網頁預處理等三個重要階段的內容。
第一、信息采集。信息采集是指將沒有規則、順序的信息從海量的網頁數據當中分門別類的提取出來,并對其進行有效的數據庫存整理錄入的過程。由于這些技術型的工作大部分是由具有專業技術能力的采集人員完成的,因此所采集到的信息具有一定的局限性,而且基于對成本和性能的考慮,達不到對整個網絡進行全面覆蓋閱覽的目的,因此在對信息的采集方面技術人員要先考慮其是否有被訪問的價值,然后在研究以哪種形式對web進行訪問,最大程度的提升對有用信息的采集率。
第二、網頁分類。網頁分類是指專業的數據信息處理人員利用對數據挖掘算法得出的分類模型,從而對數據進行有效的分類處理,并得出對人類有價值的數據信息。目前對于數據挖掘中人們所面臨的重大問題就是對于網頁的分類,由于對物品進行有效的分類,可以幫助人們正確的認識世界,所以分類問題對于人類發展來說至關重要。
第三、網頁預處理。網頁預處理就是通過對數據進行一對一的篩選過程,確保信息的準確性和使用價值,主要是對網頁進行的去重處理,基于對URL的去重對比上,通常適用于對哈希算法。在信息內容的對比去重上則采用的是信息指紋的文本相似度算法,不管哪種方法,都是對網頁進行的去重處理。首先,先要對文檔的內容進行分解處理,采用部分結合文檔的體征進行的集中表達,這樣主要是為了簡化特征比較計算相似度。其次是針對與特征相對應的壓縮碼進行專業的處理,節省存儲空間,提高比較速度。最后對文檔的相似度進行逐一計算,根據文檔特征的重合比例來確定是否對文檔進行處理。
綜上所述,大數據時代下,對大數據的挖掘已成為未來時代發展的必然發展條件,是整個數據應用過程的核心環節。通過對大數據挖掘與數據處理方法的內容分析可以得出,大數據的解析是通過把海量數據進行逐一篩選、分門別類,并按順序整合錄入數據庫后,找出對人類未來發展有用的信息。通過對信息價值的進一步分析,充分了解當前大數據的結構,并對其進行嚴格的把控,對數據采集應用的有效發展具有重要意義。