王致遠


摘 要:本文對數據挖掘技術進行簡要介紹,并對技術特點進行分析,最后闡述其在研究生招生信息挖掘中的應用流程與方法,通過確定目標、數據準備、數據挖掘、數據評估等對有意義、有價值的統計信息進行挖掘,力求能夠對經濟統計有所幫助。
關鍵詞:數據挖掘技術;經濟統計;應用方法
一、數據挖掘技術簡介
數據挖掘技術的應用原理較為簡單,主要是將原本復雜的數據進行精簡,然后將有價值的、滿足實際需求的信息提取出來,經過整理與分析后進行利用,達到提高數據利用率的目的。該技術在應用中需要先進技術的支持,如模糊概念、模塊識別、數據庫系統、知識篩選技術等,通過相應算法的應用,使原始數據得到有效的挖掘整理,最終形成一套簡潔明了的統計數據,為使用者的數據提取與應用提供極大的便利[1]。
二、經濟統計中數據挖掘技術的特點
(一)工作效率較高
在經濟統計方面,數據挖掘技術的應用具有較大優勢,受該技術自身特點影響,與其他技術相比,在工作效率方面的優勢較為顯著。該技術作為一種新型的數據深加工技術,自身的目的性較強,在實際應用中,通常以兩種形式展現,一是對經濟類數據的高效處理,二是對現有數據的高效處理,無論二者中的哪一種,均可在經濟統計領域中得以充分體現,呈現出較強的高效性。
(二)擁有充足的數據支持
將數據挖掘技術引入經濟統計中,其對宏觀數據具有較強的適應性,如同擁有一個展示功能的平臺,以更加新穎、高效的方式展示自身特性。在經濟統計領域中,對數據分析的準確性有嚴格的要求,并且在處理速度方面也有規定,而挖掘技術的應用剛好能滿足這一條件,它擁有充足的數據支持,經過分析和統計的數據更加科學高效。
(三)綜合應用性良好
現階段,數據挖掘技術逐漸滲透到諸多領域,具有較強的綜合應用性能,主要體現在數據物理分析、經濟統計、數學統計等方面。該技術蘊含較大的挖掘能力、統計能力,還具有強大的自動分析與統計作用,可幫助使用者良好高效地完成數據處理工作。將該技術應用到經濟統計中,在經濟數據挖掘、整理與歸類等方面發揮極大作用,為使用者的工作帶來極大的便利[2]。
三、經濟統計中數據挖掘技術的應用
(一)應用流程
1.確定目標。在數據挖掘技術應用的初始時期,應由經濟領域的專家學者對被挖掘的數據進行目標定位,定位效果對數據挖掘結果具有決定性作用。可見,初始目標確定不可忽視,應在定義的過程中,對算法進行推算,確保目標準確無誤。此外,定義要求是在現實需求的基礎上推理而成。
2.數據準備。在挖掘技術應用中,數據準備十分關鍵,且花費的時間最長,主要分為三個階段來完成,即數據選取、數據處理與變化分析。在數據選取方面,可將宏觀數據庫中的全部信息進行篩選,并定義為目標區數據;在數據處理中,對排列后的信息進行初步篩選,所選擇的數據應與要求相符;在變換分析方面,針對選取出的數據進行精簡,屬于數據深入選取,最后得出與目標相符的信息。
3.數據挖掘。該階段的主要目標在于預定算法,利用合理的算法對變換的數據源進行選擇后,再進行深入挖掘。在算法初步預定完成后,便可開展數據模塊計算,該流程需要專家與專業挖掘人員來完成,因此該項工作也是挖掘的核心所在。
4.數據評估。通過上述步驟的實施得出最終結果,由使用者對該結果進行分析,將分析結果全面展示出來,并對數據價值進行評估,經過嚴格的選取后將有意義、有價值的信息保存下來,將無效信息剔除。若經過上述操作后得出的數據與要求不符,系統將自動返回上一步,如此反復循環,直至數據與要求相符。
(二)對研究生招生信息的挖掘
在本文研究中對浙江寧波考點的報考數據(2015—2019年)進行數據挖掘與分析,主要采用以下幾種挖掘技術。
1.預處理方法。在應用預處理方法時,需結合數據挖掘技術,才可實現預期目標,對當地研究生招生信息進行深入有效的挖掘。在數據預處理過程中,可采用均值處理的方式,將數據中的噪聲和數據點空值剔除,數據中的空白得到彌補。當挖掘系統的基礎數據結構完善時,統計分析數據的真實準確性才可得到切實保障,數據點取值公式為:
式中,Ci代表的是數據點空值;k代表的是實際權值。在采用平滑法進行數據處理時,可對數據空值與噪聲值進行統一計算,并與加權平均數機制融合,對數據影響權重值進行提取,確保實際計算結果真實可靠。
2.集成處理法。該方法主要體現在兩個層面,一是冗余問題,二是模式集成。在挖掘研究生招生信息時會對數據進行集成處理,為后續工作提供便利。同時,對于經過預處理后的信息應進行冗余清除,確保數據庫中信息量處于較低的水平。對模式集成來說,經濟活動中的數據量龐大、類型眾多,應系統地對經濟數據集成結果進行處理,在應用挖掘技術時,對比元數據模塊,使識別率得到切實的保障,與質量標準規定相符合。在冗余問題方面,從本質上來看,數據挖掘屬于深加工過程,要想提高信息價值,應構建技術模型,對正向關系進行精簡,對冗余屬性進行綜合分析,使數據得到細化處理。以研究生招生信息為例,利用報考學位類別與生源地進行計算,需要對數據進行精簡,公式為:
式中,rAB代表的是冗余屬性;A與B屬性的平均值可用與來表示;σA與σB代表的是A與B屬性的標準方差。如若所得的rAB數值超過0,則二者屬性為正比例關系;如若rAB的數值為0,說明二者無直接聯系,即處于獨立狀態;如若所得的rAB數值小于0,則二者屬性為反比例關系,且rAB的絕對值越大,說明二者間的關系越緊密。
3.決策樹法。決策樹屬于應用較為頻繁的方法,先利用訓練集構建決策樹,在此基礎上進行數據分類,還應做好后面的“剪枝”工作。在決策樹結構建立時,可從兩個方面著手:一方面,構建數據輸出模型,利用訓練集建立決策樹,并對其進行精簡;另一方面,針對已經建成的決策樹,應進行數據分類,從樹根處開始,由下至上到達樹枝。在應用過程中,應充分發揮訓練集的作用,立足于實際問題與參數,科學有效地構建可行性的分析方法,在較短的時間內構建數據分析模型。同時,還應利用決策樹對數據進行歸類,使遞歸優勢得到充分發揮,可輸出與歸類要求相符的數據。通過數據挖掘可知,在報考專業碩士學位中,主要集中在以下幾個專業:工程碩士為53%,教育碩士為5.3%,公共管理碩士為6.0%,法律碩士為7.7%,農業推廣為6.0%。值得注意的是,歸類條件較為嚴格,在節點數據的級別相同時,處于停止條件,在具有分類屬性時,對輸入數據進行二次分割,即停止分類。在此過程中,利用決策樹完成數據統計,定期進行“剪枝”,規避起伏影響,最大限度地提高數據穩定性與實效性。
綜上所述,在現代化經濟發展中,經濟統計價值逐漸提升,需要積極引入數據挖掘技術,立足于市場實際情況,挖掘和分析有意義、有價值的信息,構建有效性較強的經濟決策,為經濟統計活動的開展提供充足的信息支持,促進數據挖掘技術的不斷更新優化,為國內市場經濟穩健發展貢獻更多的力量。
參考文獻
[1]董靜.試析數據挖掘技術在經濟統計中的應用[J].商,2018(31):227-228.
[2]張麗麗.試析數據挖掘技術在經濟統計中的應用[J].中國商貿,2018(01):13-14.