摘 要:隨著信息技術特別是網絡技術飛速發展,人們收集、存貯、傳輸數據能力不斷提高。數據出現了爆炸性增長,與此形成鮮明對比的是,對決策有價值的知識卻非常匱乏。知識發現與數據挖掘技術正是在這一背景下誕生的一門新學科,數據挖掘是當前數據庫和信息決策領域的最前沿研究方向之一,數據挖掘技術對經濟預測能取得很好的效果。
關鍵詞:數據挖掘;功能;內容;步驟
中圖分類號:F0 文獻標志碼:A 文章編號:1673-291X(2013)33-0007-02
收稿日期:2013-08-19
作者簡介:張瓊(1969-),女,浙江杭州人,助理會計師,從事企事業單位經濟管理研究。
一、數據挖掘與功能
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它是一門交叉學科,匯聚了數據庫、人工智能、統計學、可視化、并行計算等不同學科和領域。現代統計學充分運用了自動化的數據搜集、整理與分析技術,其目前面臨的最大課題就是處理大量、復雜數據的能力。由于傳統的統計推斷局限在小樣本,無法處理大量、復雜的數據集,數據挖掘的出現則大大增強了統計學的的數據處理能力,也給統計學的理論研究提出了新的課題,極大地推動了統計學的發展。數據挖掘的過程也叫知識發現的過程。
1.分類。按照分析對象的屬性、特征,建立不同的組類來描述事物。例如,銀行部門根據以前的數據將客戶分成了不同的類別,現在就可以根據這些來區分新申請貸款的客戶,以采取相應的貸款方案。
2.聚類。識別出分析對內在的規則,按照這些規則把對象分成若干類。例如,將申請人分為高度風險申請者、中度風險申請者、低度風險申請者。
3.關聯規則。關聯是某種事物發生時其他事物會發生的這樣一種聯系。例如,每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關聯的支持度和可信度來描述。
4.預測。把握分析對象發展的規律,對未來的趨勢做出預見。例如,對未來經濟發展的判斷。
5.偏差的檢測。對分析對象的少數的、極端的特例的描述,揭示內在的原因。
二、數據挖掘技術的內容
數據挖掘是進行信息處理的系統工具,按照信息處理的流程來分類,一般有三種類型:信息發現、預測模型和異常分析。信息發現是指單純地對信息進行處理、整理和分析,以發掘出蘊涵在信息之間的潛在的有價值的知識或者聯系,但并不進行對信息處理結果的預測。信息發現包括條件邏輯推理、關聯處理和信息規律趨勢和變化等;預測模型是指通過上一階段的信息處理,利用有價值的知識資源和預測模型對其進行發展趨勢預測,這包括結論預測和發展趨勢展望等;異常分析是指數據挖掘的擴展階段,對發現的異常情況作出分析,包括偏離偵測和關聯分析等。總的來說,數據挖掘技術通常有六種手段進行信息處理:分類、回歸模型、時間序列、聚類、關聯分析和序列發現。分類和回歸模型一般用于趨勢預測,關聯和序列發現用于分析客戶行為,聚類則可用于以上兩種情況。數據挖掘技術按對信息的處理方式分為數據保存技術和數據提煉技術兩種方式。數據保存技術主要是能夠方便地為企業決策提供信息幫助,在企業決策中應用案例分析(CBR)來保證經營決策的有效性。但是企業要想獲得蘊涵在信息之中的有價值的知識,就必須使用數據提煉技術,數據提煉技術包括:邏輯方法是運用多維或者OLAP技術對量化的或者非量化的數據進行統一模式的處理,包括規則公式和決策樹;橫向對比主要是對定性數據指標進行類比分析,包括類比中介和可信網絡;程式分析是能夠有效地應用多維模型和數理統計方法對大規模的數據進行處理,包括數理統計方法和神經網絡等。
三、數據挖掘步驟
1.確定應用領域。包括此領域的基本知識和目標。
2.建立目標數據集。選擇一個數據集或在多數據集的子集上聚焦。
3.數據預處理。在大數據集中,根據需求,利用數據凈化和整合技術,選擇與任務相關數據,在不降低其準確度的狀況下減少處理數據量。
4.數據轉換。找到數據的特征進行編碼,減少有效變量的數目。
5.數據挖掘。根據數據和所要發現知識的種類來確定相應的挖掘算法。
6.數據評價。將挖掘出的知識和數據以各種可視化方式顯示,并將其以圖形、文本等方式存儲在庫中,以便對它們進一步挖掘,直至滿意為止。
7.實施和應用。利用數據挖掘技術所建立模型在實際項目中的應用,包括數據庫的構建,個性化用戶服務、基于知識的企業信息管理(MIS)、企業目標管理、決策支持等等。
四、數據挖掘在經濟運行中應用
以大數據為創新驅動的金融改革能夠緩解小微企業融資困難,促進信息消費升級,加快民間資本對金融業的支持,更靈敏的防范金融風險,成為中國經濟結構調整和轉型升級的強大動力。對于小微企業而言,其融資的一個重大挑戰是銀行等金融機構的風險控制要求。小微企業由于經營規模較小,其信用風險信息較為模糊,使得銀行不愿貸款。憑借強大的信息資源和風險透視優勢,大數據金融將幫助解決小微企業的融資困境。基于大數據應用的金融機構,可以憑借互聯網開放平臺的渠道優勢與數據挖掘解決小微企業融資過程中資金供需雙方信息不對稱的問題。大數據能夠提高風險透明度,加強風險的可審性和管理力度,從而減少小微企業融資的成本,加強金融機構對小微企業進行貸款的風險管理上的激勵。除了助力小微企業融資,以大數據為驅動的服務創新能夠有效提升金融產品和服務的消費,促進信息消費,擴大內需。大數據支持服務創新,強調客戶為中心的理念,通過對客戶消費行為模式進行分析,提高客戶轉化率,開發出不同的產品以滿足不同客戶的市場需求,從而促進消費,提振內需。大數據金融的代表互聯網金融正不斷推動著中國的金融改革。互聯網金融的典型代表阿里巴巴充分利用其平臺積累的大數據資源,將海量交易數據轉化為金融商機,從“支付寶”到“余額寶”,通過對大數據的深度挖掘實現了精準的金融服務。基于大數據的深度信息挖掘和價值分析將有效提升銀行的風險定價能力,通過精準的手段算清楚各業務、各產品、甚至各個客戶的成本和收益,加快業務和管理精細化轉型,同時有效監控利率風險。大數據金融具有大價值,但同時也存在一定風險。守住不發生系統性金融風險是底線。
參考文獻:
[1] 何清.物聯網與數據挖掘云服務[J].智能系統學報,2012,(3).
[責任編輯 劉嬌嬌]