張凱萍
互聯網的發展、計算機通信技術的普及、網絡購物的平民化,使傳統實體經濟越來越多地“搬運”到了網絡上,這使得個人信息、通訊信息、消費信息等海量數據都成為了有跡可循的數據資源,這些數據資源已經演變成信息科學中一個非常重要的研究課題.但是,我們在享受信息技術帶來的方便的同時,也存在一些問題,例如信息的處理速度跟不上數據增長的速度;信息的提取技術有待提高;信息的真實性難以確認;個人隱私的保密制度和技術急需完善等.因此,許多相關議題成為了學術界關注的熱點,比如快速、高效率地在大數據中獲取有價值的信息,再進一步利用這些信息反映出來的規律來指導市場經濟、社會走向,以及快速、高效率地在大量的數據中找出隱藏的信息,使數據挖掘技術的發展速度進一步加快等.
數據挖掘的本質是在數據庫中發現隱藏的知識內容,是當今社會人工智能和數據處理領域重點研究的課題.之所以稱為“挖掘”,是因為這項技術所尋找的知識是之前并不確定的、具有潛在價值的、隱藏的內容.數據挖掘的過程就是決策支持的過程,數據挖掘就是以統計學、大數據技術為基礎,以自動化學習、AI智能以及識別技術等為基礎,非常規化地自動分析來自各行各業的數據,并總結出一定的關系網絡,從中發現隱藏的模式或潛力,來協助決策人員引導市場發展、降低風險,做出正確的預判.
從技術上講,數據挖掘是需要從一些大量的問題數據中提取隱藏的知識和有效信息,并且保證提取出來的信息和知識是之前不知道的,確保具有一定的潛在價值.這些問題數據包含不完整的數據,有缺損的數據,不能完全識別的數據,以及隨機的應用數據.其中,數據的來源必須要真實,數據量要大,提取的信息必須是目標用戶群所感興趣的,并且在實際操作中要可行[1].
對于原始數據,可以是來自各行各業的數據庫,例如關系數據庫中的結構化數據;一些文本、視頻資料等半結構化數據;例如在網絡上散布的非常零散的沒有任何關聯的數據.針對提取有效信息和知識的方法包含演繹、歸納整理、數學模型、非數學模型等.提取出來的知識可以用在信息檢索、快速查詢、過程控制等,還可以用于維護數據本身.因此,數據挖掘是一項混合技術,它能夠把數據充分利用起來,從簡單的查詢到復雜的演繹,從簡單的表層知識到深入的隱藏知識,這都是當今社會進行決策和引導的關鍵技術知識.
分類技術指的是在數據源中尋找出一組數據對象,這組數據對象具有相同的特點,可以根據事先規定的模式進行不同的分類,把數據源中的數據對象聯結到某種特殊的類別當中.例如可以把某一組數據對象聯結到顧客的分類中,然后對顧客的屬性進行分析,對顧客的特點進行分析,做滿意度調查、然后評判顧客的購買意向以及購買力.以某一個汽車廠商為例,如果這個汽車廠商把數據源中的顧客依據對汽車的愛好分門別類,這樣一線的銷售人員便可以把握主動,直接向這類顧客銷售相應的產品,投其所好,大大提高了效率.
這種分析方法是將一組數據源按照是否相似以及相似的程度分為幾個層級,制定覆蓋面廣而又詳盡的相似性判斷制度,使相同類別的數據源具有極高的相似度,使不同類別的數據源具有極低的相似度.市場銷售中經常用到聚類這種分析方法,例如尋找客戶的時候,挖掘潛在客戶的時候,維系與客戶的聯系的時候,分析商品周期的時候,預判銷售情況的時候等等,都可以使用聚類的分析方法.
關聯是描述數據源中各項數據之間關系的規則,簡單地說,就是一類數據源中出現某些項,很可能導致另一類數據源中產生相應的反映,有因而產生果,隱藏在數據源中的知識也隨之被發現[2].例如,當你在維護和客戶的關系的時候,就可以在該企業的客戶數據源中挖掘有效信息,在大量的關系交流的記錄中挖掘有效信息,挖掘有價值的線索,挖掘出不明顯的影響市場的關鍵節點,這對商品價格預判、銷售走勢、客戶類群分辨、銷售整體方向的規劃等具有重要的參考價值.
該方法是利用數據源在時間上的特征性,制定一個把數據類別回歸到預測變量的函數中,通過相關的數學理論,對變量和變量之間的關系進行挖掘分析,其中回歸分析的重點有以下幾點:數據類別之間的關系分析,預判的走向分析,以及數據變量的趨勢分析等.
數據源也可以根據特征進行數據分類,從中提取關于這些特征的特征式,這類公式可以提現該數據源的整體特點.例如在一線的銷售人員在預防顧客流失的時候就可以先將顧客按照特征進行分類,然后再從中提取出顧客流失特征的特征式,就可以很快分找出造成顧客流失的很多原因以及特征了,然后再從特征中找出主要特征和次要特征,通過對這些顧客流失的特征分析就可以提前預防顧客流失的情況了.
數據源里面的偏差含有許多隱藏的知識和有效信息,例如模式中反?,F象,數據分類中的反?,F象,實際與期望的偏差等,對于偏差的分析旨在探究實際結果與參照之間有價值的差別.在大型企業的危機預警系統中,管理人員更應該注意的是一些反?,F象和規則,對于這些偏差的分析以及深入挖掘,可以提前嗅探到危機,讓企業提前應對,避免不良后果的產生.
隨著互聯網的普及,越來越多的人開始通過網絡通信進行交互,這導致互聯網上的數據極其豐富,通過對互聯網的數據挖掘,可收集到有關經濟的各種信息、有關金融的各種信息、有關對手企業的各種信息、有關人力資源供求的各種信息、以及潛在客戶群體的各種信息等等,接下來再重點關注對企業會造成重大影響的內、外因素,或者潛在影響的內、外因素,根據數據挖掘的結果對危機進行預判和預警,合理利用,從而達到統籌運營、恰當決策的目的.
在一些大型企業中,數據挖掘技術在市場銷售中廣受青睞,它的應用基礎是市場細分原理,通過對顧客日常消費行為的分析來判斷其將來的消費行為[3].
具體地說,就是先廣泛的搜集一切和消費者的日常行為有關的信息,并進行加工處理,做好分類,通過不同分類的消費群體的消費水平,偏向愛好以及消費趨勢來對消費群體的消費行為做出預判,然后以此為準,對每一類消費群體進行定向推銷,類似于“漫灌”改“滴灌”,可以將銷售的準確度大大提升,進而銷售效率就會提升,企業積累的顧客越來越多,利潤也就會越來越大.
其中的消費數據信息來自于多種渠道.當我們在申請辦理借記卡時、購買商品進行登記時、郵寄物品填寫表格時等等,只要是需要填寫個人信息的公共場合,在填寫信息之后,一些私人信息就會自動納入相對應的數據庫;例如當你每一次刷信用卡產生消費的時候,企業就會通過你的信用卡的賬單來計算分析你的消費信息,并且還可以統計出每一次的消費時間,消費地點,消費內容,消費能力等;除了企業自身收集相關信息,也可以通過購買的形式從其他商業公司購買.
來源于多種渠道的用戶信息被重組,利用計算機、AI智能分析、模型算法等多種信息處理辦法進行綜合處理,從中提取對于企業有利的決策性、判斷性信息,用來對消費群體進行定向銷售等.舉例說明,當銀行系統對交易業務進行數據挖掘后,篩選到一個銀行用戶要求辦理雙人關聯賬戶,且明確這是該消費者第一次要求辦理,那么數據挖掘軟件會預判這名用戶即將結婚,相應地便可以對其定向推薦房屋按揭等業務,甚至可能把這份資料售賣給婚慶服務行業.
在市場經濟發達的國家,很多大型企業已經開始在原有信息基礎上通過數據挖掘進行深層加工,從而建立起自己的優勢,提升競爭力,擴大經營范圍.比如美國運通公司,建立了一個記錄信用卡消費記錄的數據庫,只要業務量在增加,數據庫的內容就會一直更新.而美國運通公司就會在這些數據中挖掘隱藏的信息,制定出了非常有效的“關聯結算優惠”策略,簡單地說,就是一個用戶在使用信用卡購買了一套衣服,如果在同一地方再買一雙皮鞋,那么就會有巨大優惠.如此以來,商店和銀行都賺取了更多的利潤.
預判型推銷,是以數據挖掘為基礎,可以按照消費者之前的消費水平,向其推薦與之相當的產品.例如卡夫食品擁有一個幾千萬顧客資料的數據庫,其內容是不同的消費人群對該公司曾經發放過的消費券、代金券等的反饋,卡夫食品以此為基礎進行數據挖掘,向特定的人群發送其偏好的食品,并且進一步推薦與之有關的卡夫食譜.再例如美國讀者出版公司,建立了一個業務數據庫,并且已經累積了幾十年,業務數據庫的內容已經包含全球范圍上億個顧客的相關資料和信息,并且業務數據庫還在7*24小時的運行,從來沒有間斷過,確保數據庫的內容可以實時更新.所以正是因為有了數據庫信息的挖掘技術,讀者出版公司在高層決策中實行了方向引導,讓公司的業務得到進一步拓展,從一開始的普通雜志擴展到專業雜志,從一開始的普通書刊擴展到音像制品,從而公司的利潤也是得到了很大的提升.
大數據在給人們帶來方便的同時,也存在許多安全隱患,尤其是個人的隱私容易被不法分子進行數據化分析.
比如,通過對人口健康數據、基因測序數據的挖掘,可以預判國民身體健康走向;通過對移動消費的數據挖掘,可以得出國民消費的金融數據;通過對社會文化的分析可以得出國民的文娛喜好和思想文化偏好,這些分析結果很可能會被不法分子利用,進而影響國家層面的安全.
由于利益驅使,個人信息的售賣已經形成完整的產業鏈條,依據目前的網絡法律法規,這些不法現象還很難得到整治.但換一個角度,大數據只有在充分流動和共享交換的模式下才能發揮最大作用,要用辯證的眼光看待當今社會大數據帶來的利和弊,只有完善法規、合理引導,才能使大數據發揮其應有的作用.
大數據時代的到來,使得數據挖掘技術成為極具影響力的工具,顛覆了以往各個領域的運作模式,使得各行各業能夠把握更高效的運行方案.隨著數據挖掘帶給人們方便的同時,個人隱私的安全問題也亟待解決,只有建立完善的法律法規,加強數據基礎設施保護,充分發揮標準的指導和引領作用,才能讓數據挖掘技術更好地為社會服務.