許荻迪 江小蕾
[摘 要] 數據科學是從數據中提取知識的新興學科,在科學研究的“第四范式”興起的背景下被正式提出。用于商業決策和科學研究的數據產生了根本性的變化,其特征從原來主流的抽樣、結構化、小規模發展到全數據、半結構和非結構化、大規模,驅動數據科學發展成為既包含傳統統計方法,又包含數據挖掘、文本挖掘、過程挖掘和大數據等新興技術的交叉學科。客戶細分是典型的數據導向的商業和研究領域,數據科學在其中的應用表明,該學科所包含的各種方法,能夠成功提取復雜的客戶相關數據中蘊含的信息和知識,能夠解決客戶細分的可行性、有效性、精確性問題,為客戶細分研究和商業實踐提供良好的技術支撐和決策支持。
[關鍵詞] 數據科學;客戶細分;應用情況
[中圖分類號] F22 [文獻標識碼] B
一、引言
數據產生、搜集、存儲和處理方式的進化催生了數據爆炸時代,需要一門專門研究數據的各種類型、狀態、屬性,組織形式、變化方式和規律的科學,揭示自然界和人類行為現象和規律,為科學研究提供一種新的方法,為商業智能提供新的支撐。因此,數據科學的概念提出之后,迅速在商業和研究領域引起重視,應用越來越廣泛。
客戶細分(customer segmentation)是指根據客戶屬性劃分的客戶集合[1]。客戶作為企業最為重要的戰略性資源之一,其需求的滿足關系著企業生存、壯大和永續發展,為了滿足異質性的客戶需求,制定相應的差異化管理策略,企業廣泛應用客戶細分理論作為重要管理工具,該工具甚至已成為全球使用率最高的10大管理工具之一。[2]有效的客戶數據分析是客戶細分成功的關鍵。在客戶細分實踐中,制約其發揮作用的因素已不再是客戶數據信息量的不足,而是對客戶信息資源潛在價值的挖掘不夠充分。數據科學能夠處理各種類型和規模的數據,充分利用數據中蘊含的信息提取出有利于商業決策和科學研究的知識,非常適用于客戶細分這一依賴數據導向的領域。
二、數據科學和第四范式
“數據科學”(Data Science)起初叫“datalogy”。最初在1966年由Peter Naur提出。1996年,International Federationof Classification Societies(IFCS)國際會議召開,數據科學一詞首次出現在會議(Data Science,classification, andrelatedmethods)標題里。數據科學的概念于20世紀在學術界引起廣泛重視。2002年,國際科學理事會:數據委員會科學和技術(CODATA)開始出版數據科學雜志。2003年,美國哥倫比亞大學開始發布數據科學雜志,主要內容涵蓋統計方法和定量研究中的應用。
概括而言,數據科學就是從數據中提取知識。[3]根據Naur(1960)[4]的觀點,數據科學或稱數據學是計算機科學的一個替代性稱謂。1998年,C.F.JeffWu在題為“統計學等于數據科學嗎?”的演講中,建議將統計學改名為數據科學。但是這種字面上的轉換,并沒有將數據科學確立為一個獨立的學科。Cleveland(2001)[5]首次將數據科學作為一個獨立的學科提出時,將數據科學表述為統計學加上它在計算技術方面的擴展。魏瑾瑞(2014)[6]認為數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果。朱揚勇(2011)[7]則認為,數據科學目前只是多個相關學科“拼接”起來的一個新興學科,尚未形成完整的學科框架體系。
從以上觀點可以看出,數據科學是一門新興的交叉學科,其真正的發展起步未久,正處在迅猛發展階段。事實上,第四范式即數據密集型科學的提出,極大促成了數據科學的正式提出和發展。20世紀90年代中期,已故圖靈獎得主格雷(Jim Gray)[9][10]提出了科學研究的“第四范式(the fourth paradigm)”——數據密集型科學。不同于實驗、理論、計算這三種范式,“第四范式”下,需要“將計算用于數據,而非將數據用于計算”,這種觀點實際上是將數據科學從計算科學中單獨區別開來了。鄂維南院士(2013)[8]也提到“大數據在科學領域的表現是數據科學的興起,數據科學將成為科研體系中的重要組成部分,并逐漸達到與物理、化學、生命科學等自然科學分庭抗禮的地位”。
三、數據進化驅動數據科學產生和發展
如前所述,數據科學中的數據處理和分析方法是在不同學科領域中分別發展起來的,包括數學、統計和信息科技領域中的多種技術和理論,例如:信號過程、隨機模型、機器學習、統計學習、計算機編程、數據工程、模式識別和學習、可視化、預測技術、不確定性模型、數據倉庫和高性能計算。數據科學特別關注擴展到大數據的方法,不過普遍認為數據科學并僅限于研究大數據。總之,為了從數據中提取更多的信息和知識,許多新的技術隨著數據特征的演化,被不斷納入到數據科學的范疇中。
(一)統計學
正如有些研究者認為數據科學是在統計學的基礎上發展而來的,統計學是數據科學包含的技術中最早的一類。1900年之前,統計學還未作為獨立學科分離出來,當時處理的數據主要是全國范圍的普查登記造冊,一般是一些簡單的數據匯總和比較。大約在1920-1960年期間,統計學的關注焦點逐漸縮聚在小規模數據(樣本),產生了經典的統計方法,即統計推斷;以及現代意義上的統計調查,即抽樣調查。隨后,統計方法得以廣泛應用,并得到了快速發展。[11]統計學處理的數據是抽樣得來的、結構化的、相對小規模的。
(二)數據科學在統計學之外的發展
真正意義上的現代統計學是從處理小數據、不完美的實驗等這類現實問題發展起來的[12],而數據科學則是由于另一類現實問題而興起——全數據、半結構和非結構、大規模記錄中蘊含的信息需要被充分挖掘從而產生更大價值。endprint
1.全數據:數據挖掘
隨著數據化時代的到來,針對需要研究的問題常常可以得到數據總體,數據收集方式的改變直接淡化了樣本的意義。現代統計分析方法的核心是抽樣推斷(參數估計和假設檢驗),即在觀察了樣本的情況下如何去推斷總體。
然而在全數據的情況下,推斷就失去了原有的價值。例如一個公司的數據庫中可能有所有員工和客戶的資料,去年所有業務的記錄等。年度業務的平均值不再需要通過統計推斷得到,而是可以通過直接計算全體數據的平均值,此時觀測到的值也就是估計參數。同時,數據的數量增長可以帶來質量提升,即所謂的“大量的數據勝于好的算法”。更何況在某些情況下,例如社會網絡數據,抽樣本身是存在困難的。
因此,在能夠獲得全數據的情況下,使用數據的全體是更為可取的。數據挖掘作為一種能夠處理全數據的方法,在很多情形下,使得模型的發現更為容易,從而成為數據科學中一類重要的方法。繼數據挖掘之后,另一個能處理全數據的技術是大數據方法,在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中提出,大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析。
2.多類型:文本挖掘和過程挖掘
盡管各類數據處理技術的目標都在于從數據中提取信息和知識,然而這些技術所能處理的數據范圍不一樣。數據本身是一個很寬泛的概念,包括結構化、半結構化和非結構化等類型。結構化數據即傳統的關系數據模型、行數據,存儲于數據庫,可用二維表結構表示。半結構化數據即自描述,數據結構和內容混雜在一起,例如XML、HTML等,可用樹、圖(數學中的定義是什么)等模型表示。非結構化數據指各種文檔、圖片、視頻/音頻等,無法用數學模型表示。
統計學研究的數據雖然類型豐富,但都需要在前期進行結構化處理,例如,統計學所使用的類別數據、有序數據等定性數據,定距數據、定比數據等定量數據,都是結構化數據。
文本挖掘、過程挖掘等數據技術能夠處理以文本、操作記錄等形式存在的社交信息、地理位置信息、行為習慣信息、偏好信息等各種維度的信息,從而最大程度上利用以前無法利用的記錄對人類行為數據進行分析,使得能夠分析的數據范圍迅速擴大。數據科學通過納入這些新的數據處理技術,使得能處理的數據范圍更為寬泛,不僅包括這些傳統的結構型數據,而且還包括統計學無法處理的文本、圖像、視頻、音頻、網絡日志等非結構型和半結構型數據[13]。總體而言,數據科學對于數據結構的要求大大降低了。
3.大規模:大數據
隨著技術的進步,人類開始可以巨細無遺地記錄一切可以記錄的數據,數據規模急劇增大,數據量實現了從GB級到PB級的跨越,人類進入大數據時代。大數據又稱為巨量數據(bigdata,megadata),呈現出4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值),是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。[14]
由于無法確定哪些數據是絕對無用的,選擇部分數據進行刪除的風險要大于存儲大量數據的成本。既然難以通過刪除縮小數據量,傳統的關系數據庫又不具備應付數據量急速膨脹的伸縮性和擴展性,也不具備快速、有彈性地對大數據進行查詢、計算、統計分析的能力,需要發展新的技術以專門處理大數據。
大數據技術包含更高效率的存儲工具,具備顯著的伸縮性和擴展性,可以很好地適應數據量的快速膨脹,可以通過簡單增加計算機來無限地擴充存儲能力;也包括高級查詢語言,對現實中的數據格式具有彈性和適應性(非固定格式),并能在可容忍的時間范圍內完成一系列數據處理過程。由于大數據分析能夠解決其他技術沒能提供解決方案的海量數據存儲和計算的可行性和有效性問題,該技術被充實到了數據科學中。
(三)數據導向:算法和模型
數據導向在第四范式的浪潮下,已經被越來越多的研究者和管理者所認同。但是數據導向仍然有基于模型與基于算法兩種聲音[15],基于模型的方法假定數據背后存在某種生成機制,其基本觀點是,得到的模型不僅要正確(即可解釋性強),而且要準確(即外推預測能力強)。
基于算法的方法認為復雜的現實世界無法用數學公式來刻畫,對于現實中復雜的、高維的、非線性的數據集,不設置具體的數學模型,不進行函數機制的探討,對數據也不做相應的限制性假定。在很多應用場合,算法模型得到的是針對具體問題的解,并不是統計意義上的推斷解。算法模型的可解釋性較弱,但是對數據分布結構的限制性假定更少,而且在計算效率上有很大的優勢,可擴展性也更強。
20世紀80年代中期以來,算法模型隨著計算機技術的迅猛發展而得到快速成長,然而很大程度上是在統計學這個領域之外“悄然”進行的,比如人工神經網絡、支持向量機、決策樹、隨機森林等機器學習和數據挖掘方法。算法模型以其天生與計算機的相容性,越來越受到學界的廣泛重視。數據導向的、基于算法的數據分析方法成為無法回避的一個重要趨勢。
四、應用數據科學的客戶細分研究
客戶細分與數據有著天然的緊密聯系,科學準確地細分客戶需要依靠數據,同時,企業在當前的技術環境下,又能夠提供大量的、各種類型的、關于客戶的全數據。采用數據科學中各項技術,能夠從不同角度充分利用這些數據中蘊含的信息,立體完整地勾勒出每一種客戶群體的各項特征。
目前比較典型的應用于客戶細分的數據科學技術有聚類分析、人工神經網絡、文本挖掘等,應用這些技術可實現不同內容、維度和側重點的客戶細分,研究結論對商業實踐有很好的參考作用。
(一)聚類分析
聚類分析是將數據對象依據其特征分組成若干個類或簇的一種數據挖掘技術。簇是一組數據對象的集合,同一個簇中的對象彼此相似,不同簇中的對象彼此相異。[16]許多國外研究都將聚類分析應用于客戶細分研究。Ferreira Lope(2009)[17]強調聯合分析和聚類分析在客戶細分中的優勢,通過聚類分析了解消費者偏好,并據此將客戶分組,制定更有針對性的營銷策略。Simunaniemi A-M等(2013)[18]采用半結構式問卷調查方法,運用兩步聚類分析法對消費者的飲食習慣進行分析,對客戶集群進行基于T檢驗及卡方檢驗的比較,證實聚類分析能夠有針對性的對消費群進行健康和營養指導。O.Dzobo等(2014)[19]介紹了在電力系統領域客戶細分所具備的價值,采用層次聚類技術從電力產業的經濟規模、經濟活動以及能源消費方面對客戶進行細分并進行了案例分析。HenrietteMüller等(2014)[20]為電力系統穩定性分析建立了多維度客戶細分模型,采用規模、經濟活動、能源消費量三個變量將客戶依照其負荷特性進行細分,對南非和瑞典數據的分析表明,該模型相對傳統客戶細分模型的有效性體現在對于客戶停電損失(CIC)最終估計的離差減小了。endprint
國內學者對聚類分析在客戶細分研究中的應用也進行了一些探索。季月江和呂佳(2009)[21]主要分析了K-means算法及其在客戶細分中的應用,并指出客戶價值、消費特征和人口特征這三個維度是客戶細分的主要內容。吳軍英和辛銳(2010)[16]基于K-means算法和基于密度的DBSCAN算法的優點和不足提出了改進的DBSK算法,使得算法對全局參數依賴性降低,并應用該算法進行客戶細分。熊云波(2008)[22]認為客戶細分是客戶關系管理的核心,并運用聚類分析技術對零售業客戶進行客戶細分的實證研究。徐昆(2014)[23]改進了K-means算法,參考RFM模型設立指標對客戶進行細分,并通過編程優化K-means算法宏程序,對快速消費品的銷售歷史數據進行了實證分析,以實現資源的優化配置。
(二)人工神經網絡
人工神經網絡(Artificial Neural Network)是一種類似于大腦神經網絡結構和功能的數學模型。它是由一系列的處理單元利用適當的方式互連而成的一個非線性信息處理系統。[24]該方法是一種人工智能算法,也是一種數據挖掘技術,具有自適應性、自組織性、容錯性等特征,能夠快速、準確實現智能化分析,并對未來做出預測和評價,在模式識別、數據處理及自動化控制等多個領域的應用都取得了良好效果。[25]
國外很多研究將人工神經網絡方法應用于客戶細分。Ali,J.和Rao,C.P.(2010)[26]在信息處理和通信技術不斷改進的基礎上探索更加有效的市場細分的方法,并詳細闡述了神經網絡模型的可行性。Kauko,T.等(2002)[27]采用兩種神經網絡模型——自組織映射(SOM)及學習矢量量化(LVQ)模型對芬蘭赫爾辛基的房地產市場進行細分,發現客戶更關心地理位置和房屋種類,房屋價格反而是較少被考慮的因素。Derrick S.Boone和Michelle Roehm(2002)[28]基于模糊人工神經網絡分析技術,采用真實數據檢驗會員聚類準則,在現有方法的基礎上確定目標市場細分區間,并驗證不同市場細分的優勢。Velu,C.M.和Kashwan,K.R.(2015)[29]基于人工神經網絡的智能模型,采用目標市場客戶的實際交易數據,研究客戶的消費行為并將客戶進行分類。
國內許多學者對神經網絡方法進行了改進,并將其應用于客戶細分研究。陳伯成(2004)[30]對自組織神經網絡在客戶分類中的應用進行了探討,在討論客戶細分相關概念的基礎上,給出一種基于SOM客戶分類方法,并根據綜合指標的計算和各個指標的相對結果將客戶分類,進行模擬計算。施揚(2007)[31]應用自組織特征映射SOM的人工神經網絡模型對客戶高維數據進行訓練,得到的分類模型能夠對商業銀行CRM系統在線實時輸入的客戶信息進行有效分類。秦昌磊和薛亞菲(2010)[32]采用自有神經網絡(SOM)建立銀行客戶細分模型。湯亞玲等(2014)[33]將遺傳算法與BP神經網絡結合用于對銀行客戶分類進而對客戶購買銀行產品的行為進行預測,發現基于自適應的遺傳神經網絡方法能夠更快更高效分類銀行客戶。
(三)文本挖掘
文本挖掘也稱為文本數據挖掘或文本知識發現,是指從大量文本數據中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息。直觀地說,當數據挖掘的對象完全由文本這種數據類型組成時,這個過程就稱為文本挖掘。[34]文本挖掘的基本思想是首先將文本進行切分,進行信息抽取,將非結構化文本數據利用分類、聚類、關聯分析技術轉化為結構化數據,然后根據結構化數據發現、獲取信息之間的關系,并進行趨勢預測。[35][36]文本挖掘作為數據挖掘的熱門領域受到了政府、商業和研究機構的廣泛關注[36],但該方法應用于客戶細分研究才剛剛起步,具有重大的發展潛力。
國外研究者將文本挖掘技術應用于客戶細分,著重研究了客戶蘊藏于文本中的態度、情感、觀點等內容。ParkJ.等(2014)[37]使用文本挖掘識別“纖維肌痛臨床特征患者(FM)”網上發布的內容,對醫療客戶進行細分。通過識別、分析FM網站有關記錄的詞性、詞頻、語法及短語,獲得FM客戶的關鍵詞。關鍵詞顯示,疼痛是FM患者最關注的問題:疼痛部位主要在肌肉、腿、脖子、后背、關節及肩膀等位置;疼痛癥狀可分為“嚴重”、“長期”、“經常”三類,同時可能伴隨痙攣。客戶還關注醫療服務和其他幫助,并且希望病痛盡量少地影響職業和人際關系。研究結果表明,通過文本挖掘可以客觀地了解FM客戶關注的問題并對其進行細分。Sun等(2015)[38]指出,為YouTube和Flicker等社會媒體網站的客戶提供適當的個性化推送內容變得越來越有挑戰性,而文本挖掘能夠有效地應對這一挑戰。協同過濾(OCCF)方法通過整合在線情感文本來建立細分和推薦模型,能夠改善傳統推薦模式過于依賴優先等級并且經常遇到數據稀缺性的問題。該研究結合推斷的情緒反饋信息和OCCF模型,開發了新的社交媒體推薦模型SA_OCCF,對網站客戶進行細分和針對性內容推送,研究結果表明該推薦模型比OCCF更加有效。OdedNetzer等(2012)[39]提出,在Web2.0時代,對于博客、論壇、聊天工具所記載的用戶想法、信念以及經驗形成大量文本數據,可通過文本挖掘方法,結合語義網絡分析,從中搜集分析客戶對競爭對手產品的態度,將其轉化成市場結構及競爭格局相關信息。
國內研究者采用文本挖掘進行客戶細分,主要發掘客戶特性和行為偏好。胡雨晴(2014)[40]針對短文本數據,研究文本數據的維數約減方法和基于文本聚類的客戶細分問題,發現了關注人群的分布情況以及不同的客戶行為偏好。龐觀松(2013)[41]提出,客戶的社會關系網的興趣愛好信息對客戶特征描述具有重要意義,該研究采用微博平臺文本數據,探索了社會關系特性在客戶細分中的作用,將客戶個人和社會特性兩個方面結合生成客戶特性描述文本。endprint
五、結論
數據科學是從數據中提取知識的新興學科,在科學研究的“第四范式”興起的背景下被正式提出。用于商業決策和科學研究的數據產生了根本性的變化,其特征從原來主流的抽樣、結構化、小規模發展到全數據、半結構和非結構化、大規模,驅動數據科學發展成為既包含傳統統計方法,又包含數據挖掘、文本挖掘、過程挖掘和大數據等新興技術的交叉學科。同時,在數據導向的思想下,數據科學也體現出從偏重模型到偏重算法的趨勢。
客戶細分是典型的數據導向的商業和研究領域,數據科學在其中的應用表明,該學科所包含的各種方法,能夠成功提取復雜的客戶相關數據中蘊含的信息和知識,能夠解決客戶細分的可行性、有效性、精確性問題,為客戶細分研究和商業實踐提供良好的技術支撐和決策支持。
[參 考 文 獻]
[1](美)菲利浦·科特勒.新千年市場營銷發展趨勢[J].銷售市場,2001(1):5-8
[2]Rigby D K.Management Tools 2001 Global Results:Annual Survey of Senior Executives[R] .BAIN &COMPANY IncResearch Report, 2002:1- 4
[3]Dhar, V. (2013). "Data science and prediction". Communications of the ACM 56 (12): 64. doi:10.1145/2500499. ;Jeff Leek (2013-12-12). "The key word in "Data Science" is not Data, it is Science". Simply Statistics
[4]P Naur. Report on the algorithmic language ALGOL 60 [R]. Comm. ACM,1960(5): 299 -314
[5]W Cleveland. Data science:an action plan for expanding the technical areas of the field of statistics [J] . International Statistical Review,2010(1) : 21 -26
[6]魏瑾瑞,蔣萍.數據科學的統計學內涵[J].統計研究,(31)5:3-9
[7]朱揚勇,熊贅.數據學與數據科學發展現狀[EB/OL].http://www. paper. edu. cn/ eleasepaper/ content/ 2011 06 329, 2011-06-16
[8]趙國棟,易歡歡,糜萬軍,鄂維南.大數據時代的歷史機遇:產業變革與數據科學[M].清華大學出版社,2013
[9]C Lynch. Jim Gray's Fourth Paradigm and the Construction of the Scientific Record [A]
[10]T Hey, S Tansley, K Tolle. The Fourth Paradigm: Data-Intensive Scientific Discovery [C]. Microsoft Research,2012:177-185
[11]R Groves.Three eras of Survey Research[J]. Public Opinion Quarterly,2011(75) : 861-871
[12]The best source of good statistical work is bad experiments, John Mount, 2013.
[13]鄭京平,王全眾.官方統計應如何面對BigData的挑戰[J].統計研究,2012(12):3-7
[14]大數據分析技術的發展[EB/OL].2012-05-16.http://tech.ccidnet.com/art/32963/20120516/3859799_1.html
[15]L Breiman. Statistical Modeling: The Two Cultures [J]. Statistical Science,2001 (3) : 199 -231
[16]吳軍英,辛銳.聚類分析在客戶細分領域中的應用[J].微計算機信息,2010(28):199-200+207
[17]Ferreira Lopes, SérgioDominique ,RialBoubeta, Antonio ,Varela Mallou, Jesús. Post Hoc Tourist Segmentation with Conjoint and Cluster Analysis[J]. PASOS :Revista de Turismo y Patrimonio Cultural,2009:73
[18]Simunaniemi A-M,NydahlM,Andersson A. Cluster analysis of fruit and vegetable-related perceptions: an alternative approach of consumer segmentation.[J]. Journal of Human Nutrition and Dietetics,2013:261
[19]Henriette Müller,Ulrich Hamm. Stability of market segmentation with cluster analysis - A methodological approach[J]. Food Quality and Preference,2014:34endprint
[20]Dzobo,K. Alvehag,C.T. Gaunt,R. Herman. Multi-dimensional customer segmentation model for power system reliability-worth analysis[J]. International Journal of Electrical Power and Energy Systems,2014,62
[21]季越江,呂佳.基于聚類分析的客戶細分研究[J].辦公自動化,2009(8):36-39
[22]熊云波.聚類分析在客戶細分中的應用[J].科技資訊,2008(34):224
[23]徐昆.優化的聚類分析在企業客戶細分中的應用[J].經濟論壇,2014(1):123-128
[24]黃華.基于神經網絡模型的銀行客戶分類研究[D].安徽工業大學,2014
[25]施揚.基于SOM的商業銀行客戶分類管理模型研究[J].科技廣場,2007(12)103-106
[26]Ali, J; Rao, CP, Neural networks model: A viable approach for micro market segmentation,[J]. Summer Marketing Educators Conference of the American-Marketing-Association,2010:320-321
[27]Kauko, T; Hooimeijer, P; Hakfoort, J, Capturing housing market segmentation: An alternative approach based on neural networkmodelling[J]. HOUSING STUDIES,2002,17:875-894
[28]DerrickS. Booneand Michelle Roehm, Evaluating the Appropriateness of Market Segmentation Solutions Using Artificial Neural Networks and the Membership Clustering Criterion[J]. Marketing Letters,2002:317-333
[29]Velu, C M,Kashwan, K R. Artificial Neural Network Based Data Mining Technique for Customer Classification for Market Forecasting[J]. International Journal of Advancements in Computing Technology,2015,71
[30]陳伯成,梁冰,周越博,林析泉,趙延.自組織映射神經網絡(SOM)在客戶分類中的一種應用[J].系統工程理論與實踐,2004(3):8-14
[31]施揚.基于SOM的商業銀行客戶分類管理模型研究[J].科技廣場,2007(12):103-106
[32]秦昌磊,薛亞菲.基于SOM的商業銀行客戶細分研究[J].現代商業,2010(6):27
[33]湯亞玲,黃華,程澤凱.基于自適應遺傳神經網絡的銀行客戶分類研究[J].計算機技術與發展,2014(7):192-195
[34]肖建國.試論文本挖掘及其應用[J].圖書館學研究,2008(4):22-24
[35]康東.中文文本挖掘基本理論與應用[D].蘇州大學,2014
[36]劉智勇.基于云計算的文本挖掘算法研究[D].電子科技大學,2011
[37]Park J; College of Humanities, Ajou University, Suwon-si, Korea., Online discourse on fibromyalgia: text-mining to identify clinical distinction and patient concerns.[J] Medical Science Monitor: International Medical Journal Of Experimental And Clinical Research [Med SciMonit] 2014 Oct 07; Vol. 20, pp. 1858-64. Date of Electronic Publication: 2014 Oct 07
[38]Sun, JianshanWang, GangCheng, XusenFu Yelin, Mining affective text to improve social media item recommendation[J] Information Processing & Management. Jul2015, Vol. 51 Issue 4, p444-457. 14p
[39]OdedNetzer, Ronen Feldman, Jacob Goldenberg and Moshe Fresko, Mine Your Own Business: Market-Structure Surveillance Through Text Mining[J]. Marketing Science, Vol. 31, No. 3, Emergence and Impact of User-Generated Content (May-June 2012): 521-543
[40]胡雨晴.基于文本聚類的客戶細分方法研究[D].江蘇科技大學,2014
[41]龐觀松.基于文本分類技術的微博平臺潛在客戶挖掘[D].廣東外語外貿大學,2013
[責任編輯:王鳳娟]endprint