沈 超,王安寧,陸效農,彭張林,張 強
(1.合肥工業大學管理學院,安徽 合肥 230009;2.安徽工程大學經濟與管理學院,安徽 蕪湖 241000;3.過程優化與智能決策教育部重點實驗室,安徽 合肥 230009)
隨著科學技術的發展和物質生活的豐富,消費者的需求變化越來越快.企業能否及時把握市場需求變化是決定產品成功的關鍵.產品設計者通常使用一些需求模型來預測客戶偏好,以確定下一代產品應該包含和排除的產品屬性.對于高度波動的市場,傳統的需求建模技術運用單次獲取的調研數據生成預測模型,往往無法反映產品趨勢的演變過程.
在線評論作為一種新的口碑形式,包含了消費者對產品的全方面評價,有助于企業了解客戶的偏好.同時,在線評論的收集成本低、更新速度快,對制造企業及時準確地獲取客戶偏好變化趨勢具有重要價值.
客戶的需求往往是動態的,獲取客戶需求及其變化趨勢是一項復雜的工作.為了及時、準確地從在線評論中獲取客戶需求的變化,本文提出了一種客戶偏好趨勢挖掘方法.首先,利用信息增益方法測量產品屬性對客戶滿意的重要性,并基于時間序列分析預測下一時間節點產品屬性的重要性,實現產品屬性重要性的測量與預測.然后,基于產品屬性重要性的測量,采用決策樹模型識別出隨時間變化的關鍵產品屬性.最后,結合產品屬性重要性的預測結果,運用Mann-Kendall 統計趨勢識別技術,依據產品屬性重要性的變化趨勢將非關鍵產品屬性分成三類:過時屬性、增值屬性和穩定屬性.通過一個汽車產品的示例驗證了本文所提出模型的有效性.研究結果表明,本文提出的產品屬性分類有助于指導產品架構,支持在下一代產品設計中何時包含或排除某些產品功能的決策;所建立的客戶偏好趨勢挖掘模型在k+1 階段樣本分類準確性預測上要優于單純的決策樹模型,在k+2 階段的預測效果更加明顯.本文的研究結果將對新產品開發過程中產品設計者制定產品開發策略起到輔助決策作用.
在產品設計中,經常會應用到一些需求建模和偏好測量的方法,例如質量功能展開、聯合分析、離散選擇模型和監督機器學習模型.本節只討論決策樹分類模型,它在產品設計領域的應用比較普遍[1].
決策樹代表的是對象屬性與對象值之間的一種映射關系.產品設計領域常運用C4.5 等決策樹分類算法分析大規模消費者數據用于產品概念生成.決策樹作為一種預測模型,算法的基礎是經典信息熵理論.在產品設計術語中,信息熵可以表示為在數據集S中,區分一個類別和另一個類別的不確定性,可以表示為

其中p(cr)表示數據集S中的類變量cr的概率,k表示類變量值的個數.
為了確定最大能力的屬性,減少選擇集的不確定性,根據屬性變量的取值劃分為n個子數據集.給定一個特定的屬性a,信息熵是該屬性的每個唯一值的信息熵的總和為

其中Sj表示訓練數據S的子集,包含屬性的互斥結果值,| · |表示集合所包含的元素個數.例如,屬性有三個互斥結果值(高,中和低),則訓練集S將被劃分為三個數據子集,S1將包含屬性值為低的所有數據實例.
ID3 決策樹分類算法使用信息增益作為屬性選擇的度量,實質上是屬性提供的類變量不確定性的減少量.屬性a的Entropya(S)越低,其增益gain(a)越高,這兩者的關系可表示為

C4.5 算法是繼ID3 算法后的決策樹分類算法,使用增益率進行度量,克服了包含更多互斥結果屬性帶來的偏差.增益率可以定義為[2]

決策樹分類模型克服了離散選擇模型對高維數據進行分析時通常會出現的多重共線問題,更加適合大規模數據分析.此外,由于決策樹分類模型和離散選擇模型都是處理靜態數據,單純的決策樹分類模型限制了分析客戶偏好變化趨勢的能力.因此,需要對決策樹模型進行優化,從而提高模型分析偏好趨勢的有效性.
為了克服靜態需求模型的挑戰,在效用理論、數據挖掘和機器學習研究中,時間序列建模技術應運而生.現有文獻針對量化客戶偏好演變,構建了時間序列效用函數模型.Mela 等[3]調查了營銷活動對消費者選擇行為的短期、中期和長期影響,并在多項Logit 模型中選擇一階導數信息來量化客戶偏好的時間敏感性.Jedidi 等[4]提出了一個異方差、可變參數聯合概率的回歸模型,研究了營銷領域中促銷和廣告之間的權衡.Seetharaman[5]提出了一種效用理論的品牌選擇模型,該模型考慮了四種不同的狀態依賴性來源,包括消費者選擇和營銷變量的滯后效應.Lachaab 等[6]在選擇模型中結合參數驅動的偏好動力學,提出了貝葉斯狀態空間框架,建立了時間離散選擇模型.
上述模型試圖模擬不斷變化的客戶偏好,但是它們主要關注模型參數的變化,而不是屬性-類變量關系的潛在演化.此外,這些時間序列模型不能為設計者提供下一代產品設計屬性相關性的度量.由于所提出的基于時間序列效用是面向營銷領域的,它們更關注于客戶偏好的經濟影響,比如品牌偏好的演變,廣告影響等.但是,設計工程師面臨的挑戰是確定最佳屬性組合,以便產品架構設計能夠滿足不斷變化的客戶偏好.
除此之外,上述時間序列挖掘算法沒有表明哪些屬性可能隨時間推移表現出較弱預測能力.因此,必須建立出一種趨勢預測模型使設計工程師能夠及時有效地了解不斷變化的客戶偏好.
在線評論作為一種新的口碑形式,引起了信息系統、市場營銷以及產品設計等領域研究者的極大關注[7,8]對于產品設計研究而言,在線評論是消費者主動發表的客戶聲音,而非被動的問答,對企業準確地獲取客戶需求和偏好具有十分重要的價值.
從在線評論中獲取客戶偏好,首要任務是從評論文本中提取出重要的客戶聲音信息,主要包括客戶討論的產品屬性及其情感態度[9,10].在線評論中提及的產品屬性通常為名詞及名詞短語,因此頻繁出現的名詞及名詞短語通常被認為是潛在的產品屬性[11,12].基于這種考慮,學者們通常會采用POS 詞性標注方法從評論文本中提取出產品屬性.對于產品屬性的情感極性,目前文獻主要是采用情感詞典方法和機器學習方法.情感詞典方法主要利用大量標注樣本訓練生成情感詞典,情感詞典中包含了正面情感和負面情感的詞語,通過情感詞典識別語句中帶有情感極性的詞語,并以此判定產品屬性的情感態度.
許多學者結合從評論文本中提取的客戶聲音和消費者的打分、購買等數據,利用聯合分析、離散選擇模型等偏好模型,分析產品屬性對客戶滿意、產品價格或產品銷量的影響機制[13,14].劉曉君等[15]運用復雜網絡方法和隱含狄利克雷分配模型,探討了在線評論的相互關系及整體演化發展.本文主要是采用決策樹模型分析客戶偏好的時序變化,將產品屬性分為關鍵屬性和非關鍵屬性.對于非關鍵屬性,根據重要性變化趨勢分為三類:過時屬性、增值屬性和穩定屬性.這種產品屬性分類,有助于指導制造企業的產品架構設計,以及輔助產品資金投入方案決策.
客戶偏好反映了客戶習慣于消費某種產品的心理行為,提升企業產品和服務價值的關鍵所在就是不斷滿足客戶的需求偏好,只有滿足了不同客戶的需求,才能實現產品和服務的價值最大化.客戶偏好的研究還是企業進行市場細分的基礎,企業通過不同客戶群的偏好從而合理的選擇營銷策略和銷售管理方案.
目前,相關文獻主要基于營銷理論和市場細分過程,采用傳統的統計調查和實證分析等方法分析客戶偏好.例如,Das 等[16]通過多元統計技術對反饋調查獲得的信息進行處理,以獲得顧客對鞋業零售市場中的特征偏好.Mihelis 等[17]對民營銀行客戶滿意度進行調查,并基于多準則分析和偏好分解模型挖掘具有獨特偏好和期望的客戶集群.Kontot 等[18]針對影響客戶對伊斯蘭銀行存款偏好的因素進行面對面訪談,并制定針對性的調查問卷,從而發現影響顧客決策偏好的決定因素.Cao 等[19]開發了偏好分類法對產品屬性進行分類,實現將客戶偏好映射到產品領域本體,從而驅動高級概念生成,并且通過有關手機產品的實證研究證明了客戶偏好驅動的概念生成方法的有效性.
隨著計算機技術的發展,基于Web 日志挖掘、網頁數據挖掘逐漸成為獲取客戶偏好的主要方法.Zhou等[20]基于用戶生成的在線產品評論的情緒分析,來預測客戶偏好的趨勢,并通過平板電腦的應用案例驗證了所提方法的有效性.Zhang 等[21]提出了一種基于在線產品購買數據的客戶偏好預測方法,并以玩具車的特征表征和顧客偏好預測為例說明了所提出的方法的有效性.Milovanovi? 等[22]建立了一種基于社交網絡分析(SNA)的客戶偏好識別方法,獲取的客戶偏好用于開發推薦系統以及營銷策略的定制.Ye 等[23]從時間和空間上對旅客的住宿偏好進行分析,并運用酒店的在線評論挖掘來自不同地區旅客的季節性需求偏好.此外,研究者還通過建立智能算法系統實現客戶偏好的收集.例如,Li 等[24]基于AP-KNN 算法開發了一個軟件原型系統,實現了客戶反饋收集、客戶偏好推理以及動機分析.Ma 等[25]提出了連續偏好趨勢挖掘(CPTM)算法以從交易數據中捕獲客戶購買模式的隱藏趨勢.
從前期對客戶需求偏好研究的文獻來看,客戶偏好研究的數據獲取經歷了從傳統調查到網絡數據的轉變,相對應的研究方法也從實證研究發展到網絡數據挖掘.在當前研究的基礎上,本文基于在線評論數據,運用決策樹模型和趨勢檢驗模型對產品屬性進行分類,分析客戶偏好變化趨勢.
圖1 介紹了偏好趨勢挖掘模型的總體流程,主要包括產品屬性重要性測量和預測,關鍵產品屬性識別以及非關鍵產品屬性分類.通過這3 個步驟,可以預測產品每個屬性的趨勢模式是單調增加,單調減少或是季節性趨勢;選擇相關性(可以用信息增益度量)最高的屬性作為關鍵屬性,運用決策樹模型將客戶對產品的打分進行分類:而對于非關鍵屬性,運用Mann-Kendall 方法將其分為過時屬性、增值屬性和穩定屬性三個類別.這一過程獲得的結果可以為制造企業在開發產品時應該加入何種功能提供參考.

圖1 偏好趨勢挖掘模型框架Fig.1 The framework of preference trend mining model
在線評論數據通常包含評論文本和客戶對產品的打分.根據收集的大規模在線評論,本文首先采用POS 詞性標記方法提取潛在產品屬性詞語[26],然后通過人工剔除其中常見的非屬性詞語,并對剩余潛在屬性詞語進行同義詞合并,生成產品屬性詞典.依據生成的屬性詞典,可以識別每條評論提及的產品屬性.若屬性出現在滿意評論中,則屬性情感為正面;若屬性出現在不滿意評論中,則屬性情感為負面[27,28].
此外,本文將客戶對產品的打分作為類變量,視為客戶滿意程度.為方便計算,可以將客戶對產品的打分劃分為高,中,低三個類別.結合屬性情感(正面,負面和未出現)以及客戶對產品的打分(高,中,低),可以運用信息增益方法計算每個產品屬性對于客戶滿意度的影響大小.因此,產品屬性a的信息熵為

其中S+,S-和S0分別表示產品屬性a為正面、負面以及未出現的評論.
結合式(3)可以計算每個產品屬性的信息增益.將處理好的數據集劃分為n節時間段,分別計算每節時間段產品屬性的重要性,并采用Holt-Winters 模型,從而實現產品屬性重要性的測量和預測.
以屬性1 和屬性2 為例,屬性1 和屬性2 的正負面評論數量及其信息增益如圖2 所示.可以看出屬性1負面評論數量較多,且呈現增長趨勢.而屬性2 正面評論呈現增長趨勢,且遠多于負面評論.同時,屬性1 重要性在后面幾個時間階段呈現緩慢下降趨勢,而屬性2 重要性卻呈現不斷上升趨勢.

圖2 產品屬性情感和信息增益變化趨勢Fig.2 The trends of product attribute sentiment and information gain
從圖2(c)還可以發現,在時間段6 之后,屬性2 的重要性開始超過屬性1.在時間段6 之前生成的產品屬性重要性測量中,將無法發現這一新興客戶偏好趨勢.為了克服這項挑戰,本文采用Holt-Winters 指數平滑模型預測下一階段的客戶偏好,運用加權平均技術,同時考慮時間序列中數據趨勢和季節性成分.Holt-Winters 是一種非參數模型,可用于將具有線性趨勢、季節變動和隨機變動的時間序列進行分解,并結合指數平滑法對屬性重要性進行第k步預測,有助于在市場空間中對新興的偏好趨勢進行判斷.一般把時間序列的系統性部分分為水平、趨勢和季節性三種成分[29].針對這三種成分,分別對長期趨勢、趨勢增量和季節變動做出估計,k步提前預測模型為

式(6)中,水平成分Lt可表示為

趨勢成分Tt可表示為

季節性成分It可表示為

其中yt表示近期時間段t時刻的數據點,yt(k)表示超過yt的第k節時間段的預測值,有yt(k)=yt+k,s表示季節性頻率.平滑參數α,γ和δ都在[0,1]范圍內,并通過最小化前一個時間段步長的誤差平方和來估計[30].
關鍵產品屬性識別是需求預測模型的主要挑戰之一,本文采用決策樹分類模型幫助制造企業理解關鍵產品屬性.為便于理解,本文提供以下示例用于理解關鍵產品屬性識別過程.假定汽車產品的屬性集合為{外觀,內飾,動力,油耗,操控,天窗},所有產品屬性有正面、負面和未出現三個屬性值.客戶對產品的打分被定義為依賴于多個屬性情感的類變量,取值集合為{高,中,低}.
對于某一時間段的關鍵產品屬性識別,圖3 給出了決策樹模型的直觀表示.決策樹模型一般包括收集和準備數據、選取劃分算法、構造決策樹、測試和使用算法等步驟.通常,決策樹模型依據信息增益或Gini指數等算法進行數據集劃分.本文采用信息增益作為劃分數據集的依據.首先,依據式(3)和式(5)計算每個產品屬性對應的信息增益;然后,挑選信息增益最大的產品屬性劃分數據集.通過決策樹模型,驗證了四個關鍵產品屬性“動力”、“內飾”、“油耗”和“外觀”,同時了解到這四個關鍵產品屬性的分類能力是依次減弱的.

圖3 決策樹分類模型示例Fig.3 The example of decision tree classification model
為了給設計工程師提供細粒度的客戶需求,本文采用點互信息(PMI)來挖掘每個時間段的屬性觀點[31],例如“外觀–優雅”、“油耗–較高”等.PMI 可以用于衡量兩個變量之間的相關性,

其中p(a,o)表示產品屬性與屬性觀點o共同出現的概率,p(a)表示產品屬性a出現的概率,p(o)表示觀點o出現的概率.
根據PMI 值的大小,可以從評論文本中識別出每個產品屬性的客戶觀點.關鍵產品屬性及其觀點隨著時間的推移也在不斷變遷.其演變趨勢有助于制造企業加深對客戶需求和偏好的了解.為了便于理解,本節給出一個示例,如圖4 所示.可以發現,在T2時刻,“配置”成為關鍵屬性,并且其受關注程度到T3時刻逐步增大,此外,隨時間變化,關鍵屬性“外觀”的關注度在逐漸增大.對于屬性觀點,消費者越來越厭惡大眾風格的“內飾”,越來越偏好環保的“外觀”.

圖4 關鍵產品屬性及其觀點變遷的示例Fig.4 An example of key product attributes and their views change
此外,可以發現產品屬性“操控”和“天窗”并不在決策樹模型分類規則中,本文將其稱為非關鍵產品屬性.對于非關鍵產品屬性,存在兩點疑問:1)是否存在一些產品屬性沒有在決策樹分類規則中,但是在產品設計中對設計工程師和制造企業十分重要?2)非關鍵產品屬性在未來的產品設計中是否會轉變成關鍵產品屬性? 這些疑問提示設計工程師不能忽略非關鍵產品屬性,一旦忽略非關鍵產品屬性將無法完整地獲取客戶需求,從而容易導致產品開發的失敗.對于非關鍵產品屬性,將在3.3 節予以詳細的探討.
產品屬性對消費者購買決策具有至關重要的影響,關系到制造企業新產品開發策略是否能滿足市場的需求.在新產品開發策略過程中,非關鍵產品屬性不會顯著影響客戶滿意程度.但是,為了避免忽略一些重要產品屬性,對于非關鍵產品屬性,采用Mann-Kendall 趨勢檢測,觀察每個產品屬性重要性是否表現出單調減少或單調增加趨勢,也就是產品屬性的未來趨勢是失去滿足客戶的能力還是獲取不斷滿足客戶的能力,從而將產品屬性確定為過時屬性或增值屬性.對于檢測過程中產品屬性重要性沒有表現出明顯單調減少或者單調增加趨勢,比如,表現出在某一范圍內周期性波動趨勢,或者是平穩趨勢,將這類產品屬性統一歸為穩定屬性.這樣,所有的產品屬性根據其重要性隨時間變化,都可以分成確定類別,為產品開發工程師提供一定的參考.
1)過時屬性.在給定的時間段t1到tn過程中,如果在迭代過程中認為屬性a是非關鍵的,并且隨著時間推移不會系統地影響客戶滿意度,則屬性a被定義為過時屬性.通過Mann-Kendall 趨勢檢測,如果屬性a的重要性表現出單調減少趨勢,表明屬性a隨時間推移不斷失去滿足客戶偏好的能力.如果產品屬性在給定時間序列結束時屬于該分類,則在下一代產品設計中忽略該產品屬性.
2)增值屬性.給定的時間段t1到tn過程中,如果在迭代過程中認為屬性a是非關鍵的,并且隨著時間推移會系統地影響客戶滿意度,則屬性a被定義為增值屬性.通過Mann-Kendall 趨勢檢測,如果屬性a的重要性表現出單調增加趨勢,表明屬性a隨時間推移始終獲得滿足客戶偏好的能力.如果產品屬性在給定時間序列結束時屬于此分類,盡管表征出一定的非關鍵性,也應該視為對產品設計至關重要的產品屬性.
3)穩定屬性.給定的時間段t1到tn過程中,如果在迭代過程中認為屬性a是非關鍵的,并且隨著時間推移無法確定與客戶滿意度的可辨別關系,則屬性a被定義為穩定屬性.通過Mann-Kendall 趨勢檢測,穩定屬性的重要性沒有單調增加或減少的趨勢.在產品設計中表現出這種情況的產品屬性可能是消費者尚未完全意識到的新穎屬性.這類產品屬性不應該被忽略,經過消費者的口碑傳播最終可能成為增值屬性.
本文使用非參數Mann-Kendall 方法來檢測迭代過程中被認為是非關鍵產品屬性的重要性變化趨勢.Mann-Kendall 檢驗[32]方法不要求被分析樣本遵從一定分布,同時也不受異常值的干擾.由于計算簡便,眾多學者將其應用于分析關鍵要素的時間序列變化趨勢,Mann-Kendall 測試的統計量[33]為

其中n表示時間序列數據點的總數,xj代表前一時刻數據點,xi代表當前數據點.

按下列方式標準化統計量S,即

統計量Z服從標準正態分布.如果p–值小于顯著性水平(α=0.05),表明存在變化趨勢,Z為負值,則為增值屬性,Z為正值,則為過時屬性.如果p–值大于顯著性水平,則為穩定屬性.企業決策者希望了解特定產品的整體市場需求,以便可以做出潛在產品的開發決策,基于時間序列趨勢,利用Holt-Winters 方法可以估計產品屬性在下一階段的重要性水平,并結合決策樹分類模型和Mann-Kendall 檢驗,可以為企業的產品設計與開發提供輔助決策.
汽車作為重要的消費產品,在汽車論壇上有著大量的客戶評論.因此,本文以汽車產品為研究對象,在易車網、太平洋汽車網上收集了12 款國產汽車SUV 品牌的所有客戶評論,數據內容包括滿意部分、不滿意部分、客戶對產品的打分和評論時間.考慮到產品的更新周期以及收集的數據集的大小,即汽車公司的汽車產品一年更新1 次到2 次,收集的評論數據集要能保證實驗結果中的趨勢變化較為明顯,本實驗采用3 年的在線評論數據,共計有效評論16 388 條,從2014 年7 月到2017 年6 月,分為12 個階段,每個階段代表1 個季度(見圖7 和圖9).

圖9 偏好趨勢模型和決策樹模型預測準確率對比Fig.9 Comparison of predictive accuracy between preference trend model and decision tree model
基于現有產品屬性識別方法,本案例研究識別出24 個汽車產品屬性.根據產品屬性在滿意評論和不滿意評論中出現的頻次,得到產品屬性正負面情感的分布,如圖5 所示.可以看出“外觀”、“配置”和“價格”等產品屬性的正面情感遠多于負面情感;相反,“用料”、“隔音”和“后備箱”等產品屬性的負面情感遠多于正面情感; 此外,“油耗”、“動力”和“中控”等產品屬性的正負面情感相差不大.同時,可以得到客戶打分的分布,如圖6 所示.由于5 分和4 分的評論遠多于其他打分,為確保類變量分布的均衡,本案例研究將5 分設定為高分,4 分設定為中等分,3 分及以下打分設定為低分.

圖5 產品屬性的正負面情感分布Fig.5 Positive and negative emotional distribution of product attributes

圖6 客戶打分的分布Fig.6 The distribution of customers’score
本文提出的基于在線評論的客戶偏好趨勢挖掘方法,首先利用Holt-Winters 方法預測下一階段產品屬性重要性,然后結合決策樹分類模型和Mann-Kendall 檢驗分析客戶偏好變化趨勢.因此,首先展示產品屬性重要性隨時間變化趨勢,并檢驗Holt-Winters 方法預測的效果.圖7 展示了“動力”、“內飾”、“外觀”、“油耗”和“導航”屬性在12 個階段的變化趨勢以及第13 個階段的預測值.可以看出“動力”和“內飾”呈現增長趨勢,“導航”呈現降低趨勢,“油耗”呈現周期性變化,“外觀”基本保持穩定趨勢.此外,可以觀察到“動力”在第12 階段開始高于“外觀”,“內飾”在第13 階段開始高于“外觀”,與Holt-Winters 模型的預測相吻合.

圖7 不同時間段各屬性信息增益變化Fig.7 The change of information gain of each attribute in different time periods
為了展示決策樹分類模型和Mann-Kendall 檢驗的效果,本節利用最新數據集(第13 時間階段)生成的預測結果,如圖8 所示.可以看出關鍵產品屬性依次為“動力”、“內飾”、“外觀”、“價格”、“油耗”、“空間”、“用料”和“配置”.對于不在決策樹分類規則中的非關鍵產品屬性,設計工程師并不能直接忽略.非關鍵產品屬性僅僅意味著信息增益不夠高,不代表對客戶滿意的影響可以忽略.本文將這些非關鍵產品屬性分為過時屬性、增值屬性或穩定屬性,Mann Kendall 趨勢檢驗結果如表1 所示,結果表明“智能語言”、“中控”、“隔音”、“做工”、“天窗”、“影像”和“后備箱”表征為增值屬性;“大燈”、“輪胎”、“一鍵功能”、“座椅”、“安全”、“底盤”、“舒適”和“控制”表征為穩定屬性;“導航”表征為過時屬性.

圖8 第13 時間階段生成的決策樹Fig.8 Decision tree generated in the 13th time period

表1 非關鍵屬性趨勢檢驗結果Table 1 The trend test result of Non-critical attribute

續表1Table 1 Continues
由于產品開發需要一定的周期,因此客戶偏好模型必須具備能夠預測未來一段時間客戶需求的能力.本節將對比決策樹模型和本文提出的客戶偏好趨勢模型.單純的決策樹模型主要是根據最新數據集生成的分類規則來判別未來階段的客戶滿意度.本文的的客戶偏好模型可以利用時間序列數據,先剔除非關鍵屬性中的過時屬性和穩定屬性,然后根據最近數據集生成的決策樹分類規則判別未來階段的客戶滿意度.舉例來說,當前是第10 階段,單純的決策樹模型根據第10 階段的數據生成分類規則,然后用于測試第11或12 階段樣本分類的準確率.客戶偏好趨勢模型根據第1 階段至第9 階段,判別產品屬性的類型,然后選擇關鍵屬性和增值屬性,生成第10 階段的決策樹分類規則,并用于測試第11 階段或12 階段樣本分類的準確率.
本文研究選擇預測k+1 階段和k+2 階段的樣本分類準確率,結果如圖9 所示.可以發現客戶偏好趨勢模型明顯優于單純的決策樹模型.此外,在k+2 階段客戶偏好趨勢模型的優越性更加明顯.比較結果表明本文提出的客戶偏好趨勢挖掘模型能夠較好地預測未來一段時間的客戶需求.
本文主要的貢獻是利用在線評論數據生成客戶偏好趨勢.首先,使用信息增益測量產品屬性的重要性,并運用時間序列模型預測產品屬性重要性的變化趨勢;然后,運用決策樹分類模型識別隨時間推移的關鍵產品屬性;最后,運用Mann-Kendall 統計趨勢識別技術將非關鍵產品屬性分為過時屬性、增值屬性和穩定屬性.本文研究可以有助于制造企業洞察市場變化,并且指導產品架構,從而使生產的產品最大化地滿足市場客戶的需求和偏好.由于在線評論數據樣本存在著自我選擇偏差性,今后可以結合傳統調研數據與在線評論數據的各自特點,從而使獲得的客戶偏好更加真實.另一方面,在線評論提及的產品屬性主要是客戶的主觀感知屬性,而對一些企業設定的產品結構細節屬性缺乏討論,所以,在今后的研究工作中,可以構建客戶主觀屬性與產品客觀屬性的映射關系,從而有效地利用在線評論中的客戶主觀信息,更加細粒度地支持企業的產品架構設計.