“大部分預(yù)測(cè)分析項(xiàng)目都漏洞百出,無(wú)論是預(yù)測(cè)分析領(lǐng)域的新手,還是擁有一定經(jīng)驗(yàn)的行業(yè)專家,一不小心就會(huì)犯錯(cuò)。”數(shù)據(jù)挖掘公司Elder Research的CEO John Elder說(shuō)。
Elder介紹:“由于預(yù)測(cè)模型可以被不斷改進(jìn),這些漏洞通常不會(huì)對(duì)項(xiàng)目構(gòu)成毀滅性的打擊,但仍會(huì)導(dǎo)致一些項(xiàng)目遭遇慘敗,讓投入的巨額金錢(qián)和時(shí)間化為泡影。即使你擁有了一個(gè)好用的預(yù)測(cè)模型,項(xiàng)目實(shí)施過(guò)程還是存在其他障礙。”Elder所在公司接受的項(xiàng)目中,有90%以上在技術(shù)上是成功的,其中只有65%最終落地實(shí)施。
本文采訪了多位數(shù)據(jù)挖掘和咨詢領(lǐng)域的專家,探尋導(dǎo)致預(yù)測(cè)分析失敗的原因。專家們基于各自的經(jīng)驗(yàn),指出了9個(gè)在技術(shù)和業(yè)務(wù)方面的典型錯(cuò)誤。
沒(méi)有目標(biāo) 盲目開(kāi)始
一家企業(yè)已經(jīng)意識(shí)到了預(yù)測(cè)分析的潛在價(jià)值,并且準(zhǔn)備實(shí)施,但是,有一個(gè)關(guān)鍵問(wèn)題卻沒(méi)有解決——沒(méi)有具體的行動(dòng)目標(biāo)。
例如,一家大企業(yè)要求某咨詢公司對(duì)其業(yè)務(wù)數(shù)據(jù)進(jìn)行分析并做出預(yù)測(cè),至于預(yù)測(cè)什么,則沒(méi)有明確說(shuō)明,管理層提到“只要能將預(yù)測(cè)結(jié)果應(yīng)用到各個(gè)業(yè)務(wù)部門(mén)就行”。
咨詢公司接手這項(xiàng)工作后,為該公司開(kāi)發(fā)了一個(gè)預(yù)測(cè)模型。“沒(méi)有一個(gè)部門(mén)事前闡明他們的業(yè)務(wù)范圍、銷售目標(biāo)等,可以預(yù)見(jiàn),這個(gè)項(xiàng)目不會(huì)產(chǎn)生任何收益。”Elder Research公司的運(yùn)營(yíng)副總裁Jeff Deal說(shuō)道。
Deal補(bǔ)充道:“熟悉公司狀況的企業(yè)決策者在利用內(nèi)部數(shù)據(jù)做決策時(shí),對(duì)于要實(shí)現(xiàn)何種目標(biāo)應(yīng)當(dāng)了然于胸。若借助第三方咨詢機(jī)構(gòu)發(fā)掘數(shù)據(jù)價(jià)值,就必須制定一個(gè)目標(biāo),方便咨詢機(jī)構(gòu)找到正確的方向。”
項(xiàng)目目標(biāo)過(guò)大
一家大型制藥企業(yè)抱著宏大的理想,啟動(dòng)了一項(xiàng)內(nèi)部預(yù)測(cè)分析服務(wù)計(jì)劃。當(dāng)計(jì)劃開(kāi)始實(shí)施時(shí),開(kāi)發(fā)團(tuán)隊(duì)在項(xiàng)目啟動(dòng)會(huì)上宣稱該服務(wù)將“引導(dǎo)醫(yī)療保健行業(yè)的一次大變革”。
但該項(xiàng)目的目標(biāo)太過(guò)宏偉,需要巨額項(xiàng)目啟動(dòng)資金和持續(xù)不斷的投資保障。巨額投資并沒(méi)有起到立竿見(jiàn)影的效果,項(xiàng)目團(tuán)隊(duì)無(wú)法獲得決策層的持續(xù)投資,最終項(xiàng)目在盲目野心的重壓下潰敗了。
Deal建議:“最好是設(shè)定小的、切合實(shí)際的目標(biāo),盡快實(shí)現(xiàn)它,然后以此為基礎(chǔ)逐步進(jìn)行擴(kuò)展。”
忽略專家意見(jiàn)
在為預(yù)測(cè)分析建模時(shí),一個(gè)常見(jiàn)的錯(cuò)誤觀念是:預(yù)測(cè)模型就像一個(gè)神奇的黑箱,在一端輸入數(shù)據(jù),轉(zhuǎn)動(dòng)手柄,準(zhǔn)確的預(yù)測(cè)結(jié)果就在另一端輸出。
Abbott Analytics曾為一家電腦維修企業(yè)構(gòu)建預(yù)測(cè)模型。該企業(yè)想要基于客戶呼叫的文字記錄,預(yù)測(cè)維修人員應(yīng)該帶哪些電腦部件進(jìn)行上門(mén)服務(wù)。但問(wèn)題在于,由于談話充滿模棱兩可的內(nèi)容,在談話文本中很難提取出用于預(yù)測(cè)建模的關(guān)鍵詞。因此,在最初構(gòu)建的模型中,先要基于文本中出現(xiàn)的一部分關(guān)鍵詞進(jìn)行預(yù)測(cè)。
“我們要為每個(gè)關(guān)鍵詞創(chuàng)建一個(gè)變量,將該變量轉(zhuǎn)換成二進(jìn)制編碼。在跟語(yǔ)言專家溝通后,我們決定將工作重點(diǎn)集中在幾十個(gè)語(yǔ)義豐富的關(guān)鍵詞上,并根據(jù)這些關(guān)鍵詞改進(jìn)模型,結(jié)合歷史信息將這幾十個(gè)變量與所需的維修零件聯(lián)系起來(lái)。”Abbott Analytics 的總裁Dean Abbott解釋,“為此,我們需要將某一關(guān)鍵詞變量的出現(xiàn)頻率與維修記錄中所記載的某一零部件的維修概率聯(lián)系起來(lái)。”
這個(gè)項(xiàng)目所帶來(lái)的啟示是:在構(gòu)建預(yù)測(cè)模型時(shí)應(yīng)聽(tīng)取相關(guān)行業(yè)專家的意見(jiàn),而不是任由IT人員閉門(mén)造車,單純地依靠算法構(gòu)造出呆板模型。
不清晰的模型使用條件
Abbott Analytics公司曾接手一個(gè)為快遞業(yè)務(wù)設(shè)計(jì)預(yù)測(cè)模型的項(xiàng)目,用于預(yù)測(cè)讀取到的郵件條形碼的準(zhǔn)確度。這個(gè)項(xiàng)目的難點(diǎn)是,為了保證信件通過(guò)讀碼器時(shí)被及時(shí)處理,判斷需在1/500 秒內(nèi)完成。
Abbott Analytics公司設(shè)計(jì)出一種精確算法,但因?yàn)樗荒茉谝?guī)定的時(shí)限內(nèi)產(chǎn)生判斷結(jié)果,最終還是被淘汰了。模型不僅需要做出預(yù)測(cè),還需在具體的時(shí)間框架內(nèi)完成,這需要在算法設(shè)計(jì)之初就考慮到。
預(yù)測(cè)分析常常要在精確與效率之間做出取舍。“模型必須足夠簡(jiǎn)單,才能保證運(yùn)算在短時(shí)間內(nèi)完成,這就是我們面臨的典型業(yè)務(wù)。同時(shí),為了適應(yīng)客戶的業(yè)務(wù)約束,客戶需要在模型構(gòu)建之初就清晰地界定限制條件。但事實(shí)是,太多的人一心只想建立完美的模型,卻忽略了模型實(shí)際上的使用條件有哪些。”Abbott說(shuō)。
在缺乏數(shù)據(jù)支持的情況下構(gòu)建模型
幫助客戶催討債務(wù)的機(jī)構(gòu)若想成功地完成每一筆業(yè)務(wù),最佳方案是依據(jù)欠款的不同特點(diǎn),制定不同的行動(dòng)步驟。但這種做法面臨的困難是,由于公司對(duì)于債款催收流程有嚴(yán)格的規(guī)定,員工只能照章行事。
“數(shù)據(jù)挖掘是一門(mén)比較藝術(shù),因?yàn)樵摴踞槍?duì)不同業(yè)務(wù)采用相同的工作步驟,我們無(wú)法得出采取哪種工作步驟是最佳方案,這需要?dú)v史數(shù)據(jù)作為參考。”Abbott說(shuō)。
如果難以獲得這些歷史數(shù)據(jù),那就需要設(shè)計(jì)一系列的試驗(yàn)來(lái)獲取數(shù)據(jù)。
例如,針對(duì)100筆債務(wù)催收業(yè)務(wù),以書(shū)面形式通知其中50人還款,以電話形式通知另外50人還款,記錄這些人各自的特征和還款行為,債務(wù)人的特征可能包括往期債務(wù)欠款額、還款日期、收入狀況、居住地等。然后,以此來(lái)建立預(yù)測(cè)模型,預(yù)測(cè)哪類債務(wù)人適合書(shū)面催債、哪類適合電話催債,并在此基礎(chǔ)上設(shè)計(jì)出行動(dòng)指南。基于預(yù)測(cè)模型,催收機(jī)構(gòu)可以針對(duì)不同債務(wù)人采用效率高、成本小的最佳策略。
“但這一切都要從試驗(yàn)開(kāi)始。預(yù)測(cè)分析不能無(wú)中生有地創(chuàng)造信息,如果缺乏歷史數(shù)據(jù)支持,就必須通過(guò)實(shí)驗(yàn)的方法獲得有效數(shù)據(jù)。”Abbott強(qiáng)調(diào)。
等擁有完美數(shù)據(jù)才開(kāi)始
人們往往錯(cuò)誤地認(rèn)為,在開(kāi)始預(yù)測(cè)分析前,他們掌握的數(shù)據(jù)必須是有序的、沒(méi)有缺失值的。
在Elder Research公司的客戶中,一家全球化的石油化工公司啟動(dòng)了一項(xiàng)具有較高潛在回報(bào)的預(yù)測(cè)分析項(xiàng)目。很快,數(shù)據(jù)分析專家就發(fā)現(xiàn)該石化公司的數(shù)據(jù)狀態(tài)比他們預(yù)想的還要差很多,最令人頭痛的就是一個(gè)關(guān)鍵事項(xiàng)的重要目標(biāo)值缺失。如果要重新收集數(shù)據(jù),項(xiàng)目將至少被推遲一年。
“面對(duì)這種情況,很多公司可能會(huì)讓項(xiàng)目暫停,而這恰恰是導(dǎo)致預(yù)測(cè)項(xiàng)目失敗的重要原因。我們?cè)缫蚜?xí)慣處理無(wú)序、不完整的數(shù)據(jù),并找到相應(yīng)的方法解決此類問(wèn)題。所以,我們繼續(xù)推進(jìn)業(yè)務(wù),最終發(fā)現(xiàn)了從其他變量推導(dǎo)缺失目標(biāo)值的方法。”Elder Research公司的數(shù)據(jù)專家John Ainsworth介紹。
目前,該項(xiàng)目已經(jīng)順利完成,這家石化公司利用預(yù)測(cè)模型可以準(zhǔn)確地找到需要預(yù)防性維護(hù)的生產(chǎn)環(huán)節(jié),避免了代價(jià)高昂的停工,節(jié)省了大量成本。
“如果等到有了完整的數(shù)據(jù)再啟動(dòng)項(xiàng)目,那么上述目標(biāo)可能永遠(yuǎn)都不能實(shí)現(xiàn)。”Deal說(shuō),“數(shù)據(jù)是活的,可以根據(jù)不同情況確定項(xiàng)目實(shí)施的優(yōu)先級(jí)。”
被垃圾數(shù)據(jù)困擾
Prediction Impact公司的咨詢總監(jiān)、《預(yù)測(cè)分析:預(yù)言誰(shuí)會(huì)點(diǎn)擊、購(gòu)買(mǎi)、欺詐或者滅亡的力量》一書(shū)的作者Eric Siegel曾經(jīng)與某位列財(cái)富1000強(qiáng)的金融服務(wù)公司合作,預(yù)測(cè)哪類呼叫中心工作人員會(huì)在這一崗位上工作較長(zhǎng)時(shí)間。
“乍看一下,歷史數(shù)據(jù)似乎表明:以至少在崗工作9個(gè)月為標(biāo)準(zhǔn),沒(méi)有高中文憑的員工的留崗率比其他教育背景的員工高2.6倍。我們差點(diǎn)就向客戶建議優(yōu)先招聘高中就輟學(xué)的員工了。”Siegel說(shuō)。
但還有兩個(gè)問(wèn)題需要注意:第一,從應(yīng)聘者的簡(jiǎn)歷中錄入數(shù)據(jù)時(shí),兩位數(shù)據(jù)錄入員是按不同的標(biāo)準(zhǔn)錄入的,一位數(shù)據(jù)錄入員錄入了所有的學(xué)歷指標(biāo),而另一位錄入員則屏蔽了高學(xué)歷的樣本;第二,由于數(shù)據(jù)提取的標(biāo)簽設(shè)計(jì)有問(wèn)題,導(dǎo)致低學(xué)歷人員的簡(jiǎn)歷更容易被提取到,這種問(wèn)題可以通過(guò)重新設(shè)定提取標(biāo)簽來(lái)避免。Siegel總結(jié):“項(xiàng)目實(shí)施前,你必須確保數(shù)據(jù)是完整可靠的,避免出現(xiàn)垃圾數(shù)據(jù)。”
耗費(fèi)過(guò)多時(shí)間在顯而易見(jiàn)的現(xiàn)象上
一家?jiàn)蕵?lè)休閑酒店想要尋找招攬回頭客、提高企業(yè)收入的方法。Abbott Analytics構(gòu)建的分析模型表明,大部分顧客有95%的概率再次到店消費(fèi)。
“該模型給出的結(jié)論都是一些顯而易見(jiàn)的事。例如,有些顧客在連續(xù)幾年內(nèi)幾乎每月都來(lái),接著有幾個(gè)月都沒(méi)來(lái),通常他還會(huì)再次光臨,而不需任何促銷干預(yù)。”Abbott說(shuō)。
酒店也逐漸意識(shí)到了它不需要什么模型來(lái)預(yù)測(cè)給予何種優(yōu)惠措施吸引顧客再次消費(fèi)。因?yàn)闊o(wú)論他們采取什么措施,總會(huì)有約5%的顧客不會(huì)再次光顧。
“如果模型能夠識(shí)別哪一部分人構(gòu)成了這5%,那它的作用是巨大的。”Abbott建議酒店特別關(guān)注一下那些有較高概率會(huì)再來(lái)消費(fèi)、實(shí)際上卻沒(méi)來(lái)的消費(fèi)者,“既然我們能預(yù)測(cè)他們會(huì)來(lái),那這部分人群就屬于潛在顧客,對(duì)這些消費(fèi)者的促銷是很有必要的。若模型結(jié)果看起來(lái)是顯而易見(jiàn)的,就不必在此耗費(fèi)過(guò)多時(shí)間,我們更應(yīng)該將注意力集中在尋找導(dǎo)致反常現(xiàn)象的因素上。”
預(yù)測(cè)模型建好后,不關(guān)心如何實(shí)際應(yīng)用
當(dāng)預(yù)測(cè)模型成功構(gòu)建起來(lái)以后,接下來(lái)該怎么做?很多企業(yè)關(guān)心的是要建什么樣的模型和模型會(huì)帶來(lái)什么樣的投資回報(bào),但很少注意到模型建成之后的具體部署、實(shí)施工作。
預(yù)測(cè)模型的部署策略,因企業(yè)環(huán)境不同而千差萬(wàn)別。公司需要花費(fèi)5萬(wàn)~30萬(wàn)美元甚至更高,用于投資適當(dāng)?shù)姆治鲕浖煌瑫r(shí)將分析結(jié)果融入可視化的商務(wù)智能工具,以便于業(yè)務(wù)人員方便地讀取并分析結(jié)果。
“部署一個(gè)成功模型有時(shí)比構(gòu)建模型本身還要費(fèi)力,更重要的是部署策略可能需要不斷調(diào)整,以適應(yīng)用戶需求的變化。” Deal說(shuō)。
讀完上文,如果你覺(jué)得做好預(yù)測(cè)分析的難度太大,不要擔(dān)心,來(lái)聽(tīng)聽(tīng)咨詢顧問(wèn)們的見(jiàn)解。
Abbott Analytics的數(shù)據(jù)分析專家們認(rèn)為,一邊做、一邊學(xué),隨時(shí)調(diào)整才能規(guī)避錯(cuò)誤。所有的努力都是值得的,預(yù)測(cè)分析提供了不同于人類思維的看問(wèn)題的角度,并且能夠提供獨(dú)辟蹊徑的解決方案。
Elder 說(shuō):“預(yù)測(cè)分析確實(shí)很困難,但仍有企業(yè)在數(shù)據(jù)中獲得了有價(jià)值的信息。如果能規(guī)避上述問(wèn)題,你也一樣可以做好預(yù)測(cè)分析。”