Tom+Macaulay
與數據科學家合作,邏輯勝過創造力。我們需要采用一些其他的商業方式。
機器學習已成為商業技術的流行詞,但其應用的實際意義往往被忽視。
機器學習和數據分析專業公司Yandex Data Factory的首席執行官Jane Zavalishina說:“主要的問題是數據科學本身是科學,而企業在決策時不太習慣使用科學的方法。”
該公司是俄羅斯最大的搜索引擎運營商跨國技術公司Yandex的子公司。2014年12月,Yandex啟動了Yandex數據工廠,擴展了自己開發的數據科學的功能,支持其核心產品為行業應用提供基于機器學習的服務。
該公司2014年末成為俄羅斯最大的搜索引擎運營商——跨國公司Yandex的子公司。它提供機器學習和數據科學服務,為廣告活動策劃和確定商店庫存訂單等事項建立預測模型。
Yandex數據工廠團隊通過實驗過程確定其結果,只有在實驗結束后才能判斷是否成功。
Zavalishina解釋說:“當您把一些工作交給您的員工時,理想情況下,您或多或少地總是期望有一個完整的結果。但數據科學家的工作方式完全不一樣,因為您不能指望數據科學保證能得到結果。”
失敗是任何數據科學項目合理的結果,業務經理以后也得接受這一事實。
是什么讓數據科學家與眾不同?
邏輯勝過創造力,而現實勝過信念,所以應采用其他的商業方法與數據科學家合作。換句話說,它取決于事實和邏輯,而不是想象會有什么樣的結果。
那么就會很難向數據科學家提出一些問題讓他們回答,因為他們會認為這些問題根本上是無意義的。
Zavalishina說:“聽起來就像零除以零,沒有意義。問題是您無法讓他們去這樣做;您不能讓人們去做零除以零的事情。他們會認為您可能是一個白癡,不會與您很好地合作。”
他們要先了解項目,覺得可以試一下。例如,如果他們打算使用機器學習來改進系統,那么他們要有足夠的數據才能評估結果是否有意義。
Yandex數據工廠首席運營官Alexander Khaytin說:“很多業務決策都是憑直覺做出的,這就是為什么不需要評估所有常規業務的原因。但是當面對數據科學項目,或者與數據科學家溝通時,您不能只告訴他們,‘這樣做,我覺得會很好。這樣是不行的。”
提出合適的問題
預測分析建模所采用的算法比傳統的統計系統更復雜。這可能很難解釋。
零售業經常使用數據科學來更好地預測每周訂單的庫存補貨需求。結果可能令人驚訝,但是這個過程涉及的因素太多,通常很難理解。
Zavalishina說:“對于不能理解數據復雜性的人來說,很難向他們解釋,但由于無法解釋,您無法根據常識或者商業智能來決定它的好壞。您需要確定您知道想改進什么,以及如何評估結果。
這不是創造。它是很具體的,知道要預測或者優化什么。這就像和數學家打交道。您提出問題,那么您會得到這個問題的答案。
如果您的問題是錯誤的,不要指望得到正確的答案。這是一個令人驚訝的常見問題,因為公司往往缺乏對其目標的全面規劃和評估。”
Zavalishina回憶說:“我們和一家大型零售公司合作,他們要求我們建立一個模型,預測下周每個商品能有多少銷售。我們在一個商品上試了一下,但問題是他們意識到預測實際上對他們沒什么用處。”
他們的模型是準確的,但公司正在訂購的產品是6個一包,而不是單獨分開包裝。如果預測的是下周7個商品的銷售,那他們要回答的問題就完全不同了。他們應該買一個還是兩個?可能會有些小變化,但實際上他們一開始就錯了。模型變得完全不同,因為優化參數已經變了。
數據科學需要仔細的進行規劃。公司收到了正確的答案,但一開始應該提出不同的問題。
在邁向成功的道路上失敗了
向另一家零售商提供的優化模型表明,他們很少售出的昂貴而又不常見的產品根本不值得訂購。這個決定在數學上是合乎邏輯的,但這并不能說明在商業上可行。這些商品對于商店名聲和客戶群都是非常重要的。
Zavalishina說:“可以向您保證的是,通過您的第一個數據科學項目或者機器學習項目,您需要回顧并重新考慮標準是什么,目標是什么。”
Yandex通常建議客戶從非常具體和短期的項目開始,以避免對項目進行長期投資帶來的風險,因為這些項目可能會產生無意義的結果。這種方法允許公司全面地逐項進行改進。
另一家公司有自己的系統來確定向哪些客戶發送報價。Yandex使用由機器學習算法產生的統計模型的建議來確定怎樣隨機地聯系一些客戶群。其余客戶根據以前的系統進行了聯系,然后公司對比了從報價到實現銷售的轉換率。
唯一的問題是,周五將報價發送給控制組,而在周末向實驗組發送報價。不同的聯系時間、不同的行為模式使得任何比較都沒有意義。
業務經理經常問Yandex是否應該參加機器學習或者數據科學課程,以了解怎樣讓技術給企業帶來好處。
Zavalishina說:“我們通常的回答實際上是‘不,沒有任何意義。這不會使您成為數據科學家,所以不會真的對您有所幫助。如果您希望能夠將該技術應用于工作中,那么您應該更好地學習科學的方法以及測量和實驗。基本上,如果您希望這種技術能帶來結果,那么我們需要一種更科學的方法。”
接受不確定性
企業應接受科學文化。負面結果并不意味著工作失敗,只是證明優化沒有起作用。
企業結構內的責任是另一個挑戰。有一家客戶曾經希望Yandex能夠優化其廣告支出。開發的算法實現了當初的承諾,能節省20%的成本。
但要實現這一結果比得出結論更具挑戰性。負責這個項目的工作人員的獎金取決于他們應該購買什么以獲得最佳效果的計劃和決策。
Zavalishina解釋說:“所以現在他們有了這個模型,為他們提供了建議,數學上證明這些建議更好,但問題是這是他們的責任。”
數據科學項目承認同一業務中可能存在不同的責任和優先級。該團隊將實施一個可能減少獎金的業務模型。
Khaytin補充說:“談到科學的方法,它更加理性,更具有可衡量性,這可能是一個相當矛盾的情形。
通常的決策目的至少會被顛覆。例如,一位專家可以告訴您‘我有一種直覺,我有一種想法,會是這樣。在我們這里,您有一些數據科學工具,一些數據科學項目,它是完全不同的,沒有直覺。”
把商業和科學方法整合在一起是一個復雜的過程,需要耐心和理解。Yandex還與鋼鐵制造商合作,優化了生產過程中使用的材料混合物的配比。通過增加某種材料量來提高質量,但這種材料越多,產品就越貴。
Yandex使用歷史數據做出了讓混合物質量和成本達到最佳平衡的準確模型,得到了由機器學習算法提供的配方。
Zavalishina說:“這個配方對他們來說往往沒有任何意義。他們看著說‘不行,我不能這樣做,我不接受這個,我做的不一樣。
有趣的是它雖然能帶來更好的優化,但另一方面,他們有自己的經驗,那么應如何處理呢?有80%的建議他們基本上都沒有采用。
我們想出了一個解決方案,這是獲得我們提供的配方的另一種算法,在此基礎上,還建立了預測,預測被客戶接受的可能性。從嚴格的數學角度來看,優化后的配方好像不是最優的,但更有可能被接受。”
長期以來人們一直恐懼人工智能可能會毀滅人類,但人與機器學習之間的結合仍然是數據科學的基礎。
原文網址:
http://www.computerworlduk.com/data/how-use-data-scientists-machine-learning-in-enterprise-3656051/