盲目冒進(jìn)：機(jī)器學(xué)習(xí)的5個(gè)失敗案例

2018-02-13 01:36:20BobViolinoCharles

計(jì)算機(jī)世界 2018年50期

Bob Violino Charles

機(jī)器學(xué)習(xí)也可能會(huì)出現(xiàn)嚴(yán)重錯(cuò)誤，讓你后悔當(dāng)初的沖動(dòng)。

機(jī)器學(xué)習(xí)是如此熱門的一類技術(shù)，以至于太多的業(yè)務(wù)和技術(shù)主管們急于知道自己的部門怎樣才能投身其中。如果做得好，機(jī)器學(xué)習(xí)能夠幫助你創(chuàng)建更高效的銷售和營(yíng)銷活動(dòng)，改進(jìn)財(cái)務(wù)模型，更容易發(fā)現(xiàn)欺詐行為，更好地對(duì)設(shè)備進(jìn)行預(yù)測(cè)性維護(hù)，等等。

但是機(jī)器學(xué)習(xí)也可能會(huì)出現(xiàn)嚴(yán)重錯(cuò)誤，讓你后悔當(dāng)初的沖動(dòng)。本文借鑒真實(shí)企業(yè)在機(jī)器學(xué)習(xí)上的實(shí)際經(jīng)驗(yàn)，介紹機(jī)器學(xué)習(xí)可能出錯(cuò)的5種方式。他們公開了自己的經(jīng)驗(yàn)教訓(xùn)，希望能幫助你不再重蹈覆轍。

第1個(gè)教訓(xùn)：錯(cuò)誤的假設(shè)會(huì)讓機(jī)器學(xué)習(xí)出現(xiàn)偏差

Projector PSA是一家設(shè)計(jì)和構(gòu)建專業(yè)服務(wù)自動(dòng)化軟件的美國(guó)公司，幫助咨詢公司經(jīng)營(yíng)其業(yè)務(wù)，該公司在試圖使用機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)人員配置計(jì)劃中的差異時(shí)，苦澀地吸取了這一教訓(xùn)。

咨詢公司的員工都是訓(xùn)練有素的專業(yè)顧問(wèn)，希望能高效地發(fā)揮其人才優(yōu)勢(shì)，所以公司經(jīng)常雇傭項(xiàng)目經(jīng)理來(lái)評(píng)估并預(yù)測(cè)其項(xiàng)目的人員需求。

然后，他們跟蹤顧問(wèn)在每個(gè)項(xiàng)目上花費(fèi)的時(shí)間，按照時(shí)間為客戶計(jì)費(fèi)。如果公司采用專業(yè)服務(wù)自動(dòng)化工具等單一系統(tǒng)來(lái)管理所有活動(dòng)，則有一些明顯的優(yōu)點(diǎn)，例如能夠?qū)㈩A(yù)測(cè)的時(shí)間與實(shí)際時(shí)間進(jìn)行比較，從而知道不同的項(xiàng)目經(jīng)理在規(guī)劃的準(zhǔn)確性方面做得怎么樣。

首席運(yùn)營(yíng)官Steve Chong介紹說(shuō)，Projector PSA已經(jīng)開始和一家客戶開展了一項(xiàng)研究，該客戶聘用了數(shù)百名項(xiàng)目經(jīng)理。他們建立了模型，在規(guī)劃期（方差）不斷增加的情況下，比較了平均實(shí)際工作時(shí)間與預(yù)測(cè)工作時(shí)間之間的差異。還研究了在這幾個(gè)月的過(guò)程中，項(xiàng)目經(jīng)理們預(yù)測(cè)的一致性（差異性）。

也就是說(shuō)，如果在一周內(nèi)預(yù)測(cè)值太高而下一周預(yù)測(cè)值太低（高差異性），那么Projector PSA想知道這些因素是否相互抵消，使得平均差異很小，或者方差很低。

Chong說(shuō)：“開始時(shí)認(rèn)為低方差和低差異好，而高方差和高差異不好。”基于這一前提，Projector PSA讓一種機(jī)器學(xué)習(xí)算法根據(jù)這些數(shù)據(jù)，使用公司項(xiàng)目經(jīng)理的樣本作為訓(xùn)練集，把項(xiàng)目經(jīng)理分成不同的組，例如“囤積者”和“樂觀者”。

然后，公司讓機(jī)器學(xué)習(xí)算法根據(jù)所學(xué)到的知識(shí)對(duì)其他的項(xiàng)目經(jīng)理進(jìn)行分類。結(jié)果發(fā)現(xiàn)，機(jī)器學(xué)習(xí)將一些經(jīng)驗(yàn)最豐富、訓(xùn)練最有素的項(xiàng)目經(jīng)理歸類為最糟糕的違規(guī)者——因?yàn)樗麄兙哂泻芨叩姆讲詈筒町愋浴?/p>

Chong說(shuō)：“事實(shí)上，這些項(xiàng)目經(jīng)理是被公司指派參加那些已經(jīng)處于困境的項(xiàng)目，希望他們能夠控制好這些項(xiàng)目。”

類似地，最初的機(jī)器學(xué)習(xí)算法對(duì)一個(gè)項(xiàng)目經(jīng)理的評(píng)價(jià)很高，因?yàn)樗龓缀跏橇惴讲詈土悴町愋浴６鴮?shí)際上是，她向其部門發(fā)送了預(yù)測(cè)的工作時(shí)間，暗示他們會(huì)將這些時(shí)間報(bào)告為其實(shí)際的工作時(shí)間。Chong指出，這導(dǎo)致了她從來(lái)沒有出現(xiàn)超出或者低于預(yù)算的情況，而這樣做卻實(shí)際上鼓勵(lì)了她的團(tuán)隊(duì)以不利于大局的方式去開展工作。

Chong解釋說(shuō)：“這些錯(cuò)誤不是由機(jī)器學(xué)習(xí)算法本身造成的，而是由我們最初訓(xùn)練時(shí)所采用的假設(shè)造成的。還有一個(gè)原因是最初僅依賴于數(shù)據(jù)，而沒有充分理解數(shù)據(jù)所代表的現(xiàn)實(shí)。”

后來(lái)，該公司訓(xùn)練了其機(jī)器學(xué)習(xí)算法來(lái)識(shí)別這些新的配置文件，感覺它能更好地反映現(xiàn)實(shí)了。

第2個(gè)教訓(xùn)：無(wú)監(jiān)督式機(jī)器學(xué)習(xí)會(huì)出現(xiàn)意想不到的偏差

雖然很多任務(wù)可以由機(jī)器學(xué)習(xí)來(lái)執(zhí)行，但是在項(xiàng)目開始時(shí)沒有考慮到某些情況，導(dǎo)致機(jī)器學(xué)習(xí)結(jié)果出錯(cuò)。巴西金融服務(wù)公司Mejor Trato就是這種情況，該公司的人力資源部門的數(shù)字化轉(zhuǎn)型項(xiàng)目采用了機(jī)器學(xué)習(xí)技術(shù)。

在該項(xiàng)目中，使用該公司內(nèi)部開發(fā)的機(jī)器學(xué)習(xí)聊天機(jī)器人，讓未來(lái)的新員工通過(guò)實(shí)時(shí)聊天和電話回答一系列問(wèn)題。

在初次使用聊天機(jī)器人時(shí)，出現(xiàn)了兩個(gè)關(guān)鍵問(wèn)題。一是發(fā)錯(cuò)了給求職者的個(gè)人資料/職業(yè)表格。另一個(gè)問(wèn)題是，面試時(shí)間與人力資源部門會(huì)議時(shí)間相沖突，這意味著人力資源部門無(wú)法根據(jù)需要監(jiān)督聊天機(jī)器人。

首席技術(shù)官Cristian Rennella介紹說(shuō)，在開始的幾個(gè)星期里，人力資源部門必須派人監(jiān)督每次談話，以便在必要時(shí)糾正聊天機(jī)器人。她說(shuō)：“我們犯了一個(gè)錯(cuò)誤，以為一切都解決了，而沒有去監(jiān)督聊天機(jī)器人。教訓(xùn)是，一定至少要有幾個(gè)月的時(shí)間全時(shí)監(jiān)督聊天機(jī)器人。”

由于沒有對(duì)聊天機(jī)器人進(jìn)行精確的調(diào)整，該公司判定所收集的數(shù)據(jù)中有大約10%是不正確的。

Rennella介紹說(shuō)：“機(jī)器學(xué)習(xí)在開始的時(shí)候能用于90%的答案，但是剩下的10%應(yīng)該有人類進(jìn)行監(jiān)督以糾正算法。”隨著時(shí)間的推移，90%這一比例會(huì)增長(zhǎng)到高達(dá)99%，她說(shuō)：“但我們不能停止關(guān)注可能出現(xiàn)的偏差，以及新出現(xiàn)的情況——當(dāng)我們開始這個(gè)項(xiàng)目時(shí)，這些都是出乎意料的。”

第3個(gè)教訓(xùn)：糟糕的數(shù)據(jù)標(biāo)簽會(huì)損害機(jī)器學(xué)習(xí)結(jié)果

俄羅斯的兩家聯(lián)營(yíng)公司Ashmanov Neural Networks和SOVA （Smart Open Virtual Assistant）為其商業(yè)客戶開發(fā)了基于機(jī)器學(xué)習(xí)的產(chǎn)品。這包括視頻分析、自然語(yǔ)言處理、信號(hào)處理和神經(jīng)網(wǎng)絡(luò)。

同時(shí)擔(dān)任兩家公司首席執(zhí)行官的Stanislav Ashmanov介紹說(shuō)，兩家公司在機(jī)器學(xué)習(xí)上遇到的最大問(wèn)題之一是難以標(biāo)注的糟糕的數(shù)據(jù)。Ashmanov說(shuō)：“幾乎不可能提供高質(zhì)量的數(shù)據(jù)標(biāo)簽。通常，從事數(shù)據(jù)標(biāo)記工作的人很草率，因?yàn)樗麄児ぷ髌饋?lái)總是很匆忙。更重要的是，真的是很難讓每個(gè)人都以同樣的方式去理解怎樣接替這些任務(wù)。”

結(jié)果，數(shù)據(jù)包含了多個(gè)標(biāo)記樣本，例如圖片中錯(cuò)誤識(shí)別的輪廓，這嚴(yán)重影響了被訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的表現(xiàn)。

在短時(shí)間內(nèi)收集大量數(shù)據(jù)也是很有挑戰(zhàn)性的。Ashmanov說(shuō)，數(shù)據(jù)收集可能需要幾個(gè)月的時(shí)間。而且，從公開可用來(lái)源收集的數(shù)據(jù)，例如在互聯(lián)網(wǎng)上找到的數(shù)據(jù)，并不能總是準(zhǔn)確地反映現(xiàn)實(shí)。例如，在演播室或者實(shí)驗(yàn)室拍攝的圖像與真實(shí)街景或者工廠生產(chǎn)車間得到的快照截然不同。結(jié)果，神經(jīng)網(wǎng)絡(luò)的性能會(huì)降低。

作為客戶項(xiàng)目的一部分，當(dāng)公司訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別網(wǎng)絡(luò)上發(fā)布的自拍照中的眼鏡時(shí)，便出現(xiàn)了這種出錯(cuò)的例子。他們從社交媒體上收集了一些照片，并對(duì)其進(jìn)行標(biāo)記。Ashmanov說(shuō)，神經(jīng)網(wǎng)絡(luò)的表現(xiàn)很差，因?yàn)樗延泻谘廴Φ娜苏`認(rèn)為戴著眼鏡。

另一位客戶提交了一個(gè)城市的兩張衛(wèi)星圖像。任務(wù)是找出圖像中的汽車，教會(huì)神經(jīng)網(wǎng)絡(luò)去識(shí)別它們，并計(jì)算它們的近似程度。這個(gè)例子的問(wèn)題是，神經(jīng)網(wǎng)絡(luò)把建筑物屋頂?shù)拇芭_(tái)識(shí)別為汽車，因?yàn)樗鼈冊(cè)谕庥^上相似——小、矩形，并且大部分顏色是黑的。

Ashmanov說(shuō)：“這一切都?xì)w結(jié)于對(duì)邊緣的仔細(xì)劃分，創(chuàng)建啟發(fā)式方法，以及改進(jìn)初步數(shù)據(jù)處理和后處理證據(jù)檢查等。”

第4個(gè)教訓(xùn)：有細(xì)微差別的分類問(wèn)題會(huì)讓機(jī)器學(xué)習(xí)產(chǎn)生混淆

Casepoint是為法律部門和其他市場(chǎng)提供電子發(fā)現(xiàn)技術(shù)的一家美國(guó)公司，體驗(yàn)到了機(jī)器學(xué)習(xí)的不完善之處。該公司采用機(jī)器學(xué)習(xí)進(jìn)行文檔分類和預(yù)測(cè)分析。通過(guò)使用該技術(shù)，法律部門能夠顯著減少對(duì)文檔進(jìn)行審查和分類所花費(fèi)的時(shí)間。

公司首席戰(zhàn)略官David Carns說(shuō)，使用機(jī)器學(xué)習(xí)對(duì)文檔進(jìn)行分類是有效的，但并非完美無(wú)缺。該公司發(fā)現(xiàn)的一個(gè)缺點(diǎn)是過(guò)分依賴于機(jī)器學(xué)習(xí)來(lái)解決有細(xì)微差別的微妙的分類問(wèn)題。

例如，在法律領(lǐng)域，機(jī)器學(xué)習(xí)文檔分類器經(jīng)常用于識(shí)別能夠符合“生成文檔請(qǐng)求”的文檔。甲方要求提供有關(guān)某一主題或者內(nèi)容的文檔，乙方則使用機(jī)器學(xué)習(xí)文檔分類器幫助篩選文檔庫(kù)，找到對(duì)應(yīng)的文檔。

Carns說(shuō)，這種方法效果非常好，律師們已經(jīng)開始經(jīng)常使用這種文件技術(shù)輔助審查（TAR）方法。他說(shuō)，“如此的成功導(dǎo)致了盲目地使用機(jī)器學(xué)習(xí)文檔分類器進(jìn)行更精細(xì)和更細(xì)微的分類，例如找到受律師客戶特權(quán)保護(hù)的文檔。”

盡管很容易使用機(jī)器學(xué)習(xí)來(lái)訓(xùn)練文檔分類器以找到特權(quán)文檔的內(nèi)容，但是文檔是否具有法律特權(quán)在很大程度上取決于文檔的受眾、機(jī)密性、接收時(shí)間以及與法律建議或者訴訟的關(guān)系。Carns說(shuō)，大多數(shù)機(jī)器學(xué)習(xí)文檔分類器不能對(duì)這些附加的情景線索進(jìn)行詳細(xì)的分類。

Carns說(shuō)，“這并不意味著機(jī)器學(xué)習(xí)文檔分類器不能幫助對(duì)潛在的特權(quán)文檔進(jìn)行下拉選擇和分類。但法律專業(yè)人士不應(yīng)該僅僅依靠機(jī)器學(xué)習(xí)來(lái)確定特權(quán)。”他說(shuō)，目前人類律師需要手動(dòng)審查可能享有特權(quán)的文檔，以便就法律特權(quán)是否適用作出最終裁決。

第5個(gè)教訓(xùn)：測(cè)試/訓(xùn)練污染會(huì)讓機(jī)器學(xué)習(xí)感到困惑

美國(guó)自動(dòng)化公司Indico多年來(lái)為客戶提供企業(yè)人工智能和深度學(xué)習(xí)服務(wù)，一直困擾該公司最大的一個(gè)問(wèn)題是機(jī)器學(xué)習(xí)測(cè)試和訓(xùn)練數(shù)據(jù)的污染。

首席技術(shù)官Slater Victoroff介紹說(shuō)，一名客戶創(chuàng)建了模型來(lái)確定一條新聞是否會(huì)影響其股價(jià)。由于很難準(zhǔn)確地確定影響時(shí)間，因此公司創(chuàng)建了一個(gè)模型來(lái)預(yù)測(cè)第二天的影響。

Victoroff說(shuō)：“他們沒有意識(shí)到，自己忽略了確保清潔的測(cè)試/訓(xùn)練分類的數(shù)據(jù)科學(xué)基礎(chǔ)。因此，他們?cè)陬A(yù)測(cè)次日影響的任務(wù)上表現(xiàn)出接近100%的準(zhǔn)確性，而實(shí)際上，該模型并不比隨機(jī)預(yù)測(cè)好多少。”

另一個(gè)例子來(lái)自關(guān)注其內(nèi)部自然語(yǔ)言處理（NLP）系統(tǒng)的客戶。該客戶的某個(gè)部門多年來(lái)一直在為機(jī)器學(xué)習(xí)模型創(chuàng)建和更新特性，并且基于相同的搜索集來(lái)不斷地測(cè)試它們。該部門也體驗(yàn)到了測(cè)試/訓(xùn)練污染的影響。Victoroff說(shuō)：“只要你看到出現(xiàn)測(cè)試錯(cuò)誤并改變算法以糾正測(cè)試錯(cuò)誤時(shí)，你的數(shù)據(jù)就不再準(zhǔn)確了。”

在這個(gè)特殊案例中，人們沒能很好地理解問(wèn)題。在內(nèi)部，該模型對(duì)于某一任務(wù)的準(zhǔn)確率達(dá)到近100%的程度。Victoroff說(shuō)：“但在實(shí)際中，這個(gè)系統(tǒng)幾乎不起作用，因?yàn)樗鼈儫o(wú)意中污染了自己的結(jié)果。任何企業(yè)在機(jī)器學(xué)習(xí)領(lǐng)域都會(huì)犯的最嚴(yán)重的錯(cuò)誤就是測(cè)試/訓(xùn)練污染問(wèn)題。”

計(jì)算機(jī)世界2018年50期

計(jì)算機(jī)世界的其它文章: WPA3是什么？一種可強(qiáng)化連接的Wi-Fi安全協(xié)議; 數(shù)字化轉(zhuǎn)型面臨的4大安全挑戰(zhàn); 領(lǐng)先一步：機(jī)器學(xué)習(xí)的10個(gè)成功案例; 3GPP透露：5G R15標(biāo)準(zhǔn)凍結(jié)將推遲3個(gè)月; 區(qū)塊鏈2019：加密如何將現(xiàn)金和產(chǎn)權(quán)轉(zhuǎn)換為數(shù)字資產(chǎn); 中電萊斯如何在ABC浪潮中激流勇進(jìn)