Bob Violino

機器學習到底能做些什么?
我們將介紹適合你的各種方法和技巧。
機器學習對你來說可能已經如雷貫耳了,它是人工智能的一個子集。而機器學習到底能做些什么呢?
該技術包括很多方法和技巧,每種方法和技巧都有一些很好的應用情形。企業在計劃投資機器學習工具和基礎設施之前,最好先詳細了解一下它們。
監督式學習
如果你知道想要機器去學習什么,那么監督式學習是理想的選擇。你可以喂給它大量的訓練數據,檢查輸出并調整參數,直到獲得預期的結果。隨后,可以通過讓機器從一組以前從未見過的驗證數據中能預測出什么結果,來檢查機器學到了什么。
最常見的監督式學習任務包括分類和預測,即“回歸”。
監督式學習方法可以用于根據過去有關財務業績的信息來確定個人和企業的財務風險。基于以前的行為模式,這種方法能很好地了解客戶的行為方式以及他們的偏好。
例如,網絡貸款市場Lending Tree公司的戰略和分析副總裁兼主任Akshay Tandon介紹說,該公司正在使用來自DataRobot的自動化機器學習平臺來為其客戶定制體驗,并基于他們過去的行為來預測客戶的意圖。
通過預測客戶意圖——主要是通過案源計分(lead scoring),Lending Tree公司能夠區分出誰只是在看看利率,而誰實際上是想要貸款,并準備申請貸款。使用監督式學習技術,它建立了一種分類模型來定義案源結束的概率。
無監督式學習
無監督式學習使得機器能夠研究數據集并識別鏈接不同變量的隱藏模式。這種方法可以用于僅根據數據的統計特性把數據分組到聚類中。
無監督式學習一種很好的應用,是用于執行概率記錄鏈接的聚類算法,這種技術提取數據元素之間的鏈接,并在其基礎上識別個人和企業以及他們在物理和虛擬世界中的連接關系。
LexisNexis風險解決方案公司利用分析技術來幫助客戶預測和管理風險,該公司技術副總裁Flavio Villanustre介紹說,如果企業需要集成來自不同源和/或跨不同業務部門的數據,以便為客戶建立一致和全面的視圖,那么這種技術尤其有用。
咨詢公司劍橋咨詢(Cambridge Consultants)的機器學習專家Sally Epstein解釋說,無監督式學習可以用于情緒分析,能夠根據個人在社交媒體上的帖子、電子郵件或者其他書面反饋來識別個人的情緒狀態。該公司看到越來越多的金融服務企業使用無監督式學習來深入了解客戶滿意度。
半監督式學習
半監督式學習混合了監督式和無監督式學習。通過標記一小部分數據,訓練者給機器提供一些線索,提示它應該怎樣對數據集的其余部分進行聚類。
半監督式學習可以用來檢測身份欺詐,以及其他用途。Villanustre指出,好在欺詐行為并不像非欺詐性行為那么頻繁,因此可以把欺詐行為看成是合法行為領域中出現的“異常”。盡管如此,欺詐行為仍然存在,半監督式的異常檢測機器學習方法可以用于對這類問題的解決方案進行建模。這種類型的學習被用于識別網上交易中的欺詐行為。
Epstein說,當有標記和未標記的數據混合在一起時,也可以使用半監督式學習方法,這在大型企業環境中比較常見。她說,亞馬遜通過對混合有標記和無標記數據的人工智能算法進行訓練,增強了對Alexa服務的自然語言理解能力。她說,這有助于提高Alexa響應的準確性。
強化學習
通過強化學習,可以讓機器與其所在的環境進行交互(例如,把傳送帶上有缺陷的產品推到垃圾箱中),并且按照企業的要求完成任務后,對其進行獎勵。通過自動計算獎勵,可以讓機器自己花時間去學習。
強化學習的一種應用情形是對零售店的服裝和其他物品進行分類。
咨詢公司德勤(Deloitte)的分析師David Schatsky專注于新興技術和商業趨勢,他指出,一些服裝零售商已經開始嘗試機器人等新技術,以幫助對服裝、鞋子和飾品等物品進行分類。
Schatsky說,機器人使用強化學習(以及深度學習)來計算在抓取物品時應該用多大的力,以及怎樣恰好地抓取貨架上的這些物品。
強化學習的一種變體是深度強化學習,它非常適合于自主決策,在這種情況下,只采用監督式學習或者無監督式學習技術并不能完成工作。
深度學習
深度學習執行無監督式或者強化學習等類型的學習。從廣義上講,深度學習模仿了人們學習方式的某些方面,主要是通過使用神經網絡來越來越細致地識別數據集的特征。
Schatsky說,以深度神經網絡(DNN)形式出現的深度學習技術,已經被用來加速藥物發現過程中的高含量篩選工作。它涉及到應用DNN加速技術來大幅度縮短處理多副圖像的時間,同時從模型最終學習的圖像特征中提取出更深入的信息。
這種機器學習方法還有助于很多企業打擊欺詐,通過自動檢測不法行為來提高檢測率。
深度學習也可以用于汽車工業。Schatsky介紹說,有一家公司開發了一種基于神經網絡的系統,可以及早發現汽車的問題。該系統能夠識別噪聲和振動,并且利用偏離規范的任何偏差來解釋故障的性質。它可以成為預測性維護的一部分,因為它能夠判定汽車任何運動部件的振動,并且可以發現汽車性能的微小變化。
機器學習技術
神經網絡
神經網絡旨在模仿人腦中神經元的結構,每個人工神經元都與系統內的其他神經元相連接。神經網絡按層排列,一層的神經元把數據傳遞給下一層的多個神經元,如此繼續。最終,數據到達輸出層,在此,網絡給出解決問題、識別對象的最佳猜測,等等。
神經網絡在各行各業的應用案例:
·Schatsky介紹說,在生命科學和健康護理領域,它們可以用來分析醫學圖像以加速診斷過程和藥物發現過程。
·在電信和媒體領域,神經網絡可以用于語言翻譯、欺詐檢測和虛擬助理服務。
·在金融服務領域,它們可以用于欺詐檢測、投資組合管理和風險分析。
·在零售業中,它們可以用來縮短結賬排隊長度,實現顧客體驗的個性化。
決策樹
決策樹算法旨在通過發現屬性相關的問題來對項目進行分類,這有助于決定把項目放在哪個類中。樹中的每個節點都是一個問題,分支會帶來項目相關的更多問題,而葉子是最終的分類。
決策樹的應用情形包括為客戶服務、定價預測和產品規劃構建知識管理平臺。
商業和技術咨詢公司SPR的首席數據科學家Ray Johnson評論說,當保險公司根據可能出現的風險來深入分析需要哪種類型的保險產品并調整保費時,可以使用決策樹技術。通過把天氣相關的損失數據與位置數據相疊加,它能夠根據提交的索賠和支付金額來建立風險類別。他說,然后,它可以根據模型覆蓋范圍來評估新應用,以提供風險類別和可能的財務影響。
隨機森林
必須對單個決策樹進行訓練才能提供準確的結果,而隨機森林算法則采用一組隨機創建的決策樹,這些決策樹基于不同的屬性集進行決策,并允許它們對最受歡迎的類進行投票。
Epstein說,隨機森林是在數據集中尋找關系的通用工具,而且訓練起來也很快。例如,大量的垃圾電子郵件長期以來一直是個問題,不僅對用戶來說是這樣,對于互聯網服務提供商也是如此,他們不得不處理服務器越來越高的負載。她說,為解決這一問題,已經開發出了從正常電子郵件中過濾掉垃圾郵件的自動化方法,使用隨機森林來快速準確地識別出不想要的電子郵件。
隨機森林的其他用途包括通過分析患者的病歷來識別疾病,檢測金融欺詐行為,預測呼叫中心的呼叫量,以及通過購買某一股票來預測利潤或者損失。
聚類
聚類算法使用K均值、均值平移和期望值最大化等技術,根據共享或者類似的特征對數據點進行分組。這是一種可以應用于分類問題的無監督式學習技術。
Schatsky說,當需要細分或者分類時,聚類技術特別有用。這方面的例子包括根據不同的特征對客戶進行細分以便更好地分配營銷活動、向某些讀者推薦新聞文章,以及落實規章制度等。
聚類還能夠有效地發現復雜數據集中的分組,而人眼并不能一眼看出這些分組。Epstein說,這方面的例子包括對數據庫中類似的文檔進行分類,以及從犯罪報告中識別犯罪熱點等。
關聯規則學習
關聯規則學習是推薦引擎中使用的一種無監督式技術,用于查找變量之間的關系。
這是很多電子商務網站上“買X的人也會買Y”推薦的支撐技術,怎樣使用這類技術的例子很常見。
Johnson說,一種特定的應用情形是希望促進額外銷售的特色食品零售商。他會使用這種技術來分析客戶購買行為,為產品慶祝活動、運動隊等提供特殊的罐頭和包裝。關聯規則技術能夠揭示客戶何時何地購買了自己最喜歡的產品組合。
Johnson說,利用過去采購的信息和時間順序,公司可以主動地創建獎勵計劃,并提供特殊的定制產品來促進今后的銷售。