999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

如何將數據科學應用于生產

2020-06-11 08:12:17MichaelBerthold
計算機世界 2020年21期
關鍵詞:科學生產模型

Michael Berthold

當前將數據科學部署到生產中仍然是一個巨大的挑戰。不僅需要頻繁地更新已部署的數據科學,而且可用的數據源和類型也會迅速發生變化。與此同時,用于數據分析的方法也會迅速變化。這種可能性的不斷增長使得其只能依靠精心設計和商定的標準,或是在專用工具的框架內工作。

KNIME(Konstanz Information Miner,是一個用戶友好、智能的,并有豐富開源的數據集成、數據處理、數據分析和數據勘探平臺)一直致力于提供一個開放平臺,數據科學家可通過添加擴展套件或帶有新數據源和工具的套件來集成最新的數據科學發展成果。這樣一來,數據科學家就可以不受特定軟件供應商的限制,訪問和整合所有可用的數據存儲庫,并且還使用自己偏愛的工具。在使用KNIME工作流進行生產時,數據科學家可以訪問相同的數據源和算法。和許多其他工具一樣,從數據科學創建到數據科學生產的過渡涉及一些中間步驟。

在本文中,我們將介紹KNIME工作流引擎的最新功能。新的功能允許直接在數據科學創建工作流中捕捉生產所需的東西,從而使部署實現完全自動化,同時在數據科學創建期間每個模塊仍被允許使用。

為何在生產中部署數據科學如此困難?

乍一看,將數據科學投入生產似乎很容易,只需在生產服務器或選定的設備上運行它們即可。但是如果仔細觀察,我們會清楚地發現,在數據科學創建過程中所搭建的東西與投入到生產當中的東西是不一樣的。

我想將其與米其林星級餐廳的廚師進行比較,后者在自己的實驗廚房中設計菜譜。通往完美菜譜的途徑包括嘗試新的食材、優化數量和烹飪時間等。只有在滿意后,最終結果(食材清單、數量、備菜程序)才能寫入菜譜中。這一菜譜就是“投入生產”的過程,即讓數百萬購買菜譜的家庭廚師能夠使用它們。

這與提出數據科學問題的解決方案非常相似。在數據科學創建期間,不同的數據源將會被調查。數據經過混合、匯總和轉換。然后,具有多種可能參數設置的各種模型(甚至是模型組合)都將被嘗試和優化。我們投入生產的并不是實驗和參數/模型優化的全部,而是所選數據轉換與最佳學習模型的組合。

雖然聽起來很容易,但是這往往是問題最大的地方。大多數工具只允許導出可能模型的子集。許多人甚至完全忽略了預處理。通常,導出的東西甚至都沒有做好使用準備,而僅僅是模型表示或庫,其需要先使用或封裝到另一個工具中,然后才能投入生產。因此,數據科學家或模型操作團隊需要手動添加選定的數據融合和轉換,將其與模型庫捆綁在一起,然后將其全部封裝到另一個應用程序中,以便能夠被作為即用型服務或應用程序投入生產當中。但是很多細節會在在轉換過程中被丟失。

對于我們上面提到的米其林大廚來說,手動轉換并不是一個大問題。她每隔一年才會制作或更新一個菜譜,并且可以花上一天的時間將她的實驗成果轉換成可以在傳統家庭廚房中使用的菜譜。但是對于我們的數據科學團隊來說,這是一個非常大的問題,因為他們希望能夠在需要時(每天、甚至是每小時)輕松地更新模型,部署新工具以及使用新的數據源。在兩者之間添加手動步驟,不僅會減慢處理速度,而且還會導致許多額外的錯誤。

下圖顯示了數據科學的創建和生產化是如何交織在一起的。雖然該流程受到了經典CRISP-DM周期的啟發,但是其更強調數據科學部署的連續性和對包括持續監視、自動更新以及業務方面不斷改進和優化的反饋在內的需求。它們可以更清楚地區分兩種活動:創建數據科學和將產生的數據科學過程投入到生產當中。

通常,當人們談論“端到端數據科學”時,他們實際上僅指的是左側的循環:一種涵蓋了從數據提取、轉換和建模到編寫某種模型等方方面面的綜合方法。實際使用這一模型還需要其他的環境,并且在持續監視和更新模型時,工具會變得更加分散。在許多情況下,維護和優化也是非常繁重的手動任務。

消除數據科學創建和數據科學生產之間的差距

集成部署使得數據科學家能夠捕捉部署所需的過程部分,從而使數據科學家能夠在同一環境中對創建和生產進行建模,從而消除了數據科學創建與數據科學生產之間的差距。因此,只要在數據科學創建中進行了更改,這些更改都會自動反映在已部署的摘錄中。從概念上講這很簡單,但實際上做起來卻非常困難。

如果數據科學環境是一種編程或腳本語言,那么數據科學家將不得不痛苦地詳細介紹如何為整個過程的各個方面創建合適的子例程,并且還要確保在兩個代碼庫之間正確傳遞了所需的參數,這些子例程可能對部署有用。實際上,數據科學家必須同時編寫兩個程序,以確保兩個程序之間的所有依賴關系能夠始終被觀察到。正應用模型所需的少量數據轉換或參數則非常容易被遺漏。

使用可視化數據科學環境可使這一過程變得更加直觀。KNIME的新集成部署節點擴展套件允許部署中需要的那些工作流被捕捉。之所以如此簡單,是因為這些天生是創建工作流的一部分。首先,在模型訓練期間需要完全相同的轉換部分。其次,在微調期間需要對模型進行評估。上圖為一個簡單示例。

紫色方框中為部署所需的部分數據科學創建流程。我們不必拷貝它們,也不必執行明確的“導出模型”步驟,現在只需添加Capture-Start/Capture-End節點來搭建相關部分,然后使用工作流合成器將這些部分放在一起。自動生成的工作流如本頁下圖所示。

Workflow-Writer節點具有不同的形狀,可用于所有可能的部署方式。正如名稱所暗示的那樣:寫出工作流供其他人用作起點。更強大的是其能夠使用Workflow-Deploy節點,該節點可自動將生成的工作流作為REST服務或分析應用程序上載到KNIME Server或將其作為容器進行部署,前提是使用適當的Workflow-Deploy節點。

數據科學的“完整部署”清單

許多數據科學解決方案都承諾了端到端的數據科學、完整的模型操作以及不同形式的“完全部署”。以下列表涵蓋了一些常見的限制。

·你是否能夠混合和匹配R、Python、Spark、TensorFlow、云、內部部署等技術,或是僅局限于一個特定的技術/環境?

·你是否能夠在創建和部署設置過程中使用同一套工具,還是兩者之間僅彼此覆蓋對方的一個子集?

·你是否能夠將數據科學自動部署到服務(例如REST)、應用程序或計劃的任務中,還是僅部署需要內置在其他位置的庫/模型?

·部署是全自動的還是需要(手動)中間步驟?

·你能否自動回滾到數據科學創建流程和生產中模型的先前版本?

·你能否在同時運行創建和生產流程數年后保證所有結果都向后兼容性?

·經過修訂的數據科學流程能否在不到一分鐘的時間內被部署?

本文的目的不是為了詳細介紹技術。但是我們仍然需要指出,這種捕捉和部署機制適用于KNIME中的所有節點。其中既包括提供對本機數據轉換和建模技術訪問權的節點,也包括封裝了如TensorFlow、R、Python、Weka、Spark等庫和由KNIME、社區或合作伙伴網絡提供的所有第三方擴展套件的節點。

通過新的集成部署擴展,KNIME工作流變成了一個完整的數據科學創建和生產環境。建立工作流以驗證內置或封裝技術的數據科學家可以捕捉工作流并將其直接部署在相同工作流中。這是第一次使得直接從用于創建該過程的環境中即時部署完整的數據科學流程成為了可能。

本文作者Michael Berthold為開源數據分析公司KNIME的首席執行官兼聯合創始人。Michael在數據科學領域擁有超過25年的經驗,在Konstanz大學(德國)擔任教授之前曾在加利福尼亞大學(伯克利分校)和卡內基梅隆大學擔任過教授,并曾在英特爾的神經網絡小組、Utopy和Tripos公司從事過研究工作。此外,Michael還在數據分析、機器學習和人工智能方面發表了大量著作。

原文網址

https://www.infoworld.com/article/3541230/how-to-move-data-science-into-production.html

猜你喜歡
科學生產模型
一半模型
重要模型『一線三等角』
用舊的生產新的!
重尾非線性自回歸模型自加權M-估計的漸近分布
“三夏”生產 如火如荼
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
S-76D在華首架機實現生產交付
中國軍轉民(2017年6期)2018-01-31 02:22:28
3D打印中的模型分割與打包
科學
科學拔牙
主站蜘蛛池模板: 亚洲精品综合一二三区在线| 亚洲精品视频网| 日韩视频免费| 一级成人欧美一区在线观看| 伊人久久久久久久久久| 成人免费视频一区二区三区| 亚洲精品国产自在现线最新| 国产亚洲精品自在久久不卡| 91福利免费视频| 高潮毛片免费观看| 国产乱子伦无码精品小说| 亚洲一区免费看| 亚洲成人网在线播放| 国产午夜在线观看视频| 国产黑丝一区| 色噜噜在线观看| 啦啦啦网站在线观看a毛片| 国产激情无码一区二区免费| 青青青国产视频手机| 制服无码网站| 色网在线视频| 在线99视频| 免费高清自慰一区二区三区| 国产亚洲视频免费播放| 99久久国产综合精品女同| 欧美三级自拍| 久久永久视频| 日韩欧美国产成人| 天天操天天噜| 日本色综合网| 国产亚洲精品97在线观看| 免费国产一级 片内射老| 91欧美在线| 毛片网站免费在线观看| 国产第一页亚洲| 免费人成又黄又爽的视频网站| 成人免费黄色小视频| 四虎国产在线观看| …亚洲 欧洲 另类 春色| 人妻精品全国免费视频| 国产流白浆视频| 99手机在线视频| A级全黄试看30分钟小视频| 久久久久国产精品嫩草影院| 亚洲,国产,日韩,综合一区 | 亚洲九九视频| 久久semm亚洲国产| 高清久久精品亚洲日韩Av| 91色综合综合热五月激情| 91免费精品国偷自产在线在线| 国产成人精品无码一区二| 精品久久高清| 麻豆精品久久久久久久99蜜桃| 国产麻豆永久视频| 精品国产成人高清在线| 老熟妇喷水一区二区三区| 久久精品免费看一| 亚洲综合精品香蕉久久网| 久久亚洲中文字幕精品一区| 亚洲无码高清视频在线观看 | 久久a级片| 亚洲欧洲日韩久久狠狠爱| 精品无码人妻一区二区| 97无码免费人妻超级碰碰碰| 国产麻豆91网在线看| 精品国产网| 国产成人精品一区二区| 欧美综合中文字幕久久| 无码高潮喷水专区久久| 欧洲日本亚洲中文字幕| 亚洲精品无码成人片在线观看| 亚洲一区二区三区香蕉| 免费视频在线2021入口| 欧美亚洲一区二区三区导航| 欧美.成人.综合在线| 亚洲国产av无码综合原创国产| 亚洲一区毛片| 性喷潮久久久久久久久 | 日韩黄色大片免费看| 免费国产在线精品一区| 国产99欧美精品久久精品久久| 国产成人毛片|