999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

如何將數據科學應用于生產

2020-06-11 08:12:17MichaelBerthold
計算機世界 2020年21期
關鍵詞:科學生產模型

Michael Berthold

當前將數據科學部署到生產中仍然是一個巨大的挑戰。不僅需要頻繁地更新已部署的數據科學,而且可用的數據源和類型也會迅速發生變化。與此同時,用于數據分析的方法也會迅速變化。這種可能性的不斷增長使得其只能依靠精心設計和商定的標準,或是在專用工具的框架內工作。

KNIME(Konstanz Information Miner,是一個用戶友好、智能的,并有豐富開源的數據集成、數據處理、數據分析和數據勘探平臺)一直致力于提供一個開放平臺,數據科學家可通過添加擴展套件或帶有新數據源和工具的套件來集成最新的數據科學發展成果。這樣一來,數據科學家就可以不受特定軟件供應商的限制,訪問和整合所有可用的數據存儲庫,并且還使用自己偏愛的工具。在使用KNIME工作流進行生產時,數據科學家可以訪問相同的數據源和算法。和許多其他工具一樣,從數據科學創建到數據科學生產的過渡涉及一些中間步驟。

在本文中,我們將介紹KNIME工作流引擎的最新功能。新的功能允許直接在數據科學創建工作流中捕捉生產所需的東西,從而使部署實現完全自動化,同時在數據科學創建期間每個模塊仍被允許使用。

為何在生產中部署數據科學如此困難?

乍一看,將數據科學投入生產似乎很容易,只需在生產服務器或選定的設備上運行它們即可。但是如果仔細觀察,我們會清楚地發現,在數據科學創建過程中所搭建的東西與投入到生產當中的東西是不一樣的。

我想將其與米其林星級餐廳的廚師進行比較,后者在自己的實驗廚房中設計菜譜。通往完美菜譜的途徑包括嘗試新的食材、優化數量和烹飪時間等。只有在滿意后,最終結果(食材清單、數量、備菜程序)才能寫入菜譜中。這一菜譜就是“投入生產”的過程,即讓數百萬購買菜譜的家庭廚師能夠使用它們。

這與提出數據科學問題的解決方案非常相似。在數據科學創建期間,不同的數據源將會被調查。數據經過混合、匯總和轉換。然后,具有多種可能參數設置的各種模型(甚至是模型組合)都將被嘗試和優化。我們投入生產的并不是實驗和參數/模型優化的全部,而是所選數據轉換與最佳學習模型的組合。

雖然聽起來很容易,但是這往往是問題最大的地方。大多數工具只允許導出可能模型的子集。許多人甚至完全忽略了預處理。通常,導出的東西甚至都沒有做好使用準備,而僅僅是模型表示或庫,其需要先使用或封裝到另一個工具中,然后才能投入生產。因此,數據科學家或模型操作團隊需要手動添加選定的數據融合和轉換,將其與模型庫捆綁在一起,然后將其全部封裝到另一個應用程序中,以便能夠被作為即用型服務或應用程序投入生產當中。但是很多細節會在在轉換過程中被丟失。

對于我們上面提到的米其林大廚來說,手動轉換并不是一個大問題。她每隔一年才會制作或更新一個菜譜,并且可以花上一天的時間將她的實驗成果轉換成可以在傳統家庭廚房中使用的菜譜。但是對于我們的數據科學團隊來說,這是一個非常大的問題,因為他們希望能夠在需要時(每天、甚至是每小時)輕松地更新模型,部署新工具以及使用新的數據源。在兩者之間添加手動步驟,不僅會減慢處理速度,而且還會導致許多額外的錯誤。

下圖顯示了數據科學的創建和生產化是如何交織在一起的。雖然該流程受到了經典CRISP-DM周期的啟發,但是其更強調數據科學部署的連續性和對包括持續監視、自動更新以及業務方面不斷改進和優化的反饋在內的需求。它們可以更清楚地區分兩種活動:創建數據科學和將產生的數據科學過程投入到生產當中。

通常,當人們談論“端到端數據科學”時,他們實際上僅指的是左側的循環:一種涵蓋了從數據提取、轉換和建模到編寫某種模型等方方面面的綜合方法。實際使用這一模型還需要其他的環境,并且在持續監視和更新模型時,工具會變得更加分散。在許多情況下,維護和優化也是非常繁重的手動任務。

消除數據科學創建和數據科學生產之間的差距

集成部署使得數據科學家能夠捕捉部署所需的過程部分,從而使數據科學家能夠在同一環境中對創建和生產進行建模,從而消除了數據科學創建與數據科學生產之間的差距。因此,只要在數據科學創建中進行了更改,這些更改都會自動反映在已部署的摘錄中。從概念上講這很簡單,但實際上做起來卻非常困難。

如果數據科學環境是一種編程或腳本語言,那么數據科學家將不得不痛苦地詳細介紹如何為整個過程的各個方面創建合適的子例程,并且還要確保在兩個代碼庫之間正確傳遞了所需的參數,這些子例程可能對部署有用。實際上,數據科學家必須同時編寫兩個程序,以確保兩個程序之間的所有依賴關系能夠始終被觀察到。正應用模型所需的少量數據轉換或參數則非常容易被遺漏。

使用可視化數據科學環境可使這一過程變得更加直觀。KNIME的新集成部署節點擴展套件允許部署中需要的那些工作流被捕捉。之所以如此簡單,是因為這些天生是創建工作流的一部分。首先,在模型訓練期間需要完全相同的轉換部分。其次,在微調期間需要對模型進行評估。上圖為一個簡單示例。

紫色方框中為部署所需的部分數據科學創建流程。我們不必拷貝它們,也不必執行明確的“導出模型”步驟,現在只需添加Capture-Start/Capture-End節點來搭建相關部分,然后使用工作流合成器將這些部分放在一起。自動生成的工作流如本頁下圖所示。

Workflow-Writer節點具有不同的形狀,可用于所有可能的部署方式。正如名稱所暗示的那樣:寫出工作流供其他人用作起點。更強大的是其能夠使用Workflow-Deploy節點,該節點可自動將生成的工作流作為REST服務或分析應用程序上載到KNIME Server或將其作為容器進行部署,前提是使用適當的Workflow-Deploy節點。

數據科學的“完整部署”清單

許多數據科學解決方案都承諾了端到端的數據科學、完整的模型操作以及不同形式的“完全部署”。以下列表涵蓋了一些常見的限制。

·你是否能夠混合和匹配R、Python、Spark、TensorFlow、云、內部部署等技術,或是僅局限于一個特定的技術/環境?

·你是否能夠在創建和部署設置過程中使用同一套工具,還是兩者之間僅彼此覆蓋對方的一個子集?

·你是否能夠將數據科學自動部署到服務(例如REST)、應用程序或計劃的任務中,還是僅部署需要內置在其他位置的庫/模型?

·部署是全自動的還是需要(手動)中間步驟?

·你能否自動回滾到數據科學創建流程和生產中模型的先前版本?

·你能否在同時運行創建和生產流程數年后保證所有結果都向后兼容性?

·經過修訂的數據科學流程能否在不到一分鐘的時間內被部署?

本文的目的不是為了詳細介紹技術。但是我們仍然需要指出,這種捕捉和部署機制適用于KNIME中的所有節點。其中既包括提供對本機數據轉換和建模技術訪問權的節點,也包括封裝了如TensorFlow、R、Python、Weka、Spark等庫和由KNIME、社區或合作伙伴網絡提供的所有第三方擴展套件的節點。

通過新的集成部署擴展,KNIME工作流變成了一個完整的數據科學創建和生產環境。建立工作流以驗證內置或封裝技術的數據科學家可以捕捉工作流并將其直接部署在相同工作流中。這是第一次使得直接從用于創建該過程的環境中即時部署完整的數據科學流程成為了可能。

本文作者Michael Berthold為開源數據分析公司KNIME的首席執行官兼聯合創始人。Michael在數據科學領域擁有超過25年的經驗,在Konstanz大學(德國)擔任教授之前曾在加利福尼亞大學(伯克利分校)和卡內基梅隆大學擔任過教授,并曾在英特爾的神經網絡小組、Utopy和Tripos公司從事過研究工作。此外,Michael還在數據分析、機器學習和人工智能方面發表了大量著作。

原文網址

https://www.infoworld.com/article/3541230/how-to-move-data-science-into-production.html

猜你喜歡
科學生產模型
一半模型
重要模型『一線三等角』
用舊的生產新的!
重尾非線性自回歸模型自加權M-估計的漸近分布
“三夏”生產 如火如荼
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
S-76D在華首架機實現生產交付
中國軍轉民(2017年6期)2018-01-31 02:22:28
3D打印中的模型分割與打包
科學
科學拔牙
主站蜘蛛池模板: 国产尤物视频网址导航| 欧美天堂久久| 91成人在线观看视频| 亚洲天堂日韩在线| 高清无码不卡视频| 在线不卡免费视频| 国产成人精品高清在线| 91九色国产在线| 色成人综合| 四虎AV麻豆| 国产精品黑色丝袜的老师| 福利视频久久| 国产主播喷水| 欧美亚洲第一页| 91色综合综合热五月激情| 又猛又黄又爽无遮挡的视频网站| 欧美日韩午夜| 久久成人免费| 欧美日韩高清在线| 一级成人a做片免费| 精品国产免费观看| 囯产av无码片毛片一级| 全部免费毛片免费播放| 亚洲欧美在线精品一区二区| 欧美第二区| 国产精品区视频中文字幕| 欧美午夜网| 综合成人国产| 色偷偷一区二区三区| 综合成人国产| 亚洲欧洲日韩久久狠狠爱 | 波多野结衣一二三| 婷婷在线网站| 99视频在线免费观看| 久草青青在线视频| 久久久91人妻无码精品蜜桃HD| 亚洲日本www| 日本高清成本人视频一区| 欧美日韩免费观看| 五月六月伊人狠狠丁香网| 久久99热这里只有精品免费看| 日韩 欧美 国产 精品 综合| 爆乳熟妇一区二区三区| 福利在线不卡| 日韩国产高清无码| 精品国产免费观看| 亚州AV秘 一区二区三区| 高h视频在线| 九九热在线视频| 成人午夜视频在线| 亚洲男人天堂网址| 99国产精品一区二区| 欧美日韩综合网| 久久精品这里只有国产中文精品| 久久精品人人做人人爽97| 不卡的在线视频免费观看| 国产日本一线在线观看免费| 91精品啪在线观看国产91| 性做久久久久久久免费看| 亚洲久悠悠色悠在线播放| 色综合婷婷| 97se亚洲综合不卡| 九色综合伊人久久富二代| 精品99在线观看| 亚洲免费黄色网| 成人午夜免费观看| 亚洲国产综合自在线另类| 最新亚洲av女人的天堂| 亚洲天堂视频在线免费观看| 99热6这里只有精品| 四虎影视8848永久精品| 黄片一区二区三区| 日本草草视频在线观看| 亚洲高清在线天堂精品| 国产午夜不卡| 国产尤物jk自慰制服喷水| 91色综合综合热五月激情| 久久免费视频播放| 中文字幕无码av专区久久| www成人国产在线观看网站| 欧美色图久久| 中文字幕人成乱码熟女免费|