人工智能的飛速增長刺激了當今就業市場對機器學習技能的巨大需求,機器學習社區現在非常活躍,各種開源工具層出不窮,讓人有點目不暇接,有點不知道該如何選擇。那么本篇將為你介紹10個最應該了解的機器學習開源工具。
現在工具那么多,我們該如何選擇呢?本文針對非開發者、模型部署、NLP、語音、視覺、強化學習、數據挖掘等多個不同人群,提供了10個必須掌握的模型。
短短的5年時間機器的算法水平又提升了100萬倍!過去或許只能從1萬人中識別出1個人,后來發展到1000萬、1億、10億甚至20億人中識別出這個人!與此同時,算力方面提升了10萬倍。從過去用1萬量級規模的數據做訓練,到百萬規模的數據做訓練,到現在用10億的數據集做訓練,又提升了1萬倍!
非開發者應該用什么?
不會開發,不會編程,也能用機器學習?答案是可以的,只要你會用工具。這里為初學者推薦兩個工具:
1.Knime
Knime是一款出色的工具,可讓你無需編寫任何代碼即可完成端到端的數據科學工作流程。
它甚至配備了一個拖放式界面,UI清晰,操作簡單直觀,可以說是懶人福音了。
操作起來非常簡單,首先使用該工具進行數據收集和轉換;完成后,你可以創建一個模型并將其可視化。在生產方面,你可以部署和管理數據科學項目。
官網:https://www.knime.com/
2.Uber Ludwig
Uber Ludwig是另一款適合初學者的優秀工具。有了它,你可以快速測試和訓練深度學習模型。用戶可以選擇啟用懶人模式(拖曳界面),或者直接操作代碼。
使用起來比Knime稍微復雜一點點。需要先加載CSV文件來訓練數據。通過使用預先訓練的模型,你可以預測輸出目標。最后,你可以使用可用的可視化選項可視化你的數據。
如果你是編程的初學者,你還可以在Python中使用它們擴展的API和訓練模型。
GitHub地址:https://uber.github.io/ludwig/user_guide/
模型部署用什么工具?
模型部署是機器學習的關鍵方面之一。為了幫助你完成此過程,這里列出了幾個工具。
3.TensorFlow.js
TensorFlow.js允許你直接從Web構建和部署機器學習模型。它使用JavaScript在Web上運行。
你也可以使用Node.js。有了它,你不僅可以運行現有模型,還可以重新訓練現有模型。
它提供了直觀的API,允許你使用JavaScript構建和訓練模型,在Web瀏覽器上也是如此。
如果你想在移動設備上進行開發,還可以查看TensorFlow Lite。
官方地址:https://www.tensorflow.org/js/
4.MLFlow
MLFlow讓你可以解決端到端的機器學習生命周期問題。它有三個主要組件。
MLflow跟蹤 - 通過記錄和比較結果和參數來處理實驗
MLflow項目 - 允許你將項目打包成其他成員的可重用表單
MLflow模型 - 幫助你在不同平臺中部署和管理ML庫
MLFlow的另一個驚人功能是它與庫無關。這意味著你可以將它與其他機器學習庫一起使用而不會出現任何兼容性問題。為了實現library-agonistic行為,它使用REST API和CLI。
官方地址:https://github.com/databricks/
mlflow
NLP、計算機視覺和音頻用什么工具?
還有其他方便的工具可用于在機器學習中執行不同的操作。
5.Detectron
如果你正在尋找最先進的物體檢測算法,那么你可以使用Detectron。
它由Facebook開發,是AI Research軟件系統的一部分。它利用Caffe2深度學習框架和Python。
官方地址:https://github.com/facebookresea
rch/Detectron
6.SimpleCV
SimpleCV,一個開源框架,允許你構建計算機視覺應用程序。它類似于OpenCV,使你可以訪問高級計算機視覺庫。這意味著你不必擔心錯綜復雜的概念。
有了它,你可以制作計算機視覺項目,而無需在基礎知識上投入太多時間。畢竟,出于某種原因,它被命名為SimpleCV。
官方地址:http://simplecv.org/
7.Tesseract OCR
Tesseract OCR是一款功能強大的光學字符識別軟件,可讓你識別語言。
它支持100多種語言,也可以編程識別新語言。
官方地址:https://github.com/tesseract-ocr/
tesseract
強化學習用什么工具?
如果你想訓練智能代理,那么你需要幫助強化學習。
8.Open AI Gym
Open AI Gym讓你訓練你的智能體做幾乎任何事情,包括散步、玩游戲等等。它借助易于使用的強化學習任務套件來實現。
官方地址:https://gym.openai.com/
9.Unity ML Agents
Unity ML Agents是Unity提供的開源統一插件,讓你開發可在游戲中使用的智能體。
官方網址:https://unity3d.com/machine-
learninghttps://unity3d.com/machine-learning
數據挖掘用什么工具?
如果你希望收集數據科學項目的數據,可以使用以下工具。
10.Weka
Weka用于數據挖掘任務。它借助于為數據挖掘設計的機器學習算法來實現。有了它,你可以找到很多東西,包括分類、準備、回歸、聚類、可視化和關聯規則挖掘。
該項目是開源的,使用GNU許可。
官方網址:http://www.cs.waikato.ac.nz/ml/
weka/
結論
機器學習正在改變我們與世界互動的方式,它使我們的生活更輕松,并確保我們建立一個未來世界。