Andrew C. Oliver
這五種感覺是以傳感器和數學算法的方式實現的,通常為受監督的機器學習算法和模型。
得益于深度學習、機器學習、更快CPU和新型傳感器,計算機如今已經能夠看到、聽到、觸到、嗅到、嘗到和說出來。這五種感覺都是以傳感器(如攝像頭)和數學算法的方式實現的,通常為受監督的機器學習算法和模型。
看 圖像和人臉識別
近期對圖像和人臉識別的研究讓計算機不僅能夠檢測物體的存在,還能夠檢測相似物體的多個實例。Facebook和谷歌通過多個開源版本實際上已經處于領先地位。Facebook表示他們的目標是在視頻中檢測物體。
近年來,這一領域已經取得了很大進展,圖像中的物體能夠被從其他物體中分離出來。雖然我們能夠發現東西并將它們從另的東西中分離出來,但是并不意味著我們知道這個東西是什么。這就需要能夠識別這些東西的訓練模型。
目前已經出現了一些強大的工具,不過這些工具需要非常多的數據。因此Facebook和谷歌能夠公布這些工具,從研究和社區開發的衍生工具中獲得好處,而不用擔心該領域內有太大的競爭。簡而言之,很少有機構有數以百萬或數以億計的圖像可以提供給這些工具,并為此提供專用的計算力。
本質上,用機器或深度學習將物體分類是“看”綿羊或小貓的第一步,包括各種衍生物(如大的、小的、有毛的、毛少的、瘦的、胖的、尾巴的)。然后是訓練模型識別所有的這些變體。
雖然Facebook和谷歌投入了極大的精力,不過這一領域內還有其他一些工具,如匯集了許多功能的OpenCV庫以及將重點入在了人臉識別上的OpenFace。
甚至還出現了名為Jevois(法語意思為“我看到”)的智能攝像頭。這種攝像頭為Arduino設備專用的攝像頭,后者擁有基于開源庫的預訓練模型。它們被訓練識別大約1,000種不同的物體。我們可以用自己的模型進行調整。因此如果我們計劃建造一個可以自主飛行的四軸飛行器,那么我們的計劃將很可能會實現。
聽 語音識別和聲音
分類
計算機的“聽”更多的是關于語音識別。盡管如此,聲音分類是可能的。雖然Shazam(一款專業的音頻識別軟件)是其中的杰出代表,但是針對普通聲音分類的模型還不好用,或是沒有我們預期的那么豐富。PyAudioAnalysis可讓我們錄制.wav格式的文件并對聲音進行分類。
你能抓住鳥的叫聲或是馬路噪音嗎?與圖像識別一樣,這意味著訓練一個分類模型。這一領域目前似乎還缺乏投資。或許是因為Facebook主要使用的是圖像和文字等靜默交流方式,谷歌也只推出了video.google.com 和 images.google.com,而沒有推出sounds.google.com的原因。
在語音識別方面,我們能夠找到一些使用傳統的隱馬爾可夫模型的開源工具,如CMUSphinx和使用神經網絡的Kaldi。此外還有一些其他的工具,但是問題出在在線和離線解碼之間。“在線”意味著你能讀取麥克風,“離線”意味著在獲取.wav文件之前必須等待。
IBM、谷歌、蘋果和微軟等主要廠商都有著各自的工具。谷歌在這方面做的非常出色,我們甚至可以通過帶有 JavaScript的瀏覽器進行語音識別。
觸 一種極端缺乏
公共技術的感覺
關于觸覺,似乎很少有關于如何使用觸摸傳感器進行“感知”的資料。它們主要被應用在控制應用中(如以前的任天堂能量手套,許多人都想擁有一套,但是又非常的不好用。)
目前已經出現了針對Arduino和相應庫的“did you touch it”傳感器,以及用于檢測動作的傳感器。最具前景的“did you touch it”創新是電容織物。盡管如此,在一臺“觸摸表面查看是否有缺陷”的實用型機器上,大部分都是光學或超聲波應用。
嗅 電子鼻子
是的,計算機也能夠聞到氣味。目前這方面已經有了許多實際應用。“電子鼻子”的出現已經有一段時間了。
最便宜的辦法是將一個傳感器接入Arduino設備中并“吸入”氣體。根據吸入氣體的量,它們能夠“檢測出”啤酒中使用的啤酒花等東西或是空氣是否有毒。這些技術已經被應用到了炸彈嗅探和質量控制等方面。
嘗 另一種極端缺乏
公共技術的感覺
對于計算機來說“味覺”是什么?這是一種主觀感覺,許多人的味覺實際上是嗅覺。這里的傳感器多為化學、微生物、pH值和滴定傳感器。這方面的實際應用非常廣泛,比如檢測你是否生病,體內葡萄糖水平是否充足或是是否中毒等。
就像人體解剖學一樣,其又與嗅有著很大的重疊。這里幾乎沒有什么公開的源代碼,訓練一個模型可能意味著要訪問化學實驗室或來自化學實驗室的數據。
我們還無法創建Data指揮官
有了這五種感覺,我們能否創建電影《星際迷航:下一代》中的Data指揮官,或是至少是他那愚蠢的堂弟B4(因為我們還沒有通用人工智能)?答案是可能還無法實現。即便我們有了這些傳感器和庫,我們在各個方面還沒有經過充分訓練的模型。它們需要非常多的數據,并且其中許多對于實時使用來說速度也跟不上。
因此,目前我們仍然在致力于在視頻中進行人臉識別。觸覺主要還依賴于“did you touch it?”傳感器或是其他單一用途的傳感器。嗅覺的情況也大致相同,味覺的情況最為糟糕。
不過,像機器學習和深度學習一樣,對于我們的單一用途的應用(比如,咖啡變質了嗎?),人工智能和傳感器已經取得了很大的進展。也許計算機的五種感覺不會達到人類的水平,但是它們會擁有這些感覺。目前已經出現了許多可供開發者使用的免費和專利工具。
本文作者Andrew C. Oliver為企業搜索解決方案提供商Lucidworks的技術支持經理。
原文網址
https://www.infoworld.com/article/3267153/machine-learning/sensors-and-machine-learning-how-applications-can-see-hear-feel-smell-and-taste.html