大屏幕下的科幻

2012-04-29 00:44:03秋林

軟件工程 2012年11期

秋林

從鋼鐵俠的瀟灑和智慧，到變形金剛的勇敢與堅韌，從盜夢空間的詭異和震撼，到阿凡達的宏偉與感動。現(xiàn)代的科幻大片似乎都離不開人機互動。科技不斷朝著人類感官與計算機程序巧妙結(jié)合大步邁進。曾經(jīng)，我們無數(shù)次幻想的未來，或許馬上就可以來到我們的生活中了。

在科技與人文發(fā)展的進程中，英特爾無疑起到了推動作用，它讓我們離幻想中的生活越來越近，同時也對人類的想像力提出了挑戰(zhàn)。據(jù)國外媒體報道，英特爾正式在其近期召開的IDF大會（英特爾開發(fā)論壇）上推出了感知計算軟件開發(fā)工具包2013測試版。雖然，目前我們對該軟件的了解還僅僅停留在極富科幻色彩的名稱上，但是，僅依靠字面意思，我們也可以猜測到該款軟件的實質(zhì)功能。據(jù)說這種感知計算軟件是幫助研發(fā)者開發(fā)專用應用程序的，它可以完美的實現(xiàn)以下功能：由人類通過語音以及機器視覺成功的向計算機傳達出指令，而計算機也能夠通過鍵盤、鼠標以及直接觸摸屏等設備完整的接收到所有指令信息，經(jīng)過分析計算，巧妙的結(jié)合多模式界面，達到人類與計算設備互動的最終目的。

自計算機誕生以來，其應用與發(fā)展的速度就始終是令人感嘆與充滿希望的。計算機發(fā)展的最終目的也無外乎是服務人類，接收人類發(fā)出的指令，給出對應的計算并輸出結(jié)果不過是計算機最平常的工作流程了。然而，就是在這樣平常的流程中，英特爾看到了巨大的開發(fā)潛質(zhì)。鼠標、鍵盤已經(jīng)不能完全滿足人類輸入的需求，在不斷的實踐中，我們總是探索著更為方便而簡潔的輸入方法，觸摸屏應運而生。在現(xiàn)代手機早已不需要鍵盤這一強大事實面前，我們更深刻的體會到，人類不必再辛苦的掌握0和1關系的同時，還要求計算機的工作模式不斷地向人類的感官和習慣靠攏。不需要再學習枯燥的計算機語言，取而代之的是計算機“辨識”人類的語言，“分析”人類的動作，給出精準的計算，從而實現(xiàn)人類預期的目的。英特爾就是在這樣的需求中看到了商機，而這正是英特爾發(fā)展的關鍵，因為研究和開發(fā)這一套科幻電影中才會頻繁出現(xiàn)的軟件，不僅要組織大量的科研人員和軟件工程師，還要耗費大量的財力物力，投入相當長的時間和精力。因此，該項目的成功，對英特爾未來的發(fā)展十分的重要。

近期人機互動的發(fā)展方向主要集中在語音識別和機器視屏兩個方面。

通過語音進行輸入的研究早已不再新鮮，但至今為止，尚未有可靠而且精準的系統(tǒng)推出。語音識別和機器視覺都已被廣泛的應用于軍事方面，由于9·11事件的影響，美國政府大力資助此項研究，因而語音識別技術也取得了大跨度的發(fā)展，但是由于種種原因，它并未成為平常的主流應用。民間的語音識別技術也出現(xiàn)了很長一段時間，各種新舊版本的Windows都曾預裝過語音識別，但終究因為該技術不能真正的達到自然互動、準確率較低，而且需要使用耳機，最終沒能取得成功。

說到語音識別，也并不都是壞消息。在蘋果iOS和谷歌上，語音識別技術就得到了發(fā)展，美中不足的是，該技術仍未精準到可以不用鍵盤，它必須要連接到互聯(lián)網(wǎng)才能工作的特點，也讓這款語音識別技術的發(fā)展受到了不小的限制。微軟研發(fā)的語音識別在游戲中的使用可圈可點，但在跨不同設備廣泛應用時的不自然，還是局限了其大范圍的發(fā)展。

機器視覺的發(fā)展時間要比語音識別晚一些，主要是通過微軟的Kinect才流行起來的。就如同人要判斷距離時，需要兩只眼睛同時使用一樣，Kinect也需要使用兩個攝像頭，通過不同的視角來對人的動作進行判斷。遺憾的是，這種判斷只是大概的、籠統(tǒng)的，它并不能準確的檢測到特定的手指和關節(jié)，而且對用戶所在的位置也有一定的要求，這無疑局限了該技術的發(fā)展。而計算資源不能過于復雜等條條框框也最終導致微軟這款機器視覺軟件不能大規(guī)模的發(fā)展。

機器視覺不能簡單的等同于照相機，它的最終目的不是保存所“看到”的影像，而是最終完成判斷功能。一些電腦制造商，甚至連谷歌的Nexus 7都提供了面部識別功能，但這種識別顯得有點低級，它不能很好的分辨出哪個是真實的人臉、照片、視頻畫面還是面具，達不到機器視覺識別人臉的基本要求。

在高科技手段不斷應用于電影的客觀事實中，我們可以體會到3D技術的大規(guī)模發(fā)展不但為電影本身增添了可觀性，更為機器視覺提供了新思路。我們所要完成的工作，不過是3D游戲的逆向工程而已。但是，這仍然需要大量的硬件作為實現(xiàn)的基礎，高分辨率的攝像頭是必不可少的，在給計算設備輸入像素信息、多邊形和紋理的同時，也需要大量的處理性能和電力，這不僅僅是要滿足計算引擎，高分辨率立體攝像頭對此也有很高的要求，以上步驟完成后，3D“圖”還需要與本地數(shù)據(jù)庫的圖案進行匹配，這也對計算性能和電力提出了較高的要求。

在技術上，即使能夠逐步完善以上所有的不足，英特爾還是需要考慮用戶的隱私，怎樣既方便用戶操作使用，又能嚴格保守用戶的秘密，也是該項目要考慮的一個重點問題，這樣我們才不需要擔心網(wǎng)絡上是否會有無數(shù)雙眼睛盯著自己“穿拖鞋跳探戈”。

雖然，要達到真正實現(xiàn)自然、準確的人機互動，還有很長的一段路要走。但是，現(xiàn)在對語音識別和機器視覺的初步嘗試，也給未來帶來了無數(shù)的可能性。科幻電影中的情節(jié)將不再僅僅停留在大屏幕上，走下大屏幕的科幻橋段，無疑會給我們的生活帶來更多新鮮的感受。

想像一下，早上被鬧鐘溫柔的叫醒，并根據(jù)一天的活動安排和天氣變化設計好你的出行計劃和著裝風格；工作中，你不必再辛苦的敲擊鍵盤和為記不住文件被放在哪個路徑下而苦惱，取而代之的只是“有事兒您說話”；忙了一整天，想放松一下，不必再繁瑣的一首一首挑選喜歡的歌曲，你的情緒早已被音響察覺，它會自動奉上一段符合心境的音樂；看電視也不必到處尋找遙控器了，動動手指，所有頻道任你選。

計算機已經(jīng)從各個方面滲透到了人類的生產(chǎn)生活中，它在為人類服務的同時，也在不斷地挑戰(zhàn)人類的智慧。怎樣把想像變成現(xiàn)實早已不是新鮮的想法，充分利用計算機，把人類智慧與機器功能完美結(jié)合已不僅僅是英特爾想要完成的任務了。在科技公司百家爭鳴、百花齊放的時代，技術的發(fā)展也是空前迅速的，相信想像與現(xiàn)實的界限在未來的生活里終將不復存在。