徐心宇
摘要:文章首先介紹了人工智能技術與人機界面的基本概念,其次介紹了人工智能技術在人機界面領域的應用及發展現狀,從推薦系統、計算機視覺、語音識別三方面分析了人工智能導向下界面發展趨勢,闡述了人工智能對人機界面方面的影響。最后對人機界面未來的發展方向作了總結和展望。
關鍵詞:人工智能;人機界面;推薦系統;計算機視覺;語音識別
中國分類號:J524 文獻標識碼:A
文章編碼:1672-7053(2019)02-0137-02
1 人工智能技術與人機界面的基本概念
1.1 人工智能技術
人工智能技術是計算機學科的重要分支之一,其核心思想是使用機器模擬人的思維過程,進而代替人完成相應的工作。“人工智能”一詞出現于1956年,由美國幾位數學、信息科學、計算機科學、神經學、心理學方面的科學家提出。實際應用中,人工智能指機器可以感知環境的變化,系統根據設定的規則執行目標任務[1]。 相對于普通程序,Al具備“認知”層面的進化,其特點是能夠自適應、自學習、自成長,通過人工智能、模式識別、機器學習等技術實現機器對現實世界各類數據及現象之間內在關系的理解。通過對客觀世界及目前可以觀測、測量的各類信息、數據內在含義的認知并有效地表達。使用機器模擬人的思維過程,代替人類從事大部分工作。同時處理大量信息,并針對多個“目標的集合”進行綜合決策,提供詳盡的客觀數據以協助用戶進行決策。
1.2 人機界面
人機界面分為廣義人機界面與狹義人機界面。廣義人機界面指人機系統,由人、機和環境三個部分構成的一個整體,相互聯系、相互影響。在人機系統中,通過人機界面實現人機之間的信息交流和控制活動。
狹義人機界面指的是計算機系統中的人機界面,用戶通過人機界面實現與計算機的信息交流傳遞。
與人工智能技術相結合的人機界面又被稱為智能界面,智能界面主要使用人工智能技術實現人機交流,提高了人機交互的可用性[2]。
2 人工智能在人機界面中的應用及發展
作為一門綜合學科,人工智能目前已在計算機視覺、機器學習、自然語言處理、智能機器人等多個領域發揮重要作用。隨著社會、經濟和科學技術的發展,傳統人機界面已不能滿足當前的用戶需求。人工智能技術將引領人機界面的變革。近幾年來深度學習、神經網絡技術呈現爆發式發展,尤其在個性化推薦系統、計算機視覺、語音識別等方面。
2.1 個性化推薦系統
互聯網的迅猛發展造成信息接收量的膨脹,同時也提高了用戶篩選信息的成本。如何有效地捕獲用戶的興趣偏好,正是個性化推薦系統的研究方向。個性化系統能夠依據用戶習慣和愛好推薦合適的服務,減低用戶信息篩選的成本。。
在人工智能導向下,人機界面從信息的被動傳輸轉變為主動推薦,人機界面向真正意義上的智能界面轉變。Cheng等[3]提出了一種基于網站評價信息文本自適應的注意力模型,該模型通過分析用戶評價抽取用戶偏好和商品特征,實現用戶評價的智能排序。Tan[4]等人提出一種基于內容的推薦系統的深度學習方法。使用時間遞歸神經網絡展示語境和引用的分布式意義,用于提升文本和對話中的推薦領域。Wang[5]等開發了一種新型文章推薦模型,使用深度學習系統學習編輯選取文章的習慣,形成一套篩選文章的動態標準。
通過個性化推薦系統,人機界面能夠識別并預測用戶的意圖,為每個用戶在不同時間、不同地點推薦最適合當前場景與興趣偏好的內容。
2.2 計算機視覺技術
計算機視覺(CV),又稱機器視覺,是指機器感知外界環境的能力。機器視覺從客觀圖像中識別并提取信息,并對這些信息進行理解、分析、處理,對結果做出反饋[6],最典型的應用就是人臉識別和圖像識別。人臉識別技術使計算機能夠區分并記住每個不同用戶,實現個體需求的超細分化。而圖像處理技術使人工智能能夠識別用戶周圍的環境,從而能更加完全地把握用戶的狀況。
目前計算機視覺的主要研究方向為提高識別算法的精度及拓展計算機能夠識別的類型。Chao[7]等提出了以步態識別視頻序列為基礎的GaitSet算法。借助全連接網絡提高系統對目標特征鑒別性能。Wang[8]等人提出了一種以運動信息為核心的端到端物體檢測模型,該系統將像素級和實例級的特征同時校準從而提高檢測精度。Joo[9]等人提出了一種可以追蹤身體的姿勢、面部表情及手勢的三維人體生成模型。鄒國鋒等[10]介紹了現有的人臉識別技術以及多姿態三維的人臉識別;李學龍等[11]提到現有的用于場景圖像識別的分類法在目前的數據量龐大繁雜的環境下逐漸顯出其局限性,必須嘗試用計算機模擬人腦的思維方式,在理解場景深層語義的基礎上進行分類
借助計算機視覺技術,人機界面能夠感知用戶的狀態及周邊環境,并做出相應反饋。人交互方式也從鍵盤鼠標等向手勢操作,眼部操作等新型操作方式發展。同時指紋識別、面部識別及步態識別等生物特征識別技術的應用,使個人財產、信息安全系數增加。
2.3 語音識別技術
語音識別是一種將語音實時轉換為可讀文本的技術。語音識別在人工智能領域應用廣泛。隨著深度學習技術的發展,語音識別從理論走向實用化。在輸入法、翻譯和搜索引擎等人機交互場景下,語音識別技術都有著廣泛應用。
目前語音識別的應用研究較為熱門,谷歌、百度、滴滴、小米等企業都成立了相應的研究團隊。當前的研究方向在提高識別的準確率,通過語音識別用戶的情緒與意圖。Xiong[12]等結合了基于神經網絡的聲學和語言建模的最新進展成果,提高交換機識別任務的技術水平,該系統取得了6.3%的詞錯率。20u[13]等人提出了滴滴attention端對端語音識別系統,并在實際應用中有顯著的性能提升。Taol[4]等人提出了一套復合情感識別框架。該框架通過深入挖掘輸入語音中與情感相關的信息,提高系統準確性。Shan[15]等使用基于注意力機制的端對端方法,在小米電視測試數據上成功獲得了2.81%的詞錯率。
語音識別技術豐富了人機界面的交互方式,使計算機能夠理解自然語言,更準確地了解用戶的意圖,進一步提高工作效率,滿足用戶需求。
3 人工智能導向下人機界面的變化及發展趨勢分析
傳統的人機界面已經不能滿足用戶多樣化、個性化的需求。隨著人工智能技術的發展,未來人機界面將在信息呈現方式、界面使用方式上發生變化。人機界面的向智能化、多層次互動方向發展。
3.1 界面使用方式改變
1)身份識別方式多樣化。在信息化時代,個人信息安全急需保障。傳統的身份認證方式存在漏洞,生物識別驗證將逐漸取代傳統身份驗證方式,目前的生物識別技術有指紋識別、人臉識別、虹膜識別、步態識別及聲紋識別,前三者的應用較為廣泛。將來個人身份認證功能將會逐漸普及,驗證方式從單一生物指標識別轉變為多重生物指標綜合識別。
2)操作方式多元化。通過語音操作的方式比重逐漸增大。通過語音操控硬件,提高工作效率,解放雙手。同時計算機對外部環境噪音進行降噪與語音提取,語音操作的交互體驗將不斷優化,實現高擬人化、高識別度的語音控制。
3)信息搜索智能化。信息搜索的方式從單一的輸入文字,轉變為輸入圖像、語音文字的多種方式的綜合搜索引擎。通過上下文語義分析,視覺感知,情感理解,快速精準地為用戶進行多媒體內容的推薦。信息從被動查詢向主動推薦轉變,根據用戶的歷史數據發掘用戶搜索內容的潛在含義。
4)智能助理普遍化。通用型人工智能的出現,使智能助理能夠覆蓋更多的場景,當前手機、智能音箱和電腦上的智能助理,僅是智能助理的形式之一。理想化的智能助理應提供人性化的交互體驗和個性化的服務體驗,使服務覆蓋不同場景。
3.2 界面呈現方式改變
1)界面呈現載體變化。傳統人機界面通過硬件載體實現信息的傳遞,而未來人機界面將不拘泥于屏幕顯示。視覺界面的呈現載體從二維平面向三維空間延伸,虛擬現實、增強現實、腦機接口、全息投影等新型交互方式將被逐漸應用于人機界面。用戶通過語音和手勢即可操作。
2)界面信息呈現形式改變。隨著多媒體技術的發展,信息的呈現由靜態向動態化轉變,動態的視頻信息將占據主導地位。越來越多的信息以三維形式呈現,更加直觀、易理解,用戶的體驗更加真實。信息的呈現方式由單一的文字轉變為語音、圖像、視頻的多樣化呈現。
4 總結和展望
隨著人工智能技術在人機界面領域的不斷發展,人機界面取得了一定的成果,但現有人工智能技術仍有許多局限性。(1)人臉識別、圖像識別的準確性受到訓練樣本的限制,無法適用于所有情況;(2)語音識別目前仍存在隱私暴露、噪音干擾,信息不可修改逆轉等問題,并不能完全取代圖形類界面。人工智能導向下人機界面的發展,還有很長的一段路要走。未來人機界面功能將會更加完善,用戶體驗更加良好。人工智能技術必將在人機界面中發揮越來越重要的作用。
參考文獻
[1]王志宏,楊震,人工智能技術研究及未來智能化信息服務體系的思考[J],電信科學,2017,33 (05):1-11.
[2]胡文婷,周獻中,王友發,等.基于智能界面的交互模型研究[C]//2013中國指揮控制大會,2013.
[3]Cheng Z, Ding Y, Zhu L, et al Aspect-Aware Latent Factor Model: Rating Prediction withRatings and Reviews[J]. 2018
[4]Tan J, Wan X,Xiao J A Neural Network Approach to Cluote Recommendation inWritings[C]// Acm International on Conference on Information&Knowledge ManagementACM, 2016
[5]Wang X, Yu L, Ren K, et aI Dynamic Attention Deep Model for Article Recommendationby Learning Human Editors' Demonstration[C]// Acm Sigkdd International Conference onKnowledge Discovery&Data Mining. ACM, 2017
[6]卞正崗,機器視覺技術的發展[J].中國儀器儀表,2015 (6).
[7]Chao H, He Y Zhang J, et al GaitSet: Regarding Gait as a Set for Cross-View GaitRecognition[Jl. 2018
[8]Wang S, Zhou丫Yan J, et aI Fully Motion-Aware Network for Video Object Detection[C]//European Conference on Computer Vision. Springer, Cham, 2018
[9] Joo H, Simon T Sheikh丫Total Capture:A 3D Deformation Model for Tracking Faces,Hands, and Bodies[J]. 2018
[10]鄒國鋒,傅桂霞,李海濤,高明亮,王科俊,多姿態人臉識別綜述[J],模式識別與人工智能,2015,28 (07):613-625.
[11]李學龍,史建華,董永生,陶大程.場景圖像分類技術綜述[J].中國科學:信息科學,2015,45 (07):827-848.
[12] ChiuC C,Sainath T N,Wu Y et aI State-ot-the-art Speech Recognition With Sequenceto-Sequence Models[J]. 2018
[13] XiongW,Droppo J, HuangX, et al The Microsoft 2016 Conversational Speech RecognitionSystem[J]. 2016
[14] ZouW,Jiang D,Zhao S,et al A comparable study of modeling units for end-to-endMandarin speech recognition[J]. 2018
[15] Tao F,Liu G,Zhao Q AN ENSEMBLE FRAMEWORK OF VOICE-BASED EMOTIONRECOGNITION SYSTEM FOR FILMS AND TV PROGRAMS[J]. 2018
[16] Shan C, Zhang J, Wang Y, et al [IEEE ICASSP 2018 - 2018 IEEE International Conferenceon Acoustics, Speech and Signal Processing (ICASSP) - Calgary, AB, Canada (2018.4.152018.4.20)] 2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP) - Attention-Based End-to-End Speech Recognition on Voice Search[J]. 2018:4764-4768