朱全勝,朱作欣,李衛東
(1.河南電力試驗研究院,河南鄭州450052;2.大連理工大學電氣工程學院,遼寧大連116024)
大屏幕顯示系統已在電力系統各級控制中心被廣泛使用,控制中心日漸趨于大屏幕顯示系統和控制臺共存的局面。控制臺仍由多個小屏幕組成的多屏顯示系統構成,由特定的調度員進行控制,而大屏幕則固定在控制中心較為顯著的位置,方便所有調度員使用。
目前并沒有為電力系統控制中心的大屏幕設計專門的人機界面,在系統開發時沿用了小屏幕的人機界面輸入和輸出模式。然而大屏幕有著和小屏幕截然不同的顯示特點,在輸出和輸入兩端都不宜簡單照搬小屏幕的設計方式。在輸出端,目前的小屏幕仍以文字和數字顯示為主,而使用大屏幕顯示大量的文字或者數字并不能充分發揮大屏幕的特點。大屏幕應充分結合可視化技術并利用全系統模型顯示廣域系統信息。而在輸入端,小屏幕中普遍使用的鼠標和鍵盤輸入方式并不適用于大屏幕[1],有必要尋找并設計新的輸入方式。
綜上,有必要針對大屏幕的特點,單獨開發適用于大屏幕的人機界面。
多通道界面是一種新型的人機界面,其在大屏幕顯示系統中的應用前景被普遍看好,在很多應用領域都已有基于多通道界面的大屏幕人機界面的實例或模型[2-3]。本文將以多通道界面為基礎,構建一個適用于電力系統控制中心的大屏幕人機界面模型。
計算機人機界面隨著計算機軟硬件技術的發展而進步,至今已經歷了命令行界面和圖形用戶界面兩個階段。
命令行界面需要用戶進行大量的訓練去掌握命令,操作過程容易出錯。圖形用戶界面雖然較之命令行界面降低了用戶的認知負荷,但其界面缺少靈活性以及效率性,占用較多的屏幕空間,且難以支持非空間性的抽象信息的交互[4]。此外,兩種傳統的人機界面在輸入上以串行性和精確性為特征,使得在很多場合下不必要地增加了用戶的工作負荷,降低了交互性,且破壞了交互的自然性[5]。
為克服上述問題,一個打破傳統的全新界面——多通道界面應運而生[6]。多通道界面允許用戶通過語音、手勢、視線等感覺通道、效應通道直接和計算機進行交互,從而達到人機交互的平衡通訊,并擴大用戶的輸入帶寬,改進輸入效率和交互自然性。
由于多媒體輸出技術已較為成熟,多通道界面的相關研究主要集中在輸入端。常用的單一輸入技術如下。
1)語音識別技術。語音識別就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術[7-8]。語音識別技術的研究始于20世紀50年代,至今,大詞匯量識別、連續語音識別、多人識別等關鍵技術已有了很大突破。在某些環境下已經可以將其實用化。
2)手勢識別技術。手勢是人們傳達以及獲取信息的一個重要途徑[9]。然而在以往的人機界面中,雙手的功能僅限于操作鍵盤、鼠標等交互工具,進而間接地和計算機交互。手勢識別則是為了實現用戶和計算機進行直接的手勢交互。
3)視線跟蹤技術。視線跟蹤技術的目的在于取代鼠標的選擇與點擊功能。計算機追蹤用戶在操作時視線的移動[10],如果在某一定點的停留時間超過限定值,計算機便會在該位置執行點擊命令。與目前常用界面相比,基于視線跟蹤的界面有潛力提供更快和更便捷的操作[11]。
與圖形用戶界面的串行輸入以及精確輸入相比較,多通道界面允許用戶利用多個通道進行并行輸入,多個通道并行輸入通常會比單一的通道更加高效、自然。這種多個通道相互協作的方式被稱作多通道整合。
目前比較流行的整合方式有:語音+手勢[12],語音+視線跟蹤[13],語音+筆輸入[14]。在各類模型和實例中,語音+手勢的整合方式受到更多的關注。
多通道界面的應用范圍甚廣,既適用于PDA、手機等移動設備,也適用于普通的PC機,而大屏幕顯示系統也是其主要的應用領域之一。其應用的第一個雛形正是基于大屏幕顯示系統所作[12]。
文獻[2]構建了一個城市危機管理系統的大屏幕交互系統,該系統采用地理信息圖的方式在大屏幕中顯示相關的信息,負責危機管理的調度員站立在大屏幕前通過手勢以及自然語言與系統進行交互。文獻[3]則設想了多個調度員同時和計算機進行自然的語言、手勢交互的情形。采用該人機交互系統,調度員無需一直端坐在固定位置,亦無需使用鼠標艱難地操作大屏幕,或間接地在小屏幕中對大屏幕進行操控。
本文將依照電力系統的特點,以未來EMS發展目標——“用人類最容易認識的方式重建后的電力系統,實現可視化表達,動用人類各種感官,實現人和計算機的全面溝通”[15]為指導,基于多通道界面構建一個全新的大屏幕人機界面模型。該系統輸入端以語音為主,手勢為輔;在輸出端以可視化為主,語音合成為輔。
該模塊負采集有效的輸入信號。依據預使用通道,分為語音信息采集和手勢信息采集兩部分。
負責采集語音信息的麥克風有以下3種最常見的類型:
1)頭戴式。麥克風距離用戶非常近,采集效果很好,即使在噪音比較大的環境中也可以較好的采集信息。
2)桌上式。麥克風放置于桌上,使用時用戶面對麥克風所處方向,并需保持在較近的距離之內,使用較不方便。
3)陣列式。由若干個麥克風組合而成,通常懸掛于天花板上,適合在噪音較小的環境中使用,用戶在使用時較為自如。
考慮到控制中心噪音很小,同時為提高調度員操作大屏幕的自由度,陣列式麥克風是最佳選擇。
手勢識別分為硬件識別和基于計算機視覺識別兩種方式。
采用硬件識別技術,用戶需配戴特殊的數據手套,輸入信息通過數據手套的傳感裝置傳達給計算機;基于計算機視覺識別技術則是通過攝像頭配合特定的識別技術來進行信息采集,用戶無需配戴任何設備。從使用的便利性考慮,基于計算機視覺更適合于控制中心的大屏幕人機交互。
基于計算機視覺識別技術需配備攝像頭作為采集設備——用于定位、捕捉、跟隨調度員頭部以及手勢的位置和動作。共需安裝3個具有自動跟隨功能的攝像頭(其中一個專門負責定位、追蹤調度員的頭部,另外2個負責定位、追蹤調度員的雙手)。攝像頭定位和追蹤原理可利用人體膚色的特殊性,從而判斷并追蹤手部以及頭部的位置。
采集完輸入信息后,交由各通道的識別模塊進行分析、識別,再通過整合算法將這些指令根據彼此之間的聯系整合在一起,成為最終被電腦所接收的命令信號。
一個完整的語音識別系統大致分為語音特征提取、聲學模型與模式匹配(識別算法)、語言模型與語言處理等3個部分。而在計算機人機界面實現語音輸入功能無需由設計人員重建上述識別系統,只需在軟件系統中嵌入語音識別引擎,做二次開發即可。以微軟的語音應用開發工具包(Speech SDK)為例,內置的語音識別引擎提供命令和控制(Command and Control)以及口述(Dictate)2種語音輸入類型。命令和控制類型用于為計算機增加語音命令功能,輸入精度很高;口述類型則提供文字、數字錄入功能,用來取代鍵盤,但輸入精度一般。多數情況下,大屏幕的人機交互系統只需要用語音對界面進行操作,即只需要命令和控制功能即可,因此,可以保證很高的語音識別精度。
目前為止,語音技術(包括語音識別和語音合成技術)在控制中心的應用前景已經得到了認可[16]。文獻[17]對語音識別在EMS中的應用進行了探索,充分驗證了語音識別在控制中心的可用性及高效性。
手勢有多種使用方式,在使用手勢識別技術之前,有必要對手勢在人機交互的具體功能有個明確的定位。
常用的手勢可分為2類:自發的手勢(Autonomous Gestures)和與語音緊密聯系的手勢(Gesticulation),此類手勢是多通道界面中使用的手勢[18]。與語音緊密聯系的手勢可進一步分成3類:直指式(Deictic Gestures),形象式(Iconic Gestures),隱喻以及節拍式(Metaphoric and Beat Gestures)[19]。經過試驗和觀察得出,后兩種手勢在人機交互系統中的應用很少,絕大多數多通道界面應用的是直指式的手勢[19]。
在本文的研究中,手勢的目的是協助語音進行輸入。依照電力系統的監控特點,通常以大屏幕顯示的地理圖形或者電氣圖形進行操作,而語音識別在空間定位上有明顯的使用缺陷[17],手勢識別便被用來協助語音識別進行空間定位。相對于其他類型的手勢,直指式手勢的識別要相對簡單,只需通過所指方向結合大屏幕的顯示信息判斷其所指的具體對象。
動態的手勢過程可被看作是基于時間-空間的隨機過程,絕大多數的手勢被建模為參數空間里的一條軌跡[9]。目前應用最為廣泛的方法為隱馬爾可夫模型(HMM)以及神經網絡(NNs),最常用和最成功的識別方法基本上都是基于隱馬爾可夫模型的。隱馬爾可夫模型是一個雙重的隨機過程,其中之一是基本的隨機過程(被稱之為馬爾科夫鏈),它描述狀態的轉移;另一個隨機過程描述狀態和觀察值之間的統計對應關系。
如4.1所述,在輸入過程中,語音是占據主導地位的,對命令的輸入起到主要作用,特別適用于非圖形命令和任務的控制。而手勢更多是在語音很難表達的情況下加以輔助,特別是涉及到視覺/空間輸入時,語音和手勢與簡單的上下文識別結合會產生更大的功效。當語音、手勢結合使用時即需要多通道整合算法進行處理。
文獻[5]提出了一種面向任務的多通道結構模型,并給出了相對應原形系統的整合算法。依據該算法,控制中心大屏幕人機界面所對應的輸入消息內容如下。
消息類型:T為任務消息,O為對象消息,P為位置消息,U為未確定消息。
任務消息內容:顯示(Display)、放大(Zoom in)、縮小(Zoom out)、斷開(Open)等。
對象消息內容:為各類操作對象,包括實體以及物理參數。實體如廠站(Plant)、母線(Bus)、控制區域(Control area)等;物理參數如電壓幅值(Voltage amplitude)、電壓相角(Voltage phase)等。實體和物理參數對象通常可以相互組合,如組合為母線A的電壓相角(Bus A,Voltage phase)。
位置消息內容:手勢所指向的點、線、面,通常以二維坐標x、y來表示。
未確定消息內容:位置消息P(這里,那里),對象消息O(這個變電站,那條線路等)。
假設調度員在使用中發出以下指令:放大這個(同時用手勢圈處)區域的系統潮流。“放大”為任務消息,“這個區域”為未知的對象信息,“系統潮流”為對象參數。
該模塊負責處理計算機執行命令后產生的數據信息,并將它們轉換成圖形、圖像、語音等便于調度員識別的具體形式表現出來。
由于大屏幕和EMS相連,因此它可以顯示任何EMS所提供的系統信息,其所能顯示的信息量是模擬盤所不能及的。目前控制中心的大屏幕在顯示上與小屏幕基本保持一致,甚至是直接拷貝某些小屏幕的顯示內容。然而在大屏幕中過多的顯示文字、數字類型的信息不會對調度員產生太大的幫助,因此不能簡單地拷貝小屏幕的顯示內容。
電力系統可視化技術的發展迅速,色彩等高線、3-D可視化[18]等實用技術都已經得到實現,但在小屏幕中,由于屏幕尺寸的限制,某些可視化技術并不能在小屏幕中很好的實行。例如在使用GIS相關的可視化時,由于系統線路過多,在小屏幕中顯示全部的線路顯得過于擁擠,不利于調度員進行觀察,通常只能顯示一部分線路,即所謂的局部模型的可視化,而大屏幕卻可以輕易地以全系統模型的可視化方式予以顯示[1]。全系統模型顯示方式所展現的信息量要遠遠大于局部模型的可視化,有利于顯示大面積區域的信息,以及便于對系統進行全面的監控。因此在可視化技術的選擇上大屏幕應該偏重于全系統模型的可視化方式。
大屏幕的視覺輸出可以是一個屏幕只顯示一個完整的圖例,屏幕也可以分成若干個區域,以并行多窗口(并不互相重疊)的方式顯示多個圖例。具體使用何種方式要根據調度員的實際需要決定。
語音合成技術(Text-To-Speech,簡稱TTS)又稱文語轉換,是指計算機把文本或其他形式的信息以語音的方式輸出。
較之語音識別技術,語音合成技術更為成熟。到目前為止,合成的語音輸出清晰度和可懂度很高,但是自然程度和流暢程度不夠,與自然語言有較大的差距。盡管如此,但不會影響此項技術在EMS中的應用。
利用語音合成技術,可以將計算機需要展現的信息以語音形式輸出。與圖形輸出相比,語音輸出的帶寬有限,但對于一些容量較小的信息而言,聽覺輸出能夠被很快地被接收到,并且可以和視覺并行輸出。
大屏幕的語音輸出主要有以下作用:
1)當調度員用多通道進行輸入時,輸入信息有可能因為自身的錯誤、信息量不完整或未能整合等原因不能被計算機識別,計算機用語音形式將交互的具體情形告知調度員,從而引導調度員作正確的輸入;
2)當系統出現嚴重事故時,將系統的簡要情況以語音形式向調度員匯報;
3)與調度員進行語音對話,通過語音回答調度員一些簡單的問題。
本文在多通道界面的基礎上,構造一個新型的大屏幕人機界面的模型。該系統的輸入端使用語音識別+手勢識別的多通道組合輸入技術,調度員可以在不佩戴任何設備的情況下,使用最自然的交流手段對計算機進行操作;輸出端以全系統模型的可視化和語音合成技術為主,盡量以最直觀和便于理解的方式展現系統的運行狀態。
[1] LAUFENBERG M J.Integration of Large-Scale Visualization Systems into a Control Center:Proceedings of IEEE Power Engineering Society General Meeting,San Francisco,USA,June 12-16,2005[C].California:IEEE,2005.
[2] SHARMAR,YEASINM,KRAHNST觟VERN,etal.Speech gesture Driven Multi modal Interfaces for Crisis M anagemen[J].Special I ssue on Multimodal Human-Computer Inte3rface,IEEE,2003,91(9):1327-1354.
[3] RAUSCHERT I,AGRAWAL P,FUHRMANN S,et al.Designing a Human-Centered Multi modal GIS Inter face to Support Emergency Management:Proceedings of 10th ACM international Symposium Advances in Geographic Information Systems,McLean,USA,November 9-10,
[4] 馬衛娟,方志剛.人機交互風格及其發展趨勢[J].航空計算技術,1999,29(3):16-20.
[5] 李茂貞,戴國忠,董士海.多通道界面軟件結構模型及整合算法[J].計算機學報,1998,21(2):111-118.
[6] 董士海,陳敏,羅軍,等.多通道用戶界面的模型、方法及實例[J].北京大學學報:自然科學版,1998,34(2-3):231-239.
[7] 劉加,劉潤生.語音識別技術及應用(上)[J].世界電子元器件,2001(11):21-23.
[8] 劉加,劉潤生.語音識別技術及應用(下)[J].世界電子元器件,2001(12):23-24.
[9] 李清水,方志剛,沈模衛,等.手勢識別技術及其在人機交互中的應用[J].人類工效學,2002,8(10):27-33.
[10] 方志剛.人機交互中的視線跟蹤技術 [J].人類工效學,2000,6(1):42-45.
[11] JACOBRJK.What You Look atis What Youget:Eye Movement-based Interaction Techniques:Proceedings of ACMCHI′90 Human Factors in Computing Systems Conference,Washington,USA,April 2-7,1990[C].Seattle:ACM,1990.
[12] BOLT R.Put That There:Voice and Gesture at the Graphic Interface[J].Computer Graphics,1990,14(3):262-270.
[13] ZHANG Q,IMAMIYA A,MAO X,et al.A Gaze and Speech Multi modal Interface:Proceedings of the 24th International Conference on Distributed Computing Systems Workshops,Tokyo,Japan,June1-4,2004[C].Hachioji:IEEE,2004.
[14] OVIATT S.Multi modal Interfaces for Dynamic Interactive maps:Proceedings of CHI'96 Human Factors in Computing.Systems,New York,USA,November 1-5,1996[C].NY:ACM,1996.
[15] 張伯明.現代能量控制中心概念的擴展與前景展望[J].電力系統自動化,2003,27(15):1-6.
[16] HUBER K.Does Speech Technology Have a Place in the Control Room:Proceeding of PES General Meeting,San Francisco,USA,June 12-17,2005[C].CA:IEEE,2005.
[17] 朱全勝,劉嬈,李衛東.語音識別技術應用于EMS人機交互初探[J].電力系統自動化,2008,32(13):45-48.
[18] OVERBYE T J,WEBER J D.Visualizing the Electric Grid[J].Spectrum,IEEE,2001,38(2):52-58.