孫曉楓,趙新軍,呂春梅,張義民
(1.東北大學,遼寧 沈陽110819;2.沈陽化工大學,遼寧 沈陽110142)
因為符合人的交互模式,多通道交互(multi-modal humancomputer interaction,MMHCI)被認為是更為自然的人機交互方式[1],是未來人機交互的發展方向。多通道人機自然交互涉及到人的五感中視覺、聽覺、觸覺、味覺、嗅覺的感知體驗,而且多通道的人機自然交互并非是各個通道疊加,而是各個感知體驗直接的互動。多通道人機自然交互與傳統的單一通道人機交互方式相比,能夠更加精準、有效地實現人機對話,有效提升用戶的交互體驗。
近年來,隨著科技的發展,新涌現的單通道認知感知技術,如語音識別[2]、人臉識別[3]、情感理解[4]、動態手勢[5]、觸覺等隨著技術的進步更加趨向成熟,這也使得單一通道的人機交互性能得到了快速的提升。
隨著人工智能、虛擬現實等技術的進步以及人們對于人機交互體驗追求的提升等,單一通道人機交互已經難以滿足人們對于精準和完美交互體驗的追求,而多通道人機自然交互能夠實現人們各感官體驗的融合,提升人的交互體驗感受,具有更大的應用潛力,被廣泛應用在虛擬實驗室,如谷歌的Google Daydream Labs、阿里巴巴的VR實驗室gnomemagic lab。
多通道人機自然交互是基于眼動追蹤、語音識別、手勢輸入、感覺反饋等新的交互技術,利用多個感覺通道和效應通道的并行、協作與計算機進行交互[6],力求將“人機交互”演變為“人人交互”,提高人機交互的高效性和自然性。多通道人機自然交互的實現離不開人類視覺、聽覺、觸覺、味覺和嗅覺等各感官的相互關聯和作用,而人類五感中視覺和聽覺是人類認知世界的最的重要感官。有關研究表明,人們所接收的信息中有97%來源于視覺和聽覺,這其中視覺提供了大約(80~90)%外界信息。所以,充分利用視覺和聽覺的聯覺關聯,將其融合于多通道人機自然交互中,這里探討的便是視覺、聽覺之間的關聯作用以及其作用于人的感受。
目前,許多學者對視覺與聽覺之間的聯覺現象進行了研究。Marks研究了視覺和聽覺的某些特征之間的對應關系,證實較高音高和較大聲音與較淺的顏色相關。[7]Palmer(Palmer et al,2013)使用顏色代替顏色詞,并證明音樂和顏色之間強大的交叉模態匹配是由情感聯想調節的。[8]Henrik Hagtvedt和S.Adam Brasel的研究證明了聲音頻率和顏色亮度之間的聯合交叉模態對應可以引導視覺注意:高頻(低頻)聲音將視覺注意力引向淺色(深色)物體[9]。視覺聽覺之間的聯覺現象的研究促進了其在各個方面的應用。比如音樂教育、創新、購物、界面設計、虛擬現實等等。Pepelea,R發現音樂媒體的色彩視覺解釋基于額外的音樂想象發展出特定的創造力。[10]HENRIK HAGTVEDT研究了通過改變超市貨架上的燈光亮度會影響購物者對物品的選擇:即使實驗人員提示客戶較暗貨架上的物品的品質更好,客戶在處于高頻率(相對低頻率)音樂的環境中仍然更可能從具有裝飾明亮(相對于灰暗)的貨架上挑選產品。[11]
目前關于聽覺與視覺之間的聯覺研究結果主要集中聲音的頻率等元素與色彩的色相、明度、飽和度之間的關系,研究的重點也主要集中在聲音與單一色彩的各元素的對應關系,缺少聲音對于不同色彩組合影響。就目前人機交互界面的設計主流以及未來發展的趨勢而言,色彩和聲音組合占據非常大的比重,所以設計視聽關聯的用戶界面的關鍵就是尋找能夠將不同色彩搭配(色彩比重、空間位置)與特定音色的樂音統一起來的橋梁。為尋找建立這種統一關聯性的基礎,就需要發現不同的聲音與色彩組合搭配之間的對應關系,從而為多通道人機自然交互的視覺、聽覺通道的有效融合,提升用戶“人”的使用體驗提供一定的借鑒。
本實驗在借鑒其他學者(xiuwen Sun,2018)[12]前期研究的基礎上,探討了聲音的心理聲學屬性(例如音調,粗糙度,尖銳度,非連續性,音速)等與多顏色的特征(如色調,飽和度和亮度)的對應關系,同時還進一步增加了聲音與多色彩比重及空間占比等因素的對應關系。我們的研究目的在于探討聲音與多色彩之間對應關系,為兩者的融合并應用于虛擬現實等多通道人機自然交互中去,提升用戶的體驗。
我們招募了46名志愿者,包括23名女性和23名男性參加實驗。鑒于跨文化差異可能會影響結果(Knoeferle等,2015),我們只選擇中國出生的參與者納入本實驗,所有的參與者無色盲、耳鳴、精神病史、語言障礙,參與者不會從本次實驗中獲得報酬;本研究不會對受試者造成潛在危害;受試者在實驗過程中感到不適,可隨時自愿退出研究。
3.3.1 聲音刺激
根據牛津大學Spence教授和他的學生Knoeferle提出的各聲音屬性理論[13]的研究,我們根據聲音的五種不同屬性如(音調,尖銳度,粗糙度,非連續性,音速)等,制作不同單一屬性的聲音作為刺激源,每種屬性的聲音定位4個等級,從低到高排列為1-4級。每個聽覺參數的值設置為四個級別:(a)音高:C2(130.8Hz),C3(261.63),C4(523.35Hz),C5(1046.5Hz);(b)粗糙度:0%,30%,70%和100%;(c)節奏:65,120,150和200 BPM;(d)清晰度:我們使用1-4表示四個銳度級別,1表示最弱,4表示最強;(e)不連續性:0%,40%,70%和100%。對于每個樂曲,我們只調整五個屬性中的一個的值,其他四個保持在第二個最低級別。我們通過Soundtrap在線制作了20(5×4)段音樂,系統地改變了9秒鐘鋼琴和弦的五個低級屬性(音高,銳度,粗糙度,非連續性,節奏)。聲音基于以C大調為基調的和弦的中性音調。(音高C3(261.631Hz);銳度30%,粗糙度120BMP,非連續性2,速度40%)。
3.3.2 顏色
我們選擇了49個彩色方塊(100×100像素)來匹配聲音刺激。顏色使用色調飽和度亮度(HSB)方案進行編碼。選擇具有不同色調的七種標準顏色作為主要顏色,如圖1所示。通過改變主色的飽和度或亮度值來生成其他四十二種顏色。飽和度值設定為40%,60%和80%。亮度值設置為50%,30%和10%。

圖1 實驗中使用的七種標準顏色Fig.1 Seven Standard Colours Used in Experiment
我們還設計了色塊1和色塊2的對比度組合,如圖2所示分成五個選項,實驗參與者選擇其中一項。設計了基于7種標準色彩的空間位置關系圖,如參與者選擇的是色塊1為紅色,色塊2為黃色,通過兩種顏色鑲嵌,分表代表兩種顏色的空間位置關系,如圖3所示。

圖2 紅色和黃色對比圖Fig.2 Contrast Map of Red and Yello

圖3 紅色和黃色空間占比圖Fig.3 Spatial Ratio of Red and Yellow
實驗通過網絡在線點擊的方式進行。我們設計了一個用于實驗的小程序,實驗參與者需要在一個安靜的房間里,戴上耳機參與實驗。實驗開始時,參與者點擊“開始”按鈕進行實驗。每個實驗中,實驗者需要按照聽音頻(聲音刺激)—選擇認為與聲音最為匹配的色塊1—然后選擇認為與聲音次為匹配的色塊2—選擇色塊1和2的明度或者飽和度--聲音刺激—色塊1與色塊2對比關系圖—色塊1與色塊2占比關系圖。此為一個聲音刺激的試驗周期,實驗參與者一旦做完與意象詞匯的選擇,聲音刺激將停止5秒鐘并進行下一個周期的實驗。每次實驗大約需要(50~60)s,完成整個實驗周期大約需要(15~20)min。實驗系統將記錄參與者所作出的選擇。
實驗中記錄了參與者的個人信息(性別、年齡、文化背景等)、選擇顏色、明度或飽和度、色塊比重以及占比等,通過對記錄結果統計,分析不同聲音刺激下的顏色的組合、明度或飽和度、顏色配色比重、空間占比等關系。
3.5.1 聲音刺激與色塊對色相的感知關聯
(1)音調
根據不同的音調分別記為C2、C3、C4和C5,選取在每個音頻刺激中色塊1和色塊2組合數量最多的前4組色相按照百分比進行排列,得出C2、C3、C4和C5四組音頻刺激下的色相組合如表1。不同音調的音頻刺激對于色相組合的選擇是不同的,存在的差異性與音調的高低有直接的關系。比如C2的低音調音頻刺激選擇的藍色+橙色色相組合最多,占比達到15.1%;C5的高音調刺激選擇的紅色+黃色的色相組合最多。該結果反映了低音調(C2)與藍色關聯度高,高音調C5與紅色和黃色的關聯度高。這與孫秀雯(2018)的研究中針對同頻率音頻刺激之下單色塊的選擇頻次結論類似,說明同音調的音頻刺激之下,用戶對于單一色塊和成組色塊的選擇方案具有相似性,色塊數量與選擇結果無明顯聯系。

表1 不同音調聲音刺激下的色塊組合選擇頻次占比(%)Tab.1 Hue Combination Percent Under Four Different Pitch of Sound Stimuli(%)
(2)粗糙度
在不同的粗糙度音頻刺激下,選取的色塊組合數量最多的前4組,如表2所示。在粗糙度為0的時候,選擇綠色+青色色相的組合最多,占22.2%,青色在各組合中最多;而在粗糙度為30和70的時候,選擇的各色相組合呈現較為均衡的現象;在粗糙度為100的時候,選擇紫色+橙色、組合占比達到14.8%,橙色在各組合中占比最多。這說明粗糙度的高低程度也對色相的選擇有一定影響,尤其是在粗糙度為0和100的時候最為明顯。這與孫秀雯(2018)的研究中針對同頻率音頻刺激之下單色塊的選擇頻次結論類似,說明同粗糙度的音頻刺激之下,用戶對于單一色塊和成組色塊的選擇方案具有相似性,色塊數量與選擇結果無明顯聯系。

表2 不同粗糙度聲音刺激度下色塊的選擇頻次占比(%)Tab.2 Hue Combination Percent Under Four Different Roughness of Sound Stimuli(%)
(3)尖銳度
在不同的尖銳度音頻刺激下,選取的色塊組合數量最多的前4組色相如表3所示。在尖銳度為1、2、3和4的時候選擇的色相組合并未呈現出規律性的波動,而且各色相組合的百分占比較為均衡,由此可以看出尖銳度與色塊組合的選擇無顯著關聯,色塊數量與選擇結果無明顯聯系。

表3 不同尖銳度聲音刺激下的色塊組合選擇頻次占比(%)Tab.3 Hue Combination Percent Under Four Different Sharpness of Sound Stimuli(%)
(4)非連續性
在非連續性方面,分別統計不同的粗糙度音頻刺激下,選取的色塊1和色塊2組合數量最多的前4組色相并按照100%進行重新賦值,得出非連續性0、40%、70%和100%四組音頻刺激下的色相組合如表4。不同非連續性的音頻刺激對于色相組合的選擇也是不同的,但是在尖銳度為0、40%、70%和100%的時候選擇的色相組合頻次并未呈現出規律性的波動,但在色相組合的顏色搭配方面,對比色和互補色占比較大,分別占比50%和31.25%,鄰近色僅占18.75%,由此可以看出尖銳度雖然對于色相無顯著關聯,但是與色相對顏色搭配的關聯較大。

表4 不同非連續聲音刺激下的色塊組合選擇頻次占比(%)Tab.4 Hue Combination Percent Under Four Different Discontinuity of Sound Stimuli(%)
(5)音速等級
在音速方面,分別統計不同的粗糙度音頻刺激下,選取的色塊1和色塊2組合數量最多的前4組色相并按照100%進行重新賦值,得出音速為65、120、150和200的四組音頻刺激下色相組合如表5。在音速為65的時候,選擇橙色+藍色色相的組合最多,占22.2%,且選取樣本中色相組合的色彩關系中對比色和互補色占到75%;而在音速為120、150和200的時候,選擇的各色相組合呈現較為均衡的現象,未發現占主導的色相組合和規律性。在音速為200的時候,選取樣本中的色彩配比出現了鄰近色占主導的情況(100%)。由于聲音刺激與色彩明度和純度關聯分析結論與孫秀雯(2018)論文結果相似,這里不做冗余陳述。

表5 不同音速等級聲音刺激下的色塊組合選擇頻次占比(%)Tab.5 Hue Combination Percent Under Four Different Tempo of Sound Stimuli(%)
3.5.2 色彩比例、空間位置的關聯性分析
不同的色彩搭配對于用戶的視覺感知有著不同的影響,色彩搭配中重要的表現形式在色彩比例關系和空間位置關系。利用不同色彩占比能夠有效的突出重點。這里通過實驗分析,進一步驗證聲色聯覺中音頻屬性與色彩比例和位置之間的關聯性,從而為多通道人機自然交互的色彩搭配以及與聲音刺激的融合提供借鑒。
根據上一步實驗,統計分析實驗參與者在不同音頻刺激下選取的頻次最多的色塊組合,針對其選取的色塊比重和空間占比的情況分析,由于選擇的色塊組合的頻次不同,因此我們按照百分比形式進行了重新賦值,統計不同色塊組合中的色塊比重和空間占比的百分比。如圖4所示。
從圖4可以看出,在音頻C2和C5的刺激下,參與者選擇的色塊比重的百分比分布圖呈現出比較集中的現象,C2音頻刺激下色塊橙色和藍色比重為50:50的選擇占比達到47%;C5音頻刺激下的紅色和黃色比重為90:10的選擇占比達到50%,而C3和C4聲音刺激下的不同色塊對比度的選擇基本上呈現比較均勻的情況。這證明了聲音頻率對于色塊組合對比度的選擇是有影響的,低頻率更容易選擇色塊面積比例均衡的視覺效果,高頻率則會更偏向選擇色塊面積比例差異較大,對比強烈的視覺效果。

圖4 音調-顏色對比和空間關系結果。Fig.4 Results for Pitch-Colour Contrast and Positional Relationship
同時,不同音頻刺激下的色塊空間位置關系也存在不同。C2和C4聲音刺激下的色塊空間位置關系的選擇無明顯偏好。C3聲音刺激下選擇藍色鑲嵌于紅色的占74%,C5聲音刺激下選擇黃色鑲嵌于紅色的占73%,并未發現聲音刺激對于色塊空間的影響的規律。但是有趣的是,我們發現當兩個色塊呈鑲嵌狀組合時,一般情況下選擇相對偏冷色調鑲嵌于相對偏暖色調之上的情況比較多。
在實驗中,我們研究了聲音的五個特征音調,粗糙度,尖銳度,非連續性和音速與雙色塊色調、明度、飽和度以及顏色比重和空間占比之間的對應關系。我們在其他學者實驗基礎上,將聲音與單色相的對應關系研究擴展到聲音與雙色塊的對應關系研究,并進一步探討了聲音與雙色塊的比重、空間占比直接的對應關系。實驗結果證明了高頻率音頻刺激與暖色調的紅色、黃色關聯度高、低頻率音頻刺激與冷色調的藍色和青色關聯度高;粗糙度在0和100的時候對于色塊組合也存在影響,似乎和孫秀雯(2018)的紫色和橙色與高粗糙度相關,而綠色和青色與低粗糙度相關的實驗結果相似。同樣的尖銳等級和非連續性對于色塊色相、色彩比重、空間占比的影響也不明顯,這可能是由于尖銳等級和非連續為聲音的心理學特征所造成的。
在音速等級方面,高音速與暖色調關聯性高,低音速與冷色調關聯性高。關于聲音刺激與色彩比重、空間占比的研究結果顯示,總體而言聲音的頻率對于色彩比重和空間占比的影響較為明顯,而音速、粗糙度、尖銳等級和非連續性三個音速則為顯示出明顯的影響。聲音的頻率越高,顯示出與暖色調高比重、處于空間中心位置的關聯度越高;反之則與冷色調高比重、處于空間中心位置的關聯度越高。
基于以上實驗的結論,我們將視覺聽覺的關聯應用到人機自然交互中去,設計了一個視聽聯覺的人機自然交互模型,如圖5所示。從視覺和聽覺兩個角度探索雙通道下,人機交互信息的輸入、融合和輸出模式。首先是視覺和聽覺信息通過人的眼和耳朵輸入,通過人與機器的交互將所得的信息輸入至機器,運用機器內部聯覺內置程序,提取聲音的頻率、粗糙度、非連續性、尖銳度和音速等要素和視覺信號的色度、亮度、飽和度、對比度、空間占比等要素,并在這些要素之間通過內置的聯覺程序構建起對應的聯覺效應,形成完整的視聽反饋信息,通過機器輸出為人類可以接收、識別的視聽信息。視聽聯覺的人機自然交互模型是完整的輸入-輸出的系統,能夠有效的利用視聽聯覺現有研究和原理,提升人機交互的輸入輸出精度和完整度,有效的提升人機自然交互的自然性和和諧性。
綜上所述,本研究旨在研究視聽聯覺存在的內在關系并將之應用于多通道人機自然交互,提升人機交互的準確性以及用戶體驗。通過實驗,我們擴展了前人對于聲音與單色彩關系的研究,挖掘了聲音與色塊組合的關系。結果表明,聲音音調、粗糙度等對單色和多色塊組合的色調、飽和度的影響并未存在明顯的差異。聲音和色彩對比度和空間關系的研究結果表明,音高和節奏對色彩對比度和位置關系有更明顯的影響。音高和節奏越高,人們越喜歡暖色調,反之亦然。最后,基于實驗結果構建了多模態人機交互模型。