二語字幕視頻的權衡效應分析

2020-12-20 05:21:08龔兵兵

牡丹江大學學報 2020年8期

龔兵兵

（三江學院外國語學院，江蘇南京 211200）

一、引言

技術的演變和互聯網的全球擴展使得信息能在世界各地的交流，視聽資源層出不窮，字幕視頻逐步發展成一種全球性語言學習資源，人們對字幕文本的接觸和研究不斷增加。字幕是一個已被使用了很長一段時間的多用途工具，占據獨特的地位，它加強了語言信息的傳送，增強了對音頻信息的回憶和識別，使得語言內容更為突出，和聲頻同時展現有助于理解更復雜的信息，增強意義的輸入，字幕在視聽語境中可被用于不同目的。多模態字幕文本使得學習者可以接觸真實的目標語文化，提高學習動力，并可兼顧學習者的不同學習風格，同時通過視覺理解和聽覺理解的互動深化對整體語篇的理解效果。二語學習中，字幕視頻構建了一種個性化、自主式學習環境，改進其自我學習行為，促進外語教學向以學生為中心的自我組織型學習模式轉換，為學習者提供更多的語言輸入與實踐機會從而促進其外語學習，同時加強其學習的社會聯系，提高其自我效能感。[1]盡管字幕有較強的實用性以及較高的成本效益，但字幕的實際應用更多的是依靠傳統經驗而不是基于實證研究之上，特別是在字幕權衡效應這一塊。在多模態文本語境下，將眼動數據作為注意分配的測量指標這一方法廣為認可。在認知科學、教育科學、心理語言學和實驗心理學等諸多領域，眼動追蹤已被用于研究認知負荷、不同通道的加工過程、注意分配等。盡管許多研究已經使用眼動追蹤來分析靜態閱讀，相較而言，卻鮮有研究采用眼動追蹤來分析與動態圖像和聲音同時呈現的視頻字幕文本的加工過程。

二、字幕的概念

影視字幕從廣義上來說，指疊印在影片動態或靜態的畫面中的文字或以文字形式出現在影視作品中的非影像內容，它既包括影視作品里的對話等非影像內容的文字顯示形式即音頻信息處理型字幕（包含對話或人們說話聲音的語言信息處理型和轉錄非對話音頻如嘆氣聲、門吱吱聲等的聲音信息處理型），也包括影視作品中片頭主創人員名單、片中標題、內容注解（如人物、時間、地點等）、欄目題花、片尾演職員表、贊助單位等后期加工的其他解釋性、裝飾性及功能性文字即場景信息處理型字幕（亦稱隱性字幕）。[2]場景信息處理型字幕又可分為描述性場景字幕和評價性場景字幕，常見于娛樂綜藝節目，前者指站在說話者或聽者的立場對出演者說話期間的面部表情或行動等說話場景等信息進行的補充的字幕以幫助觀眾補充理解說話內容；后者指以制作者的角度對說話內容或場景進行再解釋，挖掘其更加深刻復雜的意義，使觀眾按照制作團隊誘導的方向思想的一種類型的字幕。場景信息處理型字幕也是現下流行的“彈幕”（彈幕原指戰場上由密集子彈形成的火力網，現多用在視頻網站中飛過的即時評論字幕）的衍生原型。狹義上影視字幕即語言信息處理型字幕（亦稱顯性字幕），僅指影視作品中對白、獨白、旁白等的文字轉換轉錄或轉譯形式，亦稱唱詞字幕或人聲字幕，與顯示于舞臺兩旁或上方的戲劇作品字幕不同，它一般出現在屏幕下方。本課題的研究對象僅限于狹義上的影視字幕（下文所談字幕均指唱詞字幕）。[3]

三、兩種對立觀點

先前一些研究主張字幕文本處理和圖像處理之間存在權衡效應，認為觀看字幕視頻加工需要處理重疊的三個不同平行源信息即視覺圖像、屏幕字幕及音頻，是一項需要相當大程度注意資源的繁重任務，它需要在文本和圖像之間進行多次注意轉換，對多重來源（字幕和視覺場景）復雜信息的處理需要不同的加工策略并對這些來源的信息進行整合。[4]此外，聽一個非母語音頻也可能意味著來自于聽覺通道的潛在干擾，觀眾的信息處理能力有限，其處理能力可能會超載，尤其是在非同態來源傳送信息時，因為這需要就不同的刺激源進行注意分配。[5]平行源信息的處理整合對認知要求高的話，注意資源在此類任務中需要被靈活分配給平行信息源，那么當注意力更側重于字幕時，圖像處理效果則較差，反之亦然，字幕處理或字幕識別測量結果和即視覺處理或視覺場景識別測量結果之間存在著權衡效應或負相關關系。[6]

但是，也有不少學者持對立觀點，他們強調從認知視角來看，在觀看字幕視頻節目時，視覺信息和文本信息相關，圖像通過提供恰當語境促進字幕理解，圖像事實上不僅不會產生干擾作用，反而有時甚至起到了輔助性作用，減少了語言信道的負荷，使學習者更加容易激活認知圖式，字幕和視覺場景兩個視覺源的持續整合處理應該相對容易、不特別費力，閱讀和視覺圖像處理是高效的、半自動化的認知過程[7]，且一個信息冗余但連貫的語境對閱讀和視覺圖像處理二者之間的協調并不構成什么大問題，這僅關乎注意力分配和信息整合方面策略的發展和應用[8]。此外，即使由于在注意資源或執行控制能力上出現個體差異，字幕處理能力較強的受試在圖像處理上也更加熟練[9]。據此，字幕視頻會使學習者很好地理解影視內容而不會在圖像處理和文本處理之間產生顯著權衡效應或不能兼顧兩者，即當更多的認知資源用于字幕處理，視覺場景處理的效果將不會顯著降低。[10]這也是本文所秉持的觀點。由于先前研究在方法方面的局限性，相關研究未能就這一點給出令人信服的實證解釋。在本項研究中將主要通過采用整合眼動數據、詞匯識別和視覺場景識別等多種測量手段，系統性分析學習者對字幕視頻的詞匯識別、場景識別和注意分配等認知加工過程來檢驗這一觀點。

四、研究方法

（一）研究問題和實驗對象

本研究通過實驗分析詞匯識別和場景識別之間的關系來檢驗場景和字幕處理之間的權衡效應是否存在，并通過成績測量和眼動分析的結合為字幕視頻的認知加工提供新的實驗證據。通過校園招募的方式，40 位來自于某高校的本科生和研究生（其中女性22 名，男性18 名，理工學科背景的20 人，文史哲學科背景的20 人，平均年齡24.1（±1.8），標準差4.37，）參與了本實驗。所有受試的母語均為漢語，平均都已學了9.6 年英語，他們的裸眼視力或校正視力均正常，無色盲、色弱，對由計算機呈現的刺激材料均無閱讀障礙。所有受試均未參加過類似實驗也均未接觸過本實驗所使用的字幕視頻材料，其所承擔任務均在一天相似的時間進行。所有受試均自愿參加實驗，均填寫了實驗知情同意書，做完實驗后均獲取適量報酬。

（二）實驗材料、工具與過程

實驗選用了一個15 分鐘時長的視頻片段。這段視頻取自紀錄片《戴安娜到梅根：王室婚禮的秘密》，該片段介紹了從戴安娜王妃到威廉和哈里王子的英國皇家婚禮的歷史和禮儀。其字幕行長度、每行字符數和顯現時間等均遵循了現有標準。字幕總共為169 句，為單行。在影視片段中，這些目標字幕均避開在開始半分鐘和最后半分鐘出現。根據前測，這一主題的理解難度系數適中，內容信息以一個結構簡單的時間順序呈現，字幕視頻音效清晰、語速正常與視覺呈現速度適中。所有被試所使用的教學材料均是同一段內容的教學視頻材料，不存在學習內容的差別此項無關變量。

研究的主要因變量是詞匯識別和場景識別測試的成績，前者通過選擇題試卷測得，而后者則通過計算機處理的識別測試獲得。字幕效用和要旨理解的檢驗也被展開，二者是通過問卷進行，目的在于測試受試字幕的使用程度并對影視主旨的理解程度。此外，為了更好地了解字幕視頻加工過程，研究還采用了眼動分析，以使我們能夠在學習者觀看字幕視頻時追蹤其視覺注意點與路徑，并就其加工策略做出一些推斷。字幕詞匯識別測試卷通過有關目標字幕確切用語的多項選擇題，評測了學習者識別字幕中呈現的具體單詞或短語的能力。測試卷包括20 題，受試從四個選項中選出正確的答案，其中三個為語義上非常接近的干擾項，詞匯識別測試的成績是通過計算正確答案的比例的來獲得的。該測試卷克隆巴赫系數為0.79，信度較高。場景識別測試采用了自行設計的簡單識別程序。45 幅定格圖像被隨機呈現在電腦屏幕上，受試需通過兩個按鍵決定呈現在屏幕上的每幅定格圖像是否屬于視頻的一部分。回答是自控速度的。識別測試中選用的定格圖像的1/3 即15 幅均選自于實驗中展示的影視片段。其余30 幅圖像均取自同一影片，它們沒有展示過給受試且其他選項非常相似的，這些陪襯定格圖像是由兩位高校英語教師選定的，他們試圖將目標幀和陪襯幀之間的相似性最大化。正確識別的比例即為圖像識別測試的成績。字幕效用問卷采用了五分量表，其問題主要涉及受試對字幕的注意、對字幕實用性、對字幕的理解效用、滿意度等，如：受試對字幕閱讀的難易度的感知（從非常困難到非常容易）；受試使用字幕幫助其對影視的理解的頻率如何（從沒有到總是）；字幕對其理解的幫助程度如何（從干擾很大到幫助很大）等等。主旨理解問卷包含涉及視頻內容的20個多項選擇題，目的在于評價受試是否理解字幕視頻片段的主要概念、觀點等。對于每個問題，受試需要從四個選項（包括一個正確選項和三個干擾項）中選擇正確答案，正確答案的比例即為主旨理解測試的成績。主旨理解問卷的信度為0.75。

此外，研究還將在線眼動追蹤技術與行為實驗相結合，使用Eyelink 眼動儀實時記錄受試眼動數據。該系統將攝像機，紅外光源等重要部件集成到顯示器上，它有著相對較高的精確度和自由移動度，確保了頭部運動補償以及低偏動效果，它采用了雙眼眼動追蹤（即對于每個注視數據項，它同時收集兩只眼睛的數據）。[11]本實驗中，采樣速率設定為50 赫茲（即每秒收集記錄五十次凝視數據），最小注視時長設定為100 毫秒，注視半徑為40 像素（即屬于同一注視的所有連續注視點的有效范圍為半徑為40 像素的圓內）。本研究將眼動數據分成兩組：一組為字幕區即閾值線以下區域，另一組為圖像區即字幕區上部區域，閾值線的默認位置設定在離屏幕（1024×768 顯示分辨率，刷新頻率為85 Hz）頂部624 像素處（字幕區域占屏幕空間的18.7%），閾值線以上的注視被視為對圖像的注視，而閾值線之下的注視被視為對字幕的注視。[12]

基本程序。進入實驗室后，每個受試都被單獨測試。受試會被告知相關實驗過程的總體介紹和具體指導，如被告知他們將會觀看一個英語字幕視頻節目，然后回答關于該節目的一些問題等。受試被安排坐在顯示器前帶上耳機，眼睛距離屏幕大約60 厘米，在進行校準程序后，受試觀看了15 分鐘的字幕視頻片段且不得暫停播放。觀看后，受試被要求按照以下順序填寫三份問卷或試卷：字幕效用調查問卷，要點理解調查問卷和詞匯識別測試卷。在完成最后一份試卷后，他們接受了計算機處理的場景識別測試。完成實驗的總時間大約是40 分鐘。

五、結果與討論

本研究運用SPSS 對學習成績和眼動指標進行綜合分析，P 值采用Green-house Geisser 法校正以得出相關結論。受試表明，他們已經總是或經常使用字幕（M=4.6，SD=0.2，95%置信區間：4.3-4.8），他們表明，在影視理解上字幕對有幫助或幫助很大（M=4.5，SD=0.3，95%置信區間：4.2-4.7）。受試對字幕的視覺呈現的記憶與他們自己的報告大體一致。這些研究結果和眼動結果一起，表明受試閱讀了字幕并依靠字幕理解這部影視。參加者還表明，閱讀字幕容易或很容易（M=4.3，SD=0.4，95%置信區間：4.1-4.6）。受試認為跟上理解字幕視頻的內容相當容易（M=4.6，SD=0.6，95%置信區間：4.1-4.9），他們判斷自己對字幕視頻的理解還是相當不錯的（M=4.7，SD=0.2，95%置信區間：4.4-4.8）。因此，受試報告稱，在字幕閱讀與影視內容跟進與理解上并沒有太大的問題。總體而言，受試對字幕視頻任務的主觀認知是相當容易。在影視主旨理解方面，受試的準確度都很高（正確答案比例為90%）。在字幕詞匯識別方面，對受試來說，詞匯識別測試要比要點理解問卷難度大，識別字幕中實際呈現的詞匯要比回答有關視頻內容的總體性、一般性問題更難，然而，正確答案的比例表明詞匯識別成績相當好（正確答案比例為85%）。在場景識別測試方面，影視場景識別正確率都很高（為87%）。總體而言，在這些不同測量方法下，受試總體理解、詞匯識別能力、場景識別能力各方面成績都很好，字幕閱讀與圖像處理似乎并不具有強關聯性。為了進一步檢驗字幕處理和圖形處理之間是否存在權衡效應，本研究對文本相關的詞匯識別和圖像相關的場景識別二者之間的相關性展開了分析，結果顯示，總體而言，詞匯識別和場景識別整體相關性并不顯著（r = 0.07，ns）。然而，研究發現部分受試的詞匯識別和場景識別之間存在顯著正相關（r = 0.23，P ＜0.05），這與字幕處理和場景處理之間存在權衡效應或負相關也恰恰相反。該正相關關系原因在于具有更強注意能力或執行控制力的學習者個體更能同時地處理字幕信息和場景信息，而且在任務難度允許或對任務有足夠實踐時，這些個體差異就更易被捕捉到。研究還發現要點理解和詞匯識別之間的關系是正相關，整體上剛好超過顯著水平（r =0.21，P=0.06），但研究未發現場景識別和要點理解之間存在顯著相關性（r=0.09，P＞0.05）。

此外，在眼動方面分析對獲得學習者視覺注意方向和加工策略的情況有所幫助，即通過分析學習者的注意力分配比例，研究者可以將眼動數據與其認知過程對應起來。研究發現，與上部圖像區相比，對字幕區的注視（即超過100 毫秒經過充分加工能獲得清晰的像的眼動行為）更多（t=-8.53，P＜0.0001），對字幕區的注視次數實際高達對上部圖像區注視次數的三倍多（字幕：M=168.24，場景：M=51.68）。然而，字幕區的平均注視時間①要顯著短于視覺場景區或圖像區的平均注視時間（字幕區：M=198 毫秒，場景區：M=388 毫秒，t=2.98，P＜0.05）。總體而言，受試高達66%的注視時間花在了字幕區，而僅有剩余部分花在了屏幕上部區域。雖然研究發現受試對字幕的注視次數更多，但其在圖像上的平均注視時間更長。對目標位置注視的定性分析表明，對字幕的注視更短這一現象發生在所有字幕上，而對圖像區注視更長的情況則主要發生在具體的、引人注意的視覺凸顯場景部分。研究還發現，總體而言，注視次數與路徑長度②相關（r=0.78，P＜0.05），但進一步分析發現只有字幕區的注視數量和路徑長度之間的顯著相關性（r=0.90，P＜0.05），而圖像區則并非如此（r=0.28，P＞0.05）。這表明，眼球運動主要集中于字幕閱讀，而在視覺場景分析中的眼球運動只占小部分，即受試對字幕的注視多于對屏幕上部區域的注視。研究也發現，注視數量和視覺轉換次數③之間存在正相關關系（r= 0.58，P＜0.05）。更具體而言，字幕區和圖像區之間的轉換次數與對屏幕上部圖像區的注視數量有關（r= 0.63，P＜0.05），對視覺場景注視數量更多的受試顯然會做出更多的從字幕到圖像信息的視覺轉換。研究表明，對屏幕不同區域的注視次數、平均注視時間、路徑長度、字幕區和圖像區之間的視覺轉移等眼動測量數據和對字幕詞匯識別與場景識別的行為測量二者之間不存在顯著性關聯。研究結果清楚表明，受試字幕視頻認知處理中的一個突出表現就是，即使其對視覺場景的注視時間不到40%，受試在場景識別或定格圖像識別任務中仍然表現優異。與以往的一些研究不同，本研究的詞匯識別測試需要受試在語義相近項之間作出較為細微的區分，而前者的詞匯識別往往是對字幕詞匯相對較為粗略的辨析，盡管如此，本研究識別成績也不錯，這表明，字幕的存在增加語言信息的回憶以及對對語言復雜度的感知，也有助于詞匯差異的識別。受試字幕詞匯識別和場景識別的測試成績均良好表明了字幕識別和場景識別之間并不存在任何權衡效應跡象。眼動實驗數據也表明，字幕與視覺場景之間的存在視覺轉換，也正是這視覺轉換使受試能處理這兩個信息源，因為學習者通常會嘗試處理和整合文本信息和視覺場景信息。與影視場景相比，觀眾的注意力焦點偏向被閱讀的字幕，受試字幕閱讀的總注視次數更多、總注視時間較長反應了學習者對這個區域內容的重視程度、學習材料的難易程度以及對學習材料的興趣程度；但對圖像區的平均注視時間要長于字幕區，反映信息加工過程更為細致、也表明圖像畫面目標更吸引人。這表明受試在看影視時，為了更好理解視頻而讀字幕，但他們并沒有全面探索整個視覺場景，而是僅基于視覺復雜度的感知專注于信息最豐富或視覺凸顯的元素，對場景或圖片的選擇性視覺處理來把握視覺細節，比如注重傳遞了理解互動和交際所需重要信息的臉部情感符號或視覺線索。[13]

需要指出的是，眼動和識別成績方面的個體差異之間不存在顯著關聯，這是由于受試在任務期間相當一致的眼動行為造成的，即絕大多數人在字幕上注視次數較多、總注視時間較長，而在視覺場景上則注視次數較少、平均注視時間較長。總之，受試采用了高效性、選擇性注意分配策略或過濾機制，會根據他們所觀看字幕節目的類型來調整他們的處理策略，從而使他們對所呈現的信息有很好的理解和識別。本研究結果突出了個體加工、整合和記憶多源信息的能力，學習者個體在處理多源信息時通常不會遇到很大的困難，字幕節目通常較易于學習理解，字幕閱讀是一種學習者熟練掌握的高效的半自動化技能，視覺注意力自動捕捉文本導致視覺運動的效率增加，字幕的處理具有高度的視覺效率，字幕的存在不會增加觀看者的視覺負擔，不會對其他圖像信息處理的效果產生記憶障礙、干擾、限制或其他不利影響，學習者能在視頻畫面和字幕文本之間、視覺通道與聽覺通道之間進行有效協調，避免注意力認知資源消極競爭與工作記憶負荷超載，從而確保了學習效果。

六、結語

本研究采用了綜合性方法，涵蓋了眼動（注意分配的衡量指標）、要旨理解、字幕所含具體詞匯的識別（字幕處理的成效指標）以及影視場景的識別（視覺場景處理的成效指標）等手段，兼顧眼動實驗法追蹤學習過程和傳統認知法測驗學習結果，較為完整準確地評估了場景處理和字幕處理之間的潛在的權衡效應，分析字幕視頻加工的效用。這種方法使我們對字幕視頻的認知加工過程有了更深刻、全面的理解，研究結果強調了字幕視頻加工處理并不費力且能取得良好成績，在有字幕的情況下，受試對影視內容都有一個很好的理解，其詞匯識別和場景識別成績水平很高，不會導致圖像處理和文本處理之間的權衡效應。眼動分析進一步探討了字幕視頻觀看過程中的認知加工，成績測量和眼動分析的結合為字幕視頻的認知加工特征提供新的實證，即字幕材料加工具有認知效用不存在任何權衡效應，學習者完全根據具體任務要求來調整加工策略加以適應整合。

注釋：

①平均注視時間即興趣區內所有注視點持續時間的平均值。

②路徑長度被定義為字幕呈現期間連接注視點的切分部分總長度之和（以像素為單位）。

③視覺轉移數量則指字幕呈現期間屏幕兩個不同目標區域（字幕區和圖像區）之間的注視轉換的次數。當兩個連續的注視出現在屏幕不同區域時（例如，閾值線以上和以下，反之亦然），視覺轉移就被界定。