中國手語信息處理述評

2015-04-21 10:42:17姚登峰江銘虎阿布都克力木阿布力孜李晗靜哈里旦木阿布都克里木夏娣娜

中文信息學報 2015年5期

姚登峰，江銘虎，阿布都克力木·阿布力孜，李晗靜，哈里旦木·阿布都克里木，夏娣娜

(1. 清華大學人文學院計算語言學實驗室，北京 100084；2. 清華大學心理學與認知科學研究中心，北京 100084；3. 北京市信息服務工程重點實驗室(北京聯合大學)，北京 100101；4. 清華大學計算機科學與技術系智能技術與系統國家重點實驗室，北京 100084；5. 工業和信息化部電子工業標準化研究院，北京 100007)

中國手語信息處理述評

姚登峰1,2,3，江銘虎1,2，阿布都克力木·阿布力孜1,2，李晗靜3，哈里旦木·阿布都克里木4，夏娣娜5

為了能夠有效地對中國手語進行信息處理，需要針對中國手語的特性提出相應的信息處理方案。該文根據國內外的研究進展情況，從基于規則和基于語料庫的角度，討論了中國手語信息處理過程中遇到的有關問題，并提出可借鑒的中國手語信息處理技術，同時從中國手語自身的詞法、句法出發，參考國外手語語言學的最新研究成果，討論了中國手語信息處理中有關信息表征、理解、生成等問題。最后指出未來手語的信息處理將會更多地建立在跨學科、多模式的基礎之上，該項研究將有力地促進信息無障礙技術的發展。

中國手語；信息處理；書寫系統

1 引言

1996年12月《吉隆坡宣言》指出手語不僅是聾人之間必不可少的交流工具，還是絕大多數聾人的第一語言。根據第六次全國人口普查及第二次全國殘疾人抽樣調查，推算出2010年末我國聽力殘疾人數為2 054萬人[1]，是我國人口最多的“少數民族”。中國手語(分為自然手語和文法手語，若無特殊說明，以下均指自然手語)是中國聽力言語殘疾人(聾人)交際和思維的主要工具。在聾人的知識習得、事物認知、信息獲取、生存生活和參與社會等方面起著相依相伴的重要作用。國內外手語語言學研究表明手語有自己的語法規則、詞匯結構，其視覺特性是任何有聲語言中沒有的語言現象[2-3]。手語還存在相當于有聲語言或文字符號的語音結構層，由手形、動作和表情等組成，并由這一結構層和其它非手勢手語(No-Manual Sign，NMS)等多通道來表情傳意。有聲語言通常通過附加語素或添加詞項來延長句子以表達更多的信息，但手語往往利用其多通道表達更豐富的信息。例如，手勢者修改手語行為、做出夸張的面部表情，或利用手勢者周圍的空間均可改變其手語含義。

中國手語研究起步相對較晚，但在國際語言學快速發展的背景下，近幾年也如雨后春筍般迅速發展起來。中國手語已存在于世，盡管對其是否為獨立的語言尚未完全達成共識，但這并不影響學術界對如此龐大族群語言——中國手語的研究和探索。如何將這門特殊的視覺語言進行有效的信息處理是個挑戰，也是擺在我國科技工作者面前的一項重要任務，尤其是在國家大力推行少數民族語言保護政策和推行信息無障礙的社會背景下，這項工作顯得更有意義。為此，中國科學院、清華大學和復旦大學等科研機構開展了中國手語的信息處理研究，并取得了一定的進展。其中中國科學院計算技術研究所在20世紀90年代就開發了中國手語合成系統和識別系統，目前還與微軟亞洲研究院、北京聯合大學合作基于微軟體感裝置Kinect開發中國手語識別系統。清華大學則進行了中國手語的計算機信息處理研究，開展了語用標注、手語文本分詞系統等研發工作。

中國手語信息處理是一項系統的工程。本文就中國手語信息處理的有關問題提出幾點思考，并按照圖1所示的手語信息處理的幾個基本步驟來組織內容，其中手勢識別屬于計算機視覺內容，僅在第五節進行必要的介紹；第二節詳細介紹中國手語的信息表示及手勢切分問題；第三節介紹了為實現手語的信息處理而建設的手語語料庫；第四節描述了為實現計算機處理手語而特別設計的手語語料標注；第五節在簡述語料庫建設的基礎上，介紹了手語信息處理；第六節介紹了手語機器翻譯碰到的問題以及初步解決方案；第七節介紹了手語生成器的情況；最后是全文的總結與展望。

圖1 手語信息處理流程圖

2 中國手語的信息表示及手勢切分問題

任何語言能夠被計算機處理的前提是該語言擁有書寫系統，并能夠機讀化。盡管國外學者認為手語存在書寫系統，例如，SignWriting系統[4]、ASL-phabet[5]、Stokoe符號集[6]、HamNoSys[7]。然而這些書寫系統的受眾太少。從SignWriting群發(sw-l@majordomo.valenciacc.edu)的報告上看，世界上大概有14所學校正在使用。Diane Brentari解釋說受眾少是因為人口、政治和技術等因素[8]。其實問題的本質在于借鑒有聲語言的單信道來處理手語的多信道存在很大的困難。有聲語言擁有書寫系統，它通過聲音作為載體輸出，這種音頻是基于時間軸的數據流，語音信道是隨著時間的推移而改變的一組值[9]。有聲語言的自然語言處理系統是基于文本的，只需要記錄語音對應的書面文字這個唯一的信道，因此只要求用戶具有良好的識字能力。而手語本質是多信道：手的位置、形狀、手的方向、眼睛凝視、頭傾斜、肩部傾斜、身體姿勢和面部表情，在手語中所有這些信道信息都代表著語言含義。中國手語的多信道性質，使得將手語編碼成線性單信道字符串尤為困難。

從目前所報道的文獻來看，中國手語尚未有一個能被聾人群體接受的標準書寫系統，因此并沒有任何文字保存。限于目前的技術條件，尚不能直接對手語視頻進行語言處理，只能將中國手語轉寫成近似的漢語書面語言，再進行計算機信息處理。需要指出的是這里的轉寫不同于語音記錄。文獻[10]指出語音記錄(notation)和轉寫(transcription)很相近，但亦有不同。語音記錄傾向于指用圖形符號、字母、文字等書寫體系來記錄言語中詞語的發音，比如用國際音標IPA為有聲語言標音，或者手語中用漢堡轉寫系統HamNoSys(Hamburg Notation System for signed languages)記錄手語詞的打法。轉寫則是對更長的面對面的交流或口頭表達等的圖形符號或文字記錄等，它需要用到專門的標音體系(語音轉寫或音位轉寫)，或文字體系(實錄轉寫)。例1、例2、例3顯示了漢語、中國手語語音記錄、中國手語轉寫的例子。

例1 漢語：給你介紹一下，我在崇文區殘聯(工作)，他在北京大學教書。

例2 中國手語語音記錄：介/我你，我/CW區/殘聯，他/北京大學/教。

例3 中國手語轉寫：(微笑)[“介”(自身→對方)話題,指(自身)/CW(崇文)—“區”/殘—聯，指(第三方)/北—京—大學/教]

從例2可以看出，語音記錄的文本或句子為一維語言，更適合進行計算機處理。但中國手語直譯后的漢語文本或句子“瘦”得只剩”骨架”，沒有”血肉”，其內容要損失大概50%[11]。甚至比不上例3的轉寫句子。由此可看出將中國手語編碼成線性單信道字符串的復雜性和難度。這些書寫系統在對實際手語動作抽象時會省略一些細節，并且在開發書寫系統時哪些細節可以省略，哪些細節則不可忽略，這是一個極具挑戰性且容易出錯的課題。正因為手語本身特有的復雜性和空間性，使得手語信息處理具有挑戰性，為其改進或發明書寫系統或者轉寫方案，這是進行中國手語計算機信息處理不可跳過的第一步。

當然也可以使用國外開發的書寫系統對中國手語轉寫。如國外較流行的有HamNoSys[7]、Sign Writing[4]等轉寫系統。這些轉寫方案已被國外的若干手語語料庫使用。文獻[12]以“bears”這個詞為例比較了Stokoe系統、HamNoSys、SignWriting三個轉寫系統，比較結果發現HamNoSys的線性結構有利于計算機的讀取與識別。文獻[13]為了將手語手勢嵌入手機來幫助殘疾人，對Stokoe、HamNoSys、Sign writing三個符號轉寫系統進行了比較，結果發現 Sign writing比Stokoe符號系統、HamNoSys符號轉寫系統更易理解，更適合嵌入手機。文獻[14]比較了Sign writing和HamNoSys符號轉寫系統，發現Sign writing的圖形組織不夠正規，HamNoSys符號轉寫系統更易機器讀取。文獻[15]綜述了用于機器翻譯南非手語的手語符號表示法，比較了Stokoe、HamNoSys、Sign writing三個符號轉寫系統，Stokoe、HamNoSys被認為在技術格式上不切實際，Sign writing則更易閱讀。根據以上比較研究可以得出，Stokoe、HamNoSys不易理解，但易于計算機閱讀；Sign writing易理解，但不易計算機閱讀，且在Stokoe、HamNoSys兩者中，HamNoSys被廣泛用于手語機器翻譯和手語三維模型生成。

由于種種原因，Stokoe、HamNoSys、Sign writing等系統尚未傳入我國。目前國內主要采用文獻[16]中的中國手語轉寫方案，例3就顯示了該方案的轉寫例子，可以看出該方案涉及詞性、構詞法、方向性、句型以及非手控等方面的信息，易于人們閱讀理解,但該方案主要用于語言學研究，未考慮計算機信息處理所需的基本技術，例如，切分、標注、句法、語法分析等，這些技術的缺失將限制生成流暢手語動作的能力。最大的缺憾是該方案雖有方向信息，但缺少手形、手掌方向、運動方向等手控方面的信息，且因中文的歧義性，為手語轉寫體系的機器閱讀與理解造成很大困難。

若采用漢語作為中國手語的轉寫語言，與國外手語信息處理的特殊之處在于需要解決轉寫文本自動分詞和消歧的問題。當然目前的漢語分詞技術較成熟，使之應用于手語信息處理已經不是難題，它為下一步手語的信息處理創造了條件。需要注意的是中國手語轉寫文本分詞除了可以借鑒國內外分詞技術及算法研究的優勢，還需要從自身的詞法、句法等出發，提出與之相應的手語分詞方案，特別是要處理好漢語最小語言單位“字”和手語最小語言單位“手勢”的關系。通常一個漢語復合詞有可能由兩個手勢構成，例如，“妻子”，在漢語分詞里是一個詞的單位，但在手語里卻是合成詞，因為手語對“妻子”的表示是 “結婚”+“女人”，或者 “女人”+“結婚”，這樣本來在漢語里是一個語素的“妻子”，在手語里卻是由兩個語素構成的合成詞。這種情況在中國手語里大量存在，經常是漢語里一個名詞為一個語素，在手語里卻變成了兩個語素甚至三四個語素。與以上情況相反，漢語的兩個語素，在中國手語里是一個語素的也大量存在。最典型的是動賓一體，所謂動賓一體其實是比照漢語語法來說的。例如，漢語中，踢足球是兩個詞素，分別為動詞“踢”和賓語“足球”，但手語僅一個手勢就可以表達“踢足球”。這是手語作為視覺語言的特性所決定的，相對漢語的語法特點，手語語法相對簡化，而不能按漢語語法規則來分析手語。

3 手語語料庫的建設

對手語進行識別、理解、生成等信息處理問題，國內外無外乎采用基于規則或基于語料庫統計的方法來進行處理。文獻[17]考察了漢語和中國手語之間的同異，建立了漢語中國手語機器翻譯的一系列規則，在此基礎之上采用規則解釋方法實現了一個漢語至可視化語言中國手語的翻譯系統。由于真實語言的輸入集是無限的，這種通過有限規則，特別是少量規則的建模方法，很難滿足手語語言處理的全部需要。以翻譯手語的典型語言現象——分類詞謂語為例，最簡單的方法是在傳統的英語詞典里存儲語義特征，例如，+人+車輛+動物+平面表面。針對每個單詞或詞組在英語詞典里存儲一組3D坐標，將英語詞典中特定動詞或介詞與其他特征，如運動路徑、固定位置、相對位置、形狀、輪廓等相關聯，可以幫助識別謂詞要表達什么樣的信息，從而進一步縮小謂詞可能的分類詞手形集合，產生謂詞的3D運動[18]。由于3D場景部署有許多可能性，這種方法在組合上是不切實際的，例如，考慮汽車可以行走所有不同形狀和坡度的道路。其他用得最多的是采用基于啟發式規則的方法來計算運動路徑，例如，基于英文源文本的一些有限的特征集或者語義元素集合來設計運動路徑。這種方法需要將基本的特征集組合以便產生一個單一的分類詞謂語運動的動畫組件庫，將這些組件與相應的英語特征或語義元素相關聯，這樣就可以選擇適當的動畫組件并在轉換時可以組合產生3D運動。這些基于規則的方法有個前提條件，需要手勢者事先決定用哪些空間信息來交流，并決定如何表示其排序，這樣才能描述如何建立一個獨立的分類詞謂語。并且只能生成單一的分類詞謂語。對于生成多個相關分類詞謂語還很困難，更重要的是這些基于規則的方法都缺乏規劃整個場景元素的能力[19]。

因此目前在手語信息處理領域，基于語料庫的統計方法成為主流。從以上可看到，盡管手語沒有書寫系統，這并不妨礙各國開展本國手語語料庫的建設，國外已開始建設手語視頻語料庫[20-24]。由于手語是沒有書寫系統的語言，國外普遍將手語視頻作為手語語料來進行處理，再用本國語言給手語進行轉寫。如德國手語語料庫用德語轉寫，美國手語語料庫用英語轉寫。雖然本國語言不是手語的專門書寫系統，可能會遺漏很多語言學細節，但聊勝于無，這些語料庫從零開始，為手語信息處理創造了條件。從各國目前建設的語料庫用途來看，主要用于語言學研究，例如，研究手勢變異、語義、形態、音韻、語法等，同時也有將語料庫用于手語詞典、手語教學、手語翻譯以及特定領域手語應用等方面(表1)。

表1 各國手語語料庫研究情況

續表

相對于國外手語語料庫的研究，國內的研究較少且單一，一般集中在專用手語語料庫的研究，多用來支持手語的一般性的詞法、句法、語義現象的描寫、解釋和特定領域下針對特定目的手語研究。如中國科學院計算技術研究所、北京聯合大學與微軟亞洲研究院合作的基于kinect的手語識別和翻譯系統項目中涉及的226句常用語及2 400個有關不同場所、場合的常用語；黃曉曉建立的基于情景的手語語料庫[25]，它包含個人在家庭學校等場合的日常交流。

4 手語語料庫標注

為了使手語語料庫適用于手語信息處理，標注是必不可少的工作，為此一般語料庫建設學者都制定了一致的轉寫和標注方案。其中手勢的識別釋義(ID-glosses, unique identifier of sign types)是語料庫建設中最為基礎和重要的標注內容。它是用一個含對應意義的標注工作語言的詞(例如，漢語、英語)，去表達手勢。識別釋義包括該詞的詞典形式和所有形態和音位變體。統一了標注者的識別釋義，方可避免同一手語詞被不同標注者貼上不同的標簽，進而促進機器和用戶準確而無遺漏地搜索到此手勢的所有例(token)[10]。

為了使標注后的文本適用于信息處理，文獻[2]提出了裝飾字符串(decorated string)的標注概念，如圖2所示，這是使用“裝飾字符串”標注書寫一個句子。在這個句子中手勢者用雙手打出三個手勢：JOHN，NOT，ARRIVE。該圖中，否定-搖頭的橫線條表示以否定的方式來搖頭。圖中“眼睛凝視”橫線條下面，手勢者需要凝視他或她身體旁邊的位置，用這個位置代表John。一般在美國手語中，手勢者可以使用眼睛凝視來表示曲折動詞的呼應對象。圖中的注釋(指單詞)是語言學家用來記錄手勢者手部活動的。其中黑色橫線條并不是代表手語的信息，而是非手動特征(NMS)，黑色橫線條看上去像“裝飾”字符串。這個標注系統用“空符號”(?)作為一個語言學單位的占位符，它表示手勢者的手部不做任何動作。在該例中，?表示手勢ARRIVE開始之前眼睛凝視了一會兒。

圖2 “裝飾字符串”標注

這種標注的好處就是方便計算機進行信息處理，由此生成的語法樹如圖3所示。

這個樹解釋了手動手勢的語法結構，但它沒有說明NMS橫線條如何跟它相關聯。由于樹是用來表示文本字符串嵌套結構的圖形化方式，因此可以考慮樹如何表示為圖4的括弧結構(一維)。

這樣我們可以看到NMS橫線條就超出括弧結構的表示范圍。因此括弧結構無法清楚地表示NMS橫線條。雖然如此，但裝飾字符串的提出在手語語言學上是一大進步。

文獻[26]總結了以往樹結構的理論工作，例如樹結構可分成多維度[27]，以及能夠表示視覺語言的語法[28-29]。采用Na?VE3D樹作為基礎，他們提出了P/C思想，將裝飾字符串概念做了擴展，如圖5所示，亦可看做三個信道。

圖3 語法樹

圖5 裝飾字符串擴展

圖4 括弧結構

進行計算機處理時，仍使用3D樹進行語法處理，如圖6所示。

圖6 3D語法樹

從上方看，3D樹看起來如圖5的二維括弧結構。水平軸代表時間，垂直軸代表多個信道。整個句子包含在一個單一矩形里，該矩形對應于樹中的S節點。從左到右它跨越了整個句子，從上到下它指定了所有信道的句子輸出。對于John框右側，是一個包含了其余句子的大矩形；它是NegP 節點。當覆蓋多個信道的節點被分為幾個子節點時，每個子節點可以覆蓋父節點所覆蓋信道的子集。例如,NegP節點將其AgrsP子節點分配給兩個頂信道，其否定搖頭子節點分配給底信道。這種P/C思想旨在解決手語多信道的并列與非并列關系，具體表現為，每個矩形每次只在一個方向上分割，此外以非重疊的方式覆蓋所有時間(從左到右)內父節點所有信道(從上到下)的矩形子節點。由于括弧圖中的矩形是類似于3D樹結構中的節點，將“矩形”術語替換成“節點”。當一個節點分支從左到右，稱之為組合節點，我們說它已經被分成組件。對于組合成父節點的子現象，組件從左到右的順序應被解釋為指定了時間序列。子節點以非重疊的方式覆蓋了其父節點的整個時間范圍。組合節點就像傳統語法樹的節點(圖5)，其中節點分成連續的子節點。

但是這種思想的缺點就在于需要事先假定在 P/C 樹內部結構中一個節點可以分割或組合(但不是同時兩者兼具)。此外分割節點的子節點被假定為他們之間沒有時間并列關系。這就限制了其擴展范圍。相比有聲語言的類似字符串編碼，P/C思想能夠更好地為手語語言學信號進行編碼。這無疑可作為中國手語信息處理的借鑒。

5 基于語料庫的手語信息處理

從1982年Shantz和Poizner合成的美國手語計算機程序開始，各國在手語信息處理領域上取得了突出的成果，主要用于手語識別和手語生成，文獻[30]給出較全面綜述，使用方法有神經網絡、HMM、向量機、機器學習等。需要指出的是，目前的手語識別研究已經從靜態手勢識別過渡到動態手勢識別，從使用可穿戴設備提取特征過渡到基于計算機視覺提取特征。采用自然的不佩帶任何裝置或物品的手語輸入方式,獲得準確快速的識別結果,是目前該領域的研究核心與發展方向。如Vogler和Metaxas利用手語的基本單元而不是手語詞匯進行連續手語識別,對22個詞構成的句子實驗結果表明,這種方法的識別率和傳統方法的識別率相近[31-33]。文獻[34]在不關聯空間域和時間域特征的情況下,完全依賴于密集的局部特征,采用特征包和多類支持向量機識別手勢。文獻[35]采用PCA方法提取手勢圖像前M個特征值的特征向量，用最小歐式距離實現手勢分類,由于PCA對尺度、旋轉、光照變化等不具備魯棒性,所以該方法需收集各種情況下的手勢訓練樣本。

國內的手語識別和生成研究較早，文獻[36]表明我國已建立了一個能夠識別大詞匯量的中國手語識別系統，該系統對1 064個中國手語孤立詞的識別率達到90%。通過嵌入式訓練，對由220個詞構成的80個句子的手語識別率達到95.2%，同時一個中國手語自動翻譯系統也由該研究者設計建成，對5 177個中國手語孤立詞進行離線識別，識別率為94.8%。文獻[37]通過魯棒回歸分析和變階參數模型對小規模的動態手勢進行識別，將手勢圖像運動參數應用于手語表觀建模，并提出了一種手勢運動估計方法，然后將這兩種特征作為表觀特征創建手勢模板，通過最大最小優化算法進行基于模板的手勢分類識別,該方法在手勢圖像運動信息的基礎上對12種手勢進行識別，準確率超過了 90%。由此可看出我國在基于數據手勢的手語識別研究方面已處于世界領先地位，但在基于視覺的手語信息處理領域，尤其是動態手語識別方面與其他發達國家還有一定差距。

然而以上模型都沒有提出手語理解算法來解決手語語言處理問題。造成這種情況的原因除了識別率不太理想，還在于視頻語料采集繁瑣，人工標注困難，以致用于手語信息處理的手語語料庫普遍未達到一定的規模。圖7顯示了各國手語語料庫的規模對比，由此可以看出規模都在50小時左右，而流暢手語是每秒2-3個手勢，因此生語料庫的規模大概在36-54萬個手勢。國外學者指出一般手語視頻語料的RTF因子為100，也就是一個小時的語料至少需要100個小時做標注[38]。照此推算，按一天標注八小時算，50小時左右的視頻語料需要21個月左右才能完成標注，如此龐大的標注工作量使得手語熟語料獲取困難。此外還有一個原因在于手語語料庫沒有根據手語特點建立相應的模型，例如，一些語言學家做了一個手勢的多種打法動作捕捉數據語料庫[39]，他們記錄了手勢輸出的手形、手的位置、方向、運動和非手動元素的時移參數。但這些模型并沒有說明許多手語語言學現象如何表示。例如，表示分類詞謂語出現的手形數量并不多，但這些模型卻記錄手形的信息特別多，而對表現分類詞謂語特征的手部方向的信息記錄太少，以至使指定復雜運動路徑更為困難，而這些復雜路徑是表示分類詞謂語所必需的。

有聲語言能夠成功使用統計模型，是因為網絡時代信息的數字化和網絡化為統計模型帶來了取之不盡、用之不竭的數據資源。手語語料因為視頻采集繁瑣和標注困難，缺乏相應的應用規范和模型，使得手語的生語料和熟語料數據依然匱乏，手語應用統計模型仍然面臨嚴重的數據稀疏問題，此外單純的概率模型也不能全部解決手語語言處理的自動化問題。因此目前力圖用傳統的統計模型和機器學習方法來研究手語機器翻譯還很困難，至少在沒有可靠的方法來為語料庫建立一個手勢者的3D模型，或在大規模視頻語料自動標注技術尚未出現之前是不切實際的。

圖7 各國手語語料庫的規模對比

6 手語的機器翻譯

手語的機器翻譯并不是簡單地將漢語一個詞對應一個手勢翻譯出來。與主流有聲語言不同，手語具有視覺空間的立體性特征。這種特殊性對于傳統的計算語言學方法是一個極大的挑戰。文獻[40]認為進行手語機器翻譯時需要模擬真人手語譯員事先在心里形成3D空間影像，然后將空間的對象位置映射到物理手勢空間，以表達手語的概念。具體來講，像“貓在床下跑”的例子，首先選擇一個基于“貓”實體特征(小型動物、四條腿對象、跑動過程中等特征)的手形閉集(即分類詞手形，此手形與其手部在手勢者前面空間進行的運動一起組成分類詞謂語)，以及手勢者希望討論的實體空間特征，其表面(貓在平坦的地面上)、床下空間的大小、形狀、位置(貓在床下任意位置)、運動(跑動、非靜止)等。然后手勢者針對需要表達床下空間的輪廓、手勢者周圍空間的位置(在伸展兩只手的范圍內選擇哪個空間位置來代表施動者貓和被動者床)、3D空間的運動(在床下有限空間內表示跑動)、物理/抽象的維度(床需要表示多大、跑動幅度需要多大？)或某些其他需要被傳遞的對象屬性，例如，床是不是席夢思、貓是不是每天都在床下跑、貓是否還有同伴陪它跑等因素，而相應地制定手部立體運動。此外還要根據漢語“貓在床下跑”的上下文環境提取語用特征，例如，想表達貓捉老鼠很勤快，還要配合眉毛和眼睛的動作(眉開眼笑)、臉部表情(表達夸張的情緒)，必要時還要頭部動作(頭部稍微向前傾)、身體姿態(抬起肩膀、身體上部左右搖晃等)及其他方式來表達“貓在床下跑”的含義。

從以上過程可以看出手語機器翻譯困難在于手語表達的每一塊空間信息都必須被編碼為一個語素，通常需要許多語素傳達各種各樣的空間信息來表示手語，特別是在用于組合空間信息來描述場景中對象之間的空間關系或比較的情況下。文獻[41]做了一個統計分析，例如，分析手語句子“一個人走向另一個人”的語素時，總共有28個語素，包括：兩個面對面的實體、都在同一水平面上、都在垂直方向、自由運動、都有一個特定的距離、在直線路徑運動等等。作者認為生成各種手語，此多語素模型需要一個巨大的、甚至可能是無限數量的詞素集合。

此外手語機器翻譯的另一個困難在于復雜的空間相互作用和3D場景限制很難編碼成一組組成規則[42]。例如，“汽車行駛在顛簸的道路上，經過一只貓。”該句有兩個分類詞謂語。為了生成這些謂詞，手勢者必須知道如何部署場景，包括貓、道路、汽車的位置。要為汽車選擇運動路徑，有開始/結束位置，手部必須流暢地表示路徑輪廓，例如，顛簸、丘陵起伏、曲折的。靠近貓的道路、地面平面、曲線道路也必須表達出來。此外生活常識包括一些世界知識也必須要了解：(1)貓一般坐在平面地上；(2)車一般沿著地面道路上行駛。可以看出要想成功完成這兩個分類詞謂語機器翻譯涉及大量的語義理解、空間知識和推理。由以上分析可以看出分類詞謂語機器翻譯的復雜性。曾有學者評論手語的分類詞謂語是超語言的空間手語、非空間多語素結構或構成空間參數化表達式[41]。

而傳統計算語言學方法的缺陷就在于不能模擬手語三維場景中的對象空間布局，為了解決這些問題，國外研發的手語機器翻譯系統在此方面做了有益的嘗試。文獻[43]提出(并建立了原型)的英語到美國手語(ASL)的翻譯系統ZARDOZ系統，使用一組手工編碼架構作為一種中間語言翻譯組件。作者選擇將分類詞詞根表示成高度未指定的詞匯條目，詞條的動作將取決于生成語法，因此，他們可以像對待任何其他單一的詞條一樣對待分類詞詞根。他還對常見的分類謂詞的手形和運動類型進行了分類。因此他研發的ZARDOZ系統初步解決了分類詞謂語的問題。在該系統中，分類詞謂語表達的特定主題可以由獨特的中間語言框架來表示，該中間語言框架由翻譯體系結構的分析/理解部件進行選擇和填充。他還討論了空間和常識推理方法如何用來填充生成流暢的分類詞謂語手形和運動所需要的動畫具體細節。

不過限于目前的AI推理的發展水平和空間表示技術，開發這樣的系統顯然并不現實，因為它需要相關領域知識，并且是個很耗時的工作。不過它對于中國手語機器翻譯可以提供借鑒，因為手語中分類詞謂語不是獨立詞匯，無需遵循手語詞匯音系學中對稱和統領的條件[44]，它由擁有各自語法功能和意義的詞素共同組成，如手形、移動、手勢者的身體表情等。由于手語分類詞謂語有極其復雜的內部結構，而且沒有漢語詞匯與之一一對應。若要研發中國手語機器翻譯系統，這種分類詞謂語現象則是必須研究解決的問題之一。事實上，雖然ZARDOZ的方法沒有實用化，但很多系統都參考了這些方法[45]。這個例子提示我們，在對手語進行機器翻譯時，要對手語特有語法現象有足夠的認識和了解，起碼要熟悉手語音韻學、語義學、句法學和形態學等獨有的規律和特征。

7 手語生成器

與其他傳統機器翻譯系統不同，手語機器翻譯還需要一個手語生成系統，以負責生成手語動畫。大量的研究表明，聾人雖大多學過本國書面語言，但因聽力障礙，他們先天口語習得存在著困難，由此導致大多數聾人高中畢業生的閱讀水平相比健聽人滯后三到四年[46]。在此情況下，一個好的中國手語機器翻譯系統最好附帶手語生成系統，這樣才能真正達到信息、服務并具的無障礙。目前手語動畫生成技術才開始出現在適用于聾人用戶的軟件和網站上。

虛擬人體建模和動畫研究已比較成熟，現有技術已足夠開發能夠清楚表達和快速響應手語動畫的人物模型[47]。當然僅有動畫人物模型是不夠的，還需要一個中國手語生成器。即給定一個漢語文本或抽象的語義輸入，計算語言學部件需要告訴動畫人物該怎么做(假定語言學和動畫組件之間的接口已設定了正確的指令集)。這樣就需要一個動畫腳本，專門負責告訴動畫人物如何做。因為中國手語是一個沒有標準書寫系統的語言，制定動畫腳本規范也就沒有統一的格式。以美國手語(ASL)為例，有很多機器翻譯系統專門為ASL動畫腳本規定了格式，每個系統開發的腳本語言也不一樣。TEAM 系統使用了嵌入式參數的注釋表示ASL句子[24]，這樣就影響了非手勢手語和音韻平滑的質量。TEAM系統使用一個非常小的示范詞典，并且手勢的動畫動作作為參數化運動路徑的模板，該模板與Jack Toolkit 和Jack Visualizer 兼容[48]。而ViSiCAST系統中的詞典存儲了關于手語的語音信息，不僅包括語音的SGML規范，還包括特殊的次范疇、句法和形態特征等。這種存儲用到了手語手勢標記語言[49]，此標記系統本來是用于手語書寫/轉錄系統，它著重于如何指定手形、手掌方向和運動細節，以表達手語語義。該系統處理的ASL動畫腳本使用了手勢標記語言以及 HamNoSys手語書寫系統的XML版本。比較先前兩個系統使用的運動控制語言，SGML適用于較重要的運動類型。因此，定義ASL的過程使用標記應該更直觀。若要演示動畫，ViSiCAST系統設計師使用能接受SGML輸入的動畫角色，并產生動畫。

雖然腳本技術不一，但機器翻譯系統需要動態修改腳本，以便輸出手語動畫。這些系統必須針對手語句子生成一個手勢和面部表情序列，然后他們要將得到的序列合成一個實際動畫。目前國外主要用數據驅動的方式來生成手語動畫，并且在已有的手語視頻語料庫基礎上，使用統計模型和機器學習方法來研究手語動畫的生成。

8 總結

以上研究表明，很多學者在手語機器翻譯和計算手語學方面做了大量工作。例如，新的手語表示模型、擴展的手語注釋文法、 Movement-Hold語音模型、話語表示如何管理手語對話空間定位的實體、分類詞謂語的空間復雜性和三維表示，這些研究工作為手語信息處理創造了條件。

目前我國手語信息處理仍處于起步階段，近幾年才開始利用語料庫資源進行手語機器翻譯的研究。中國手語的計算機處理雖然起步時間不長，但可站在較高的起點，可借鑒國內外的研究成果，少走彎路，同時結合中國手語自身的詞法、句法等特點，走出自己的新路。例如，可以嘗試應用大腦的認知理論、手語語言理解、腦成像等技術來研究手語的信息處理，特別是最近出現的深度學習理論，有望解決手勢的表征模型問題。

總之中國手語信息處理研究有著廣闊的前景，雖然存在很多具有挑戰性的難點和問題，我們可期待漢語語言學、手語語言學、神經科學、計算機科學和心理認知學等學科的學者進入該領域探討跨學科的研究，以便取得更大的進展，以期為無障礙交流環境提供軟件和硬件的支持，也為擴展計算語言學起到拋磚引玉的作用。我們相信未來的手語語言學研究發展趨勢必將形成文、理、工、醫交叉、多學科整合模式，獲得不同視角、多領域的跨學科研究成果。

[1] 中國殘疾人聯合會. 2010年末全國殘疾人總數及各類、不同殘疾等級人數 [OL]. 2011. http://www.cd-pf.org.cn/sytj/content/2012-06/26/content_30399867.htm

[2] Kegl J, MacLaughlin D, Bahan B, et al. The syntax of American Sign Language: Functional categories and hierarchical structure[M]. Cambridge, MA: MIT Press, 2000.

[3] Vally C, Lucas C. Linguistics of American sign language[M]. 3rd edition, Washington, DC: Gallaudet University Press, 2002.

[4] Sign Writing. Sign Writing[OL]. 2011. http://www.signwriting.org/

[5] Supalla S, Cripps J H, McKee C. Revealing Sound in the Signed Medium Through an Alphabetic System[C]//Proceedings of the Poster presented at the First SignTyp Conference, Storrs, CT. 2008.

[6] Stokoe William C， Dorothy C Casterline, Carl G Croneberg. A dictionary of American Sign Language on linguistic principles[M]. Silver Spring， MD: Linstok，1965.

[7] Prillwitz S, Hamburg Zentrum für Deutsche Geb?rdensprache, Kommunikation Geh?rloser. HamNoSys: version 2.0; Hamburg Notation System for Sign Languages; an introductory guide[M]. Signum-Verlag, 1989.

[8] Johnston T A. W (h) ither the deaf community? Population, genetics, and the future of Australian sign language[J]. American annals of the deaf, 2004, 148(5): 358-375.

[9] Huenerfauth M. American sign language generation: multimodal NLG with multiple linguistic channels[C]//Proceedings of the ACL Student Research Workshop. Association for Computational Linguistics, 2005: 37-42.

[10] Johnston T. From archive to corpus: transcription and annotation in the creation of signed language corpora[J]. International Journal of Corpus Linguistics, 2010, 15(1): 106-131.

[11] 吳鈴. 手語語法和漢語語法的比較研究——尋找聾人失落的書面語[J]. 中國特殊教育, 2006, 8: 010.

[12] Morteza Zahedi, Hermann Ney, Gerhard Rigoll, Robust Appearance-based Sign Language Recognition[D]. Rheinisch-Westf?lischen Technischen Hochschule Aachen 21.09.2007.

[13] Adhinarayanan VenkataSubramaniam1, Karthikeswaran Duraisamy, Dinakar Subramaniam and Marikkani Chelladurai Embedding Sign Representation in Mobile Phones to Assist Disabled[J]. Computer Technology and Application 2011,(2): 42-47.

[14] Michael Filhol, Annelies Braffort,Sign description : how geometry and graphing serve linguistic issues[C]//Proceedings of the LIMSICNRS, Orsay.G762

[15] Jessica Hutchinson. Literature Review: Analysis of Sign Language Notations for Parsing in Machine Translation of SASL[D]. Rhodes University, South Africa, 2012.

[16] 倪蘭. 中國手語動詞方向性研究[D]. 復旦大學博士學位論文, 2007.

[17] 徐琳, 高文. 面向機器翻譯的中國手語的理解與合成[J]. 計算機學報, 2000, (1):60-65.

[18] Supalla T R. Structure and Acquisition of Verbs of Motion and Location in American Sign Language[D]. Ph.D. Dissertation, University of California, San Diego, 1982.

[19] Liddell S K. Grammar, gesture, and meaning in American Sign Language[M]. Cambridge University Press, 2003.

[20] Bauer B, Hienz H. Relevant features for video-based continuous sign language recognition[C]//Proceedings of the Fourth IEEE, 2000: 440-445.

[21] Huenerfauth M. American sign language generation: multimodal NLG with multiple linguistic channels[C]//Proceedings of the ACL Student Research Workshop. Association for Computational Linguistics, 2005: 37-42.

[22] Marshall I, Safar E. Grammar development for sign language avatar-based synthesis[C]//Proceedings HCII. 2005: 1-10.

[23] Stein D, Bungeroth J, Ney H. Morpho-syntax based statistical methods for sign language translation[C]//Proceedings of the 11th Annual conference of the European Association for Machine Translation, Oslo, Norway. 2006: 223-231.

[24] Zhao L, Kipper K, Schuler W, et al. A machine translation system from English to American Sign Language[M]. Envisioning machine translation in the information future. Springer Berlin Heidelberg, 2000: 54-67.

[25] 黃曉曉. 基于情景語料庫的自然手語構詞研究[D]. 南京師范大學碩士學位論文, 2012.

[26] Huenerfauth M. Representing coordination and non-coordination in American Sign Language animations[J]. Behaviour and Information Technology, 2006, 25(4): 285-295.

[27] Bird S, Liberman M. A formal framework for linguistic annotation[J]. Speech communication, 2001, 33(1): 23-60.

[28] Martell C H. An extensible, kinematically-based gesture annotation scheme[C]//Proceedings of the 3rd International Conference on Language Resources and Evaluation. 2005.

[29] Tucci M, Vitiello G, Costagliola G. Parsing nonlinear languages[J]. Software Engineering, IEEE Transactions on, 1994, 20(9): 720-739.

[30] Ong S C W, Ranganath S. Automatic sign language analysis: A survey and the future beyond lexical meaning[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2005, 27(6): 873-891.

[31] Vogler C, Metaxas D. Adapting hidden Markov models for ASL recognition by using three-dimensional computer vision methods[C]//Proceedings of the Computational Cybernetics and Simulation., 1997 IEEE, 1997, 1: 156-161.

[32] Vogler C, Metaxas D. ASL recognition based on a coupling between HMMs and 3D motion analysis[C]//Proceedings of the IEEE, 1998: 363-369.

[33] Vogler C, Metaxas D. Toward scalability in ASL recognition: Breaking down signs into phonemes[M]//Gesture-based communication in human-computer interaction. Springer Berlin Heidelberg, 1999: 211-224.

[34] Niebles J C, Wang H, Fei-Fei L. Unsupervised learning of human action categories using spatial-temporal words[J]. International journal of computer vision, 2008, 79(3): 299-318.

[35] Dardas N H, Petriu E M. Hand gesture detection and recognition using principal component analysis[C]//Proceedings of the 2011 IEEE International Conference on Computational Intelligence for Measurement Systems and Applications(CIMSA), IEEE，2011： 1-6.

[36] Gao W, Ma J, Wu J, et al. Sign language recognition based on HMM/ANN/DP[J]. International journal of pattern recognition and artificial intelligence, 2000, 14(05): 587-602.

[37] Zhu Y, Xu G, Huang Y. Apearance-based dynamic hand gesture recognition from image sequences with complex background [J]. Journal of Software, 2001, 11(1): 54-61.

[38] Dreuw P, Neidle C, Athitsos V, et al. Benchmark Databases for Video-Based Automatic Sign Language Recognition[C]//Proceedings of the LREC. 2008.

[39] Arena V, Finlay A, Woll B. Seeing sign: The relationship of visual feedback to sign language sentence structure[C]//Proceedings of the Poster presented at CUNY Conference on Human Sentence Processing, La Jolla, CA. 2007.

[40] Huenerfauth M. Spatial representation of classifier predicates for machine translation into american sign language[C]//Proceedings of the Workshop on Representation and Processing of Sign Language, 4th Internationnal Conference on Language Ressources and Evaluation (LREC 2004). 2004: 24-31.

[41] Liddell S K. Sources of meaning in ASL classifier predicates[J]. Perspectives on classifier constructions in sign languages, 2003, 199: 220.

[42] Bangham J A, Cox S J, Elliott R, et al. Virtual signing: Capture, animation, storage and transmission-an overview of the visicast project[C]//Proceedings of the IEEE Seminar on Speech and language processing for disabled and elderly people, 2000.

[43] Veale T, Conway A, Collins B. The challenges of cross-modal translation: English-to-Sign-Language translation in the Zardoz system[J]. Machine Translation, 1998, 13(1): 81-106.

[44] Battison R. Lexical Borrowing in American Sign Language[M]，Linstok Press, Silver Spring, MD . 1978.

[45] Huenerfauth M. Generating American Sign Language classifier predicates for English-to-ASL machine translation[D]. University of Pennsylvania, 2006.

[46] Holt J A. Stanford Achievement Test-8th edition: reading comprehension subgroup results[J]. American Annals of the Deaf, 1993, 138(2): 172-175.

[47] Wideman C J, Sims E M. Signing avatars[C]//Proceedings of the Technology And Persons With Disabilities Conference. 1998.

[48] N Badler, R Bindiganavale, J Bourne, et al.[OL]. A parameterized action representation for virtual human agents. In Workshop on Embodied Conversational Characters, Lake Tahoe, CA. http://www.cis.upenn.edu/～rama/publications.html

[49] Kennaway R. Synthetic animation of deaf signing gestures[M]. Gesture and Sign Language in Human-Computer Interaction. Springer Berlin Heidelberg, 2002: 146-157.

姚登峰(1979—),通信作者,博士研究生,講師,主要研究領域為手語認知與計算。E-mail:yaodengfeng@gmail.com江銘虎(1962—),教授,主要研究領域為語言認知與計算。E-mail:jiang.mh@tsinghua.edu.cn阿布都克力木·阿布力孜(1983—),博士研究生,主要研究領域為語言認知、認知神經科學。E-mail:keram1106@163.com

歡迎訂閱《中文信息學報》

《中文信息學報》( Journal of Chinese Information Processing )是全國一級學會——社團法人中國中文信息學會和中國科學院軟件研究所聯合主辦的學術性刊物，創刊于1986年10月，現為雙月刊。2007年改版為大16開，每期126頁，由商務印書館出版，成為商務印書館期刊方陣中的期刊之一，清華大學印刷廠印刷。

《中文信息學報》是我國計算機、計算技術類83種刊物中的中文核心期刊。主要刊登中文信息處理基礎理論與應用技術方面的高水平學術論文，內容涵蓋計算語言學(包括語音與音位、詞法、句法、語義、語用等各個層面上的計算)，語言資源建設(包括計算詞匯學、術語學、電子詞典、語料庫、知識本體等)，機器翻譯或機器輔助翻譯，漢語和少數民族語言文字輸入輸出及其智能處理，中文手寫和印刷體識別，中文語音識別及文語轉換，信息檢索，信息抽取與過濾，文本分類、中文搜索引擎，以自然語言為樞紐的多模態檢索，與語言處理相關的數據挖掘、機器學習、知識獲取、知識工程、人工智能研究，與語言計算相關的語言學研究等。也刊登相關綜述、研究報告、成果簡介、書刊評論、專題討論、國內外學術動態等稿件。

讀者對象主要是從事中文信息處理的研究人員、工程技術人員和大專院校師生等。

《中文信息學報》(國內統一刊號： CN11-2325/N；國際統一刊號： ISSN 1003-0077)國內外公開發行，國內定價每期30元，全年180元；海外US$50/年(平郵)。

國內發行處：《中文信息學報》編輯部

國外發行處：中國圖書進出口總公司 100020 北京88-E信箱

1．郵局匯款

收款單位：《中文信息學報》編輯部

地址：北京8718信箱《中文信息學報》編輯部

郵政編碼： 100190

收款人：《中文信息學報》編輯部

2．銀行轉賬

開戶銀行：工商行北京市分行海淀西區支行

戶名：中國中文信息學會

賬號： 0200004509014415619

《中文信息學報》編輯部

地址：北京海淀區中關村南四街4號7號樓201房間

電話： 010-62562916 010-62661046

電子信箱： jcip@iscas.ac.cn

A Survey of Chinese Sign Language Processing

YAO Dengfeng1,2,3， JIANG Minghu1,2,Abudoukelimu Abulizi1,2, LI Hanjing3，Halidanmu Abudukelimu4，XIA Dina5

(1.Lab of Computational Linguistics, School of Humanities, Tsinghua University, Beijing 100084, China;2. Center for Psychology and Cognitive Science, Tsinghua University, Beijing 100084, China;3. Beijing Key Lab of Information Service Engineering(Beijing Union University), Beijing 100101, China；4. State Key Laboratory of Intelligent Technology and Systems, Tsinghua National Laboratory for Information Science and Technology, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China；5. China Electronics Standardization Institute,Beijing 100007, China)

For the computer processing of Chinese sign language, the characteristics of the sign language should be consideredt. This paper discusses the problems related to Chinese sign language information processing and proposes the processing technology according to the domestic and foreign research progress. Based on the lexical and syntactic characteristics of Chinese sign language and the latest research results in foreign Sign Linguistics, this paper puts forward a solution to the processing of Chinese sign language. We suggest that the future study of sign linguistics will rely more on the interdisciplinary study and multi-mode approach, and its progress will promote the technology of information accessibility.

Chinese sign language；information processing；writing system

1003-0077(2015)05-0216-12

2015-07-15 定稿日期： 2015-09-20

國家自然科學基金(61171114,61433015,91420202)；國家社會科學基金(14ZDB154,13&ZD187)；教育部人文社會科學研究規劃基金(14YJC740104)；北京高校青年英才計劃項目(YETP1753)

TP391