李宇明 王春輝
科學是第一生產力。科學的發展必然會促進生產力的發展,進而也將對生產關系進行相應調整。數字科學并未將自己局限于科學領域,而是以其巨大的科學成就推動人類進入“數字經濟”時代。數據不僅是數字科學的核心要素,也嬗變為數字經濟的重要生產要素。
在數據作為數字科技和數字經濟關鍵生產要素的時代,“語言數據”必然成為學術研究的熱點,成為發展經濟爭相擁有的對象。在英文語境中,“語言數據”(linguistic data,language data)是近幾十年來使用較為頻繁的術語,但在中文語境里還是一個較新且較少使用的概念。在網上檢索“語言數據”,可見2016年有“語言大數據聯盟”的消息,2020年7月有《光明日報》發表李宇明《語言數據是信息時代的生產要素》的文章,之后有上海外國語大學設立“語言數據科學與應用”專業的碩博士學位、成立“語言數據與智慧教育研究中心”的消息,2021年9月有浙江財經大學的“語言數據創新班”招生簡章等。
“語言數據”較少見用的原因是:其一,人們已習慣使用“語言材料”“語料(庫)”“語言資源”這類說法。其二,“數據”(data)研究者,習慣用“數據”“大數據”這樣的上位概念,不需要或不能自覺區分語言數據和其他數據,確需指明時才加“語言”作為限定。其三,本質上是對“語言數據”的重要性認識不足,研究還比較薄弱。
語言數據是以語言符號體系為基礎構成的各種數據,內部可以細分為5類。
(1)語言學科數據。指語言符號系統本身的各種數據,如語音、語匯、語法、語篇等,也包括文字、標點符號、音標等。有必要時,還可以將其分別稱為語音數據、語法數據、文字數據等。語言學科數據是對語言這一客體進行研究而得到的各種認識,屬于語言學知識范疇,辭書、教科書、語言學論文著作等是其通常的貯存方式。
(2)話語數據。也可以稱為“言語數據”,指在語言交際中產生的口語和書面語等各種數據。這類數據是語言(文字)作為載體(或主要載體)所負載的各種知識與信息,存在于人類生活、工作、學習、休閑娛樂等各個領域,是語言數據中最為豐富、最為重要的一類。話語數據可以是不同領域的,可以是單語、雙語和多語的,可以是平面媒體、有聲媒體、網絡媒體和融媒體的。
(3)語言衍生數據。涉及語言的社會屬性、生存狀態、媒介裝備等相關數據。比如各語言(文字)的地域分布、母語和第二語言使用人口,各國的國語(或官方語言)及語言能力,各語言的重要文獻數量及翻譯狀況,語言技術水平和語言產業狀況,甚至也涉及各語言所擁有的非物質文化遺產、語言社團的綜合實力及對人類的貢獻等。它是語言在長期社會應用中形成的一系列附屬數據,對衡量一種語言的生存狀況、判斷國際語言格局具有重要意義。
(4)人工語言數據。利用語言(文字)而設計的特殊符號系統,以及運用這些特殊符號而產生的各種數據。比如盲文、手語、電報代碼、旗語、燈語等,主要是將文字(或拼音符號)轉寫為特殊符號,用于特殊人群、特殊場合的交際。在符號轉換的過程中,也可加入一些特殊成分,比如手語中就加入了一些自然動作或聾人群體的傳統動作。
(5)語言代碼數據。指生活中、科技活動中使用的各種代碼和科技語言,它們通常具有高度形式化、可機讀(或容易轉化為機讀)的特點。如專業符號、公式、圖表、音樂曲譜、機讀語言、編程語言,還有各類號碼、條碼、標記、印章、紅綠燈、網絡文本中的表情包甚至插圖、水印等。這是最廣泛意義上的語言數據。在語言生活中,這些人工語言或單獨使用,或與自然語言結合使用;有些可以“翻譯”為自然語言,有些不易“翻譯”,但都需要以自然語言作為“元語言”進行定義、描述或解釋。在一個所謂的“讀圖時代”“超語時代”,這些人工語言的使用越來越頻繁,產生的數據越來越重要。
語言數據的研究與應用,過去主要集中在語言學、計算語言學、信息科學等領域。隨著數據科學的發展,特別是數據成為人工智能發展的主要驅動因素,語言數據的研究與應用,迅速擴展到諸多學科和社會領域,彌散到人類的各個生活空間;因為語言數據占人類數據量的大多數,語言數據的技術更新,特別是利用互聯網收集話語數據的便利性和處理話語數據的能力的快速提高,促進了“數字科學”“數據科學”的迅速發展。在“數字科學”“數據科學”的發展中,語言數據發揮了舉足輕重的作用,因為所處理的“數字”“數據”主要是語言數據。
未來的語言數據研究,需要清醒認識語言數據所具有的數據共性和語言特性,界定清楚語言數據的內涵與外延,研討語言數據的功能及其實現方式,建立語言數據(資源)學科及人才培養體系,推進語言數據科學的發展。語言數據在以下四大領域發揮功能最為顯著。
第一,語言保護。在語言資源保護領域,語言數據發揮了重要作用,如國家語委2008年啟動的“中國語言資源有聲數據庫建設”,2015年啟動的“中國語言資源保護工程”。但是全世界有7000多種語言,多數語言處于瀕危狀態,為了全球語言保護,急需為哪些語言建立語言數據庫,依據什么標準建立什么樣的語言數據庫,怎樣集各方之力建設和開發利用語言數據庫,是需要首先解決的大問題。
第二,語言教學。在語言教學領域,語言數據發揮著決定性的作用,特別是線上教學成為主導方式的今天。要滿足母語教學、外語教學、海外華語教育、國際中文教育等各種語言教學的需求,教育界和教育產業界必須把相關的各種語言數據,特別是語言學科數據和話語數據進行積聚整合,精準發送到使用者手中。
第三,語言學研究和語言產品研發。語言學研究和語言產品研發,必須依賴語言數據,比如漢語語法規律的研究離不開語料庫;評價語言的社會功能需要的語言衍生數據;詞典本來就是一種特殊的語言數據庫,特別是線上詞典,詞典編纂也早過了“抄卡片”的年代。語言數據庫已成為語言學研究的基本工具,成為語言產品研發的基本建設。
第四,語言信息處理。語言信息處理是語言數據最重要的功能領域。其一,計算機要獲得語言智能,能夠從事“語言行為”,必須依靠大量的語言數據“飼喂”,依靠“數據驅動”;其二,計算機的“社會計算”,主要處理的就是各領域的語言數據。這一方面有許多發展中的問題,比如如何利用語言學科數據,使語言智能的發展變“數據單輪驅動”為“‘數據+規則’雙輪驅動”;如何建立可以測試評價計算機語言智能和語言行為的語言數據庫;如何擴充英語之外的“雙語平行語料”,提升非通語種的自動翻譯能力;如何解決“語言小數據”問題,提升專門社會領域、專業學術領域的語言處理問題;如何利用語言數據為特殊行業、特殊人群配備人工智能助手等。
至于說語言數據作為關鍵生產要素,應當做哪些工作,學界業界還較少討論。也許下面這些內容是必要的:全力支持語言數據的科學研究,大力發展語言數據產業與職業,建立和完善市場機制,逐步建立語言數據收集、加工、交換、貯存及產權、收益等相關的技術標準、法律法規和政策體系,充分發揮其生產要素的經濟功能和社會功能。其中語言數據庫的共建共享是首要問題,可以說,從研究生做碩士、博士學位論文到每一個科研基金語言項目,從每一個辭書編纂項目到每一項自然語言處理工程,幾乎人人都要建語言數據庫,但卻不能實現學界業界共享,其學力和財力的浪費已難以計算。
總之,語言數據是一個新的重要的話題,對它的研究超出了現有語言學的范疇,也超出了其他學科的單一學科范疇,需要多學科聯袂進行交叉研究;語言數據問題也超出了學術研究范疇,成為社會發展的重要問題,需要全社會的共同參與。本專題的幾篇文章,涉及語言數據安全、語言數據的經濟屬性、語言數據的數字化技術、語言智能技術對于數據治理的意義等論題,是關于語言數據幾個問題的初始性研究。初始性研究的意義主要不在于解決了什么問題,而是提出問題,引發關注。希望這一期語言數據研究能得到學界的呼應和社會的支持。