屈哨兵,王海蘭
(廣州大學 a.人文學院;b.國家語言服務與粵港澳大灣區語言研究中心,廣東 廣州 510006)
已有學者從不同角度關注數字社會和數字經濟時代的語言文字問題,這方面可以李宇明等相關學者的論述為代表。李宇明在不同場合闡釋了“數據是數字經濟的關鍵生產要素,語言數據是最為重要的數據,因而也是重要的生產要素”的觀點。2019年12月17日,李宇明在“第二屆語言智能與社會發展論壇”上提出“作為生產要素的語言數據”問題;2020年5月17日,李宇明在“東北亞語言資源數字化平臺”成立儀式上指出,“語言數據是信息時代的生產要素,如同土地之于農民,機器之于工人,計算機通過對語言數據的加工學習可以獲得知識和智能,從而去創造人類的新生活”;2020年7月4日,《光明日報》刊載李宇明的《語言數據是信息時代的生產要素》一文,這是中國的重要媒體首次發表語言數據是生產要素的觀點[2];隨后李宇明在《山東師范大學學報(社會科學版)》2020年第5期刊發《數據時代與語言產業》,對語言數據的生產要素屬性進行了更系統全面的闡述[3]。《語言戰略研究》2022年第4期刊發了“語言數據與數字經濟”專題,李宇明、王春輝、王海蘭、張凱、戴曼純等多位學者討論了語言數據的定義與功能、語言數據安全、語言數據的經濟屬性、語言數據治理以及語言技術與語言保護等問題①。還有一些學者關注了數字時代的語言產業[4]、語言教育[5]、語言文字生活[6]等。數字社會的語言效應,體現在語言自身系統的變遷中,體現在語言生活的變化中,也體現在語言治理和語言研究的與時俱進中。[7]數字經濟時代不僅帶來了語言生活的變革,推動了語言產業的發展,還對語言服務提出了更高要求,需要高質量語言服務的賦能。
本文②擬以數字經濟核心產業分類為基礎,討論基于數字經濟及其核心產業發展所需的語言服務能力建設問題,重點考察四個方面,分別為語言標準化服務、語言資源化服務、語言多元化服務和語言智能化服務。
近年來,隨著信息時代的全面來臨,互聯網、萬物互聯、大數據、人工智能等一系列數字技術的快速發展正深刻改變著社會生產方式和生活方式,這已成為當今世界存在的一種最突出形式。數字經濟也逐漸成為促進經濟社會發展的一種非常重要的生產力表述,一系列冠以“數字XX”的概念紛至沓來,較高層位的概念比如有數字時代、數字經濟、數字政府、數字社會、數字生態、數字文化、數字商貿、數字金融等,較低層位的概念比如有數字采礦、數字林業、數字廣告、數字出版、數字圖書館、數字交通等,以及大量雖不以“數字”打頭,但事實上卻是數字經濟的當然構成部分的概念。國家統計局發布的《數字經濟及其核心產業統計分類 (2021)》(以下簡稱“《分類》”)提到“互聯網XX”“智慧/智能XX”和“數字化XX”等很多概念,例如互聯網搜索服務、互聯網安全服務、互聯網數據服務、智慧農業、智慧物流、智慧醫療、智慧教育、智能交通、智能制造、數字化餐飲、數字化建筑業等都可以劃入數字經濟的范圍。
《分類》給出的數字經濟的定義,是指以數據資源作為關鍵生產要素、以現代信息網絡作為重要載體、以信息通信技術的有效使用作為效率提升和經濟結構優化的重要推動力的一系列經濟活動。國務院2021年12月發布的《“十四五”數字經濟發展規劃》給出的數字經濟的定義,“是以數據資源為關鍵要素,以現代信息網絡為主要載體,以信息通信技術融合應用、全要素數字化轉型為重要推動力,促進公平與效率更加統一的新經濟形態”,這是繼農業經濟、工業經濟之后的主要經濟形態。時任國家統計局副局長鮮祖德曾就國家統計局發布的《分類》中關于數字經濟概念的產生及其在國際國內經濟社會發展中的地位和作用專門進行過說明 。2016年,杭州G20峰會通過了《二十國集團數字經濟發展與合作倡議》,首次將“數字經濟”列為G20創新增長藍圖中的一項重要議題,數字經濟的概念從那時起應運而生。2017年,我國政府工作報告首次提出數字經濟,指出要推動“互聯網+”深入發展、促進數字經濟加快成長。數字經濟的發展規模和水平是國內外廣泛關注的話題。2020年8月,美國經濟分析局(BEA)發布的《最新數字經濟核算報告》指出,2018年美國數字經濟增加值為18 493億美元,占GDP的比重為9.0%。2021年4月,中國信息通信研究院發布的《中國數字經濟發展白皮書》指出,2020年中國數字經濟規模達到39.2萬億元,占GDP的比重為38.6%。這些數據是基于不同標準和口徑測算的,給國際比較分析增加了難度,也給國內外社會公眾了解各國數字經濟發展水平帶來了困擾。[8]正是因為有這樣的困擾,國家統計局才專門整合發布《分類》,這給我們觀察了解數字經濟提供了一個比較確切的范圍和視角。
據《分類》的文本說明及國家統計局相關負責人的介紹,分類貫徹落實黨中央、國務院關于數字經濟發展戰略的重大決策部署,依據G20杭州峰會提出的《二十國集團數字經濟發展與合作倡議》,以及《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》《數字經濟發展戰略綱要》《國家信息化發展戰略綱要》《關于促進互聯網金融健康發展的指導意見》等政策文件,確定數字經濟的基本范圍。分類充分借鑒國內外相關機構關于數字經濟分類的方法,參照《新產業新業態新商業模式統計分類(2018)》《戰略性新興產業分類(2018)》《統計上劃分信息相關產業暫行規定》等相關統計分類標準,包括借鑒經濟合作與發展組織(OECD)和美國經濟分析局(BEA)關于數字經濟分類的方法,遵循兩者在分類中的共性原則,建立具有國際可比性的數字經濟產業統計分類,從而最大程度反映與數字技術緊密相關的各種基本活動。[8]
《分類》把數字經濟產業分成“數字產業化”和“產業數字化”兩大塊,并進一步將其再分為數字產品制造業、數字產品服務業、數字技術應用業、數字要素驅動業、數字化效率提升業等5大類。前4大類為數字產業化部分,即數字經濟核心產業,第5大類為產業數字化部分,是指應用數字技術和數據資源為傳統產業帶來的產出增加和效率提升,是數字技術與實體經濟的融合。這些分類都與國家已有的《國民經濟行業分類》相對應。
在5個大類中,屬于前4個大類的中類有23個,相應的小類有114個,屬于第5個大類(數字化效率提升)的中類有9個,相應的小類是46個。每個小類都有相應的內容說明,每個大類甚至是小類都涉及語言文字問題,都需要語言服務助力。這是本文進行相關分析并提出相關判斷的基礎。
認識老林是在一次朋友的聚會中。確切地說,是熱心的朋友撮合了他們的結識。老林并非姓林,而是姓吳,吳天成。是一家房地產公司的老總,吳總看中了一塊地,想開發成樓盤,就請攝影圈的朋友幫忙做一份宣傳冊頁,朋友就介紹了他。身兼攝影家協會秘書長的許振平自己有家平面設計公司,靠著本地人脈資源,公司經營得風生水起。幾杯酒下肚,兩人就有了相見恨晚的好感。買賣談成,心情舒暢,加上吳總的睿智風趣和許振平有著相似之處,兩人當下就稱兄道弟起來。吳總長一歲,為兄,許為弟。
在數字經濟背景下,我們應該從數據資源這個角度,重新審視“數字”和“語言”這兩個概念。傳統意義上,數字是指一種用來表示數的書寫符號,不同的記數系統可以使用相同的數字,最典型的當然就是阿拉伯數字1、2、3、4、5、6、7、8、9、0。我們從語言的角度看數字,通常也只是將數字看成是語言符號系統中的一個組成部分,也就是所謂的數目字,用漢語表現就是小寫的 “一二三四五六七八九十”和大寫的“壹貳叁肆伍陸柒捌玖拾”,很顯然,這個角度難以直接引申出數字經濟概念中“數字”的特有含義;從數學與計算機科學的角度看數字,大體上可以進一步理解數字(包括在此基礎上形成的數學)的含義,它與世界萬事萬物密不可分,所以有人說上帝只用數學就可以創造這個世界。計算機采用二進制,所有信息通過0和1的各種組合來完成,從這個角度看,數字之于時代,尤其是之于信息時代的地位與作用則更加突出,數字與數字經濟的關系更加接近了,因為在二進制基礎上形成了計算機科學與互聯網,催生了數字世界,但這又帶來一個新的問題,即語言在這個陣營中到底起什么作用?這就是本文所要關注的問題。
語言在數字經濟相關業態中的作用可以從四個角度來觀察,分別是語言標準化角度、語言資源化角度、語言多元化角度和語言智能化角度。每一個角度站在語言服務的立場上看,都可能涉及相關能力建設方面的一些問題。
語言標準化角度是一個最具基礎性功能的角度。在數字經濟及其核心產業統計分類中,幾乎所有的類別在實施過程中都會涉及語言標準化問題,準確說是語言文字標準化的問題。毫無疑問,涉及任何國民經濟生產門類的各種業態在制造生產使用過程中都會涉及標準問題。現代社會各種業態的發生發展一定都是在各種標準的制約規范之下進行的,沒有規范標準,任何業態一定行而不遠、行而不廣。在這諸多標準中,語言文字標準應該是其中不可或缺的。從遵循我國相關語言文字法規出發,各個產業行業標準一般也都會有相應的體現。早在21世紀初,《信息產業部、教育部、國家語委關于認真做好信息產業系統語言文字規范化工作的通知》(信部聯辦〔2001〕242號)中就明確提出,“信息產業系統所有公文、名稱牌、印章、票據、報表、標牌、指示牌、說明書、廣告、宣傳材料等,必須使用規范漢字。需加注漢語拼音的應書寫在規范漢字的下方,拼音應符合《漢語拼音正詞法基本規則》的規定”。如果上述這些方面都能做得十分到位,我們當然可以說這個行業中的產業(當時還沒有數字經濟這個概念)語言服務能力尤其是語言文字標準化服務能力得到了充分體現。但現在要提出的是,隨著國家新時代現代化新征程的推進,中國綜合國力進一步提升,日益走近世界舞臺中央,構建人類命運共同體的倡議得到了世界廣泛的響應,那么在某些場景中或許就要有更加周全周密的語言文字標準化服務方面的梳理與布局。
舉個例子說,在《分類》中,第010104這一小類是數字產品制造業—計算機制造—工業控制計算機及系統制造。該小類的說明是:“指一種采用總線結構,對生產過程及機電設備、工藝裝備進行檢測與控制的工具總稱;工控機具有重要的計算機屬性和特征,如具有計算機CPU、硬盤、內存、外設及接口,并有操作系統、控制網絡和協議、計算能力、友好的人機界面;工控行業的產品和技術非常特殊,屬于中間產品,是為其他各行業提供可靠、嵌入式、智能化的工業計算機制造。”我們當然相信這類工具總稱是符合語言文字標準化的基本要求的,但有兩個因素的標準化能力建設需要特別加以注意。第一個因素是工業控制計算機及系統制造是介于工業制造和計算機制造兩個系統之間的,兩者之間的語言文字標準化的對接水平如何就值得特別關注。就像上述小類說明所言,“具有計算機CPU、硬盤、內存、外設及接口,并有操作系統、控制網絡和協議、計算能力、友好的人機界面”,其中的每一個細節或系統都應該具有語言文字標準上的需求甚或要求,因為筆者不是這方面的專家,無法在這里提供更加詳實的情境描述,但我們認為有必要在這方面進行更加周密細致的考慮才行,或許就此要先進行比較系統的調查,這樣才能弄清楚語言文字標準化需求的真實情況。第二個因素是基于我國現在是一個制造業大國,很多產品都會跨出國門進入國際市場,包括像東盟這樣的友好鄰邦國家地區,如何做好國內與國際的對接需要關注。一方面,為做好國際國內雙循環,實現經濟的高質量發展,如何使語言文字在各類數字經濟產品上達到一致性、精準性,對我們來說是一個巨大的挑戰。目前我們似乎在這方面的意識還不是很強,一套簡便準確的語言文字標識系統在某種意義上能夠更好地服務于經濟業態的成長壯大,這些業態當然也包括數字經濟的各種業態。另一方面,針對不同國家地區不同語種(包括相關語種的不同方言)在相應產品上的語言文字標準化表達,也是對我國這方面語言能力建設的一個考驗。目前我們在這方面要做的工作還有很多,相關的研究有可能跟不上數字經濟發展的速度。
從語言資源角度看數字經濟核心產業,可能是語言服務能力建設最誘人的一個角度。李宇明關于這個問題有比較專門的研究。他提出“語言數據是生產要素”“語言數據納入數字經濟視野”,并從“語言和物理、社會、信息三元空間”在信息時代的視角闡述了語言作為一種資源何以成立的原因,具有前瞻性地指出,“隨著物聯網、語言智能的發展和智能化新基建的實施,語言將跨入物理空間,在人類的三元空間中運用。語言在人類生產活動的作用將更為顯著”。[2]根據初步觀察,如果我們將語言作為一種數據資源,就會在現在國家已公布的數字經濟核心產業中的“數字技術應用業”“數據要素驅動業”“數字化效率提升業”三個大類中看到語言作為數據資源的一種可能,有時候甚至是一種直接的體現。之所以說是一種可能,是因為從現有的相關業態的說明描述中,還看不到非常明確的對語言作為數字技術應用基礎或者數據要素驅動基礎的自覺,但通過對相關業態的粗淺觀察,我們認為語言作為一種資源,應該在數字經濟相關業態中得到更加充分的體現。
舉一個例子來說,數字應用技術的“互聯網安全服務”(030305:數字技術應用業—互聯網關聯服務—互聯網安全服務)這個小類的說明是:“指各種互聯網安全服務活動,包括網絡安全集成服務、網絡安全運維服務、網絡安全災備服務、網絡安全監測和應急服務、網絡安全認證檢測服務、網絡安全風險評估服務、網絡安全咨詢服務、網絡安全培訓服務等。”這些已列出的互聯網安全服務都有著各自具體的應用場景。但在信息化互聯網時代,尤其是在萬物互聯的時代,語言作為龐大的互聯網資源最重要的載體,在互聯網安全服務的范圍內卻沒有獨立的一席之地,這不免讓人覺得有些遺憾。當然我們也可以做另外一種解釋,就是將語言本身看成一種交際交流的工具,是所有內容安全的信息載體,可以分布在網絡安全集成、網絡安全運維、網絡安全災備等各種具體場景中,事實上語言作為信息安全的內容也確實是這樣存在著的。但如果我們將語言看成是一種資源、一種數據要素的話,那就有必要在相應的數字經濟的小類說明描述中為其留下相對清晰的空間,這樣可能更加有利于促進數字經濟的健康發展。
數字經濟催生了大量新職業,為新職業做好語言人力資源培養是語言資源化服務的一個重要維度。自2015年《中華人民共和國職業分類大典》頒布以來,人力資源和社會保障部會同國家市場監督管理總局、國家統計局已發布5批共74個新職業,這些新職業主要集中在數字經濟領域,反映了數字經濟發展的需要,例如新職業中包含了大量人工智能工程技術人員、物聯網工程技術人員等數字技術工程專業人員,數字化管理師、數據庫運行管理員、數字化解決方案設計師、電子數據取證分析師、商務數據分析師等以數字化管理和數據分析為核心業務的新職業,以及全媒體運營師、在線學習服務師等數字化產業發展催生的新職業,詳見表1。新職業對語言能力提出新要求,例如人力資源和社會保障部、工業和信息化部頒布的《數字化管理師國家職業技術技能標準(2021年版)》,在關于數字化管理師的專業能力要求中,明確提出要具備“能建立溝通平臺,實現員工、部門之間在線溝通”,“能通過電話、短信等方式提醒接收者查閱信息”,“能使用在線文字、語音、視頻、直播等多種工具進行溝通”等數字化溝通的能力。數字化溝通能力顯然有別于面對面的溝通能力,確切地說是一種更綜合、要求更高的語言能力。適應數字經濟發展要求,培養適應新職業新崗位的語言人力資源,語言資源化服務方面應及時做出回應,而數字化溝通能力是一種語言服務能力,是人力資源在語言能力方面的重要體現。

表1 2015年以來國家發布的新職業
從上述語言資源理念出發,在數字技術應用業、數據要素驅動業、數字化效率提升業的很多小類說明描述中,語言作為數字經濟的重要支撐力量可能會得到進一步的彰顯。舉數字化效率提升業中的“智能鐵路運輸”例子來說,在相關說明中描述其涉及的范圍,是“指借助數字化技術和互聯網平臺進行的鐵路安全管理、調度指揮、行車組織、客運組織、貨運組織,以及機車車輛、線橋隧涵、牽引供電、通信信號、信息系統的運用及維修養護等活動”。這里面借助數字化技術和互聯網平臺進行的各種管理運用及維修養護何嘗離得開語言文字信息須臾?安全管理需要語言指引,調度指揮需要語言實施,行車組織需要語言編號,客運貨運組織需要語言表達,機車車輛和線橋隧涵都有語言標記,牽引供電需要語言達成,通信信號和信息系統則更是離不開語言基座。語言作為實現業態要素驅動的重要作用不言自明,作為掌握這些要素的人力資源要求同樣不可或缺。我們現在缺少的是對其作為驅動要素的更加有效的組織利用,在數字經濟發展構成要素的理論推演上還有更多的工作要做。
語言多元化角度實際上和語言資源化角度不是邏輯上彼此之間切割得非常清楚的概念。數字經濟時代背景下,語言作為一種數據資源在擁有更多標準化空間需求的同時,也擁有一種多元化集成的可能,這種多元化集成有可能成為數字經濟時代的一種常態。
2015年,在北京語言大學舉辦的第二屆中國語言生活學術研討會上,我國著名民族語言學家戴慶廈先生與大家討論這樣一個問題:隨著城鎮化的發展,大量人口離開鄉村流向城市,手機使用日益普及,這是否會引起民族語言或者方言加快消失?戴先生說未必,反倒是因為現在有了手機,離開故鄉的人每天可以用手機與家鄉人通話,通話中通常會使用家鄉的方言,這可能會使方言在經常使用的過程中得到更好的保存。這是一個值得重視的觀點。道理很簡單,機器(例如手機)和人不一樣,從理論上說,各種不同的方言或者不同的語言,在互聯網技術中都能得到同樣的保存和傳輸。由此可以得出這樣一個結論:數字經濟時代在追求語言標準化和語言數據資源化的同時,實際上也為語言多元化留下了廣闊的空間,這里面也包括留下諸如面向“語保工程”這樣著眼更長遠文化傳承保護工作的廣闊空間。
從某種意義上講,也可以把語言多元化本身看成語言數據資源化的一個有機組成部分。數字經濟的很多業態實際上能夠在此方面發揮更大的作用。語言多元化需求在“數字產品服務業”“數字技術應用業”“數據要素驅動業”“數字化效率提升業”等方面都存在,例如數字技術應用業之計算機、軟件及輔助設備批發(020101:數字技術應用業—數字產品批發—計算機、軟件及輔助設備批發)的小類說明,是“指各類計算機、軟件及輔助設備的批發和進出口活動”,數據要素驅動業之“互聯網搜索服務”(030302:數據要素驅動業—互聯網關聯服務—互聯網搜索服務)的小類說明,是“指利用互聯網查找、存儲在其他站點上的信息的服務活動”,這種查找其他站點的信息一定會涉及不同語言不同方言的多元需求,也是一種語言能力的需求。相比較之下,語言多元化追求在數據要素驅動業和數字化效率提升業中的體現更加充分。我們各舉一個例子。
在數據要素驅動業中有“互聯網生活服務平臺”(040102:數據要素驅動業—互聯網—互聯網生活平臺服務),其小類說明是“指專門為居民生活服務提供第三方服務平臺的互聯網活動,包括互聯網銷售平臺、互聯網約車服務平臺、在線旅游經營服務平臺、互聯網體育平臺、互聯網教育平臺、互聯網社交平臺等”。很顯然,在這些服務平臺上語言服務需求一定是多元化的,因為它涉及不同的民族區域,不同的方言區域,多民族多方言小分居大雜聚的區域,邊境地區不同人群可以往來的區域,等等。在這類互聯網生活平臺上產生的各種各樣的語言服務需求,就要求語言服務能力做更加細致的應對考慮。目前在語言產業方面對多語言多方言的多元化資源提供已經具有相當好的基礎。以科大訊飛為例,該公司能夠為各種平臺提供語言服務,例如訊飛翻譯機3.0版本可以提供59種語言的翻譯,訊飛輸入法(手機版)可以提供11種漢語方言的語音輸入,還可以支持粵語英語混說且同時支持說普通話(訊飛官網介紹的是支持23種方言的輸入),同時還支持9種外語的語音輸入及其與中文的互譯。這些語種或者方言種類的選擇是建立在扎實的市場調研基礎之上。科大訊飛的另一種產品咪咕靈犀,據官網的介紹是“支持23地方言,三大民族語言輕松互譯”[9]。但是相對于更為多元的語言和方言情況,我們實際上已經到了一個在各類平臺上可以提供更加多元的語言服務的階段。現行的技術手段及資源儲備,尤其是漢語方言經過國家“語保工程”后形成了規模巨大的資源庫,我們可以考慮推動相關企業在平臺上提供更加豐富的語言資源,現在的平臺技術支撐條件也應該可以滿足這樣的需要,這種滿足是語言服務能力提升的一個表現。
再舉一個數字化效率提升業方面的例子。“數字化社會工作”(050703:數字化效率提升—數字社會—數字化社會工作)的小類說明,是“指利用數字化技術和信息化平臺開展的慈善、救助、福利、護理、幫助等社會工作的活動”,很顯然這個小類涉及的人群通常都是弱勢群體,在很多時候他們的各種具體細微的語言服務需求有可能被忽略,相對其他人群而言,他們發出的聲音可能要小很多。在數字經濟時代,這應該成為多元語言服務需求考慮的一個重要方面。比如,第七次全國人口普查數據顯示,相對上一次人口普查,我國的文盲率由4.08%下降到2.67%,相對于新中國成立之初超過80%的文盲率,這兩個數字反映出我國文化教育事業上的巨大進步。但由于人口基數巨大,2.67%也意味著一個不小的群體,文盲的語言能力相對于受過教育的人來說是比較弱的,他們也通常可能是社會化工作所要關注的弱勢群體。如何給他們提供更好的語言服務,把“以人民為中心”的執政理念更加徹底地落到實處,則是對國家語言服務能力的一種考驗。數字化效率提升的很多方面,尤其是涉及各色不同的人群存在的場景,情況尤其如此。例如“數字化餐飲”“數字化商務服務”“智慧教育”“智慧醫療”“互聯網居民生活服務”“互聯網文體娛樂業”等等,無不涉及語言多元化服務的問題,需要我們做更多更細致的工作,進一步提升語言服務能力。
語言智能是語言信息的智能化,是運用計算機信息技術模仿人類的智能,分析和處理人類語言的過程,是人工智能的重要組成部分及人機交互認知的重要基礎和手段。[10]語言智能水平關乎國家語言能力建設。[11]在數字經濟發展中,語言智能水平及其應用的廣度和深度深刻影響著數字經濟發展的質量,特別是數字化效率提升業,基本每一個產業小類的發展都須臾離不開語言智能服務的參與。
我們以中類產業“數字社會”(0507)為例。在統計分類中,“數字社會”下設三個小類,分別為智慧教育(050701)、“智慧醫療”(050702)和“數字化社會工作”(050703),這三個小類的發展都需要語言智能服務的支持。發展智慧教育(050701),利用數字化技術和信息化平臺進行內容傳播和快速學習,開展在線教育、在線培訓等需要語言智能服務的深度參與。目前機器翻譯、語音識別和語音合成、智能批改、智能寫作、語音評測等語言智能產品和服務已廣泛應用于教育領域。2022年高考,已經有12個省份使用人工智能技術來輔助批改語文、英語作文,該技術在中高考中已經累計服務3000多萬考生。2019年全球中文學習平臺上線以來,為國內外中文學習者提供優質學習資源和智能化學習路徑,建成兩年即發展用戶600萬人,覆蓋全球182個國家和地區,平臺總訪問量突破一億次。教育部部長懷進鵬指出,“把教育信息化作為發展的戰略制高點,以教育信息化推動教育高質量發展,以教育信息化引領教育現代化”,強調“教育系統大力推進教育信息化、推進教育資源數字化建設”。[12]教育信息化、智慧化的發展需要更高水平的語言智能服務的支撐。“智慧醫療”是指“利用數字化技術和信息化平臺開展的醫學檢查檢驗影像,以及在線醫療、遠程醫療等服務活動”,其中在線醫療,特別是AI問診就需要語言智能輔助。“數字化社會工作”是指利用數字化技術和信息化平臺來開展慈善、救助、福利、護理、幫助等社會工作的活動,同樣需要大量的語言智能產品,如各種養老機器人、護理機器人、康復機器人、陪伴機器人等,改善老年人生活,提升數字化社會工作水平。一些自助服務機終端面向殘障人士、老年人、文化水平比較低的人群需求時,也應該從語言智能的角度進行設計優化和功能對接。
中國科學院《互聯網周刊》、eNet研究院、德本咨詢聯合發布的“2022數字經濟案例TOP100”名單中,有多項案例都是語言智能服務的應用。例如,南京市12345政務服務呼叫中心、捷通華聲推出的智慧城市12345政務服務便民熱線,基于語音識別、語音合成、語義理解、文本分析等人工智能核心技術,采用AI能力中臺和知識中臺,與咨詢中心業務系統進行深度融合,驅動全場景智能化服務,通過人工智能核心技術,形成文本機器人、智能語音導航、智能外呼、實時坐席輔助、智能機器人、語音質檢分析等智能模塊,讓智能客服運營更簡單、更省心,讓社會公眾更滿意,做到“事事有落實,件件有答復”。再如,華北石油電力、中關村科金推出的智能外呼系統,基于語音識別、語音合成、自然語言處理及機器學習等技術,具備多樣化的智能功能,依靠預測式外呼、多輪語音交互、用戶意圖識別、高并發、自動重呼、語音短信結合通知等產品功能,替代人工向用戶精準傳達停電原因、停電時間、停電范圍及注意事項等多項信息。
數字經濟的高質量發展有賴于數量充足、類型多樣、品質優良的語言智能服務。目前,我國的語言智能產業已經成長為一個新興的語言產業業態。中國語音產業聯盟發布的《2020—2021中國智能語音產業發展白皮書》顯示,2021 年我國智能語音產業市場規模預計達285億元,同比增長44%。隨著智能語音技術的成熟和市場對智能化需求的不斷擴大,智能語音產業將保持高速增長,預計2025 年國內前裝車載語音市場規模約為 32 億元,2030 年僅我國翻譯機市場規模就將達56.2 億元。語言智能產品和服務在在線教育、客服電話、機器翻譯等領域得到廣泛應用,但與社會需求還有距離,在供給數量、質量、類型和方式上都還有很大提升空間,例如在互聯網應用適老化服務方面就還有較大缺口。為進一步推動解決老年人在運用智能技術方面遇到的困難,讓老年人更好地共享信息化發展成果,國家有關部門出臺了一系列互聯網應用適老化改造的文件,其中不少內容就是強調要提高互聯網應用的智能語言服務水平。2020年12月,工業和信息化部印發的《互聯網應用適老化及無障礙改造專項行動方案》(工信部信管〔2020〕200號)提出,互聯網網站和移動互聯網應用(APP)針對老年人提升方言識別能力,方便不會普通話的老人使用智能設備。對旅游出行類APP的調查發現,71款APP中,只有6款支持語音搜索服務,占8.45%,且均只能識別普通話一種語言;7款提供語音播報服務,占9.86%;36款提供智能客服,占73.47%,這表明該類型APP在面向老年人的語言智能服務方面,整體上還亟待優化。[13]
數字經濟時代對標準化、資源化、多元化和智能化等各方面語言服務能力的建設都提出了更多更高的要求。凡事總有兩面性,在數字經濟時代,語言服務給我們帶來了巨大的便利,但語言作為一種數據資源也給我們的生活造成紛擾。比較典型且亟需解決的問題就是存在未經使用者本人同意而進行相關語言信息數據采集和使用的問題。《半月談》記者在某社交APP上進行感知測試,他先后發布4條包含信用卡辦理、婚紗攝影、嬰兒紙尿褲和房產交易的公開信息(測試前,記者沒有在該手機的任何APP上發布或檢索過類似信息),不到30分鐘,某地產企業廣告在3款不同的新聞資訊類APP中做了首頁推薦,某婚紗攝影廣告也在另一款社交APP上發布“頭條推薦”。[14]這就是現在大家通常所說的“大數據殺熟”。
當然,現在國家對這種情況也沒有坐視不管,一些地方通過立法等手段規范數據使用。例如,深圳在2021年7月6日公布《深圳經濟特區數據條例》,禁止APP“不全面授權就不讓用”,該《條例》于2022年1月1號實施。全國人大也在進行個人信息保護法草案的審議(2021年8月17日),或許會對“大數據殺熟”“非法買賣和泄露個人信息”等作出有針對性的規范。[15]這應該是我們希望看到的一種情況。數字經濟對人類社會帶來了新的進步,語言服務能力的建設給我們的生產生活帶來極大的便利,數據使用的規范使我們的生活尊嚴得到更好的保護,從這個角度看,防止各種語言數據的濫用本身,也成了語言服務能力建設的重要組成部分。
【注釋】
① 《語言戰略研究》2022年第4期刊發“語言數據與數字經濟”專題文章,包括李宇明、王春輝的主持人語《從數據到語言數據》,王春輝的《語言數據安全論》,王海蘭的《試論語言數據的經濟屬性》,張凱、薛嗣媛、周建設的《語言智能技術發展與語言數據治理技術模式構建》,戴曼純的《數字時代語言技術與語言保護:以歐洲為例》,以及黃少安等的《“語言數據與數字經濟”多人談》。
② 本文曾以《數字經濟時代里的語言服務能力建設問題》為題在2021年8月中國-東盟語言文化論壇(貴陽)上進行報告,在報告的基礎上有所修改和補充。