999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語言數(shù)據(jù)安全論

2022-07-15 01:29:25王春輝
語言戰(zhàn)略研究 2022年4期

提 要 數(shù)字經(jīng)濟時代,數(shù)據(jù)成為基本生產(chǎn)要素。語言數(shù)據(jù)不僅是新生產(chǎn)力,也催生了新的生產(chǎn)關系?!罢Z言數(shù)據(jù)”是以語言符號體系為基礎構成的各種數(shù)據(jù),“語言數(shù)據(jù)安全”則指通過采取必要措施,確保語言數(shù)據(jù)處于有效保護和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。語言數(shù)據(jù)安全是國家語言安全的重要組成部分,是新時代國家安全體系的有機構成。它可以依據(jù)風險級別、流程、領域以及是否核心等多個維度進行類型劃分。語言數(shù)據(jù)安全當前的幾個主要問題包括語言數(shù)據(jù)意識和語言數(shù)據(jù)安全意識不足、語言數(shù)據(jù)的泛用與確權不明、對語言數(shù)據(jù)跨境流動關注闕如、語言數(shù)據(jù)市場安全缺乏評估等。未來,需要從治理意識和理念,治理狀態(tài)評估,技術支撐、管理建設、組織建設、人才培養(yǎng)、國際合作五大板塊,以及評價反饋等幾個方面開展語言數(shù)據(jù)安全治理。

關鍵詞 語言數(shù)據(jù);語言安全;語言治理;語言數(shù)據(jù)安全;數(shù)字時代

中圖分類號 H002 文獻標識碼 A 文章編號 2096-1014(2022)04-0015-11

DOI 10.19689/j.cnki.cn10-1361/h.20220401

In the era of digital economy, data has become one of the basic production factors. Language data is not only a new productive force, but also a stimulus for new relations of production. Language data can be categorized into different types based on various criteria? i.e., form, contents, actors, process, and beneficiaries, and its production involves four levels of agency: government, enterprise, community, and individuals. Language data security is an important part of national language security and an indispensable component of the national security system in the new era. Language data security can be classified based on risk level, process, domain, and centrality. Currently, the major problems of language data security include the lack of language data awareness and language data security awareness, overuse or improper use of language data, unclarity of property rights, inattention to the cross-border flow of language data, and inadequate assessment of the security of language data market. In the future, the governance of language data security needs to be enhanced from the perspectives of governance awareness and philosophy, governance status assessment, five major construction sectors, and evaluation feedback.

language data; language security; language governance; language data security; digital age

一、引 言

語言是人類最重要的交際工具和思維工具,是身份的標記和文化的圖騰,是重要的信息資源、人力資源、共享資源、知識資源和文化資源,是一種重要的甚至關鍵性的資源(李宇明2018;王春輝2021b)。正因如此,語言安全也就成了國家安全的基本構成,成了國家安全學的重要組成部分(郭繼榮,楊亮2021;Chen & Breivik 2013)。歷經(jīng)農(nóng)業(yè)社會、工業(yè)社會、信息社會之后,人類正在快步邁入一個基于數(shù)字經(jīng)濟的新的社會形態(tài)——數(shù)字社會(陳剛,謝佩宏2020)。

在數(shù)字經(jīng)濟和數(shù)字社會時代,數(shù)據(jù)成為基本生產(chǎn)要素,是全球貿(mào)易的中心之一和全球政府與資本追逐的焦點,數(shù)據(jù)安全問題已經(jīng)成為關系個人、企業(yè)和國家安全的最緊迫和最基礎的安全問題,加強數(shù)據(jù)安全治理已成為維護國家安全和國家競爭力的戰(zhàn)略需要(中國電子信息產(chǎn)業(yè)發(fā)展研究院2019)。2021年3月,世界銀行發(fā)布了《2021年世界發(fā)展報告:讓數(shù)據(jù)創(chuàng)造更好生活》(世界銀行2021)。報告力求回答兩個根本問題:其一,如何通過數(shù)據(jù)來更好地推進發(fā)展目標;其二,需要做出何種數(shù)據(jù)治理安排來支持以安全、道德和可靠的方式生成和使用數(shù)據(jù),同時讓數(shù)據(jù)公平地造福所有人。

語言數(shù)據(jù)可以被看作領域數(shù)據(jù)的一種類型,語言數(shù)據(jù)安全問題目前還是一片待開拓的研究區(qū)域:以往的語言安全研究并未涉及,以往的數(shù)據(jù)安全分析也并未聚焦。本文的目的即分析語言數(shù)據(jù)安全的內(nèi)涵與類型,揭示目前存在的主要問題,并嘗試性地提出一個語言數(shù)據(jù)安全治理框架。

二、界定與類型

(一)語言數(shù)據(jù)

1.界定

數(shù)據(jù),是用來記錄客觀事物或事件的符號,具體來說,是對客觀事物或事件的性質(zhì)、狀態(tài)以及相互關系等信息進行記錄的物理符號(賽迪智庫網(wǎng)絡安全研究所2021:4)。關于語言數(shù)據(jù)的內(nèi)涵和外延,目前學界討論還不充分。李宇明(2020a)率先提出了“語言數(shù)據(jù)”這一概念并闡釋了其重要價值;李宇明(2020b)則進一步討論了語言數(shù)據(jù)的四大類內(nèi)容:語言符號系統(tǒng);語言負載的信息;由語言延伸的各種符號與代碼;生活、藝術與科學技術符號。隨后姜國權、李一飛(2021)討論了語言數(shù)據(jù)對于“一帶一路”建設的意義。

出于研究操作層面的考慮,李宇明、王春輝(2022)指出,語言數(shù)據(jù)是以語言符號體系為基礎構成的各種數(shù)據(jù),內(nèi)部可以細分為5類,即語言學科數(shù)據(jù)、話語數(shù)據(jù)、語言衍生數(shù)據(jù)、人工語言數(shù)據(jù)和語言代碼數(shù)據(jù)。本文所指語言數(shù)據(jù)主要是針對語言學科數(shù)據(jù)和語言衍生數(shù)據(jù)這兩類而言,即語言符號系統(tǒng)本身的各種數(shù)據(jù)和涉及語言的社會屬性、生存狀態(tài)、媒介裝備等的相關數(shù)據(jù)。

語言數(shù)據(jù)屬于行業(yè)數(shù)據(jù)的一種,是數(shù)字經(jīng)濟的重要構成。

2.類型

數(shù)據(jù)分類在收集、處理和應用數(shù)據(jù)的過程中非常重要。語言數(shù)據(jù)的分類方式很多,可以根據(jù)不同目的、不同角度等進行多視角區(qū)分。語言數(shù)據(jù)工作者往往需要理解和掌握不同的分類方式,以便更好地進行組織、管理、分析和應用。茲舉以下幾種。

著眼于形式方面,可以分為非數(shù)字化語言數(shù)據(jù)和數(shù)字化語言數(shù)據(jù)。前者比如各類紙版詞典,“語言生活皮書”“中國語言文化典藏”“中國瀕危語言志”等叢書,《中國方志中語言資料集成》(全42冊)、即將出版的《近代漢語方言文獻集成》等資料集成,二語學習者的書面語料等;后者比如國家語委各科研機構的各類數(shù)據(jù)庫、《中國語言生活狀況報告》的“有聲媒體”數(shù)據(jù)、民族語言志網(wǎng)(Ethnologue)、世界語言結構地圖(The World Atlas of Language Structures)、北京大學綜合型語言知識庫、美國的語言地圖集項目(The Linguistic Atlas Project)等。當然,兩種形式的數(shù)據(jù)是可以相互轉化的,比如谷歌數(shù)字圖書館工程就是將非數(shù)字化數(shù)據(jù)轉換成數(shù)字化數(shù)據(jù),而將紙版方言地圖轉換成數(shù)字化存貯的也比比皆是,還有剛剛上線的殷墟甲骨文數(shù)據(jù)庫;此外,數(shù)字時代所指的“數(shù)據(jù)”,已經(jīng)越來越指向數(shù)字化的數(shù)據(jù)。

著眼于內(nèi)容方面,則可以分為語言結構數(shù)據(jù)、語言功能數(shù)據(jù)、語言社會數(shù)據(jù)。語言結構數(shù)據(jù)即涵蓋語言系統(tǒng)本身的語音、詞匯、語法、語義等知識的數(shù)據(jù);語言功能數(shù)據(jù)即語言使用和應用范疇的語用、翻譯、政策文本等數(shù)據(jù);語言社會數(shù)據(jù)即語種能力、語言與社會變量互動的社會方言、多語社會、身份認同等數(shù)據(jù)。這3類數(shù)據(jù)其實都可以歸入實體數(shù)據(jù)和關系數(shù)據(jù)這兩大類范疇。

從數(shù)據(jù)主體和來源視角,可以分為:政府/政務語言數(shù)據(jù),即只有政府部門才有權采集、擁有、管理和發(fā)布的語言數(shù)據(jù),比如各類政府層面的語言政策、全國語言普查數(shù)據(jù)等;企業(yè)語言數(shù)據(jù),即市場機構進行商業(yè)活動或因其他需求所采集、加工、整理和擁有的語言數(shù)據(jù),比如各類翻譯企業(yè)產(chǎn)生的語言數(shù)據(jù);社群語言數(shù)據(jù),即社會各類團體機構因某種需求所采集、加工、整理和擁有的語言數(shù)據(jù),比如語言研究組織的各類語言數(shù)據(jù);個人語言數(shù)據(jù),即自然人在網(wǎng)絡上留下的語言數(shù)據(jù),包括靜態(tài)數(shù)據(jù)和行為數(shù)據(jù),比如研究者個人或研究小組生產(chǎn)的語言數(shù)據(jù)等。

從數(shù)據(jù)加工處理的角度,可以分為原始語言數(shù)據(jù)和衍生語言數(shù)據(jù)。前者指不依賴于其他任何數(shù)據(jù)而產(chǎn)生、沒有做過任何加工的數(shù)據(jù),比如網(wǎng)絡新興詞匯、各國人口普查后的第一手語言調(diào)查信息、環(huán)北極8個國家的語言和方言調(diào)查數(shù)據(jù)、留學生的課堂或考試作文、對一名或一組兒童每天3小時視頻記錄的材料、在華國際移民的語種能力和語言學習需求數(shù)據(jù)等;后者則是對原始數(shù)據(jù)進行加工處理后產(chǎn)生的系統(tǒng)的、有使用價值的數(shù)據(jù),比如將網(wǎng)絡新興詞匯進行匯集編校而成的新詞新語詞典、對實地調(diào)查資料分析整理而成的語言/方言語音系統(tǒng)、標記了語法信息的熟語料庫、根據(jù)大量原始數(shù)據(jù)而形成的世界語言概況數(shù)據(jù)、對世界4000多種語言的語法信息進行類型學分析得到的“世界語言結構地圖”等。當然,衍生數(shù)據(jù)可以是一次衍生,也可能會出現(xiàn)二次甚至三次衍生。

此外,還可以從公益性視角分為收益型語言數(shù)據(jù)和公益型語言數(shù)據(jù)。需要指出的是,顯然各個類型之間是互有交叉或重疊的,只不過是區(qū)分的角度和目的不同而已。

(二)語言數(shù)據(jù)安全

1.界定

“語言數(shù)據(jù)安全”指的是通過采取必要措施,確保語言數(shù)據(jù)處于有效保護和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。這一界定至少包含相互關聯(lián)的兩層含義:語言數(shù)據(jù)自身的安全和由語言數(shù)據(jù)而引發(fā)的其他安全。語言數(shù)據(jù)安全以總體國家安全觀為背景,是國家語言安全的重要組成部分,是新時代國家安全體系的有機構成。尤其是在人類邁入數(shù)字時代、數(shù)據(jù)成為基本生產(chǎn)要素的當下,對語言數(shù)據(jù)安全的探索將會對整體國家安全產(chǎn)生重大影響。

當代世界有三大構成要素:物質(zhì)、能量和信息,也就由此有了物質(zhì)安全、能量安全和信息安全,語言數(shù)據(jù)安全應歸入信息安全的范疇。

2.類型

如同前述語言數(shù)據(jù)的分類有不同視角,語言數(shù)據(jù)安全的分類也是如此。舉例如下。

首先,依據(jù)數(shù)據(jù)對國家安全、公共利益或者個人、組織合法權益的影響和重要程度,可將數(shù)據(jù)分為一般數(shù)據(jù)、重要數(shù)據(jù)、關鍵數(shù)據(jù)。此3類語言數(shù)據(jù)的風險級別、商業(yè)價值、隱私程度等呈現(xiàn)梯級差異,其安全等級依次增強,開放程度依次降低。當然,數(shù)據(jù)本身屬性上的游移也導致數(shù)據(jù)的安全具有相對性:一方面,在A處是一般等級的,在B處可能是重要的或關鍵的;反之亦然。另一方面,正如“馬賽克理論”(mosaic theory)所呈現(xiàn)的,一些碎片化、模糊化的一般數(shù)據(jù)被增量、組合、分析之后,有可能會轉化成危及安全的重要數(shù)據(jù)甚至關鍵數(shù)據(jù)。

其次,從語言數(shù)據(jù)流程視角來看,語言數(shù)據(jù)安全是語言數(shù)據(jù)全過程的安全,至少包括語言數(shù)據(jù)的收集、存儲、使用、加工、傳輸、提供和公開等環(huán)節(jié)的安全。收集安全主要指語言數(shù)據(jù)在錄入、處理、統(tǒng)計或打印中由于硬件故障、斷電、死機、人為的誤操作、程序缺陷、病毒或黑客等造成的數(shù)據(jù)庫損壞、數(shù)據(jù)丟失或數(shù)據(jù)泄密現(xiàn)象;數(shù)據(jù)采集和錄入的真實性是數(shù)據(jù)安全的本源和基礎,如果數(shù)據(jù)都是假的,則其“安全性”將無從談起。存儲安全是指實體語言數(shù)據(jù)的保存或者數(shù)據(jù)庫在系統(tǒng)運行之外的可讀性,涉及保護數(shù)據(jù)存儲設備、防止其他系統(tǒng)未經(jīng)授權訪問語言數(shù)據(jù)等方面。使用安全指的是語言數(shù)據(jù)在不同應用場景和領域中的安全性,比如跨境語言數(shù)據(jù)。加工安全指的是對語言數(shù)據(jù)進行二次或多次加工過程中的數(shù)據(jù)遺漏或流失,會對語言數(shù)據(jù)的精確度和關聯(lián)性造成影響。傳輸安全即語言數(shù)據(jù)在運輸或傳輸過程中涉及的安全問題,包括語言數(shù)據(jù)發(fā)出方和接收方以及傳輸渠道的安全。提供和公開安全是指提供和公開主體行事之后的對內(nèi)和對外效應,主要涉及政府和企事業(yè)單位的重要語言數(shù)據(jù)。

再者,可以依據(jù)語言數(shù)據(jù)出現(xiàn)的領域而將其分為:政治語言數(shù)據(jù)安全,比如對鑄牢中華民族共同體意義重大的各民族語言和方言的數(shù)據(jù);國土語言數(shù)據(jù)安全,比如相關地圖的語言數(shù)據(jù)或邊境線和海島地名的數(shù)據(jù);軍事語言數(shù)據(jù)安全,比如軍隊和軍人的語言數(shù)據(jù)以及跨境語言的相關數(shù)據(jù);經(jīng)濟語言數(shù)據(jù)安全,比如翻譯等語言產(chǎn)業(yè)和語言經(jīng)濟的發(fā)展數(shù)據(jù);文化語言數(shù)據(jù)安全,比如涉及國際傳播能力的中華文化核心術語數(shù)據(jù)或“飯圈文化”等亞文化的語言數(shù)據(jù);社會語言數(shù)據(jù)安全,比如影響醫(yī)療診斷和治療的語種能力和語言能力數(shù)據(jù)或與刑偵辦案相關的方言數(shù)據(jù)和語言痕跡;科技語言數(shù)據(jù)安全,比如類人機器人的語種和語言能力數(shù)據(jù)或情感語言成分的計算數(shù)據(jù);網(wǎng)絡語言數(shù)據(jù)安全,比如世界語言的網(wǎng)絡文本占有率數(shù)據(jù)或中外合作語言課題項目成果的數(shù)字化和共享性方面的安全;資源語言數(shù)據(jù)安全,比如自然資源格局的話語體系建構數(shù)據(jù);海外利益語言數(shù)據(jù)安全,比如海外救援人員的語言數(shù)據(jù)或影響中國國際話語權的相關語言國際標準的數(shù)據(jù);生物語言數(shù)據(jù)安全,比如各類相關會議的多語數(shù)據(jù);太空語言數(shù)據(jù)安全,比如空間站的操作語言數(shù)據(jù);極地語言數(shù)據(jù)安全,比如極地周圍國家和地區(qū)的語言數(shù)據(jù);深海語言數(shù)據(jù)安全,如相關海域及島礁的命名數(shù)據(jù);等等。

又如,根據(jù)數(shù)據(jù)安全涉及的主體,可以分為政府的、國際組織的、信息技術企業(yè)的、技術社群的、民間機構和公民個人的等。個人語言數(shù)據(jù),包括用于語言研究或其他目的的各類數(shù)據(jù)庫、網(wǎng)上語言痕跡。當然,語言數(shù)據(jù)安全在不同類型中效果的側重點會不同:對于個人語言數(shù)據(jù),可能影響主要在研究效果,個別情況會涉及個人安全,比如犯罪嫌疑人的語言刻畫、語言數(shù)據(jù)遺產(chǎn)(伊萊恩·卡斯凱特2020)等;對于企業(yè)語言數(shù)據(jù),主要在利潤方面;對于國家語言數(shù)據(jù),則往往是跟安全方面相關。

此外,《數(shù)據(jù)安全法》還提出了“國家核心數(shù)據(jù)”的概念。與此對應,可以考慮設立國家語言核心數(shù)據(jù),即關系國家安全、國民經(jīng)濟命脈、重要民生、重大公共利益等的語言數(shù)據(jù);此范疇之外的,可稱為“非國家語言核心數(shù)據(jù)”。

語言數(shù)據(jù)安全的類型還有一些其他區(qū)分維度。比如由優(yōu)勢語種的物理空間或虛擬空間霸權給人類語言數(shù)據(jù)帶來的安全威脅(王春輝2016;王春輝,高莉2009)。使用某種語言的人口是某種語言數(shù)據(jù)量的決定性因素,物理空間的語言數(shù)據(jù)也存在瀕?,F(xiàn)象,一旦一種語言沒有了說話人或者能夠理解它的人,這種語言的安全就基本歸于零了;虛擬空間雖然不存在數(shù)據(jù)消失,但是有的語言在虛擬空間幾乎沒有數(shù)據(jù)或數(shù)據(jù)很少,這些語言的安全狀態(tài)也可以基本歸于零。因此,現(xiàn)實和虛擬空間語言數(shù)據(jù)的比例,也是一個重大語言安全問題,英語的全球蔓延給很多語言帶來了生存危機。再比如語言識別數(shù)據(jù),美國國際語言暑期學院(SIL International)基于溝通度和認知度等標準所整理的《世界的語言》認為中國境內(nèi)的語言超過300種,而《中國的語言》《大辭?!返任墨I依據(jù)民族學和歷史語言學標準確認的數(shù)量則為130種左右(孫宏開,黃行2018)。這不僅僅是數(shù)值上的差異,而且是涉及民族識別、語言認同、文化認同、國家認同等重要甚至關鍵的國家安全議題。還有語言研究數(shù)據(jù)的安全,比如語言類數(shù)據(jù)庫、語言研究文獻數(shù)據(jù)庫。目前中國就缺少PubMed免費論文引文數(shù)據(jù)庫平臺。此外,還可以分為傳統(tǒng)型語言數(shù)據(jù)安全和非傳統(tǒng)型語言數(shù)據(jù)安全,語言數(shù)據(jù)本身安全和語言數(shù)據(jù)引發(fā)的其他安全等類型。

三、語言數(shù)據(jù)安全的主要問題

語言數(shù)據(jù)古已有之,但是生產(chǎn)要素和安全視角的認知和研究則是新興事物。因其新,所以就存在一些已經(jīng)顯現(xiàn)或?qū)⒁@現(xiàn)的問題。

(一)語言數(shù)據(jù)意識和語言數(shù)據(jù)安全意識不足

中國社會一直以來存在的一個“基礎性的問題是全社會缺乏語言意識,甚至是起碼的語言意識”(李宇明2014)。近些年在國家語委等相關部門、學界專家、社會現(xiàn)實等多重因素的合力之下,政府和社會的語言意識有所提升,但是在突發(fā)事件和前沿領域的語言意識仍然缺乏。前者比如“在應急語言服務領域,還缺乏語言意識,缺乏語言覺悟”(李宇明2021b),后者比如語言數(shù)據(jù)意識和語言數(shù)據(jù)安全意識。

語言數(shù)據(jù)意識,就是意識到語言數(shù)據(jù)之于人生、之于單位、之于社會、之于國家的意義。首先,要從以往的語料庫、數(shù)據(jù)庫等傳統(tǒng)觀念中跳出來,從數(shù)據(jù)成為人類生產(chǎn)要素的高度來審視語言數(shù)據(jù)。其次,要在以往的語言問題觀、權力觀、資源觀(Ruiz 1984)之外,添加上語言資產(chǎn)觀和語言資本觀。語言資產(chǎn)觀即語言數(shù)據(jù)是一種資產(chǎn),是國家、企業(yè)或個人資產(chǎn)的重要組成部分,是基本生產(chǎn)要素和創(chuàng)造財富的基礎。語言資本觀即語言數(shù)據(jù)的資源和資產(chǎn)特性得到進一步發(fā)揮,與價值進行結合,通過交易等各種流動方式,可以最終變?yōu)橘Y本。語言數(shù)據(jù)資產(chǎn)是指經(jīng)濟活動主體在生產(chǎn)經(jīng)營管理活動中形成的,可擁有或可控制其產(chǎn)生及應用全過程的、可量化的、預期能給相關利益方帶來經(jīng)濟效益的語言數(shù)據(jù)。實現(xiàn)語言數(shù)據(jù)可控制、可量化與可變現(xiàn)屬性,體現(xiàn)數(shù)據(jù)價值的過程,就是語言數(shù)據(jù)資產(chǎn)化過程。 2016年3月,《麻省理工科技評論》與甲骨文公司聯(lián)合發(fā)布了名為《數(shù)據(jù)資本的興起》的研究報告。報告指出,數(shù)據(jù)已經(jīng)成為一種資本,和金融資本一樣,能夠產(chǎn)生新的產(chǎn)品和服務。語言數(shù)據(jù)資本化的過程,就是將語言數(shù)據(jù)資產(chǎn)的價值和使用價值折算成股份或出資比例,通過數(shù)據(jù)交易和數(shù)據(jù)流動變?yōu)橘Y本的過程(中國電子信息產(chǎn)業(yè)發(fā)展研究院2019:6~8)。

新世紀以來尤其是近十年來,語言安全成為學界研究的熱點話題。2014年總體國家安全觀的提出更是將國家安全和語言安全研究推向了一個新高度。檢索已有的語言安全的文獻可以發(fā)現(xiàn),當前的語言安全研究主要集中在語言安全的界定和類型、國外特別是美國語言安全戰(zhàn)略的啟示、語言暴力、邊疆地區(qū)及跨境語言安全、“一帶一路”相關語言安全、作為文化安全次類的語言安全、翻譯安全等方面。但是對于語言數(shù)據(jù)安全問題,政府、學界和社會等都還處于模糊狀態(tài),意識還未跟上。而事實正如本文所述,語言數(shù)據(jù)安全對個人、機構、國家已經(jīng)在一定程度上形成了威脅,或者可能會構成潛在重大危險。

(二)語言數(shù)據(jù)的泛用與確權不明

數(shù)據(jù)確權是數(shù)據(jù)要素化和數(shù)據(jù)產(chǎn)權交易的前提條件。一旦數(shù)據(jù)確權,意味著它將有數(shù)據(jù)主體、報酬定價和流轉配置(陳肇新2021)。目前,各國法律似乎還沒有準確界定數(shù)據(jù)權益的歸屬問題。語言數(shù)據(jù)的產(chǎn)權可以分解為所有權、使用權和收益權。現(xiàn)在看來,所有權較為明確,使用權較為寬泛,而收益權則似乎異常模糊。從所有權角度看,基本上是“誰創(chuàng)造,誰擁有”,比如各類參考語法或語言研究數(shù)據(jù)、二語學習者作文語料、WALS數(shù)據(jù)庫、美國中央情報局的世界語言概況數(shù)據(jù)庫,其所有權分別歸屬于研究者個人、學習者個人、馬克斯·普朗克進化人類學研究所、美國中情局等。從使用權角度看,理應是“誰擁有,誰使用”,但是現(xiàn)實生活中的使用權卻并不是那么清晰,比如二語學習者學習過程中產(chǎn)生的數(shù)據(jù)也往往被搜集用于科學研究或智能產(chǎn)品研發(fā),美國中情局的世界語言概況數(shù)據(jù)庫也使用了民族語言志網(wǎng)和大量學者的研究成果,更不用說大量的個人或機構的各種類型的免費語料庫的語言數(shù)據(jù)。從收益權角度看,情況更是混亂,比如喬全生(待刊)在分析漢語方言歷史文獻長期得不到及時全面的整理和出版的原因時就提到,全國5000多個公共和高校圖書館中,藏有古文獻者大多以保護文獻為由,拒絕復制或限量復制;有的圖書館復印索價甚高。這大大限制了文獻的集成共享。有些個人私藏抄本文獻,對外復制更是漫天要價,條件苛刻。3個角度權益的錯綜復雜,就使得語言數(shù)據(jù)的確權存在許多真空地帶。尤為重要的是,語言數(shù)據(jù)意識的缺乏,使得語言數(shù)據(jù)向少數(shù)機構或公司聚攏,可能會給數(shù)據(jù)確權和數(shù)據(jù)安全帶來深層隱患。

(三)對語言數(shù)據(jù)跨境流動關注闕如

可流動,是數(shù)據(jù)成為生產(chǎn)要素的前提之一。數(shù)字經(jīng)濟的提升加速了數(shù)據(jù)在全球范圍的流通,跨境數(shù)據(jù)流動治理對發(fā)展數(shù)字經(jīng)濟、維護國家安全、構建數(shù)字紅利收入分配體系至關重要,但是硬件技術的突破和新冠肺炎疫情的影響使全球數(shù)據(jù)流量和跨境數(shù)據(jù)流量的測量難上加難(聯(lián)合國2021;孫方江2021)。因此對于語言數(shù)據(jù)的國際跨境流動需要格外注意。正如馬其家、李曉楠(2021)所指出的:“通過自由的數(shù)據(jù)跨境流動,利用大數(shù)據(jù)分析,一國可能對他國的社會狀況進行精準畫像,并有針對性地開展情報收集和研判等工作,威脅他國國家安全?!闭Z言數(shù)據(jù)的跨境流動,也同樣可能被用于精準畫像,并有針對性得開展語言相關的情報收集和研判,從而威脅國家語言安全。尤其是一些涉及國際合作的科研項目,其中的語言數(shù)據(jù)應該進行安全評估。比如20世紀90年代復旦大學和日本京都外國語大學的合作項目《漢語方言大詞典》,收錄古今南北漢語方言詞20萬余條,字數(shù)1500余萬。以往對于此類合作和數(shù)據(jù)的分享缺乏深入的研判和分析,未來應該引起足夠重視。2021年10月29日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)出境安全評估辦法(征求意見稿)》,并公開征求意見,可作為參考。中國須提升對敏感語言數(shù)據(jù)泄露、違法跨境語言數(shù)據(jù)流動等安全隱患的監(jiān)測、分析與處置能力。

與此相關的一個重要方面是語言數(shù)據(jù)跨境流動的標準化建設。2021年6月4日,歐盟委員會發(fā)布了關于個人數(shù)據(jù)跨境傳輸?shù)男掳鏄藴屎贤瑮l款的最終版本。中國須提升相關國際標準的制定權和話語權。

(四)語言數(shù)據(jù)安全市場缺乏評估

隨著全球數(shù)據(jù)體量呈現(xiàn)指數(shù)型增長態(tài)勢,資本市場對數(shù)據(jù)安全企業(yè)的關注度大幅提升。目前國外有近400家企業(yè)提供了數(shù)據(jù)安全和隱私保護相關產(chǎn)品及服務(中國信息通信研究院安全研究所2021)。賽迪咨詢數(shù)據(jù)顯示,2019年中國數(shù)據(jù)安全市場規(guī)模為38.1億元,年均增長率超過35%,且增速還在持續(xù)加快,預計2021年接近70億元(吳俊宇2021)。跟語言數(shù)據(jù)安全相關的市場應包括在其中。

語言數(shù)據(jù)安全的各個方面只要涉及經(jīng)濟交換,就產(chǎn)生了數(shù)據(jù)安全的市場。它應該是語言數(shù)據(jù)產(chǎn)業(yè)(李宇明2020b)的組成部分。目前由于語言數(shù)據(jù)安全尚未從整體數(shù)據(jù)安全中離析出來,所以語言數(shù)據(jù)安全的市場規(guī)模和相關問題,仍有待更專業(yè)和精準的評估。

四、語言數(shù)據(jù)安全治理

“數(shù)據(jù)安全治理”是一個新興話題,目前大量研究還處于初期的探索階段(可參看:邵晶晶,韓曉峰2021;劉邦凡,臧梓健2021)。

跟其他領域的數(shù)據(jù)安全治理一樣,語言數(shù)據(jù)安全治理既有一般數(shù)據(jù)安全治理的通性,也有自身領域的一些特性。比如《中華人民共和國個人信息保護法》(以下簡稱《個人信息保護法》)對于個人語言數(shù)據(jù)安全有保護作用,但此法是一般法,應用于具體領域場景時還是過于粗疏或者缺漏;再如《數(shù)據(jù)安全法》并未對“數(shù)據(jù)自由跨境流動”和“數(shù)據(jù)安全跨境流動”之間的平衡做出充分闡釋。作為領域語言治理的一個方面(王春輝2021a),提升語言數(shù)據(jù)安全的治理體系和治理能力勢在必行。

語言數(shù)據(jù)安全的治理不應局限于常規(guī)的技術加管理的二元治理體系,而是需要圍繞語言數(shù)據(jù)全生命周期安全,堅持總體國家安全觀,建立健全語言數(shù)據(jù)安全治理體系,提高語言數(shù)據(jù)安全保障能力。李躍忠(2021)、白利芳等(2021)、李曉偉等(2021)、胡國華(2021)、賽迪智庫網(wǎng)絡安全研究所(2021)、數(shù)據(jù)安全治理專業(yè)委員會(2021)等學者或機構都推出了各自的數(shù)據(jù)安全治理體系框架。借鑒這些研究成果,筆者嘗試建構起語言數(shù)據(jù)安全的治理體系,以期為上文列述的語言數(shù)據(jù)安全問題以及其他相關研究和實踐提供一個可能的系統(tǒng)解決方案。

語言數(shù)據(jù)安全治理體系包括治理意識和理念、治理狀態(tài)評估、建設板塊、評價反饋等4個次級體系,如圖1所示。

(一)治理意識和理念

意識和理念是行動和實踐的前提,一方面須提升政府、學界和社會大眾對語言數(shù)據(jù)和語言數(shù)據(jù)安全的了解和認知,使之認識到語言數(shù)據(jù)安全的存在及其可能帶來的嚴重后果;另一方面須建構語言數(shù)據(jù)安全治理理念/價值體系,即總體國家安全觀、復雜系統(tǒng)、動態(tài)防護、精準管控、漸次提升等。邸子桓、呂明臣(2021)分析了語言類科研人員數(shù)據(jù)素養(yǎng)培育問題,但相關研究還基本處于起始階段。

(二)治理狀態(tài)評估

即對當下語言數(shù)據(jù)治理的目標、技術、組織、措施、風險、服務、法律法規(guī)、體制機制、國際合作、人才培養(yǎng)等進行立體評估,建構語言數(shù)據(jù)安全治理狀態(tài)評估清單,為后續(xù)工作提供可靠參考。全國信息安全標準化技術委員會于2020年3月推出了《信息安全技術 數(shù)據(jù)安全能力成熟度模型》,給出了組織數(shù)據(jù)安全能力的成熟度模型架構,規(guī)定了數(shù)據(jù)采集安全、數(shù)據(jù)傳輸安全、數(shù)據(jù)存儲安全、數(shù)據(jù)處理安全、數(shù)據(jù)交換安全、數(shù)據(jù)銷毀安全、通用安全的成熟度等級要求,可以作為參考。

(三)“五位一體”建設板塊

五大建設板塊是整個治理體系的核心部分。

技術支撐涉及語言數(shù)據(jù)的分級分類、安全標記、全生命周期安全技術體系、流向追蹤、安全服務技術等。可以利用最新技術“以網(wǎng)治網(wǎng)”,比如區(qū)塊鏈技術目前已經(jīng)在數(shù)據(jù)存儲安全、隱私安全、數(shù)據(jù)訪問安全和數(shù)據(jù)共享安全等多個方面有了較穩(wěn)定的應用(梁秀波,等2022),對于語言數(shù)據(jù)安全治理來說,可資借鑒。應加強語言數(shù)據(jù)安全技術及產(chǎn)品研發(fā)應用,提升語言數(shù)據(jù)安全產(chǎn)品供給能力,推動語言數(shù)據(jù)安全產(chǎn)業(yè)發(fā)展。還可以基于大數(shù)據(jù)平臺、互聯(lián)網(wǎng)數(shù)據(jù)中心等重要網(wǎng)絡節(jié)點,建設涵蓋行業(yè)、地方、企業(yè)的全國性語言數(shù)據(jù)安全監(jiān)測平臺,形成敏感語言數(shù)據(jù)監(jiān)測發(fā)現(xiàn)、語言數(shù)據(jù)異常流動分析、語言數(shù)據(jù)安全事件追蹤溯源等能力,建設數(shù)據(jù)安全監(jiān)測系統(tǒng)。

管理建設涵蓋語言數(shù)據(jù)安全頂層設計、法律法規(guī)體系建設、政策體系建設、國際國內(nèi)標準體系建設、流程指南、操作規(guī)程、應急處置等方面,也包括開展數(shù)據(jù)安全能力成熟度評估、數(shù)據(jù)安全管理認證等。語言數(shù)據(jù)技術和語言數(shù)據(jù)管理,二者不能偏廢,正所謂“三分技術,七分管理”。近幾年,關于數(shù)據(jù)和信息安全的相關法律法規(guī)密集出臺,比如《數(shù)據(jù)安全法》與《關鍵信息基礎設施安全保護條例》2021年9月1日施行;《個人信息保護法》2021年11月1日正式實施;國家互聯(lián)網(wǎng)信息辦公室2021年10月29日發(fā)布《數(shù)據(jù)出境安全評估辦法(征求意見稿)》,11月14日又發(fā)布《網(wǎng)絡數(shù)據(jù)安全管理條例(征求意見稿)》。未來須構建起語言數(shù)據(jù)安全技術體系和標準體系,以及法律法規(guī)體系。在制定或修訂涉及語言文字的法律法規(guī)時,則應提升語言數(shù)據(jù)意識,加入語言數(shù)據(jù)安全治理的相關內(nèi)容。此外,數(shù)據(jù)安全保障體系的規(guī)范一般須從業(yè)務數(shù)據(jù)安全需求、數(shù)據(jù)安全風險控制需要及法律法規(guī)合規(guī)性要求等幾個方面進行梳理,最終確定數(shù)據(jù)安全防護的目標、管理策略及具體的標準、規(guī)范、程序等。Rock(2001)、Isard(2020)等對用于研究的語言數(shù)據(jù)的匿名規(guī)范進行了較為詳細的分析。最后,須建構平時治理和應急治理相融合的語言數(shù)據(jù)安全治理體系。

組織建設包括“決策層-管理層-執(zhí)行層-參與層-監(jiān)督層”的5層架構體系,以及與此相配套的職能部門與角色、業(yè)務與權責、人員構成與能力要求、協(xié)作與監(jiān)督等。需要考慮組織層面實體的管理團隊及執(zhí)行團隊,根據(jù)部門職責建立不同的語言數(shù)據(jù)安全角色,以滿足數(shù)據(jù)安全建設的需求。比如語言主管部門承擔本行業(yè)、本領域數(shù)據(jù)安全監(jiān)管職責;國家安全機關、公安機關等依照《數(shù)據(jù)安全法》和有關法律、行政法規(guī)的規(guī)定,在各自職責范圍內(nèi)承擔語言數(shù)據(jù)安全監(jiān)管職責。語言數(shù)據(jù)安全運營管控執(zhí)行建設方面,需要重點關注數(shù)據(jù)安全運維、應急預案與演練、監(jiān)測預警、應急處置、災后恢復等方面。

人才培養(yǎng)涉及語言學、計算機科學、社會學、哲學等相關學科的交叉融合,須在課程體系、學科建設等方面未雨綢繆。比如在語言學及相關專業(yè)的課程體系中加入語言安全的內(nèi)容,在培養(yǎng)交叉型語言安全人才上下功夫。由工業(yè)和信息化部人才交流中心等單位聯(lián)合發(fā)布的《2021網(wǎng)絡安全產(chǎn)業(yè)人才發(fā)展報告》顯示,今年以來相關專業(yè)人才需求呈現(xiàn)高速增加趨勢,需求總量較去年增長39.87%,網(wǎng)絡安全在各行業(yè)的滲透率全面提高,在人才需求結構中的重要性顯著上升。2022年1月12日,由工業(yè)和信息化部網(wǎng)絡安全產(chǎn)業(yè)發(fā)展中心(工業(yè)和信息化部信息中心)與部人才交流中心聯(lián)合牽頭組織編制的《網(wǎng)絡安全產(chǎn)業(yè)人才崗位能力要求》標準正式發(fā)布,可以作為語言數(shù)據(jù)安全人才崗位能力的參考。

國際合作包括積極參與甚至引領(語言)數(shù)據(jù)安全國際規(guī)則的商討和制定,提升跨境語言數(shù)據(jù)合作治理,積極參與全球語言安全治理,增強(語言)數(shù)據(jù)安全規(guī)則創(chuàng)制和話語權博弈的競爭力。由于中國在數(shù)據(jù)治理領域起步較晚,目前仍存在立法不完善、技術創(chuàng)新能力薄弱、國際合作不足、治理乏力等問題。中國需要全面、系統(tǒng)地分析影響數(shù)據(jù)安全的各種重大風險因素,準確把握全球數(shù)據(jù)安全趨勢,進一步優(yōu)化中國在全球數(shù)據(jù)安全治理中的策略選擇(闕天舒,王子玥2022)??缇痴Z言數(shù)據(jù)安全的治理,需要在語言數(shù)據(jù)出境的監(jiān)管、個人或商業(yè)語言數(shù)據(jù)的保護、法律的健全等方面用力。

(四)評價反饋

設立動態(tài)多層評價體系,對上述五大建設板塊進行定期評價,確定建設效果和效能,予以反饋,并進行相應的提升和完善。在國家和社會治理體系的各個步驟中,評價反饋往往是容易被忽視的一個角落,但是事實上卻又是治理環(huán)節(jié)上重要甚至關鍵的一環(huán)。

五、余 論

數(shù)據(jù)即權力。與全球經(jīng)濟的其他要素相比,數(shù)據(jù)與權力的關系更加緊密。數(shù)據(jù)為所有掌握數(shù)據(jù)的人提供了難以置信的優(yōu)勢,數(shù)據(jù)本身已成為重要的權力來源(Slaughter & McCormick 2021)。2019年6月,美國科爾尼全球商業(yè)政策委員會(GBPC)發(fā)布報告《數(shù)字秩序失衡時代下的競爭》,從全球視角和歷史維度關注數(shù)字秩序的演變歷程及其未來可能性;2022年1/2月的美國《外交事務》雜志也專題聚焦“數(shù)字失序”問題,指出政府、企業(yè)和公民現(xiàn)在都面臨無孔不入的數(shù)字威脅。數(shù)字帝國主義已然成形,它憑借對數(shù)據(jù)的壟斷,通過創(chuàng)新霸權、平臺壟斷、制造需求等方式在多個領域施行了新型的對外經(jīng)濟掠奪方式(劉皓琰2021)。

數(shù)據(jù)是新時代重要的生產(chǎn)要素,是國家的基礎性戰(zhàn)略資源。數(shù)據(jù)安全已成為數(shù)字經(jīng)濟時代最緊迫和最基礎的安全問題,加強數(shù)據(jù)安全治理已成為維護國家安全和國家競爭力的戰(zhàn)略需要。在數(shù)字時代,數(shù)據(jù)的重要性無須贅述。隨著技術發(fā)展與數(shù)據(jù)量的爆發(fā)式增長,傳統(tǒng)數(shù)據(jù)管理模式和安全技術對大數(shù)據(jù)背景下層出不窮的數(shù)據(jù)安全問題的應對效力明顯不足。以數(shù)據(jù)為目標的網(wǎng)絡攻擊與犯罪不斷增長,個人隱私泄露、侵犯商業(yè)機密、威脅國家安全等數(shù)據(jù)安全風險貫穿數(shù)據(jù)生產(chǎn)、存儲、流動等各個環(huán)節(jié)。同時,數(shù)據(jù)的融合開放也使數(shù)據(jù)權屬關系復雜化,帶來數(shù)據(jù)濫用等系列法律風險與社會治理難題。

2021年,《數(shù)據(jù)安全法》《個人信息保護法》相繼頒布實施,配套的行政法規(guī)、部門規(guī)章和地方條例也在陸續(xù)制定,這表明數(shù)據(jù)安全進入了強監(jiān)管時代。但是目前來看,社會各界對于語言數(shù)據(jù)安全問題的認知亟待提升,對于語言數(shù)據(jù)安全的治理亟待加強。語言數(shù)據(jù)安全治理的總目標即推進語言數(shù)據(jù)安全治理體系和治理能力的現(xiàn)代化。語言數(shù)據(jù)安全治理體系建設,須在語言數(shù)據(jù)安全的價值、結構、功能、評估等幾個子體系上多做文章。在觀念上提升語言數(shù)據(jù)安全意識,樹立私利與公益相平衡的語言數(shù)據(jù)安全觀;在技術層面建構安全、可靠的語言數(shù)據(jù)環(huán)境;在方式上倡導法治、德治、自治、數(shù)治和智治的“五位一體”治理,明晰數(shù)智化治理的核心是規(guī)范數(shù)據(jù)權力和保障數(shù)據(jù)權利,提倡多元參與的協(xié)同化治理、大數(shù)據(jù)治理、動態(tài)化治理和平臺化治理;在體制機制上,重視數(shù)字政府的頂層設計,構建高層次跨領域跨部門的統(tǒng)籌協(xié)調(diào)機制,加強相關部門的數(shù)字化轉型,完善治理機制;在制度層面,應將語言數(shù)據(jù)主體,語言數(shù)據(jù)使用者的權利、義務、責任等明確界定,制定國家語言數(shù)據(jù)安全戰(zhàn)略、明確國家語言數(shù)據(jù)安全發(fā)展綱要,加快語言數(shù)據(jù)的確權定價、加強安全隱私的保護,加大語言數(shù)據(jù)開放共享、規(guī)范語言數(shù)據(jù)的收集使用,加快推進語言數(shù)據(jù)安全新基建、更好地釋放語言數(shù)據(jù)生產(chǎn)力。

在數(shù)據(jù)成為社會經(jīng)濟的基本資源的時代,數(shù)據(jù)的安全關系到從國家到個體的各個層面、從政治經(jīng)濟到外交軍事的各個領域,語言數(shù)據(jù)安全也是如此。學界目前針對數(shù)字社會的語言安全尤其是語言數(shù)據(jù)安全問題的研究尚處萌芽階段,亟待加強探索。在總體國家安全觀視野下,語言數(shù)據(jù)安全亟須增強意識、建構體系、強化能力、增進研究、提升保障,從而為總體國家安全系統(tǒng)的建構和完善貢獻力量。

參考文獻

白利芳,唐 剛,閆曉麗 2021 《數(shù)據(jù)安全治理研究及實踐》,《網(wǎng)絡安全和信息化》第2期。

陳 剛,謝佩宏 2020 《信息社會還是數(shù)字社會》,《學術界》第5期。

陳肇新 2021 《要素驅(qū)動的數(shù)據(jù)確權之法理證成》,《上海政法學院學報(法治論叢)》第4期。

戴曼純 2022 《數(shù)字時代的語言技術與語言保護:以歐洲為例》,《語言戰(zhàn)略研究》第4期。

邸子桓,呂明臣 2021 《語言類科研人員數(shù)據(jù)素養(yǎng)培育機制與策略研究》,《情報科學》第6期。

郭繼榮,楊 亮 2021 《國內(nèi)語言安全研究述評》,《情報雜志》第6期。

胡國華 2021 《數(shù)據(jù)安全治理實踐探索》,《信息安全研究》第10期。

黃海瑛 2018 《云環(huán)境下的“一帶一路”語言數(shù)據(jù)版權風險》,《圖書館論壇》第7期。

姜國權,李一飛 2021 《數(shù)據(jù)迎接“一帶一路”發(fā)展新挑戰(zhàn)》,《中國社會科學報》10月13日第002版。

李曉偉,吳 迎,鄒 彧,等 2021 《數(shù)據(jù)安全治理體系與技術研究》,《信息通信技術與政策》第8期。

李宇明 2014 《喚起全社會的語言意識——序〈中國語言生活狀況報告(2013)〉》,載教育部語言文字信息管理司組編,《中國語言生活狀況報告(2013)》,北京:商務印書館。

李宇明 2018 《語言學是一個學科群》,《語言戰(zhàn)略研究》第1期。

李宇明 2020a 《語言數(shù)據(jù)是信息時代的生產(chǎn)要素》,《光明日報》7月4日第12版。

李宇明 2020b 《數(shù)據(jù)時代與語言產(chǎn)業(yè)》,《山東師范大學學報(社會科學版)》第5期。

李宇明 2021a 《邊境語言的“睦鄰戍邊”作用》,《中國社會科學報》7月9日第A04版。

李宇明 2021b 《應急語言服務的任務及其落實》,“中國語言服務40人論壇”年度論壇(2021)發(fā)言,“應急語言服務”微信公眾號,https://mp.weixin.qq.com/s/g6IkwiXJFZssrH_Vg8Sc4g。

李宇明,郭風嵐 2012 《重視海疆地名研究,維護國家海洋權益》,中國國家安全論壇,北京,11月18日。

李宇明,王春輝 2022 《從數(shù)據(jù)到語言數(shù)據(jù)》,《語言戰(zhàn)略研究》第4期。

李躍忠 2021 《淺談大數(shù)據(jù)時代背景下的數(shù)據(jù)安全治理》,《中國信息化》第4期。

聯(lián)合國 2021 《“數(shù)字經(jīng)濟報告2021”跨境數(shù)據(jù)流動與發(fā)展:數(shù)據(jù)為誰流動》,聯(lián)合國貿(mào)易和發(fā)展會議,https://unctad.org/system/files/official-document/der2021_overview_ch.pdf。

梁秀波,吳俊涵,趙 昱,等 2022 《區(qū)塊鏈數(shù)據(jù)安全管理和隱私保護技術研究綜述》,《浙江大學學報(工學版)》第1期。

劉邦凡,臧梓健 2021 《我國數(shù)據(jù)安全治理研究(2015—2020):主題與演進趨勢》,《通信技術》第9期。

劉皓琰 2021 《數(shù)據(jù)霸權與數(shù)字帝國主義的新型掠奪》,《當代經(jīng)濟研究》第2期。

馬其家,李曉楠 2021 《論我國數(shù)據(jù)跨境流動監(jiān)管規(guī)則的構建》,《法制研究》第1期。

喬全生 待刊 《論漢語方言歷史文獻集成及其重要作用》。

闕天舒,王子玥 2022 《數(shù)字經(jīng)濟時代的全球數(shù)據(jù)安全治理與中國策略》,《國際安全研究》第1期。

賽迪智庫網(wǎng)絡安全研究所 2021 《數(shù)據(jù)安全治理白皮書》,https://docs.qq.com/pdf/DUGZTeUxtWE9lRWtw。

邵晶晶,韓曉峰 2021 《國內(nèi)外數(shù)據(jù)安全治理現(xiàn)狀綜述》,《信息安全研究》第10期。

世界銀行 2021 《〈2021年世界發(fā)展報告:讓數(shù)據(jù)創(chuàng)造更好生活〉概述》,https://www.worldbank.org/en/publication/wdr2021。

數(shù)據(jù)安全治理專業(yè)委員會 2021 《數(shù)據(jù)安全治理白皮書3.0》,https://view.inews.qq.com/a/20210815A06NCS00。

孫方江 2021 《跨境數(shù)據(jù)流動:數(shù)字經(jīng)濟下的全球博弈與中國選擇》,《西南金融》第1期。

孫宏開,黃 行 2018 《語言識別》,《語言戰(zhàn)略研究》第2期。

王春輝 2016 《當代世界的語言格局》,《語言戰(zhàn)略研究》第4期。

王春輝 2021a 《學科建構視角下的語言治理研究》,《陜西師范大學學報(哲學社會科學版)》第6期。

王春輝 2021b 《語言文字 國之大事》,《語言文字報》12月22日第02版。

王春輝,高 莉 2009 《因特網(wǎng)上的語言多樣性問題》,《語言文字應用》第2期。

吳俊宇 2021 《新規(guī)之下,大數(shù)據(jù)走的每一步,都得是安全路》,《財經(jīng)》,https://view.inews.qq.com/a/20211206A0ABCD00。

吳振豪,高健博,李青山,等 2021 《數(shù)據(jù)安全治理中的安全技術研究》,《信息安全研究》第10期。

伊萊恩·卡斯凱特 2020 《網(wǎng)上遺產(chǎn):被數(shù)字時代重新定義的死亡、記憶與愛》,張淼譯,福州:海峽文藝出版社。

張 婕,郭 印 2020 《基于大數(shù)據(jù)語言實驗平臺的隱私安全研究》,《數(shù)據(jù)與計算發(fā)展前沿》第6期。

中國電子信息產(chǎn)業(yè)發(fā)展研究院 2019 《數(shù)據(jù)治理與數(shù)據(jù)安全》,北京:人民郵電出版社。

中國信息通信研究院安全研究所 2021 《數(shù)據(jù)安全技術與產(chǎn)業(yè)發(fā)展研究報告(2021)》,https://new.qq.com/omn/20220103/20220103A07SOJ00.html。

Chen, S. & A. Breivik. 2013. London: The British Academy.

Isard, A. 2020. Approaches to the anonymisation of sign language corpora. Proceedings of the 9th Workshop on the Representation and Processing of Sign Languages, 95–100, https://aclanthology.org/2020.signlang-1.15.pdf.

Rock, F. 2001. Policy and practice in the anonymisation of linguistic data. International Journal of Corpus Linguistics 6(1), 1–26.

Ruiz, R. 1984. Orientations in language planning. 8(2), 15–34.

Slaughter, M. J. & D. H. McCormick. 2021. Data is power: Washington needs to craft new rules for the digital age. 100(3), https://www.foreignaffairs.com/articles/united-states/2021-04-16/data-power-new-rules-digital-age.

責任編輯:魏曉明

黃海瑛(2018)、張婕和郭印(2020)是少有的討論過此論題的研究。

2019年11月,上海外國語大學成立語料庫研究院;2020年語料庫研究院新設語言數(shù)據(jù)科學與應用學科,研究方向主要為語言數(shù)據(jù)與語言研究、語言數(shù)據(jù)與翻譯研究、語言數(shù)據(jù)與智慧教育以及語言數(shù)據(jù)與人工智能。

2021年11月工業(yè)和信息化部印發(fā)的《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》列出了“金融大數(shù)據(jù)”“醫(yī)療大數(shù)據(jù)”等12種行業(yè)大數(shù)據(jù),本文所提的語言數(shù)據(jù)應該與之類似。

https://www.ethnologue.com/.

https://wals.info/.

https://opendata.pku.edu.cn/dataverse/clkb.

http://www.lap.uga.edu/.

http://obid.ancientbooks.cn/.

比如2022年4月,中共中央辦公廳、國務院辦公廳印發(fā)的《關于推進新時代古籍工作的意見》用專節(jié)論述了“推進古籍數(shù)字化”工作;2022年5月,中共中央辦公廳、國務院辦公廳印發(fā)了《關于推進實施國家文化數(shù)字化戰(zhàn)略的意見》,把推進實施國家文化數(shù)字化戰(zhàn)略列入重要議事日程。

可以參見李宇明(2021a)對于語言安全的劃分。

參見國家互聯(lián)網(wǎng)信息辦公室2021年發(fā)布的《網(wǎng)絡數(shù)據(jù)安全管理條例(征求意見稿)》的分級分類。

一個典型的例子是二戰(zhàn)期間美國用納瓦霍語作為通信密碼。

李宇明、郭風嵐(2012)曾較系統(tǒng)地論述過海疆地名規(guī)劃對于維護國家海洋權益的重要意義。

語言學者自建的語料庫可以歸入此類,比如汪涵個人籌建的湖南方言數(shù)據(jù)庫(https://www.sohu.com/a/22297965_115428)等。

比如使用微軟或搜狗輸入法而產(chǎn)生的個人語言數(shù)據(jù),公司一方面會利用大數(shù)據(jù)來改進輸入法效能,另一方面則可以根據(jù)每個人的用詞習慣進行詞頻調(diào)整。

相關的技術討論可參看戴曼純(2022)。

葉水送《若論文數(shù)據(jù)庫也遭美國“卡脖子”,中國如何應對?》,“知識分子”微信公眾號,2021年5月12日。https://mp.weixin.qq.com/s/mI27P3gOeDgrjC9d8N3X_w。

在這個過程中,區(qū)塊鏈等新興技術有望發(fā)揮重要作用。

https://www.cia.gov/the-world-factbook/.

2020年底通過的《刑法修正案》已經(jīng)對商業(yè)秘密的相關犯罪做了修正和補充,增補了“為境外的機構、組織、人員竊取、刺探、收買、非法提供商業(yè)秘密”的相關罪名,還有術語的修改,如“約定”改為了“保密義務”等。

更專業(yè)的分析可參看:吳振豪等(2021),許杰等(2021)。

參見中國高新網(wǎng):http://www.chinahightech.com/html/hotnews/yaowen/2021/1015/5613490.html。

參見工業(yè)和信息化部網(wǎng)絡安全產(chǎn)業(yè)發(fā)展中心網(wǎng):http://www.miitxxzx.org.cn/art/2022/1/14/art_33_1801.html。

報告全文參見:https://www.kearney.com/web/global-business-policy-council/article/?/a/competing-in-an-age-of-digital-disorder。

參見:https://www.foreignaffairs.com/issues/2022/101/1。

主站蜘蛛池模板: 亚洲第一国产综合| 精品免费在线视频| 爱爱影院18禁免费| 亚洲日韩精品无码专区97| 伊人国产无码高清视频| 亚洲国产精品日韩av专区| 伊人久久大香线蕉影院| 亚洲国产成人无码AV在线影院L| 亚洲精品动漫| 天堂网国产| 97免费在线观看视频| 波多野一区| 国产精品99久久久久久董美香| 欧美日韩国产精品va| 精品福利国产| 日韩亚洲高清一区二区| 国产一级在线播放| 国产一区二区网站| 国产流白浆视频| 人妻中文久热无码丝袜| 91精品国产福利| 国产美女在线观看| 国产亚洲日韩av在线| 免费a在线观看播放| 欧美精品色视频| 在线观看欧美国产| 国产色婷婷| 精品少妇人妻一区二区| 97亚洲色综久久精品| 无码久看视频| 9啪在线视频| 在线观看国产一区二区三区99| 国内视频精品| 国产精品一区二区国产主播| 亚洲妓女综合网995久久| 99精品国产电影| 日韩资源站| 高清国产va日韩亚洲免费午夜电影| 99热这里只有成人精品国产| 97国产成人无码精品久久久| 国产另类视频| 婷婷综合色| 色精品视频| 欧美在线网| 91精品日韩人妻无码久久| 日韩午夜伦| 日韩视频福利| 亚洲另类国产欧美一区二区| 久久综合久久鬼| 国产成人区在线观看视频| 亚洲欧洲AV一区二区三区| 99热这里只有精品在线观看| 在线观看免费黄色网址| 人妻精品久久无码区| 欧美综合在线观看| 欧美精品不卡| 久久青青草原亚洲av无码| 国产一区自拍视频| 精品一區二區久久久久久久網站 | 欧美一区中文字幕| www.99在线观看| 精品剧情v国产在线观看| 国产午夜精品鲁丝片| 国产成人精品无码一区二| 国内精自线i品一区202| 国产丝袜无码一区二区视频| 日本精品视频| 免费一看一级毛片| 狠狠色丁香婷婷| 高清免费毛片| 久久香蕉国产线| 伊人激情久久综合中文字幕| 激情爆乳一区二区| 欧美国产日本高清不卡| 97在线免费| 久草视频精品| 国产在线欧美| 午夜爽爽视频| 亚洲黄网视频| 无码中文AⅤ在线观看| 中文字幕亚洲无线码一区女同| 国产欧美在线观看一区|