999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

國家“語料庫”全解析

2012-12-29 00:00:00張靜
瞭望東方周刊 2012年32期


  “國家語委前排的二層小樓簡直就成了軍事基地,誰都不能隨便進入,錄入工作是由解放軍二炮某部完成的。錄入進來的字詞,又人工校對了7遍。”
  2012年7月25日,國家語言資源監(jiān)測與研究中心平面媒體分中心、北京語言大學、中國新聞技術工作者聯(lián)合會、中國中文信息學會聯(lián)合發(fā)布“2012年春夏季中國報紙流行語”。“神舟九號”位居綜合類流行語第一,其他進入前十的流行語是:明膠、黃巖島、倫敦奧運會、穆巴拉克、小微企業(yè)、歐洲杯、學雷鋒、農業(yè)科技和舌尖上的中國。
  2005年,教育部語言文字信息管理司和國內一些高校聯(lián)合建設了國家語言資源監(jiān)測與研究中心,上述平面媒體分中心的主要任務是建設平面媒體動態(tài)流通語料庫,自2001年開始,每年根據(jù)“發(fā)行量、發(fā)行地域、發(fā)行周期、媒體價值、閱讀率”等因素,選擇15種網絡版報紙內容作為語料庫的采集源,目前已形成了近30億字的“國家語言資源監(jiān)測語料庫”。
  利用監(jiān)測語料庫,國家語言資源監(jiān)測與研究中心從2005年開始發(fā)布中國語言生活狀況報告、年度流行語和年度新詞。
  “上述工作就是在網絡上搜集上億字的資源,分領域抓文本,看詞語集,做交集,按時間段跟蹤,測算詞語使用頻率并解釋其背后的經濟社會文化背景。”原教育部語言文字應用研究所副所長、國家語委語言文字規(guī)范標準測查認證中心主任靳光瑾告訴《瞭望東方周刊》。
  “我們這個時代已經進入到語料庫時代,也就是用電子形式保存的真實語言材料將作為對一個時代的記錄而被保存。”北京語言大學黨委書記、原教育部語言文字信息管理司司長李宇明在接受《瞭望東方周刊》采訪時,總結說。
  國家語料庫依據(jù)什么來選擇語言原材料,它又究竟為我們的時代保存了些什么?改革開放后的語料占50%
  “監(jiān)測語料庫是動態(tài)的,其基礎來自‘現(xiàn)代漢語平衡語料庫’,兩個語料庫的研究重點不一樣。”教育部語言文字應用研究所計算語言學研究室主任肖航告訴《瞭望東方周刊》,奠定我國語料庫基本模式的是由國家語言文字工作委員會牽頭、上世紀90年代初開始研發(fā)、歷時十年、反映中國20世紀現(xiàn)代漢語整體發(fā)展情況的現(xiàn)代漢語平衡語料庫。
  世界上第一個標準語料庫是1961年建立的美國Brown語料庫,隨著各國對語言作為一種國家資源的認識的深化,各國政府和學術機構都開始投資建設大型語料庫。1980年到1993年,歐美國家建設有超過50個語料庫并投入使用。
  上世紀90年代初期,隨著計算機技術在中國興起,國家語委于1992年12月提出建設現(xiàn)代漢語語料庫項目。
  “語言的邊界非常大,不斷新陳代謝,很難把握它,這樣大的整體怎么去調查分析。”肖航介紹說,國家語委最后決定按照國際標準采用小樣本抽樣的方法來建語料庫,“小樣本,大樣本量,盡可能多地搜集原材料,單一來源則不能太多”。
  1992年4月,國家語委召開現(xiàn)代漢語語料庫選材原則專家論證會,1993年1月制訂出選材原則。“因為要反映中國現(xiàn)代漢語的全貌,在選材上就要注重平衡性原則。抽樣要注意文體、時間和地區(qū)三個方面的平衡性。”李宇明說。
  “在語料的選擇上,要有別于專業(yè)性、地域性和純口語性。盡可能提高所選語料在采字、采詞和采義等方面的廣度。”肖航說。
  在語料的選材分類上,專家組最終定了3大分類:人文與社會科學類、自然科學類和綜合類,占比分別是50%、30%和20%,每一大類下又分了若干小類,樣本一共分布在37類里。這37類并不是一成不變的,進入21世紀后,信息技術和電子科技的研究成為后起之秀,37種分類也為這些新出現(xiàn)的科目做出調整,自然科學類調整較大,增加了信息技術等方面的分類。
  從時間看,語料庫將自1919年開始的現(xiàn)代漢語劃分為5個階段:1919~1925年,五四時期的白話文仍留有文言痕跡,這部分樣本只占總體的5%;1926年~1949年,白話文逐步脫離文言痕跡,現(xiàn)代漢語逐漸成熟,樣本約占15%;1950年~1965年,新中國的成立給社會生活帶來巨大變化,新詞新語大量涌現(xiàn),這時期的樣本約占25%;1966年~1976年,“文革”時期的許多詞語僅作為歷史詞語存在于現(xiàn)代漢語中,特殊時期的樣本量很小,只占5%;語料庫大部分的樣本量來自1977年以后,改革開放后,現(xiàn)代漢語有了新發(fā)展,這一時期的樣本量占到總體的50%。
  保持樣本平衡性
  從來源看,語言材料多選用政論性文章、新聞報道、各類文學藝術作品、科普讀物、通俗讀物、學術專論及各種應用文語體等現(xiàn)代漢語作品。樣本容量2000字,上下允許有500字的浮動。書籍的抽樣數(shù)量一般占全書字數(shù)的3%~5%,字數(shù)最多不超過10000字;報紙采用整版選用的方式,為了避免重復,不同報紙選用不同月份;刊物所選字數(shù)不超過5000字。
  對于2000字的樣本容量,肖航解釋說:“首先是因為同一個來源的樣本不要太多的原則,希望樣本選材來源更廣泛;第二,國際上一般規(guī)定采集樣本不能超過原材料內容的3%~5%,否則會構成侵犯版權。”
  據(jù)肖航介紹,文學作品采樣采用掐頭去尾的方法來保持樣本的平衡性,“掐頭去尾會破壞文本的流暢性,但字詞語法的采樣不受影響。文學層面的不通順跟語料庫研究意圖不沖突”。
  按照選材原則,國家語委將抽樣任務下發(fā)給北京語言大學、北京師范大學、中國人民大學等高校,從國家圖書館和高校圖書館一共抽取了4萬多個樣本,而這4萬多個樣本里,同樣一本文學作品可能還有3-5個版本。
  “一共找了多少本書可想而知。國際上對語料庫的兩大要求——大規(guī)模和真實性,在現(xiàn)代漢語平衡語料庫上體現(xiàn)得十分明顯。”肖航說。
  在堅持語料分布的平衡性原則上,曾經參與了選材原則專家論證會的國家語委咨詢委員會委員、教育部語言文字應用研究所研究員李行健深有體會。
  “比如,魯迅這樣一個大家,他的作品是現(xiàn)代漢語,但有很多文言的成分夾雜在里面,比較古奧,因此根據(jù)平衡性原則,語料庫要有來自魯迅作品的語料,但不宜過多。”李行健告訴《瞭望東方周刊》,“詩歌就不能當做一般的語料,因為這種文體太寬泛靈活,如果用詩歌體做樣本,會不符合研究現(xiàn)代漢語語法的原則。”
  “神馬”為什么沒收入
  按照平衡性原則采集回來的4萬多個樣本被稱為“生語料庫”,將其錄入進計算機進行加工也是一項大規(guī)模的工作。
  靳光瑾回憶說:“那個時候做語料庫真是傾全國之力。國家投入200萬元,采樣后沒有經過加工的生語料庫要一個字一個字地錄入計算機。國家語委前排的二層小樓簡直就成了軍事基地,誰都不能隨便進入,錄入工作是由解放軍二炮某部完成的。錄入進來的字詞,又人工校對了7遍。”
  1998年底,7000萬字的生語料庫建成。
  李宇明將生語料庫的真實性特點概括為“有見必錄”,“樣本原文中的錯別字也得收入,然后做上標記。生語料庫反映現(xiàn)代漢語用詞和語法的情況都沒有問題,但是它的用字情況并不能很好地反映真實面貌。”
  由于上世紀末我國的計算機字庫水平有限,僅有的6000多個字在收錄現(xiàn)代漢語方面遠遠不夠,所以在錄入時會把繁體字、異體字改換成相應的簡體字、正體字,有時還需要造字。
  “生語料庫”必須進一步加工成“熟語料庫”,才能發(fā)揮作用。國家語委遵循國外信息處理領域通用的語料庫加工方式,標注分詞和詞性,制定了《信息處理用詞類標記集規(guī)范》,以機助人校的方式加工,最后得出可供使用的5000萬字標注語料。
  據(jù)肖航介紹,2000年以后每年保持增加300萬字的速度更新語料,然后進行整體校對,目前在使用的語料庫校對數(shù)據(jù)僅更新到2003年。“2004年以后語料庫在新的環(huán)境下該怎么做,方向選擇上產生了搖擺。”
  “原來報刊是語言文字的最主要載體,現(xiàn)在都有了電子版本,有些語料甚至沒有印刷版,技術手段升級,語料選材可以做得更大,但2003年之后的語料采集量我們不敢加太多,加太多就壓掉了之前的語料比例,語料比例一旦輕易改變,平衡性就會受到影響。”肖航說。
  而靳光瑾認為,現(xiàn)代漢語平衡語料庫應該呈現(xiàn)一種動態(tài)更新的平衡。
  “每年應該有15%的新陳代謝,有新舊替換才能反映語言的發(fā)展,體現(xiàn)出語言的與時俱進,又不影響原來的詞頻和使用情況。”靳光瑾說。
  21世紀特別是近幾年出現(xiàn)的網絡語言,也在現(xiàn)代漢語平衡語料庫的收入范圍,但在語言整體里并不占很大比例。“網絡語言是小群體語言,跟語言普通的面貌不太一樣,雖然比較刺激眼球,實際上占語言整體總量比例并不大。”肖航說,語料庫會從博客、微博和論壇里采集語料資源,但網絡語言僅作為現(xiàn)代漢語整體情況的一個補充,不是重要組成部分。
  《現(xiàn)代漢語詞典》第六版的修訂也利用了語料庫查詢詞頻。至于“神馬”這類網絡通用詞語為何未被收入,李宇明解釋說:“詞典編纂要考慮定量分析,因為它在整個語料庫里的詞頻還沒達到一定分量,在平面媒體、嚴肅媒體用得較少,沒進入到我們民族的共同語言當中去,所以沒有收入。”
  從語料庫看詞語的生命力
  為詞典編纂和制定語言文字規(guī)范和標準服務,是現(xiàn)代漢語平衡語料庫的主要用途之
  李行健是《現(xiàn)代漢語規(guī)范詞典》的主編,他告訴本刊記者:“詞典收什么詞,如何選擇,要用語料庫先搞出一個詞表,再進行人工干預。語義和注釋都要用語料庫的資源。”
  語料庫建設完成后,其價值的充分體現(xiàn),還要看對這個龐大的語言倉庫如何進行人工干預。
  “語言就是記錄生活的,每個詞語都有一段故事,通過語料庫可以研究社會的現(xiàn)狀與發(fā)展趨勢。”李宇明說,“比如‘農民工’,在語料庫里搜索這個詞語就能看到它出現(xiàn)的時間,通過詞頻曲線圖就可以分析它在什么時期特別受到關注。”
  肖航向本刊記者展示了“改革開放”和“市場經濟”兩個詞匯的詞頻曲線圖。截取現(xiàn)代漢語平衡語料庫中1976年到2005年的《人民日報》等主要報紙上兩個詞匯的語料,按照每一萬字出現(xiàn)的詞語個數(shù)頻率做成了曲線圖。
  從曲線圖上可以看到,1976~1986年間,兩個詞語的詞頻在起步階段。“改革開放”從1985年出現(xiàn)在《人民日報》上,1986年開始呈明顯上升趨勢,而“市場經濟”曲線仍舊平緩,直到1992年兩個詞語的詞頻猛然上升,最高峰時“改革開放”在主要報紙上每萬字中就出現(xiàn)了3.7767次。
  肖航解釋了詞頻變化的兩個原因:“一是詞匯所代表的話題本身的活躍性對詞頻分布造成決定性的影響;二是報紙內容中心的變化、報紙內容范圍擴展也會對詞頻分布造成大的影響。例如,報紙內容范圍擴大,某一領域所占的比例自然降低,領域詞匯所占的比例也就相應下降。”
  “通過語料庫研究社會語言的變化,可以看出詞語是有生命的。有的詞語在解放前死了,解放后又活了,而活了的意義可能會不一樣。很多新詞新語,字還是那個字,意思卻變了。比如蓋帽子的‘蓋’,作為字古已有之,但‘蓋帽子’的意思卻是‘文革’時出現(xiàn)的。”靳光瑾說。
  類似的例子還有許多稱呼用詞,改革開放初期,年輕女子都愿意被稱作小姐,而當下小姐這個詞又被社會默認為與性從業(yè)人員發(fā)生了關聯(lián)。肖航說:“而和‘小姐’同一時期的‘公子’則一直沒有回到生活中,一個原因是因為其他詞語能夠代替表達它的意思。”
  相對于現(xiàn)代漢語平衡語料庫,功能是監(jiān)測當下語言生活的“監(jiān)測語料庫”采用更鮮活的抽樣原則,這個庫里的詞語“活在當下”。以檢測語料庫為基礎的中國語言生活狀況報告,除了年度流行語、年度新詞等已經公布的信息以外,還向有關部門提供了諸如人名表、地名表、省市排行榜、單位排行榜、科技排行榜等參考資料。
  “語料庫對于中國的各個部門了解中國語言的現(xiàn)狀,是個可持續(xù)的開發(fā)資源。”李宇明說。
  用方言做軍事密碼
  “某些國家的軍事組織隨時都在監(jiān)測全世界的網絡語言,哪個國家的哪些詞匯使用頻率一旦猛增,他們就會分析并預測這個國家發(fā)生了哪種狀況。例如,2006年化妝品品牌SK-Ⅱ在網絡的使用詞頻猛增,不久后,SK-Ⅱ化妝品檢測出鉻和釹的新聞使得其暫時退出中國市場。”靳光瑾舉例說。
  “我們的監(jiān)測語料庫目前也承擔了網絡輿情分析的功能,”李宇明說,“語料庫的發(fā)展,對網絡安全是很重要的,網絡安全涉及金融、軍事和信息戰(zhàn)略安全。中國要壯大自己的網絡力量,沒有語料庫是不可能的。”
  “但我國現(xiàn)在的語料庫發(fā)展水平還不夠,計算機處理語言的能力還不夠,目前所用的‘關鍵詞技術’是一種比較落后的技術,把很多有用的信息都堵掉了。幫助計算機正確理解語言,自動進行語料知識挖掘,提高自動翻譯水平,才能提高國家信息化的能力。”李宇明說,“發(fā)達國家雖然掌握了語料庫的核心技術,但我們有我們的優(yōu)越性,那就是漢語和中國其他少數(shù)民族語言的獨特性。我們自己研發(fā)了錄入漢字和少數(shù)民族文字的技術,外國人搞不懂。”
  靳光瑾指出,進入21世紀,互聯(lián)網上的海量文本一方面為語言處理提供了巨大需求,一方面又提供了語言處理的真實訓練和測試數(shù)據(jù)。我國自上世紀90年代初就開始進行中文分詞的研究工作,但至今還未開發(fā)出一個像日語分詞系統(tǒng)那樣被廣為接受的分詞標注系統(tǒng)。
  “在計算機語言處理技術層面,語料庫的詞性標注工作能起到訓練機器學習自動標注的作用。”靳光瑾說。
  語料庫不僅能在文本上助力信息技術的提升,國家語委在2008年啟動建設的“中國語言資源有聲數(shù)據(jù)庫”還可以利用聲音在保衛(wèi)國家安全方面發(fā)力。
  有聲數(shù)據(jù)庫采集的是中國各少數(shù)民族語言及方言的有聲資料,在進行科學的整理和加工后,除了發(fā)揮保護中華各民族語言文化遺產的功能外,還可用作軍事密碼,有利于國家安全。
  李宇明說:“電影《風語者》中,美國人在二戰(zhàn)的時候用印第安語做軍事密碼,日本人怎么都破譯不了。當年在戰(zhàn)場上,我們國家也曾用溫州話做過密碼。未來計算機破解密碼的能力非常強大,保密要求越來越高。我國有這么多民族語言和方言,通過分析和加工,可以成為保衛(wèi)國家安全的工具,也可為公安系統(tǒng)破案提供幫助,犯罪嫌疑人的聲音或用語在語料庫和有聲數(shù)據(jù)庫里一對比就能縮小搜索范圍,特別是在反恐緝毒這些領域會很有幫助

主站蜘蛛池模板: 黄色网站不卡无码| 亚洲天堂视频在线观看免费| 啪啪国产视频| 毛片在线播放a| 美女国内精品自产拍在线播放| 久久久久久尹人网香蕉| 久久公开视频| 超薄丝袜足j国产在线视频| 欧美啪啪一区| 99这里精品| 99在线观看精品视频| 日韩精品毛片人妻AV不卡| 国产超碰在线观看| 中文字幕伦视频| 精品国产网| 精品一区二区三区水蜜桃| 欧美在线伊人| 992tv国产人成在线观看| 久久人人97超碰人人澡爱香蕉 | 99视频全部免费| 日韩国产高清无码| 欧美日韩另类在线| 免费国产好深啊好涨好硬视频| 97人人模人人爽人人喊小说| 国产精品自在自线免费观看| 亚洲欧洲日本在线| 中文字幕免费播放| 亚洲成a人在线播放www| 色综合热无码热国产| 亚洲欧美激情另类| 亚洲天堂色色人体| 福利片91| 尤物亚洲最大AV无码网站| 国产精品美女免费视频大全| 伊人色天堂| 日韩精品久久久久久久电影蜜臀| 国产第一页免费浮力影院| 国产精品夜夜嗨视频免费视频| 欧洲亚洲一区| 亚洲精品777| 婷婷综合色| 亚洲五月激情网| 中文毛片无遮挡播放免费| 女人一级毛片| 亚洲日韩在线满18点击进入| 欧美激情视频一区| 狠狠干综合| 国产91丝袜在线播放动漫| 国产国产人成免费视频77777| 国产幂在线无码精品| AV天堂资源福利在线观看| 国产无码精品在线播放| 国产视频大全| 久久人妻系列无码一区| 丝袜美女被出水视频一区| 日韩无码白| 国产9191精品免费观看| 日韩欧美高清视频| 亚洲AV无码不卡无码| 九色91在线视频| 成人福利在线免费观看| 欧美劲爆第一页| 91福利片| 五月婷婷欧美| 青青青国产在线播放| 波多野结衣亚洲一区| 亚洲国产天堂在线观看| 在线免费a视频| 波多野结衣中文字幕久久| 第一区免费在线观看| 国产99视频精品免费观看9e| 亚洲精品免费网站| 99这里只有精品免费视频| 91成人精品视频| 亚洲久悠悠色悠在线播放| 久久精品午夜视频| 日本在线国产| 国内熟女少妇一线天| 精品国产免费人成在线观看| 黄网站欧美内射| 麻豆精品视频在线原创| 国产精品自在在线午夜区app|