999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析人工智能在辭書編纂中的應(yīng)用
——以收詞立目為例

2019-01-24 01:23:12
新聞傳播 2018年23期
關(guān)鍵詞:語義人工智能

(上海理工大學(xué) 上海 200093)

近年來,人工智能發(fā)展勢頭迅猛,對各行各業(yè)都產(chǎn)生了深遠(yuǎn)的影響,體現(xiàn)在辭書出版領(lǐng)域即人工智能技術(shù)在辭書編纂現(xiàn)代化中的應(yīng)用。眾所周知,傳統(tǒng)的辭書編纂是一項勞力費時的工作,動輒“十年磨一劍”。尤其是收詞立目,工作量巨大。因此,收詞立目的智能化對辭書編纂現(xiàn)代化至為關(guān)鍵。本文試圖對如何利用人工智能促進(jìn)收詞立目的智能化進(jìn)行初步探討。

一、收詞立目是辭書編纂的基礎(chǔ)

一部嚴(yán)肅編纂的辭書,基本上要經(jīng)歷“確定體例、收詞立目、編寫條目、編輯加工”等諸多知識創(chuàng)造的過程。新辭書的編纂體例確定之后,收詞立目就成了辭書編纂的基礎(chǔ)。《漢語大詞典》的編纂中,動用了華東地區(qū)五省一市的專家學(xué)者,從1萬多部典籍(報刊)中,制作了800多萬張資料卡片,才編寫出了5000萬字、37萬多條目的皇皇巨著。這1萬多部典籍(報刊)中,《新民晚報》《魯迅全集》《四庫全書》各算1種。

(一)資料的積累

實際上一些中小型辭書的編寫,是在作者平時資料的積累之上實現(xiàn)的。如王均熙先生的《漢語新詞詞典》,就是其積累了大量漢語新詞的資料后,開始了這一辭書的編寫。其編寫和修訂長達(dá)二三十年。

陳尚君先生在《我作〈辭海〉修訂》一文中也曾闡述,“1989版《辭海》,唐宋文學(xué)部分修訂費時在半年以上。此后幾次費時沒有這么多,因所涉問題已熟悉,且有長期關(guān)注積累。”

可見,收詞立目是傳統(tǒng)辭書編纂的重要一環(huán),也就是說,資料的積累是辭書編纂的基礎(chǔ)。

(二)收詞立目是知識含量巨大的工作

在辭書的編纂中,收詞立目是一項曠日持久、費力巨大的工作,也是知識含量巨大的工作。

如以《漢語大詞典》為例,從1萬多部典籍(報刊)中,制作了800多萬張資料卡片,平均每部典籍(報刊)約收錄了800張資料卡片。考慮到這些典籍中不乏《四庫全書》《四部備要》《四部叢刊》《二十四史》《全唐詩》《全宋詞》《魯迅全集》等叢書、類書、合集等,因此一部書平均只制作800張資料卡片——其圈詞率非常之低,所制作的資料卡片質(zhì)量極佳。這與《漢語大詞典》編纂初期,有大批被閑置的專家學(xué)者參與了《漢語大詞典》的編纂工作有關(guān)。他們淵博的知識極大地提高了這批資料卡片的質(zhì)量。在國家轉(zhuǎn)入四個現(xiàn)代化建設(shè)后,專家學(xué)者紛紛回到了自己的工作崗位上。現(xiàn)在如果再有類似項目,將無法召集如此多的專家學(xué)者參與其中。

二、計算機(jī)技術(shù)的應(yīng)用對收詞立目的幫助

計算機(jī)技術(shù)中漢字顯示技術(shù)、漢字輸入法、數(shù)據(jù)庫等技術(shù)的發(fā)展,極大地幫助了辭書編纂工作的數(shù)字化,推進(jìn)了辭書編纂現(xiàn)代化的發(fā)展。國內(nèi)多家出版社紛紛建立了各類辭書數(shù)據(jù)庫,編纂平臺的研究與應(yīng)用也十分火熱。尤其是計算機(jī)技術(shù)中統(tǒng)計與匹配技術(shù)的運用,解決了漢語詞語的切詞問題,使?jié)h語新詞的發(fā)現(xiàn)變得不費吹灰之力,從而解決了漢語新詞的收詞立目難題,極大地幫助了辭書編纂與修訂工作。

例:2004年復(fù)旦大學(xué)宋國梁老師在易文網(wǎng)演示的漢語新詞確認(rèn)原理

計算機(jī)技術(shù)解決漢語新詞的發(fā)現(xiàn)與確認(rèn),對于解決辭書編纂中新詞的例證收集與語義分析有很大的幫助,解決了新詞的收詞立目問題。然而對于辭書編纂中舊詞新義的發(fā)現(xiàn),以及漢語高頻詞如何能精選出有典型意義的例證,目前的實際發(fā)展情況仍然是困難重重。

三、語義理解的瓶頸下收詞立目的兩大難題

(一)難題一:舊詞新義的發(fā)現(xiàn)

舊詞新義主要有兩類。

一是舊詞中被遺漏的義項。

數(shù)千年傳承的中華民族文化博大精深,卷帙浩繁,在已經(jīng)編纂的辭書中遺漏一些不常用的義項,是很正常的事。在渺如煙海的典籍中檢索某個詞,檢索的結(jié)果可能會達(dá)數(shù)萬個,甚至數(shù)十萬個。這數(shù)萬、數(shù)十萬個用例中,有很多的義項都是相同的。從中找出被遺漏的義項,無疑是沙里淘金,需要花費大量的功夫。以前的這類工作,主要靠學(xué)者在平時的積累與發(fā)現(xiàn)。而面對浩繁的典籍,無法再用專家學(xué)者收詞立目時的傳統(tǒng)閱讀辨識方法進(jìn)行。

二是舊詞在新環(huán)境下產(chǎn)生的新義項、新的語法功能。

在語言的發(fā)展中,很多新的義項的表達(dá),往往采用舊詞賦以新義的方法來實現(xiàn)。由于目前的辭書編纂平臺中缺乏語義的辨析功能,因此還無法實現(xiàn)對這類舊詞新義的發(fā)現(xiàn)。

舊詞新義的發(fā)掘,是辭書編纂中,新辭書編纂和舊辭書修訂的一個重要部分。目前仍是靠個別專家學(xué)者日常閱讀中的發(fā)現(xiàn)進(jìn)行記錄保存。誠如陳尚君先生所言,只能靠“長期關(guān)注積累”。

(二)難題二:如何精選出高頻詞的經(jīng)典例證

高頻詞在語料庫中大量存在。編纂一部新的辭書,如果僅僅依靠對語料進(jìn)行切詞處理來解決高頻詞的義項和例證,一些高頻詞的數(shù)量將是成千上萬。篩選的工作將不堪之重。如副詞“的、地、得”,在語料庫中的數(shù)量非常多,篩選的工作量非常之大。

從目前來說,舊詞新義的發(fā)現(xiàn)以及如何精選出高頻詞的經(jīng)典例證,仍然是辭書編纂現(xiàn)代化中還沒有逾越的一個頑障,計算機(jī)語義理解的瓶頸阻礙了辭書編纂現(xiàn)代化的發(fā)展。

四、運用人工智能高效率解決收詞立目難題的可行性

與辭書出版界在詞匯的語義分析前躊躇不前相反,中文信息的計算機(jī)處理卻在高歌猛進(jìn)。2014年的中國計算機(jī)學(xué)會中文信息處理專業(yè)委員會的學(xué)生會員比賽中,已經(jīng)能對140字的微博進(jìn)行情感分析。因此運用中文信息處理的人工智能,將之與辭書編纂平臺技術(shù)相結(jié)合,可以高效率地解決收詞立目中舊詞新義的識別難題。

在辭書編纂現(xiàn)代化中,人工智能施展的舞臺極其廣闊。僅從收詞立目的角度來看,起碼可以在兩個方面著手,解決收詞立目的瓶頸問題。

(一)可以幫助發(fā)現(xiàn)舊詞新義

上面談到了在浩繁的典籍中,尋覓舊詞新義的難度在于對語義的分析。而在下面的工作流程中,添加了人工智能對語義的分析,就可以幫助實現(xiàn)舊詞新義的辨析。

上面的處理過程中,在完成詞庫匹配并確認(rèn)為一個詞時,智慧系統(tǒng)可以自動進(jìn)行該詞的資料卡片制作。

如果是初級的智慧系統(tǒng),在制作資料卡片時可以自動截取出現(xiàn)該詞部分的前80字和后80字(此處80字僅為舉例說明),并自動將這段文字中最早出現(xiàn)的表示句子完成的標(biāo)點符號(如句號、感嘆號、問號等)之前的文字和該標(biāo)點符號剔除,再剔除這段文字最后出現(xiàn)的表示句子完成的標(biāo)點符號之后的文字和符號。然后自動配上該文本的篇名、作者名、章節(jié)等基本信息,即完成了該詞的資料卡片制作。

如果是高級的智慧系統(tǒng),可以直接對該詞的前后文字進(jìn)行截取和分析,然后完成該詞資料卡片的制作。

完成資料卡片的制作后,智慧系統(tǒng)將自動進(jìn)行語義的辨析,隨后與已有的釋義庫進(jìn)行匹配比對。如果釋義庫已經(jīng)有了該項釋義,則該詞將被另行處理或直接放棄。如果釋義庫中沒有該詞(即匹配不合格),即呈送專家進(jìn)行人工干預(yù),確認(rèn)為舊詞新義后,歸入舊詞新義數(shù)據(jù)庫。

(二)可以解決高頻詞經(jīng)典例證的精選

之所以說辭書編纂過程中的圈詞是含金量非常高的工作,在于專家圈詞時可以自動將一些高頻詞的出現(xiàn)忽略,但同時對具備典型義項的高頻詞例證非常敏感,不會疏漏。這就對模仿人工智能的智慧系統(tǒng)提出了更高的要求:既要能自動篩選掉高頻詞中無典型語義的例證,又要能迅速抓取高頻詞中具有典型語義的例證。

上面的處理過程中,要求智慧系統(tǒng)能夠自動分析高頻詞在具體語境中的語義,然后自動與釋義庫該詞條下的所有義項進(jìn)行語義的匹配比對。如果釋義庫中已經(jīng)有了該項釋義,則該詞將被另行處理或直接放棄。而解決高頻詞義項的精選,正是“另行處理”中的一例。例如可以補(bǔ)充某個詞的某個義項的更早出處,或更典型的用例。

結(jié)語

在計算機(jī)技術(shù)的推動之下,辭書編纂的現(xiàn)代化已經(jīng)有了長足的發(fā)展。但應(yīng)該說,還沒有充分利用計算機(jī)學(xué)界已經(jīng)研發(fā)的新技術(shù)和新成果,導(dǎo)致在辭書編纂的某些環(huán)節(jié)中遇到了瓶頸,阻滯了辭書編纂現(xiàn)代化的進(jìn)程。而從本文的初步探討中,我們可以看到,充分運用人工智能技術(shù)對語料進(jìn)行語義的智能分析,從而突破舊詞新義的發(fā)現(xiàn)和高頻詞經(jīng)典例證精選的兩大難題,是切實可行的。可以說,人工智能是新時代背景下推進(jìn)辭書編纂現(xiàn)代化的最佳利器,其發(fā)展空間極為廣闊,有待業(yè)內(nèi)人士進(jìn)一步探索。

猜你喜歡
語義人工智能
我校新增“人工智能”本科專業(yè)
語言與語義
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
下一幕,人工智能!
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
“深+N季”組配的認(rèn)知語義分析
主站蜘蛛池模板: 国产成人一级| 亚洲欧美日本国产专区一区| 国产福利影院在线观看| 99精品福利视频| 毛片免费试看| 亚洲天堂网2014| 成人午夜网址| 亚洲欧洲日本在线| 欧美 国产 人人视频| 免费国产小视频在线观看| 精品亚洲欧美中文字幕在线看| 亚洲无码高清一区二区| 亚洲欧洲自拍拍偷午夜色| 欧美五月婷婷| 国内精品久久人妻无码大片高| 在线色综合| 四虎成人精品在永久免费| 热久久这里是精品6免费观看| 2020久久国产综合精品swag| 538国产视频| 亚洲国产亚洲综合在线尤物| 日韩少妇激情一区二区| 伊人久久久久久久| 大香网伊人久久综合网2020| 欧美日韩国产精品va| 美女啪啪无遮挡| 国产精品尹人在线观看| 国产va在线观看免费| 91精品啪在线观看国产| 亚洲色无码专线精品观看| 国产成人高清精品免费软件| 99久久这里只精品麻豆| 一级看片免费视频| 亚洲第一区在线| 国产情侣一区二区三区| 国产91精品久久| 亚洲天堂视频在线播放| 亚洲国产精品久久久久秋霞影院| 香蕉久久国产精品免| 91娇喘视频| 久久99蜜桃精品久久久久小说| 免费一看一级毛片| 少妇极品熟妇人妻专区视频| 日本黄色a视频| 国产理论一区| 99热最新网址| 97久久精品人人做人人爽| 毛片久久网站小视频| 999福利激情视频| 国产一在线观看| 澳门av无码| 久久人体视频| 在线观看网站国产| 伊人久久精品无码麻豆精品 | 99久久精品国产综合婷婷| 人妻一本久道久久综合久久鬼色| 久久久精品无码一二三区| 欧美日韩亚洲综合在线观看| 尤物在线观看乱码| 欧美三级不卡在线观看视频| 国产乱人视频免费观看| 亚洲第一成年网| 99久久无色码中文字幕| 国产无码精品在线播放| 欧美日韩另类国产| 四虎精品免费久久| 欧美国产菊爆免费观看| 精品91在线| 国产SUV精品一区二区6| 婷婷久久综合九色综合88| 最新日本中文字幕| 亚洲男女在线| 狠狠亚洲婷婷综合色香| 2022国产91精品久久久久久| 日韩国产高清无码| 青青草91视频| 亚洲区一区| 亚洲无码在线午夜电影| 欧美成人一区午夜福利在线| 人妻出轨无码中文一区二区| 国产在线精品香蕉麻豆| 青青青国产视频|