999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析人工智能在辭書編纂中的應(yīng)用
——以收詞立目為例

2019-01-24 01:23:12
新聞傳播 2018年23期
關(guān)鍵詞:語義人工智能

(上海理工大學(xué) 上海 200093)

近年來,人工智能發(fā)展勢頭迅猛,對各行各業(yè)都產(chǎn)生了深遠(yuǎn)的影響,體現(xiàn)在辭書出版領(lǐng)域即人工智能技術(shù)在辭書編纂現(xiàn)代化中的應(yīng)用。眾所周知,傳統(tǒng)的辭書編纂是一項勞力費時的工作,動輒“十年磨一劍”。尤其是收詞立目,工作量巨大。因此,收詞立目的智能化對辭書編纂現(xiàn)代化至為關(guān)鍵。本文試圖對如何利用人工智能促進(jìn)收詞立目的智能化進(jìn)行初步探討。

一、收詞立目是辭書編纂的基礎(chǔ)

一部嚴(yán)肅編纂的辭書,基本上要經(jīng)歷“確定體例、收詞立目、編寫條目、編輯加工”等諸多知識創(chuàng)造的過程。新辭書的編纂體例確定之后,收詞立目就成了辭書編纂的基礎(chǔ)。《漢語大詞典》的編纂中,動用了華東地區(qū)五省一市的專家學(xué)者,從1萬多部典籍(報刊)中,制作了800多萬張資料卡片,才編寫出了5000萬字、37萬多條目的皇皇巨著。這1萬多部典籍(報刊)中,《新民晚報》《魯迅全集》《四庫全書》各算1種。

(一)資料的積累

實際上一些中小型辭書的編寫,是在作者平時資料的積累之上實現(xiàn)的。如王均熙先生的《漢語新詞詞典》,就是其積累了大量漢語新詞的資料后,開始了這一辭書的編寫。其編寫和修訂長達(dá)二三十年。

陳尚君先生在《我作〈辭海〉修訂》一文中也曾闡述,“1989版《辭海》,唐宋文學(xué)部分修訂費時在半年以上。此后幾次費時沒有這么多,因所涉問題已熟悉,且有長期關(guān)注積累。”

可見,收詞立目是傳統(tǒng)辭書編纂的重要一環(huán),也就是說,資料的積累是辭書編纂的基礎(chǔ)。

(二)收詞立目是知識含量巨大的工作

在辭書的編纂中,收詞立目是一項曠日持久、費力巨大的工作,也是知識含量巨大的工作。

如以《漢語大詞典》為例,從1萬多部典籍(報刊)中,制作了800多萬張資料卡片,平均每部典籍(報刊)約收錄了800張資料卡片。考慮到這些典籍中不乏《四庫全書》《四部備要》《四部叢刊》《二十四史》《全唐詩》《全宋詞》《魯迅全集》等叢書、類書、合集等,因此一部書平均只制作800張資料卡片——其圈詞率非常之低,所制作的資料卡片質(zhì)量極佳。這與《漢語大詞典》編纂初期,有大批被閑置的專家學(xué)者參與了《漢語大詞典》的編纂工作有關(guān)。他們淵博的知識極大地提高了這批資料卡片的質(zhì)量。在國家轉(zhuǎn)入四個現(xiàn)代化建設(shè)后,專家學(xué)者紛紛回到了自己的工作崗位上。現(xiàn)在如果再有類似項目,將無法召集如此多的專家學(xué)者參與其中。

二、計算機(jī)技術(shù)的應(yīng)用對收詞立目的幫助

計算機(jī)技術(shù)中漢字顯示技術(shù)、漢字輸入法、數(shù)據(jù)庫等技術(shù)的發(fā)展,極大地幫助了辭書編纂工作的數(shù)字化,推進(jìn)了辭書編纂現(xiàn)代化的發(fā)展。國內(nèi)多家出版社紛紛建立了各類辭書數(shù)據(jù)庫,編纂平臺的研究與應(yīng)用也十分火熱。尤其是計算機(jī)技術(shù)中統(tǒng)計與匹配技術(shù)的運用,解決了漢語詞語的切詞問題,使?jié)h語新詞的發(fā)現(xiàn)變得不費吹灰之力,從而解決了漢語新詞的收詞立目難題,極大地幫助了辭書編纂與修訂工作。

例:2004年復(fù)旦大學(xué)宋國梁老師在易文網(wǎng)演示的漢語新詞確認(rèn)原理

計算機(jī)技術(shù)解決漢語新詞的發(fā)現(xiàn)與確認(rèn),對于解決辭書編纂中新詞的例證收集與語義分析有很大的幫助,解決了新詞的收詞立目問題。然而對于辭書編纂中舊詞新義的發(fā)現(xiàn),以及漢語高頻詞如何能精選出有典型意義的例證,目前的實際發(fā)展情況仍然是困難重重。

三、語義理解的瓶頸下收詞立目的兩大難題

(一)難題一:舊詞新義的發(fā)現(xiàn)

舊詞新義主要有兩類。

一是舊詞中被遺漏的義項。

數(shù)千年傳承的中華民族文化博大精深,卷帙浩繁,在已經(jīng)編纂的辭書中遺漏一些不常用的義項,是很正常的事。在渺如煙海的典籍中檢索某個詞,檢索的結(jié)果可能會達(dá)數(shù)萬個,甚至數(shù)十萬個。這數(shù)萬、數(shù)十萬個用例中,有很多的義項都是相同的。從中找出被遺漏的義項,無疑是沙里淘金,需要花費大量的功夫。以前的這類工作,主要靠學(xué)者在平時的積累與發(fā)現(xiàn)。而面對浩繁的典籍,無法再用專家學(xué)者收詞立目時的傳統(tǒng)閱讀辨識方法進(jìn)行。

二是舊詞在新環(huán)境下產(chǎn)生的新義項、新的語法功能。

在語言的發(fā)展中,很多新的義項的表達(dá),往往采用舊詞賦以新義的方法來實現(xiàn)。由于目前的辭書編纂平臺中缺乏語義的辨析功能,因此還無法實現(xiàn)對這類舊詞新義的發(fā)現(xiàn)。

舊詞新義的發(fā)掘,是辭書編纂中,新辭書編纂和舊辭書修訂的一個重要部分。目前仍是靠個別專家學(xué)者日常閱讀中的發(fā)現(xiàn)進(jìn)行記錄保存。誠如陳尚君先生所言,只能靠“長期關(guān)注積累”。

(二)難題二:如何精選出高頻詞的經(jīng)典例證

高頻詞在語料庫中大量存在。編纂一部新的辭書,如果僅僅依靠對語料進(jìn)行切詞處理來解決高頻詞的義項和例證,一些高頻詞的數(shù)量將是成千上萬。篩選的工作將不堪之重。如副詞“的、地、得”,在語料庫中的數(shù)量非常多,篩選的工作量非常之大。

從目前來說,舊詞新義的發(fā)現(xiàn)以及如何精選出高頻詞的經(jīng)典例證,仍然是辭書編纂現(xiàn)代化中還沒有逾越的一個頑障,計算機(jī)語義理解的瓶頸阻礙了辭書編纂現(xiàn)代化的發(fā)展。

四、運用人工智能高效率解決收詞立目難題的可行性

與辭書出版界在詞匯的語義分析前躊躇不前相反,中文信息的計算機(jī)處理卻在高歌猛進(jìn)。2014年的中國計算機(jī)學(xué)會中文信息處理專業(yè)委員會的學(xué)生會員比賽中,已經(jīng)能對140字的微博進(jìn)行情感分析。因此運用中文信息處理的人工智能,將之與辭書編纂平臺技術(shù)相結(jié)合,可以高效率地解決收詞立目中舊詞新義的識別難題。

在辭書編纂現(xiàn)代化中,人工智能施展的舞臺極其廣闊。僅從收詞立目的角度來看,起碼可以在兩個方面著手,解決收詞立目的瓶頸問題。

(一)可以幫助發(fā)現(xiàn)舊詞新義

上面談到了在浩繁的典籍中,尋覓舊詞新義的難度在于對語義的分析。而在下面的工作流程中,添加了人工智能對語義的分析,就可以幫助實現(xiàn)舊詞新義的辨析。

上面的處理過程中,在完成詞庫匹配并確認(rèn)為一個詞時,智慧系統(tǒng)可以自動進(jìn)行該詞的資料卡片制作。

如果是初級的智慧系統(tǒng),在制作資料卡片時可以自動截取出現(xiàn)該詞部分的前80字和后80字(此處80字僅為舉例說明),并自動將這段文字中最早出現(xiàn)的表示句子完成的標(biāo)點符號(如句號、感嘆號、問號等)之前的文字和該標(biāo)點符號剔除,再剔除這段文字最后出現(xiàn)的表示句子完成的標(biāo)點符號之后的文字和符號。然后自動配上該文本的篇名、作者名、章節(jié)等基本信息,即完成了該詞的資料卡片制作。

如果是高級的智慧系統(tǒng),可以直接對該詞的前后文字進(jìn)行截取和分析,然后完成該詞資料卡片的制作。

完成資料卡片的制作后,智慧系統(tǒng)將自動進(jìn)行語義的辨析,隨后與已有的釋義庫進(jìn)行匹配比對。如果釋義庫已經(jīng)有了該項釋義,則該詞將被另行處理或直接放棄。如果釋義庫中沒有該詞(即匹配不合格),即呈送專家進(jìn)行人工干預(yù),確認(rèn)為舊詞新義后,歸入舊詞新義數(shù)據(jù)庫。

(二)可以解決高頻詞經(jīng)典例證的精選

之所以說辭書編纂過程中的圈詞是含金量非常高的工作,在于專家圈詞時可以自動將一些高頻詞的出現(xiàn)忽略,但同時對具備典型義項的高頻詞例證非常敏感,不會疏漏。這就對模仿人工智能的智慧系統(tǒng)提出了更高的要求:既要能自動篩選掉高頻詞中無典型語義的例證,又要能迅速抓取高頻詞中具有典型語義的例證。

上面的處理過程中,要求智慧系統(tǒng)能夠自動分析高頻詞在具體語境中的語義,然后自動與釋義庫該詞條下的所有義項進(jìn)行語義的匹配比對。如果釋義庫中已經(jīng)有了該項釋義,則該詞將被另行處理或直接放棄。而解決高頻詞義項的精選,正是“另行處理”中的一例。例如可以補(bǔ)充某個詞的某個義項的更早出處,或更典型的用例。

結(jié)語

在計算機(jī)技術(shù)的推動之下,辭書編纂的現(xiàn)代化已經(jīng)有了長足的發(fā)展。但應(yīng)該說,還沒有充分利用計算機(jī)學(xué)界已經(jīng)研發(fā)的新技術(shù)和新成果,導(dǎo)致在辭書編纂的某些環(huán)節(jié)中遇到了瓶頸,阻滯了辭書編纂現(xiàn)代化的進(jìn)程。而從本文的初步探討中,我們可以看到,充分運用人工智能技術(shù)對語料進(jìn)行語義的智能分析,從而突破舊詞新義的發(fā)現(xiàn)和高頻詞經(jīng)典例證精選的兩大難題,是切實可行的。可以說,人工智能是新時代背景下推進(jìn)辭書編纂現(xiàn)代化的最佳利器,其發(fā)展空間極為廣闊,有待業(yè)內(nèi)人士進(jìn)一步探索。

猜你喜歡
語義人工智能
我校新增“人工智能”本科專業(yè)
語言與語義
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
下一幕,人工智能!
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
“深+N季”組配的認(rèn)知語義分析
主站蜘蛛池模板: 亚洲精品中文字幕无乱码| 亚洲二区视频| 亚洲无线视频| 国产噜噜噜视频在线观看 | 欧美特黄一级大黄录像| 国产丝袜啪啪| 成人午夜视频免费看欧美| 欧美一区二区三区不卡免费| 免费看美女自慰的网站| 无码啪啪精品天堂浪潮av| 999精品在线视频| 亚洲动漫h| 999精品视频在线| 亚洲国产综合精品一区| 色欲色欲久久综合网| av大片在线无码免费| 美女视频黄频a免费高清不卡| 在线看免费无码av天堂的| 激情网址在线观看| 欧美午夜在线播放| 欧美另类图片视频无弹跳第一页| 麻豆精品在线播放| 国产91高跟丝袜| 国产精品人人做人人爽人人添| 免费一看一级毛片| 97超级碰碰碰碰精品| 亚洲成a人在线播放www| 日本AⅤ精品一区二区三区日| 欧美午夜网| 日本精品影院| 中文字幕欧美日韩高清| 婷婷激情五月网| 日韩在线成年视频人网站观看| 成年女人a毛片免费视频| 亚洲av综合网| 国产91熟女高潮一区二区| 无码国内精品人妻少妇蜜桃视频| 亚洲女人在线| 99在线视频精品| 久久国产拍爱| 免费一级毛片| 色屁屁一区二区三区视频国产| …亚洲 欧洲 另类 春色| 国产精品一线天| 久久福利网| 欧美黄网站免费观看| 天天激情综合| 久久精品中文字幕免费| 国产凹凸视频在线观看| 91精品国产福利| 国产h视频免费观看| 久久亚洲日本不卡一区二区| 国产95在线 | 亚洲人成色在线观看| 在线看免费无码av天堂的| 国产在线观看高清不卡| 国产成人8x视频一区二区| 成人亚洲国产| 久久伊人操| 宅男噜噜噜66国产在线观看 | а∨天堂一区中文字幕| 亚洲女同一区二区| 国产精品第| 99这里只有精品在线| 在线无码av一区二区三区| 精品三级网站| 国产精品3p视频| 亚洲另类色| 女人爽到高潮免费视频大全| 免费高清a毛片| 97在线公开视频| 日韩东京热无码人妻| 国产精品浪潮Av| 久久综合色视频| 国产精品极品美女自在线| 欧洲熟妇精品视频| 国产综合色在线视频播放线视| 五月婷婷激情四射| 国产精品视频观看裸模| 亚洲三级视频在线观看| 日本午夜影院| 国产在线无码一区二区三区|