999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

略談辭書編纂中人工智能技術(shù)的應(yīng)用

2018-03-27 21:44:50張國強(qiáng)
出版與印刷 2018年4期
關(guān)鍵詞:數(shù)據(jù)庫人工智能文本

張國強(qiáng)

辭書編纂需要處理的信息量大,故而對(duì)善于數(shù)據(jù)處理的計(jì)算機(jī)技術(shù)有著迫切需求。

目前,計(jì)算機(jī)技術(shù)處理數(shù)據(jù)的能力和表現(xiàn)形式,已經(jīng)從依靠“蠻力”發(fā)展到了智能時(shí)代。這里所謂的“蠻力”,指的是計(jì)算機(jī)能以極快的計(jì)算速度作檢索、比對(duì)、處理等,但這種檢索、比對(duì)、處理尚處于一種初級(jí)階段,僅是作“機(jī)械”處理,而基本不涉及“智能”的范疇;而所謂的“智能”,則是指計(jì)算機(jī)利用高速的運(yùn)算能力,具有初步的理解、分析、判斷、推理等能力,即計(jì)算機(jī)能夠“模擬類似于人類的某些智能活動(dòng)和功能”[1]1558。

相應(yīng)地,計(jì)算機(jī)技術(shù)在辭書編纂中的運(yùn)用,也應(yīng)當(dāng)從借助于“蠻力”的階段進(jìn)入依賴于智能的階段。

一、計(jì)算機(jī)數(shù)據(jù)庫技術(shù)大大提高了辭書編纂的效率

回顧一下不太久遠(yuǎn)的歷史,我們可以清楚地了解到,借助于計(jì)算機(jī)的“蠻力”,我們利用計(jì)算機(jī)技術(shù)尤其是數(shù)據(jù)庫技術(shù),使辭書編纂的效率得到了前所未有的提高。筆者十幾年前曾寫《數(shù)據(jù)庫化的辭書編纂》一文,提到利用數(shù)據(jù)庫技術(shù)來提高辭書編纂效率的設(shè)想,包括“在辭書編纂中充分運(yùn)用數(shù)據(jù)庫技術(shù),根據(jù)辭書的性質(zhì)和辭書編纂工藝的特點(diǎn),將詞目、對(duì)應(yīng)外文、注音、釋文、作者、資料來源等有關(guān)信息有組織地存入數(shù)據(jù)庫內(nèi),利用數(shù)據(jù)庫技術(shù)檢索信息快捷、數(shù)據(jù)冗余度低、可避免數(shù)據(jù)的不一致性等特點(diǎn),對(duì)諸如內(nèi)容編寫、匯總合并、參見核查、交叉處理、數(shù)據(jù)檢索、瀏覽修訂、條目編排、索引制作等辭書編纂、出版中的有關(guān)信息進(jìn)行處理,目的是縮短辭書編纂周期,提高編纂效率,提升辭書質(zhì)量,減輕工作強(qiáng)度”[2]。

經(jīng)過努力,上述設(shè)想在辭書編纂實(shí)踐中不僅均已得到體現(xiàn),并且還有進(jìn)一步的發(fā)展。例如,目前正在使用的“《辭海》編纂系統(tǒng)”,除了可以實(shí)現(xiàn)上述應(yīng)用外,還在專項(xiàng)檢查等方面細(xì)化需求,提供了更多的功能,如“歷史紀(jì)年檢查”“參見落實(shí)檢查”“古今地名檢查”“成套詞檢查”“書證檢查”等。這些具體應(yīng)用或功能,不僅在目前《辭海》(第七版)以及其他專科詞典的編纂過程中取得了很好的效果,而且在可預(yù)見的未來,還將對(duì)辭書編纂效率的提高繼續(xù)起到積極而明顯的作用。

二、人工智能可使計(jì)算機(jī)技術(shù)在辭書編纂中的運(yùn)用進(jìn)入更高層面

“人工智能”也稱“計(jì)算機(jī)智能技術(shù)”,其定義目前尚有很多種,而據(jù)《辭海》“人工智能”條,這是指“研究用機(jī)器(主要指計(jì)算機(jī))模擬類似于人類的某些智能活動(dòng)和功能的學(xué)科。……主要研究:問題解決和演繹推理、學(xué)習(xí)和歸納過程、知識(shí)表征、語言處理、專家系統(tǒng)、智能機(jī)器人、自然程序編制等”[1]1558。通俗地說,人工智能“就是要讓機(jī)器的行為看起來就像是人所表現(xiàn)出的智能行為一樣”[3]。

智能時(shí)代的計(jì)算機(jī)技術(shù)能給辭書編纂帶來什么樣的變化呢?從辭書編纂的角度來講,哪些智能化應(yīng)用是應(yīng)當(dāng)留意或加以實(shí)現(xiàn)的呢?關(guān)注這些問題,對(duì)辭書編纂有十分重要的意義。

就“智能”而言,涉及的范圍非常廣,包括思維、意識(shí)、規(guī)劃等諸多艱深的領(lǐng)域。目前,人工智能技術(shù)主要體現(xiàn)在智能模擬以及視覺識(shí)別、語音識(shí)別、運(yùn)動(dòng)控制等幾個(gè)方面,而與辭書編纂有比較密切關(guān)系的大致是智能模擬,包括自然語言處理、大數(shù)據(jù)處理、文本挖掘、知識(shí)發(fā)現(xiàn)、智能問答、自動(dòng)推理(包括規(guī)劃和決策)以及深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。

所謂“自然語言處理技術(shù)”,是指通過計(jì)算機(jī)技術(shù)來實(shí)現(xiàn)自然語言的理解和自然語言生成,以及大數(shù)據(jù)處理和文本挖掘。自然語言的理解包括內(nèi)容提取(含文本分類和聚類)等;自然語言生成包括內(nèi)容概括、自動(dòng)文摘等;大數(shù)據(jù)處理和文本挖掘則指利用合適的工具,對(duì)廣泛的異構(gòu)數(shù)據(jù)源進(jìn)行抽取與集成,進(jìn)而進(jìn)行技術(shù)分析,提取、推測出有價(jià)值的信息或知識(shí)。例如,利用自然語言處理技術(shù),我們可以在辭書編纂中的詞目選收、機(jī)器人撰稿、機(jī)器人問答等方面得到人工智能的幫助,取得單純依靠人力所不能獲得的信息、文本和速度等,從而在“獲得知識(shí)、使用知識(shí)、表示知識(shí)”(這也正是辭書應(yīng)該為讀者提供的功能)方面做出一番前人囿于技術(shù)而無法做到的事情。通過人工智能的運(yùn)用,我們可以使計(jì)算機(jī)技術(shù)在辭書編纂中的運(yùn)用進(jìn)入到一個(gè)更高的層面,展現(xiàn)出看似具有智能的行為。

三、人工智能技術(shù)在辭書編纂中的具體運(yùn)用

通過基于自然語言處理的文本分析技術(shù)等手段,人工智能技術(shù)可以在辭書編纂中實(shí)現(xiàn)如下應(yīng)用目標(biāo)。

1.提高辭書的詞目選收質(zhì)量

“詞目”是一部辭書的綱目。詞目選收是否合理,是決定辭書質(zhì)量的關(guān)鍵因素之一。從古至今,大概沒有一部辭書可以做到收詞不精而全書質(zhì)量較高的。辭書收詞是否精到,很重要的一點(diǎn)就是要把那些在特定收詞范圍之內(nèi)(如某種專科詞典所應(yīng)反映的某一學(xué)科范圍之內(nèi))的,并且使用頻度高(基本上也就是查閱頻度高,兩者間有著很大程度上的正相關(guān)關(guān)系)的詞語全部網(wǎng)羅。那么,如何做到這一點(diǎn)?傳統(tǒng)的做法是依靠人的經(jīng)驗(yàn)進(jìn)行人工判斷、選擇,但單純依靠人工難免有遺珠之憾,如一部著名的大型百科詞典就漏收了“出版社”“電視臺(tái)”“硬盤”“芯片”“論文”等重要詞目。

自然語言處理所用到的分詞技術(shù),可以較好地解決這一問題。

所謂“分詞技術(shù)”,就是利用計(jì)算機(jī)將句子“拆分”為“詞”的技術(shù)。由于中文不像西文那樣詞與詞之間有空格,因此中文的分詞是自然語言處理中的難點(diǎn)之一。然而,目前各種中文分詞技術(shù)取得了長足的進(jìn)步,已進(jìn)入到可以實(shí)際應(yīng)用的階段。利用日臻完善的分詞技術(shù),我們就可以進(jìn)行高頻詞語的統(tǒng)計(jì),從而在選取辭書詞目時(shí)做到對(duì)高頻詞語不遺漏。這在目前的辭書編纂中可以說是提高收詞質(zhì)量最有效的方法之一。

另外,通過對(duì)數(shù)據(jù)采集的范圍、時(shí)間等參數(shù)的設(shè)置,我們可對(duì)不同的情況進(jìn)行分析。如縮小采集數(shù)據(jù)的時(shí)間范圍,我們就可以收集到該段時(shí)間的“熱詞”,進(jìn)行甄別、分析后,決定是否要作為詞目收入。

2.加快詞條的編纂速度

在內(nèi)容快速迭代的互聯(lián)網(wǎng)時(shí)代,加快詞條編纂的速度,對(duì)辭書的競爭力有著舉足輕重的作用。要加快詞條編纂的速度,利用“撰稿機(jī)器人”來編纂某些類型的辭書條目,是一個(gè)有效的途徑。所謂“撰稿機(jī)器人”,就是根據(jù)一定的算法自動(dòng)生成稿件的計(jì)算機(jī)程序。目前,“撰稿機(jī)器人”已經(jīng)在財(cái)經(jīng)、體育方面的一些分支領(lǐng)域開始應(yīng)用,主要是完成相關(guān)新聞稿的寫作。如2015年9月,騰訊財(cái)經(jīng)就發(fā)布了由“新聞寫作機(jī)器人”在一分鐘內(nèi)生成的《8月CPI同比上漲2.0% 創(chuàng)12個(gè)月新高》新聞稿。類似的情況在國外發(fā)生得更早些,2014年就有報(bào)道宣稱“美聯(lián)社開始使用一種新聞書寫軟件代替人力,自動(dòng)撰寫有關(guān)公司財(cái)報(bào)的新聞”[4]。當(dāng)然,“撰稿機(jī)器人”目前還僅運(yùn)用于一些消息類的新聞稿寫作,在其他類型的新聞稿件(如人物專訪、事件背景深度挖掘報(bào)道等)寫作中尚不能作為主力擔(dān)綱。

辭書條目的體裁具有“格型性”特點(diǎn),恰恰與消息類新聞稿具有很多抽象意義上的相似性,如都具有一定的層次模式,都采用類似“倒金字塔”的結(jié)構(gòu),都有一定的必備元素及其表述格式,都采用注重客觀描述事實(shí)、很少帶有主觀評(píng)價(jià)和個(gè)人情感色彩的“政論語體”等。因此,利用自然語言處理中的自動(dòng)文摘系統(tǒng),研制、訓(xùn)練出符合辭書編纂基本要求的“撰稿機(jī)器人”來撰寫事實(shí)類條目(如事件條目、人物條目、機(jī)構(gòu)條目、天文地理客體條目、物件條目等)是完全可能的。目前在高校的碩士、博士論文中,有這方面的大量研究。如有的研究課題,就是主要針對(duì)互聯(lián)網(wǎng)上的事件網(wǎng)頁信息,開發(fā)一個(gè)完整的基于事件的多文檔自動(dòng)文摘系統(tǒng),該系統(tǒng)能夠自動(dòng)獲取事件內(nèi)容,并從互聯(lián)網(wǎng)上選取相關(guān)的事件信息,壓縮成事件的自動(dòng)文摘,提交給用戶。[5]自動(dòng)文摘通常具有的特點(diǎn)是:第一,能將原文的主題思想或中心內(nèi)容自動(dòng)提取出來。第二,自動(dòng)提取出來的文本具有概括性、客觀性、可理解性和可讀性。第三,可適用于多個(gè)領(lǐng)域。這與我們編寫事實(shí)類辭書條目的做法是多么相近。因此,假以時(shí)日,專門用于辭書編纂的“撰稿機(jī)器人”一定會(huì)面世。

3.提供豐富的知識(shí)服務(wù)手段

辭書本身就是一類專供查閱、釋疑解惑的工具圖書,其基本特點(diǎn)之一就是提供知識(shí)服務(wù)。與傳統(tǒng)的紙質(zhì)辭書相比,數(shù)據(jù)庫時(shí)代的數(shù)字化辭書所提供的這種知識(shí)服務(wù),借助數(shù)據(jù)庫、計(jì)算機(jī)等軟硬件,在知識(shí)檢索速度上有了飛速的提高,在檢索的便利性方面也有了極大的發(fā)展,尤其是支持通配符的組合查詢,使得基于結(jié)構(gòu)化查詢語言(SQL)的各種檢索條件幾乎都可得到滿足。

到智能時(shí)代,數(shù)字化辭書的知識(shí)服務(wù)又將有本質(zhì)性的拓展,知識(shí)服務(wù)的價(jià)值鏈可以延伸,形成“知識(shí)服務(wù)系統(tǒng)”。所謂“知識(shí)服務(wù)系統(tǒng)”,是指在某一知識(shí)領(lǐng)域,圍繞某一專題或知識(shí)點(diǎn),聚集相關(guān)知識(shí),形成知識(shí)節(jié)點(diǎn),為用戶提供較為系統(tǒng)、全面的知識(shí)。實(shí)際上,在“提供知識(shí)”這一點(diǎn)上,“知識(shí)服務(wù)系統(tǒng)”與傳統(tǒng)的辭書有著天然的一致性,只是在提供的方式、效率、范圍、深度等方面有差別。“知識(shí)服務(wù)系統(tǒng)”能夠提供的內(nèi)容更為豐富,提供的知識(shí)更為全面、系統(tǒng),呈現(xiàn)的方式更為靈活。比如,以“知識(shí)圖譜”的呈現(xiàn)方式可以描述各種概念、知識(shí)之間的語義關(guān)系。又如,與“語音識(shí)別系統(tǒng)”結(jié)合,則可開發(fā)出類似IOS系統(tǒng)中Siri這樣的智能問答機(jī)器人,能即時(shí)分析問題,并自動(dòng)匹配到最佳答案后反饋給用戶。

另外,結(jié)合自然語言處理技術(shù),開發(fā)精準(zhǔn)的搜索引擎也是題中應(yīng)有之意。例如,當(dāng)我們搜尋作為一個(gè)作家的“魯迅”時(shí),諸如“魯迅路儲(chǔ)蓄所”之類的弱相關(guān)信息就應(yīng)該放在搜索結(jié)果的末尾或直接屏蔽掉。采用“內(nèi)容動(dòng)態(tài)重組”技術(shù),則又可以根據(jù)用戶需要,將數(shù)據(jù)庫中的有關(guān)知識(shí)臨時(shí)組合,系統(tǒng)、全面、有層次地向用戶展示。

4.提供智能輔助編校系統(tǒng)

如前所述,我們在“《辭海》編纂系統(tǒng)”中已經(jīng)能夠完成諸如“歷史紀(jì)年檢查”“參見落實(shí)檢查”“古今地名檢查”“成套詞檢查”“書證檢查”等編校功能。但這些功能還是基于計(jì)算機(jī)的“蠻力”做簡單機(jī)械的匹配,尚未達(dá)到智能化階段。目前一些通用的校對(duì)軟件,“雖然可以通過采用大規(guī)模詞庫和重點(diǎn)詞監(jiān)控等技術(shù)對(duì)漢語文本中的常見錯(cuò)誤進(jìn)行審校,對(duì)文本審校起到較大的助益,在一定程度上降低了人工審校的工作量,但仍存在一些不足與局限性,集中表現(xiàn)在以下方面:(1)算法的局限性;(2)詞庫更新機(jī)制的局限性;(3)產(chǎn)品架構(gòu)的局限性”[6]。從人工智能的角度而言,未來的“智能輔助編校系統(tǒng)”應(yīng)該具備如下功能:在運(yùn)用大數(shù)據(jù)分析和自然語言處理、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等技術(shù)的基礎(chǔ)上,不僅通過比對(duì),也模仿人的推理邏輯,自動(dòng)發(fā)現(xiàn)文稿中字詞、語法、語義、常用數(shù)據(jù)、知識(shí)性甚至引文、格式、遵循相關(guān)技術(shù)標(biāo)準(zhǔn)方面的錯(cuò)誤,并提出修改建議。這從表現(xiàn)形式來看,與現(xiàn)在通用的校對(duì)軟件略有相似,但其背后是人工智能技術(shù)的支撐,因而功能應(yīng)當(dāng)更為強(qiáng)大、靈活(超越字詞校對(duì)的層次),效率更高,適應(yīng)性更強(qiáng)。

以上所述,主要是著眼人工智能技術(shù)運(yùn)用于辭書編纂的外部表現(xiàn)。還有一些人工智能技術(shù)的運(yùn)用將主要與辭書編纂內(nèi)在的(即后臺(tái)的)數(shù)據(jù)處理有關(guān),如非結(jié)構(gòu)化文本的動(dòng)態(tài)標(biāo)注、圖像識(shí)別等,因其對(duì)辭書編纂的影響不是那么顯性地面向編輯或用戶,此處姑且從略。

四、結(jié)語

辭書編纂需處理的信息繁復(fù),因而對(duì)以數(shù)據(jù)處理見長的計(jì)算機(jī)技術(shù)有著天然的需求。借助自然語言處理、大數(shù)據(jù)處理、文本挖掘以及深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù),可以使計(jì)算機(jī)技術(shù)在辭書編纂中的運(yùn)用進(jìn)入到一個(gè)更高的層面,實(shí)現(xiàn)提高辭書詞目選收質(zhì)量、加快辭書編纂速度、豐富辭書服務(wù)手段、形成更多編纂工具等應(yīng)用目標(biāo)。這對(duì)辭書編纂的實(shí)踐、理論、產(chǎn)品乃至用戶都會(huì)產(chǎn)生深遠(yuǎn)的影響。

當(dāng)然,與數(shù)據(jù)庫技術(shù)不同,人工智能技術(shù)目前仍處于起步階段,其發(fā)展路徑、技術(shù)突破、影響的范圍及深度目前還難以預(yù)測或精確把握。因此,其對(duì)辭書編纂的影響也存在著很大的有待于進(jìn)一步探索的空間,需要有志于此的相關(guān)各方持續(xù)關(guān)注,使這一議題得到更具實(shí)效的討論,并在辭書編纂的具體應(yīng)用上開展更為有效的工作。

猜你喜歡
數(shù)據(jù)庫人工智能文本
在808DA上文本顯示的改善
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
數(shù)據(jù)庫
下一幕,人工智能!
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
主站蜘蛛池模板: 欧美国产日韩另类| 亚洲aⅴ天堂| 国产激情无码一区二区APP| 亚洲综合色区在线播放2019| 欧美一区二区人人喊爽| 国产三级毛片| 亚洲无线视频| 亚洲精品视频网| 最新亚洲av女人的天堂| 久久久噜噜噜| 亚洲视频一区在线| 日日摸夜夜爽无码| 日本91视频| 国产乱人伦AV在线A| 国产成人啪视频一区二区三区| 婷婷色一二三区波多野衣| www.精品国产| 亚洲视频免费在线| 久久久久人妻精品一区三寸蜜桃| 久久国产精品麻豆系列| 视频在线观看一区二区| 国产成人高清亚洲一区久久| 伊伊人成亚洲综合人网7777| 在线国产毛片| 国产小视频a在线观看| 亚洲国产成人精品无码区性色| 在线观看精品自拍视频| 亚洲欧美h| 亚洲无码高清视频在线观看 | 久草视频一区| 久久精品国产精品青草app| 国产国模一区二区三区四区| 一本大道东京热无码av| 在线观看91香蕉国产免费| 国产青榴视频| 丝袜亚洲综合| 亚洲国产中文综合专区在| 性喷潮久久久久久久久| 欧美在线一二区| 日本久久网站| 8090午夜无码专区| 99精品免费在线| 思思热精品在线8| 黄色网站不卡无码| 国产主播喷水| 久久精品最新免费国产成人| 婷婷午夜天| 制服丝袜一区| 国产精品一区二区久久精品无码| 久久婷婷五月综合色一区二区| 欧美午夜在线视频| 午夜影院a级片| 精品视频福利| 亚洲成a人片| 亚洲精品视频在线观看视频| 国产精品视频导航| 欧美人在线一区二区三区| 久青草免费在线视频| 精品国产成人a在线观看| 一级毛片在线播放免费观看| 91欧美在线| 丁香婷婷激情综合激情| 99热在线只有精品| 91小视频在线播放| 国产免费久久精品99re丫丫一| 久996视频精品免费观看| 亚洲国产成人自拍| 99精品国产高清一区二区| 国产天天射| 亚洲欧美一级一级a| 91破解版在线亚洲| 亚洲乱码在线播放| 日韩欧美成人高清在线观看| 亚洲国产日韩一区| 日韩在线第三页| 中文字幕永久在线看| 红杏AV在线无码| 日韩av无码精品专区| 无码内射在线| 欧美成人影院亚洲综合图| 无码AV日韩一二三区| 成人av手机在线观看|