999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談針對明清小說文本的知識抽取方法

2020-05-21 16:23:24顧磊
科技視界 2020年10期
關(guān)鍵詞:文本方法模型

顧磊

摘 要

明清小說歷經(jīng)數(shù)百的流傳,已成為中華民族的文化瑰寶,而針對明清小說文本的知識抽取則是信息社會時代下古籍數(shù)字化研究的重要方式。本文首先介紹了文本知識抽取方法的研究現(xiàn)狀,其次就當前明清小說文本知識抽取方法研究中存在的問題進行了探討。

關(guān)鍵詞

小說文本;知識抽取;中文分詞;命名實體識別

中圖分類號: TP391.1? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A

DOI:10.19694/j.cnki.issn2095-2457 . 2020 . 10 . 04

0 引言

明清小說的作者多出生或生活在江浙皖一帶,與這一地區(qū)有著不解之緣。例如:《西游記》作者吳承恩江蘇漣水人,后定居在江蘇淮安;《儒林外史》作者吳敬梓安徽全椒人,后遷居至今日的江蘇南京;《三國演義》作者羅貫中則出生于浙江杭州。由于小說作者的生活背景,這些明清小說內(nèi)容多就地取材于當?shù)氐纳鐣睿从沉嗣髑鍟r期江浙皖地區(qū)的社會百態(tài),例如《紅樓夢》中的金陵指的就是江蘇南京。因此明清小說在中國文化史和文學史上有著極其重要的地位,作為一種文化藝術(shù)的形式存在,小說表達了當時的社會愿望,更傳播了積極向上的道德精神[1]。當今社會是互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能的時代,在這樣的時代背景下,如何利用智能技術(shù)進一步挖掘與研究這些小說的價值,并讓其煥發(fā)出新的生命力,將是古籍數(shù)字化工作者研究的新的挑戰(zhàn),而首要的任務(wù)就是抽取明清小說文本中的知識。文本知識的抽取是知識庫或知識圖譜構(gòu)建的基石,有利于搭建真正面向普通型用戶和專家型用戶的明清小說智能信息檢索平臺;而其意義不僅在于對中華文化的保護與弘揚,而且有助于為社會大眾提供信息咨詢及服務(wù)化功能。

1 文本知識抽取方法的研究現(xiàn)狀

明清小說多為電子文本形式,而文本中知識的抽取如圖1所示,主要分為:分詞與詞性標注、命名實體識別和實體間關(guān)系抽取等三個步驟。一個小說的電子文本先經(jīng)過分詞與詞性標注,形成標注后的文本,再從該標注文本中提取相關(guān)實體,即所謂的命名實體識別,依據(jù)上下文環(huán)境再找出實體間的相互關(guān)聯(lián),即關(guān)系抽取,最后以實體及實體間關(guān)系為基礎(chǔ),構(gòu)建小說知識庫。

首先,分詞與詞性標注是知識抽取的第一步。分詞是指將一個句子中的字符切分為詞的過程,而詞性標注則是為句中每個詞賦予一個詞性[2],分詞與詞性標注是中文信息處理的重要技術(shù)之一。傳統(tǒng)的分詞與詞性標注方法大致有三種,即基于詞典的方法,基于統(tǒng)計的方法和基于規(guī)則的方法[3]。例如:文獻[4]利用分詞詞典建立Hash表,并利用最大匹配算法進行中文分詞;文獻[5]提出了統(tǒng)計方法與詞典方法相結(jié)合的中文分詞方法,該方法具有較好的領(lǐng)域自適應性;而文獻[6]則利用統(tǒng)計和規(guī)則兩者結(jié)合來進行漢語語義分析,從而實現(xiàn)對詞語詞性的標注。其次,命名實體識別是知識抽取的第二步。命名實體識別的主要任務(wù)是從文本中將人名、地名、時間、年份等專有名稱和有意義的詞語找出并歸類[7]。傳統(tǒng)的命名實體識別方法多是基于統(tǒng)計學習的,例如:文獻[8]在分析詞語前綴、后綴以及其他組合的基礎(chǔ)上,利用條件隨機場來進行中文命名實體識別。文獻[9]提出了一種基于層疊條件隨機場模型的中文命名實體自動識別算法。最后,實體間關(guān)系的抽取是知識抽取的第三步。實體間關(guān)系抽取的目的是從語言文本中辨別出若干個實體間所存在的語義關(guān)系[10]。同樣地,傳統(tǒng)的實體間關(guān)系抽取依然是以統(tǒng)計學習方法為主,例如:文獻[11]將實體關(guān)系分為包含與非包含兩類,并利用條件隨機場模型進行關(guān)系的抽取。

近年來,隨著深度學習技術(shù)的迅速發(fā)展,基于深度學習的知識抽取方法逐漸有替代傳統(tǒng)方法的趨勢,各種基于深度神經(jīng)網(wǎng)絡(luò)模型的中文分詞與詞性標注方法、中文命名實體識別方法和實體間關(guān)系抽取方法層出不窮。這里僅以近三年的一些文獻中的方法為例。2017年,文獻[12]提出了一種用于中文分詞的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該模型的特點是以長短時記憶網(wǎng)絡(luò)作為模型的隱藏層;文獻[13]針對詞特征錯誤較多的問題,提出了字特征和詞特征相結(jié)合的深度學習模型,從而提高了中文命名實體識別的正確率;文獻[14]提出了一種適合多語言文本實體間關(guān)系抽取的神經(jīng)網(wǎng)絡(luò)模型,該模型是對基于單語言注意力機制的神經(jīng)網(wǎng)絡(luò)模型的改進和擴展。2018年,文獻[15]提出了一種簡單而有效的sequence-to-sequence長短時記憶神經(jīng)網(wǎng)絡(luò)模型,該模型在對中文文本進行分詞的同時,還可以進行詞性標注,屬于一種分詞與詞性標注聯(lián)合模型;文獻[16]探討了深度神經(jīng)網(wǎng)絡(luò)在片段級中文命名實體識別中的應用;文獻[17]提出了一種基于注意力機制的膠囊深度神經(jīng)網(wǎng)絡(luò)模型,并借助多示例和多標記學習方法來實現(xiàn)實體關(guān)系的抽取。2019年,文獻[18]針對雙向長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)處理中文分詞時輸入特征不夠豐富、語義不全等問題,提出了一種可用于中文分詞的膨脹卷積神經(jīng)網(wǎng)絡(luò)模型;文獻[19]提出了一種雙重對抗遷移神經(jīng)網(wǎng)絡(luò)模型,并用于命名實體識別中;文獻[20]提出了一種新的深度神經(jīng)網(wǎng)絡(luò)模型來實現(xiàn)端到端實體間關(guān)系抽取,而這種神經(jīng)網(wǎng)絡(luò)模型可以利用基于n-gram的注意力機制來獲取相互間有關(guān)聯(lián)的實體。

2 當前存在的問題

基于上節(jié)對文本知識抽取相關(guān)方法研究現(xiàn)狀的總結(jié),我們可以看出盡管當前知識抽取的研究如火如荼,但是針對明清小說文本的知識抽取研究仍然存在如下一些問題:

(1)明清小說中使用的語言多為古白話文,這與現(xiàn)代漢語有所不同,而當前的知識抽取方法或模型主要是以現(xiàn)代漢語文本作為語料庫或訓練樣本集的,并不能直接適用或完全適用于明清小說文本的處理上。

(2)基于明清小說語言模式的語料庫,即分詞語料庫、已標注詞性的語料庫、已標注命名實體的語料庫和實體關(guān)系語料庫,都比較少或都不夠成熟。構(gòu)建這些語料庫將會是今后研究的重點。

(3)當前的命名實體識別和實體間關(guān)系的抽取多針對結(jié)構(gòu)化或半結(jié)構(gòu)化文本數(shù)據(jù),而明清小說本文一般屬于非結(jié)構(gòu)化數(shù)據(jù),其處理的難度遠高于結(jié)構(gòu)化或半結(jié)構(gòu)化文本數(shù)據(jù),因此這將是今后文本知識抽取相關(guān)方法或模型的研究中面臨的巨大挑戰(zhàn)。

3 結(jié)論

針對明清小說文本的知識抽取研究還處于初級階段,缺少實用性和通用性強的方法或模型。如何借助當前現(xiàn)代漢語文本知識抽取方法研究的已有成果,將是相關(guān)工作的研究者們亟須解決的重要問題。相信隨著今后研究工作的深入展開,明清小說知識抽取方法上的豐碩成果定會為相關(guān)知識圖譜的構(gòu)建以及智能信息檢索平臺的搭建打下堅實的基礎(chǔ)。

參考文獻

[1]韓亮.淺析明清小說及其在中國文化歷史上的重要地位[J].商情,2017,(32):259.

[2]楊世超.古漢語分詞與詞性標注方法研究[D].華北理工大學,唐山,2018.

[3]梁喜濤,顧磊.中文分詞與詞性標注研究[J].計算機技術(shù)與發(fā)展,2015,(2):175-180.

[4]張海營.全二分快速自動分詞算法構(gòu)建[J].現(xiàn)代圖書情報技術(shù),2007,(4):52-55.

[5]張梅山,鄧知龍,車萬翔,等.統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應中文分詞[J].中文信息學報,2012,(2):8-12.

[6]陳小芳,張桂平,蔡東風,等.基于統(tǒng)計和規(guī)則相結(jié)合的漢語術(shù)語語義分析方法[C].第六屆全國信息檢索學術(shù)會議,黑龍江牡丹江,中國,2010:488-495.

[7]孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現(xiàn)代圖書情報技術(shù),2010,(6):42-47.

[8]Aaron L.F. Han, Derek F. Wong, Lidia S. Chao, Chinese named entity recognition with conditional random fields in the light of Chinese characteristics[C].Proceedings of Intelligent Information Systems Symposium, Warsaw, Poland, 2013:57-68.

[9]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機場模型的中文機構(gòu)名自動識別[J].電子學報,2006,(5):804-809.

[10]武文雅,陳鈺楓,徐金安,等.中文實體關(guān)系抽取研究綜述[J].計算機與現(xiàn)代化,2018,(8):21-27.

[11]黃鑫,朱巧明,錢龍華,等.基于特征組合的中文實體關(guān)系抽取[J].微電子學與計算機,2010,(4):198-200.

[12]胡婕,張俊馳.雙向循環(huán)網(wǎng)絡(luò)中文分詞模型[J].小型微型計算機系統(tǒng),2017,(3):522-526.

[13]張海楠,伍大勇,劉悅.基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別[J].中文信息學報,2017,(4):28-35.

[14]Yankai Lin, Zhiyuan Liu, Maosong Sun, Neural relation extraction with multi-lingual attention[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017:34-43.

[15]Meishan Zhan, Nan Yu, Guohong Fu, A simple and effective neural model for joint word segmentation and POS tagging[J].IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018,26(9): 1528-1538.

[16]王蕾,謝云,周俊生等,基于神經(jīng)網(wǎng)絡(luò)的片段級中文命名實體識別[J].中文信息學報,2018,(3):84-90.

[17]Ningyu Zhang, Shumin Deng, Zhanling Sun, et.al., Attention-based capsule networks with dynamic routing for relation extraction[C].Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018:986-992.

[18]王星,李超,陳吉.基于膨脹卷積神經(jīng)網(wǎng)絡(luò)模型的中文分詞方法[J].中文信息學報,2019,(9):24-30.

[19]Joey Tianyi Zhou, Hao Zhang, Di Jin, et.al., Dual adversarial neural transfer for low-resource named entity recognition[C].Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019:3461-3471.

[20]Bayu Distiawan Trisedya, Gerhard Weikum, Jianzhong Qi, et.al., Neural relation extraction for knowledge base enrichment[C].Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019:229-240.

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 手机在线看片不卡中文字幕| 国产一区二区网站| 精品久久久久无码| 欧美精品成人| 亚洲欧美自拍中文| 国产激情国语对白普通话| 毛片视频网| 另类综合视频| 久久精品66| 日本三区视频| 国产极品美女在线观看| 亚洲AV无码不卡无码| 久草视频福利在线观看| 国产成人8x视频一区二区| 成人午夜亚洲影视在线观看| 免费看美女毛片| 91av国产在线| 国产人人射| 一区二区午夜| 在线视频亚洲色图| a毛片在线| 日韩精品毛片人妻AV不卡| 人人澡人人爽欧美一区| 亚洲AV无码乱码在线观看代蜜桃| 国产精品手机视频| 成人午夜视频免费看欧美| 亚洲精品视频免费看| 成年网址网站在线观看| 热re99久久精品国99热| 国产成人高清精品免费软件| 呦视频在线一区二区三区| 欧美人与牲动交a欧美精品| 无码免费视频| 亚洲IV视频免费在线光看| 噜噜噜久久| 国产精品综合久久久| 国产精品视频a| 久久伊人操| 国产福利拍拍拍| 色爽网免费视频| 亚洲a级在线观看| 最新国产你懂的在线网址| 亚洲高清无码久久久| 精品亚洲麻豆1区2区3区| 麻豆精品在线视频| 成人一级黄色毛片| 国产精品亚欧美一区二区| 免费高清a毛片| 国产99在线观看| 99热在线只有精品| 国产精品短篇二区| 国产精品无码一区二区桃花视频| 玖玖精品在线| 亚洲国产欧洲精品路线久久| 小说区 亚洲 自拍 另类| 日韩黄色大片免费看| 毛片在线播放网址| 青青久久91| 国产精品99在线观看| 波多野吉衣一区二区三区av| 亚洲综合中文字幕国产精品欧美| 亚洲成A人V欧美综合天堂| 免费在线成人网| 亚洲欧美人成人让影院| 国产91成人| 一级成人a毛片免费播放| 久久超级碰| 日韩成人在线网站| 日韩欧美国产另类| 日本高清有码人妻| 国产欧美日韩免费| 午夜视频免费一区二区在线看| 在线日本国产成人免费的| 丁香六月综合网| 2048国产精品原创综合在线| 69综合网| 亚洲精品无码久久毛片波多野吉| 国产 在线视频无码| 无码专区国产精品第一页| 国产欧美在线观看一区| 一区二区三区四区在线| Jizz国产色系免费|