999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

領(lǐng)域文本信息抽取中的短語相似度計算方法

2017-06-20 23:44:29沈潔彭敦陸
軟件導(dǎo)刊 2017年4期
關(guān)鍵詞:語義文本

沈潔+彭敦陸

摘要:隨著信息化的深入發(fā)展,各應(yīng)用領(lǐng)域積累了大量采用半結(jié)構(gòu)化方式記錄的文本數(shù)據(jù)。為了快速有效地從大規(guī)模面向領(lǐng)域的半結(jié)構(gòu)化文本中抽取有用信息,信息抽取技術(shù)應(yīng)運而生。文本信息抽取的核心算法之一是計算詞或短語的相似度,針對面向領(lǐng)域的半結(jié)構(gòu)化文本中的中文短語相似度計算,先采用模式匹配算法從原始半結(jié)構(gòu)化文本中抽取中文短語,然后結(jié)合領(lǐng)域語義依存關(guān)系,對基于公共子串的短語相似度計算方法進行改進,以此提高短語相似度計算的可靠性。實驗結(jié)果表明,所提算法具有較好的計算效果。關(guān)鍵詞:領(lǐng)域半結(jié)構(gòu)化文本;公共子串;依存關(guān)系(DOI)DOI:10.11907/rjdk.162708中圖分類號:TP301文獻標(biāo)識碼:A(文章編號)文章編號:16727800(2017)0040006030 引言 在信息爆炸的今天,各大領(lǐng)域都產(chǎn)生了大規(guī)模的半結(jié)構(gòu)化文本。在醫(yī)療領(lǐng)域,產(chǎn)生了大量的電子病歷文本[1];在司法領(lǐng)域,產(chǎn)生了大量的審判案件法律文書。對領(lǐng)域文本進行高效地信息抽取,是實現(xiàn)文本數(shù)據(jù)結(jié)構(gòu)化和領(lǐng)域數(shù)據(jù)分析的基礎(chǔ),而短語相似度計算又是進行正確信息抽取的前提。 通常,由于缺乏背景知識,直接從面向領(lǐng)域的半結(jié)構(gòu)文本中抽取的短語不夠準(zhǔn)確,難以與領(lǐng)域知識相對應(yīng)。一種可能的方法是從領(lǐng)域知識庫中查找與抽取短語相似的短語來提高信息抽取的準(zhǔn)確性。由此,需要高效地計算從文本中抽取出的短語與領(lǐng)域知識庫中的短語相似度。迄今為止,短語相似度的計算已應(yīng)用于諸多方面,例如文本聚類[2]、文本檢索[3]和機器翻譯[4]等。 在司法領(lǐng)域,為了對大量案件進行有效的數(shù)據(jù)分析,首先需要對審判案件的法律文書進行信息抽取,形成結(jié)構(gòu)化數(shù)據(jù)。在針對法律文書(如判決書)抽取的大量數(shù)據(jù)項中,有一類數(shù)據(jù)項是由一組連續(xù)詞語組成的短語,例如,針對“案由”這個數(shù)據(jù)項,在判決書中可能會抽取到“販賣毒品罪”,而這一短語在面向司法領(lǐng)域的知識庫(取自我國《刑法》)中的對應(yīng)短語是“走私、販賣、運輸、制造毒品罪”,兩者之間不完全相同,但相比其它短語則更加相似。研發(fā)出高效計算文本中抽取出的短語與領(lǐng)域知識庫中短語的相似度計算方法,有助于提高領(lǐng)域信息抽取的準(zhǔn)確度和抽取效率。1 準(zhǔn)備工作1.1 面向領(lǐng)域的中文短語抽取〖ST〗〖WT〗 與領(lǐng)域相關(guān)的中文短語抽取是面向領(lǐng)域的半結(jié)構(gòu)化文本信息抽取的重要任務(wù)之一。抽取出的短語以結(jié)構(gòu)化的形式進行存儲,為后期的數(shù)據(jù)分析服務(wù)。在短語抽取中,先使用基于模式匹配的結(jié)構(gòu)化信息抽取方法[5],從面向領(lǐng)域的半結(jié)構(gòu)化文本中抽取中文短語。 下面以實現(xiàn)來說明該算法的執(zhí)行過程。例如,對短語“指控被告人王某犯販賣毒品罪一案”,首先進行分詞,然后選取案件案由的抽取模式(見圖1)對分詞序列進行模式匹配得到目標(biāo)短語。其中,keyword、itemword、objphrase分別表示關(guān)鍵詞、普通詞和目標(biāo)短語。通過增加關(guān)鍵詞同義詞的方式對案件案由的抽取模式進行優(yōu)化,這樣該算法就可以克服傳統(tǒng)模式的不足,準(zhǔn)確地匹配包括同義詞在內(nèi)的短語表達。< pattern keyword ="指控" pos ="v" >< keyword-synonym >< synonym name ="控告" pos ="v" / >< / keyword-synonym >< Cluster id ="1" >< patternStr >< pattern id ="1" value =" \\s keyword/v 被告人/n itemword/nr 犯/v objphrase/n 一/m 案/ng \\b" >< / patternStr >< / Cluster >< / pattern >1.2 構(gòu)建領(lǐng)域知識庫 法律文書由司法相關(guān)工作人員人工進行書寫,書寫過程中會出現(xiàn)書寫不規(guī)范的情況。例如使用上節(jié)闡述的算法從法律文書中抽取的案件案由為“販賣毒品罪”,而這一短語在面向司法領(lǐng)域的知識庫(取自我國《刑法》)中的對應(yīng)短語是“走私、販賣、運輸、制造毒品罪”。所以需要構(gòu)建領(lǐng)域知識庫,從知識庫中選取與抽取短語相似程度最高的短語作為最后的使用短語,這樣可以使抽取結(jié)果更加專業(yè)化。 本文采用主成分分析算法過濾法律文書中的噪聲信息,然后通過深度學(xué)習(xí)算法抽取領(lǐng)域特征詞和領(lǐng)域特征短語,構(gòu)建領(lǐng)域知識庫。司法領(lǐng)域的審判案件法律文書中有很多法律方面的知識,例如,審判案件類型、案件案由、結(jié)案方式等,其中案由又分為刑事案件案由、民事案件案由和行政案件案由,刑事案件案由如表1所示。3類案件在知識庫中共1 470條具體的案由數(shù)據(jù)。領(lǐng)域知識庫中的專業(yè)知識蘊含了該領(lǐng)域?qū)氋F的信息,對于提高信息抽取的準(zhǔn)確性和有效性有巨大幫助。2 短語相似度應(yīng)用實驗 2.1 基于公共子串的短語相似度計算 基于編輯距離的短語相似度計算方法,沒有考慮字符與字符之間的連續(xù)性。例如“販賣毒品罪”通過編輯距離計算得到的相似短語是“非法買賣制毒物品罪”,而實際上“販賣毒品罪”相似的司法領(lǐng)域短語是“走私、販賣、運輸、制造毒品罪”。短語“販賣毒品罪”與短語“非法買賣制毒物品罪”相同的字符為“賣”、“毒”、“品罪”,而短語“販賣毒品罪”與短語“走私、販賣、運輸、制造毒品罪”相同的字符為“販賣”、“毒品罪”,由此可以看出短語與短語的相同字符越連續(xù),越具有語義含義。為了解決相同字符不連續(xù)導(dǎo)致相似短語選取錯誤的情況,本文提出基于公共子串的短語相似度計算方法(Common Substring,CS)。 定義1 子串:字符串S中任意個數(shù)的連續(xù)字符所組成的子序列稱為該字符串的子串。 定義2 公共子串:如果字符串C既是字符串S的子串又是字符串T的子串,則字符串C是字符串S和字符串T的一個公共子串。 定義3 最長公共子串:指字符串S和T的公共子串中長度最長的一個公共子串D。 動態(tài)規(guī)劃算法是解決最長公共子串[6]問題的經(jīng)典算法,通過式(1)可以計算出原始短語和目標(biāo)短語的最長公共子串,進而可以得到不包含重復(fù)字符的公共子串(包含空字符串)。原始短語S和目標(biāo)短語T的公共子串(不包含重復(fù)字符)個數(shù)為k,公共子串集合按長度從大到小排序,可以通過式(2)計算基于公共子串的短語相似度。其中,|Vm|表示公共子串的字符個數(shù),|S|表示原始短語的字符個數(shù)。 通過基于公共子串的短語相似度計算方法給連續(xù)的字符賦予更高的權(quán)重,可以解決通過編輯距離計算短語相似度時,字符不連續(xù)情況導(dǎo)致的相似短語選取錯誤的情況,從而提高算法的準(zhǔn)確度。2.2 結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算 在上節(jié)提出的短語相似度計算方法考慮了連續(xù)字符的重要性,通過賦予連續(xù)字符更高的權(quán)重增加了連續(xù)字符的重要程度,但是沒有考慮短語中詞語與詞語之間的依存關(guān)系(Dependency Relationship,DR)。例如短語“制造、販賣毒品罪”中包含動賓關(guān)系,強調(diào)的是賓語“毒品”,而上節(jié)中提出的算法給連續(xù)字符“制造販賣”賦予了更高的權(quán)重,而忽略了賓語“毒品”的重要性。通過分析司法領(lǐng)域知識庫中的短語,可以發(fā)現(xiàn)知識庫中的短語都是名詞性短語,主要包括3種關(guān)系:主謂關(guān)系、動賓關(guān)系和定中關(guān)系。在司法領(lǐng)域,對于主謂關(guān)系,主語依存于謂語動詞,多數(shù)在語義上強調(diào)的是主語;對于動賓關(guān)系,賓語依存于動詞,強調(diào)的是賓語;對于定中關(guān)系,定語依存于中心詞(名詞),強調(diào)的是定語。通過分析領(lǐng)域短語中詞語與詞語之間的語義依存關(guān)系,可以發(fā)現(xiàn)短語的主語、賓語和定語是短語的語義重心,應(yīng)該給語義重心賦予更高的權(quán)重,更好地體現(xiàn)領(lǐng)域的特征。 在計算短語相似度時,考慮短語語義重心可以使選取相似短語的結(jié)果更加準(zhǔn)確,在此提出結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法(DR-CS)。為了找到短語的語義重心,需要對短語進行依存句法分析。本文通過語言技術(shù)平臺(LTP)[7]得到短語中的主謂關(guān)系、動賓關(guān)系和定中關(guān)系,進而得到句子的主語、賓語和定語。如圖1所示,SBV表示主謂關(guān)系,VOB表示動賓關(guān)系,ATT表示定中關(guān)系。對目標(biāo)短語中的主語、賓語和定語分別賦予權(quán)重,并結(jié)合上節(jié)中提出的算法計算短語相似度,可以體現(xiàn)短語的語義重心,提高短語相似度計算的準(zhǔn)確度。主語、賓語和定語的權(quán)重如式(3)所示,其中WG分別表示主語、賓語和定語的權(quán)重之和,λ1、λ2、λ3表示權(quán)重的系數(shù),需要通過實驗進行調(diào)整,|Gsub|、|Gobj|、|Gatt|分別表示主語、賓語和定語的字符個數(shù)。將主語、賓語和定語的權(quán)重與基于公共子串的短語相似度計算方法相結(jié)合得到式(4)。 結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法不僅考慮了字符與字符之間的連續(xù)性,還考慮了領(lǐng)域依存關(guān)系,增加了領(lǐng)域詞語的重要程度,體現(xiàn)了短語的語義重心,提高了相似短語查找的準(zhǔn)確性和有效性。2.3 實驗方法實驗數(shù)據(jù)來自江蘇省全省人民法院在2014年1月-2014年12月公開審判案件的裁判文書 ,包括4 000篇刑事案件裁判文書、4 000篇民事案件裁判文書和4 000篇行政案件裁判文書,總共12 000篇文檔。 實驗采用對比的方法,驗證本文提出算法的準(zhǔn)確性和有效性。結(jié)合司法領(lǐng)域知識庫中的刑事、民事和行政案件案由,計算抽取短語與案件案由列表中短語的相似度。將結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算結(jié)果與基于編輯距離的短語相似度計算方法和基于公共子串的短語相似度計算方法的計算結(jié)果進行對比,驗證結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法的有效性。〖JP+2〗表2展示了3種方法的短語相似度計算結(jié)果。原始短語就是抽取短語,目標(biāo)短語是知識庫中的短語。第3、4、5列分別表示基于編輯距離的短語相似度計算方法、基于公共子串的短語相似度計算方法和結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法的計算結(jié)果。對于基于編輯距離的短語相似度計算方法,選取編輯距離最小的目標(biāo)短語作為原始短語的相似短語,而對于基于公共子串的短語相似度計算方法和結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法,應(yīng)該選取相似度值最大的目標(biāo)短語作為原始短語的相似短語。從表2可以看出,結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法具有更好的區(qū)分度。2.4 實驗結(jié)果與分析 本文對12 000篇審判案件裁判文書的案件案由進行了人工標(biāo)注,通過對比3種算法的結(jié)果和人工標(biāo)注的結(jié)果來驗證算法的準(zhǔn)確性和有效性。 實驗過程中,對權(quán)重系數(shù)進行調(diào)整,當(dāng)λ1=0.8,λ2=0.6,λ3=0.3時,結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法得到較好結(jié)果。實驗使用準(zhǔn)確率來評估算法在不同規(guī)模下的準(zhǔn)確性和有效性。通過對比結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法與基于編輯距離的短語相似度計算方法和基于公共子串的短語相似度計算方法的計算結(jié)果,可以驗證結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計算方法具有更好的效果。從實驗結(jié)果(見圖1)可知,橫坐標(biāo)表示實驗所用數(shù)據(jù)集的大小,縱坐標(biāo)表示ED、CS和DR-CS算法在相應(yīng)數(shù)據(jù)集上準(zhǔn)確率的大小。另外,從圖中還可以看到,在不同規(guī)模的數(shù)據(jù)集下,結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法的準(zhǔn)確性比其它兩種算法的準(zhǔn)確性要高,準(zhǔn)確率維持在90%左右。3 結(jié)語隨著互聯(lián)網(wǎng)的發(fā)展,電子化辦公方式越來越普及,各領(lǐng)域都產(chǎn)生了大量文本數(shù)據(jù),如何從大規(guī)模面向領(lǐng)域的半結(jié)構(gòu)化文本中挖掘有價值的信息是研究者所關(guān)注的。有效地信息抽取對后期的數(shù)據(jù)挖掘和分析效果會生產(chǎn)較大影響。本文從面向領(lǐng)域的半結(jié)構(gòu)化文本出發(fā),先采用模式匹配算法抽取的中文短語,運用結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計算方法計算抽取短語與領(lǐng)域知識庫中短語的相似度,查找出領(lǐng)域知識庫中與抽取短語最相似的短語作為結(jié)果保存到結(jié)果數(shù)據(jù)中,保證了抽取的信息更加符合領(lǐng)域?qū)嶋H情況。實驗結(jié)果展示了所提算法具有較好的計算效果。如何在分布式環(huán)境下對大規(guī)模面向領(lǐng)域的文本信息抽取技術(shù)及文本數(shù)據(jù)挖掘算法進行探索,則是下一步研究的重點。endprint

參考文獻:[1]KREUZTHALER M,SCHULZ S,BERGHOLD A.Secondary use of electronic health records for building cohort studies through topdown information extraction[J].Journal of biomedical informatics,2015(53):188195.

[2][CHO Y H,PARK S H,LEE S K.Phraserank for document clustering:reweighting the weight of phrase[C].Proceedings of the 2nd International Conference on Interaction Sciences:Information Technology,Culture and Human,2009:168174.

[3][PASCA M. Asking what no one has asked before:using phrase similarities to generate synthetic web search queries\[C].Proceedings of the 20th ACM International Conference on Information and Knowledge Management,2011: 13471352.

[4][ZENS R,OCH F J,NEY H.Phrasebased statistical machine translation[C].Annual Conference on Artificial Intelligence.Springer Berlin Heidelberg,2002:1832.

[5][邵堃,楊春磊,錢立賓,等.基于模式匹配的結(jié)構(gòu)化信息抽取[J].模式識別與人工智能,2014,27(8):758768.

[6][DEOROWICZ S,GRABOWSKI S.Efficient algorithms for the longest common subsequence in klength substrings\[J]. Information Processing Letters,2014,114(11):634638.[7][W CHE,Z LI,T LIU.Ltp:a Chinese language technology platform[C].Beijing:in Coling 2010:Demonstrations,2010:1316.(責(zé)任編輯:孫娟)

猜你喜歡
語義文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
“深+N季”組配的認知語義分析
主站蜘蛛池模板: 爆操波多野结衣| 色亚洲成人| 午夜国产大片免费观看| 又爽又大又黄a级毛片在线视频| 日韩专区第一页| 国产成人超碰无码| 青青草综合网| 国产麻豆福利av在线播放| 青青草原国产| 国产精品99久久久久久董美香| 久久综合成人| 日韩在线第三页| 国产成人资源| 四虎成人精品| 成人国产免费| 九九线精品视频在线观看| 欧美成人手机在线视频| 亚洲av色吊丝无码| 重口调教一区二区视频| 小说区 亚洲 自拍 另类| 午夜老司机永久免费看片| 另类综合视频| 超碰91免费人妻| 国产成人做受免费视频| 欧美色综合网站| 精品国产中文一级毛片在线看| 久久伊人操| 999国内精品视频免费| 亚洲男人的天堂网| 青青青国产视频手机| 自慰高潮喷白浆在线观看| www.91在线播放| 国产日韩欧美精品区性色| 2020国产精品视频| 成人国产精品一级毛片天堂| 国产精品无码在线看| 国产自在线播放| 亚洲精品中文字幕无乱码| 人人澡人人爽欧美一区| 久青草国产高清在线视频| 国产综合在线观看视频| 97影院午夜在线观看视频| 国产区91| 国产后式a一视频| jizz国产视频| 黄色污网站在线观看| 亚洲第一视频网| 亚洲小视频网站| 免费中文字幕在在线不卡| 老司机午夜精品网站在线观看| 欧美亚洲日韩中文| 欧美在线黄| 中文字幕在线观看日本| 伊在人亞洲香蕉精品區| 国产91精品久久| 久草国产在线观看| 亚洲日韩每日更新| 亚洲综合一区国产精品| 福利在线不卡| 成人午夜天| 99尹人香蕉国产免费天天拍| 久久久国产精品免费视频| 国产剧情国内精品原创| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲无线观看| 无码'专区第一页| 午夜精品久久久久久久无码软件| 国产综合无码一区二区色蜜蜜| 亚洲美女一级毛片| 一区二区理伦视频| h视频在线播放| 自拍偷拍欧美| 亚洲永久色| 精品无码专区亚洲| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产极品嫩模在线观看91| 狠狠做深爱婷婷综合一区| 波多野结衣中文字幕一区二区| 伊人久久综在合线亚洲2019| 91九色国产porny| 8090成人午夜精品| 2021天堂在线亚洲精品专区|