999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞性合并的淺層句法分析方法研究

2018-11-09 07:33:12劉利
電腦與電信 2018年8期
關鍵詞:規(guī)則文本信息

劉利

(瀘州職業(yè)技術學院信息工程系,四川 瀘州 646005)

1 引言

互聯(lián)網(wǎng)作為開放式的知識庫,信息具有海量、多樣、散亂等特點,網(wǎng)頁作為信息的載體,利用互聯(lián)網(wǎng)構建知識庫,則演變?yōu)閷A烤W(wǎng)頁文本信息的抽取及結(jié)構化的研究。當前,文本信息抽取的對象有結(jié)構化、半結(jié)構化或非結(jié)構化信息,而抽取文本信息方式主要分為兩類[1],一類是機器學習方式[2],從結(jié)構化和半結(jié)構化信息抽取數(shù)據(jù);一類是自然語言處理[3],從非結(jié)構化的文本信息中抽取有價值的數(shù)據(jù),就網(wǎng)頁自由文本信息特點而言更加適用。

在利用淺層句法分析方法上,錢偉中等人[4]提出了融合淺層句法分析的蛋白質(zhì)互作用信息抽取方法,在生物學方面的文本抽取效果較好;周順先等人[5]提出基于規(guī)則和統(tǒng)計抽取模型的主動學習算法,需要先標記訓練集才能達到抽取同類信息的較好效果,不能很好地適應多樣式的文本;龐文斌等人[6]進行基于規(guī)則和統(tǒng)計的漢語淺層句法分析的研究,利用統(tǒng)計的方式通過先識別謂詞實現(xiàn)信息抽取,但缺乏考慮句式和代詞帶來的問題。

呂叔湘[7]早在多年前在其《中國文法要略》中提出“主-謂-賓”為句子的主干部分,它能反映句子的主要信息,而“句子的中心是一個動詞”,對句子動詞成分的確定有助于句子成分的整體分析。基于此,本文提出基于詞性合并的淺層句法分析方法,在文本信息抽取比同類方法效果較好。

2 算法描述

文本信息抽取模塊主要實現(xiàn)的功能是抽取文本信息的主旨內(nèi)容,為進一步的信息結(jié)構化提供保障。本文算法從句子詞性合并和句式分析兩個方面著手,結(jié)合中樞論的觀點分析句子的成分,抽取文本信息。

2.1 詞性合并規(guī)則

漢語中可把復雜的句子轉(zhuǎn)變?yōu)槎鄠€簡單句,便于提高在句法分析中識別句子成分的準確率。對句子進行分詞,將分詞根據(jù)詞性進行合并,共同組成句子成分,合并規(guī)則如下:

規(guī)則1:相鄰并詞性相同的詞語進行合并,詞性和末尾詞詞性一致。如:“法新社/nt記者/n經(jīng)/p調(diào)查/vn后/f證實/v”經(jīng)過轉(zhuǎn)化后變?yōu)椤胺ㄐ律缬浾?n調(diào)查/vn后/f證實/v”。

規(guī)則2:對連詞、“比/p”、頓號左右詞性的合并,因為左右兩邊詞性為并列關系,最后詞性為末尾詞詞性。如:“北京/ns、/w天津/ns和/cc重慶/ns都/d是/vshi直轄市/n”轉(zhuǎn)變?yōu)椤氨本⑻旖蚝椭貞c/ns都/d是/vshi直轄市/n”。

規(guī)則3:合并數(shù)詞到距離它最近的名詞,最后合并詞詞性為末尾詞詞性。如“一/m本/q書/n”經(jīng)過轉(zhuǎn)化后為“一本書/n”。

規(guī)則4:合并時間詞,若其后為主語或謂語詞詞性則合并;若其后為助詞,先判斷助詞后面是否有詞,有則合并時間詞到助詞后面的詞,沒有則合并時間詞及其前面的詞。兩種方式合并后的詞性為末尾詞詞性,如“我/rr是/vshi 1995年5月/t的/ude1生日/n”轉(zhuǎn)化后變?yōu)椤拔?rr是/vshi 1995年5月的生日/n”。

規(guī)則5:合并名詞短語,具體為合并“的”字前后詞,合并詞性為末尾詞的詞性。“的”字短如“今天/t的/ude1天氣/n”轉(zhuǎn)化后變?yōu)椤敖裉斓奶鞖?n”。

2.2 簡化句式規(guī)則

按漢語句式可分為一般句式和特殊句式,前者由主謂賓構成,句子成分順序容易判斷;后者是將句子成分順序進行變換,如倒裝、前置等結(jié)構。

一般句式成分分析采用謂詞中樞論觀點,先確定謂語成分,謂語可由動詞和形容詞擔任,通過對“知網(wǎng)-中文信息結(jié)構庫”的詞頻統(tǒng)計可知動詞作為謂語的概率比形容詞大,故若在一個句子中同時出現(xiàn)動詞和形容詞時,則優(yōu)先選用動詞做謂語,其次是選用形容詞。確定謂語后,再分析主語、狀語、補語、賓語成分。復雜句拆分為簡單句處理,處理后的結(jié)果合并為復雜句。如:主1謂1賓1和主2謂2賓2,如果賓1與主2相同,則合并為主1謂1賓1謂2賓2。

特殊句式為了突出句子某個成分通過特殊詞語將句子成分之間進行交換。通常有把字句、被動句、判斷句、連動句、兼語句和存現(xiàn)句。

(1)把字句是通過“把”字將賓語提前,并同賓語構成狀語。識別方式為查找“把”前面的主語,后面的賓語和謂語。

(2)被動句是通過“被”關鍵字,將賓語提前到關鍵字之前,主語置于關鍵字之后。識別方式為查找“被”關鍵字,向前查找賓語,向后查找主語和謂語。

(3)判斷句同普通句式一致,故處理方式按簡單句處理。

(4)連動句是存在某種聯(lián)系(如目的、因果、先后等聯(lián)系)的多個謂語一起組成連動短語充當句子的謂語。處理方式為將多個相鄰的謂語合并成一個,成分識別按簡單句的方式處理。

(5)兼語句是句子某個詞或短語句子多個成分,如:“老師讓小明坐最后一個位置”,其中小明為兼語詞。處理方式為將復雜句式拆解為多個簡單句,然后按謂語中樞論觀點識別句子成分,最后將簡單句進行合并。

(6)存現(xiàn)句是表示某個事物或某個人的出現(xiàn)、產(chǎn)生、存在和消失的狀態(tài),如:“辦公室坐著個人”。處理方式同一般句式處理方式一致。

2.3 信息抽取算法

對網(wǎng)頁文本信息經(jīng)過網(wǎng)頁信息抽取、指代消解、詞性合并、特殊句式識別、簡單句式識別、句子信息提取和篩選過程。本文利用網(wǎng)頁信息標題的特點,提取標題信息中出現(xiàn)詞頻最高的兩個詞(下面統(tǒng)稱F詞和S詞),對文本信息篩選有很大幫助。句法分析具體算法實現(xiàn)如下:

輸入:抽取的網(wǎng)頁文本信息

輸出:文本信息的抽取結(jié)果

步驟:

(1)利用交大分詞對網(wǎng)頁標題和正文信息進行分詞,并統(tǒng)計出標題的F詞和S詞。

(2)指代消解文本信息,還原代詞指代內(nèi)容。

(3)按詞性合并規(guī)則簡化文本信息中句子結(jié)構。

(4)以“。”號和“;”號對文本信息分句,舍棄沒有識別主謂賓的句子,再按上述句式處理規(guī)則先處理特殊句式,后處理一般句式,詞性出現(xiàn)頻率大小查找謂語位置,向前查找主語,向后查找賓語,統(tǒng)計知網(wǎng)后得出主、賓語查找的順序是名詞、數(shù)詞、代詞。若句子中包含時間詞則保留時間詞的位置。

(5)由于以段為單位進行文本信息抽取,如果經(jīng)過句法分析的段落沒有包含F(xiàn)詞和S詞,最后存儲某段主旨信息時格式為“F詞##S詞##標題##某段主旨內(nèi)容”。

(6)將所有段落文本主旨信息分析完成后,返回的結(jié)果即為整個文本的主旨信息。

3 句法分析實驗結(jié)果

本文方法在謂語識別過程與龐文斌等人[7]都結(jié)合中樞論的觀點,但使用算法不同,實驗上將同他們的方法效果進行比較,文本信息抽取常用評價標準查全率(也叫召回率,Recall)和查準率(Precision)進行評價,計算公式如下:

其中,C1表示待提取的信息個數(shù),C2表示已提取的信息個數(shù),C3表示提取信息中的正確個數(shù)。查全率是在網(wǎng)頁總數(shù)的基礎上計算的,而查準率則是在已提取信息個數(shù)基礎上計算的。

實驗文本集選自1998年1月《人民日報》標注語料庫,隨機選取里面的文章,以句子為單位統(tǒng)計其查全率,用公式1。

表1 謂語識別實驗對比

通過表1對比可知,本文在謂語識別查全率較高,通過詞性合并能簡化句子成分,有助于謂語的識別。

通過詞性合并和句式分析提取句子的主旨信息,并能達到閱讀信息效果,本文對網(wǎng)頁信息抽取的文本集為基準,利用詞性合并的淺層句法分析方法抽取文本主旨信息,分別隨機抽取100-500個句子,用公式1和2對最后結(jié)果進行評價。

表2 句子識別結(jié)果實驗

由實驗結(jié)果可知,利用本文方法對句子主謂賓識別效果較好,查全率和查準率都保持在80%以上,能識別文本信息的主旨信息。同時,也發(fā)現(xiàn)有很多不常見句式和短語對識別效果產(chǎn)生干擾,后期可對這些問題更加深入研究,這將提升句子識別的準確性。

猜你喜歡
規(guī)則文本信息
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
TPP反腐敗規(guī)則對我國的啟示
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 蜜桃臀无码内射一区二区三区| 国产素人在线| 日本福利视频网站| 亚洲色图欧美| 欧美激情伊人| 欧美成人免费午夜全| 97成人在线视频| 久久精品中文字幕免费| 亚洲乱码视频| 精品超清无码视频在线观看| 2022精品国偷自产免费观看| 四虎精品黑人视频| 国产福利一区视频| 国产欧美日韩专区发布| 国产精品亚洲精品爽爽| 91在线精品免费免费播放| 99热这里只有精品在线播放| 国产精品福利尤物youwu | 久久综合丝袜日本网| 一级一级一片免费| 91青青草视频在线观看的| 亚洲第一黄色网| 欧美日韩在线国产| 国产成人精彩在线视频50| 干中文字幕| 最新国产在线| 97影院午夜在线观看视频| 最新国产在线| 无码国产偷倩在线播放老年人| 国产av剧情无码精品色午夜| 91小视频在线播放| 国产成人精品在线| 最新精品久久精品| 手机精品视频在线观看免费| 久久久噜噜噜| 亚洲天堂免费在线视频| 少妇被粗大的猛烈进出免费视频| 精品乱码久久久久久久| 亚洲综合香蕉| 国产亚洲欧美另类一区二区| 亚洲国产精品VA在线看黑人| 日韩免费视频播播| 午夜欧美理论2019理论| igao国产精品| 91小视频在线观看| 色综合综合网| 国产在线视频福利资源站| 国产亚洲精品无码专| 国产剧情一区二区| 97视频免费看| 免费在线a视频| 亚洲欧美在线综合图区| 国产白浆在线观看| 欧美丝袜高跟鞋一区二区| 国产欧美日韩另类| 狠狠色噜噜狠狠狠狠色综合久| 国产理论一区| 欧美人在线一区二区三区| www.国产福利| 日韩免费无码人妻系列| 国产成人AV大片大片在线播放 | 40岁成熟女人牲交片免费| 中文成人无码国产亚洲| 狠狠久久综合伊人不卡| 亚洲人成网7777777国产| 91偷拍一区| 久久精品视频一| 日本精品影院| 国产不卡国语在线| 国产精品一区二区在线播放| 亚洲人成影视在线观看| 亚洲中文字幕在线精品一区| 白丝美女办公室高潮喷水视频| 精品国产91爱| 亚洲天堂自拍| 国产精品自拍合集| 无码aaa视频| 三上悠亚精品二区在线观看| 婷婷亚洲最大| 91探花国产综合在线精品| 国产三级视频网站| 88av在线看|