999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件隨機(jī)場(chǎng)的方志古籍別名自動(dòng)抽取模型構(gòu)建

2018-12-20 06:08:46
中文信息學(xué)報(bào) 2018年11期
關(guān)鍵詞:信息模型

李 娜

(南京林業(yè)大學(xué) 人文社會(huì)科學(xué)學(xué)院,江蘇 南京 210037)

0 引言

命名實(shí)體識(shí)別(named entity recognition, NER)作為一種常用的文本挖掘技術(shù),用于識(shí)別文本中為人們感興趣的專(zhuān)有詞和特定的數(shù)量詞。它包含具體和抽象的實(shí)體。例如,人名、地名、機(jī)構(gòu)名、時(shí)間、數(shù)量等[1],在信息檢索和抽取、機(jī)器翻譯和問(wèn)答系統(tǒng)等自然語(yǔ)言處理上,有著廣泛的應(yīng)用。

近年來(lái),隨著數(shù)字人文的快速發(fā)展,中文古籍的數(shù)字化和深度挖掘需求越來(lái)越迫切。在自然語(yǔ)言處理中,命名實(shí)體識(shí)別的研究語(yǔ)料以現(xiàn)代漢語(yǔ)為主[2-3],藏語(yǔ)[4]、哈薩克語(yǔ)[5]、蒙古語(yǔ)[6]、維吾爾語(yǔ)[7]、越南語(yǔ)[8]等其他語(yǔ)言也有涉及,識(shí)別對(duì)象有地名[9]、人名[10]、疾病名[11]、機(jī)構(gòu)名[12]、時(shí)間[13]等信息單元。古籍文獻(xiàn)在繁簡(jiǎn)字、標(biāo)點(diǎn)符號(hào)、句式表達(dá)等多個(gè)方面與現(xiàn)代文獻(xiàn)差異明顯,智能化識(shí)別難度更大,研究成果較少。石民等對(duì)《左傳》進(jìn)行了詞匯處理和考察分析,采用條件隨機(jī)場(chǎng)模型,進(jìn)行自動(dòng)分詞、詞性標(biāo)注、分詞標(biāo)注一體化的對(duì)比試驗(yàn)[14];肖磊、汪青青分析了《左傳》地名和人名結(jié)構(gòu)的特點(diǎn),基于CRF模型,分別實(shí)現(xiàn)了地名和人名的自動(dòng)識(shí)別[15-16];馬創(chuàng)新通過(guò)模型構(gòu)建和結(jié)構(gòu)分析,實(shí)現(xiàn)了《十三經(jīng)注疏》中引文文獻(xiàn)的識(shí)別和分析[17];錢(qián)智勇等基于隱馬爾科夫模型,進(jìn)行了楚辭的自動(dòng)分詞標(biāo)注實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)情況設(shè)計(jì)了一個(gè)分詞標(biāo)注輔助軟件[18];黃水清等基于先秦語(yǔ)料庫(kù),分別使用條件隨機(jī)場(chǎng)和最大熵模型對(duì)地名進(jìn)行了識(shí)別研究,結(jié)果表明條件隨機(jī)場(chǎng)的識(shí)別效果優(yōu)于最大熵模型[19];王錚將條件隨機(jī)場(chǎng)模型應(yīng)用到《三國(guó)演義》的地名識(shí)別中,識(shí)別結(jié)果的準(zhǔn)確率為99.16%[20];朱鎖玲以《方志物產(chǎn)》廣東、福建、臺(tái)灣三省資料為語(yǔ)料,通過(guò)整理文中地名出現(xiàn)的規(guī)則,構(gòu)建規(guī)則庫(kù)與文本內(nèi)容進(jìn)行匹配,實(shí)現(xiàn)了地名的識(shí)別,精確率為63.38%,召回率為82.89%[21];衡中青以《方志物產(chǎn)》廣東分卷為例,通過(guò)基于規(guī)則的方法,分別識(shí)別了文中的引書(shū)[22]和別名[23]。其中,引書(shū)識(shí)別的召回率和精確率分別為84.95%和72.88%,別名的召回率為88.60%、精確率為71.60%;Bol及其研究團(tuán)隊(duì)以220余部地方志為語(yǔ)料,基于語(yǔ)言模型和條件隨機(jī)場(chǎng),挖掘文本中的人名、字號(hào)、官職、地名等傳記信息,并將結(jié)果與中國(guó)歷代人物傳記數(shù)據(jù)庫(kù)(China Biographical Database, CBDB)進(jìn)行對(duì)比和補(bǔ)充[24]。上述研究表明,基于條件隨機(jī)場(chǎng)模型的中文命名實(shí)體識(shí)別正在不斷深入,但中文古籍的命名實(shí)體研究多集中在文學(xué)作品等較為規(guī)范的古籍本文中。而在方志古籍的整理、挖掘利用研究方面,尚處于探索階段,成果分散且精準(zhǔn)度有待提高。

本文以命名實(shí)體識(shí)別技術(shù)中的條件隨機(jī)場(chǎng)模型為基礎(chǔ),對(duì)摘抄自地方志的《方志物產(chǎn)》語(yǔ)料庫(kù)中物產(chǎn)別名進(jìn)行自動(dòng)識(shí)別實(shí)驗(yàn),拓展語(yǔ)料的研究方法,延伸方法的應(yīng)用范圍,具有一定的創(chuàng)新價(jià)值和探索意義,為深入開(kāi)發(fā)和利用方志資料提供實(shí)體數(shù)據(jù)。

1 研究語(yǔ)料

方志,又稱(chēng)地方志,為我國(guó)古籍文獻(xiàn)之大宗,是按照一定體例記載了特定時(shí)空下,自然和社會(huì)各個(gè)方面歷史與現(xiàn)狀的綜合性著述,被譽(yù)為“一方之全史”,是我國(guó)乃至世界的一座重要文化遺產(chǎn)寶庫(kù),為后世提供了取之不竭的史料資源[25]。

中國(guó)自古就有參考利用地方文獻(xiàn)的實(shí)踐。20世紀(jì)50年代,我國(guó)著名農(nóng)史學(xué)家、農(nóng)史學(xué)科創(chuàng)始人之一萬(wàn)國(guó)鼎先生,組織數(shù)十人先后前往全國(guó)40多個(gè)大中型城市、100多個(gè)文史單位,歷時(shí)數(shù)年從數(shù)千部地方志中手工整理摘抄了其中的物產(chǎn)部分,編纂成農(nóng)業(yè)專(zhuān)題資料《方志物產(chǎn)》[26]。作為目前世界上唯一一套明清方志農(nóng)業(yè)專(zhuān)題資料,《方志物產(chǎn)》具有獨(dú)特的史料價(jià)值: 一是唯一性,自摘抄以來(lái),經(jīng)歷半個(gè)多世紀(jì)的變遷,尤其是“文革”時(shí)期的沖擊,部分原始文獻(xiàn)已經(jīng)散佚;二是廣泛性,橫向地域范圍廣,涵蓋了建國(guó)初期全國(guó)所有的省份;三是持續(xù)性,縱向時(shí)間跨度大,從宋熙寧九年(1076年)至民國(guó)三十八年(1949年),記載了長(zhǎng)達(dá)近900年間的物產(chǎn)情況;四是豐富性,全文共431卷、3 000余萬(wàn)字,涉及動(dòng)植物的品種資源和種植飼養(yǎng)方法等農(nóng)業(yè)生產(chǎn)的各個(gè)方面,尤其以動(dòng)植物的品種資源和種植、飼養(yǎng)、利用技術(shù)為主;五是多樣性,行文風(fēng)格和本文結(jié)構(gòu)呈現(xiàn)出多樣性,是古籍文獻(xiàn)中比較有特色和代表性的語(yǔ)料[27]。

《方志物產(chǎn)》中蘊(yùn)含著豐富的信息資源,物產(chǎn)別名就是其中之一。物產(chǎn)別名是相對(duì)于物產(chǎn)正名而言的,是由于物產(chǎn)特性、古籍記載、時(shí)代變遷、地域差異、民俗文化、人口流動(dòng)、文化交流等多種歷史原因,造成的同物異名現(xiàn)象[28]。考察物產(chǎn)的名稱(chēng)及其變化是植物史、動(dòng)物史、貨物史研究的重要任務(wù),梳理《方志物產(chǎn)》所載物產(chǎn)的別名,有利于開(kāi)展物產(chǎn)的起源和傳播、生物學(xué)特征和用途、記載方式變遷、地方性知識(shí)等內(nèi)容的研究,從而更加全面地認(rèn)識(shí)和分析物產(chǎn)。

物產(chǎn)別名梳理是物產(chǎn)研究的重要組成部分,但往往是在研究某一物產(chǎn)時(shí)專(zhuān)門(mén)查找該物產(chǎn)的別名信息,鮮有專(zhuān)門(mén)整理物產(chǎn)別名的研究。本文以《方志物產(chǎn)》山西分卷為語(yǔ)料,在格式化處理的前提下,對(duì)物產(chǎn)別名進(jìn)行全文人工標(biāo)注。基于命名實(shí)體識(shí)別技術(shù)中的條件隨機(jī)場(chǎng)理論,構(gòu)建物產(chǎn)別名的自動(dòng)識(shí)別模型,實(shí)現(xiàn)物產(chǎn)別名的自動(dòng)抽取,探索方志古籍內(nèi)容挖掘的新途徑,為物產(chǎn)研究提供資料支撐。

目前,常用的命名實(shí)體識(shí)別方法主要有基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。對(duì)比而言,基于規(guī)則的方法實(shí)現(xiàn)簡(jiǎn)單、速度快,但主觀性較大,對(duì)規(guī)則庫(kù)的完善程度要求高,適合小規(guī)模語(yǔ)料;基于統(tǒng)計(jì)的方法實(shí)現(xiàn)代價(jià)低,數(shù)據(jù)依賴(lài)性小,且具有較好的移植性,適用于較大規(guī)模語(yǔ)料。《方志物產(chǎn)》時(shí)間長(zhǎng)、范圍廣、數(shù)量大、類(lèi)型多,基于統(tǒng)計(jì)的方法較為適用。隱馬爾可夫模型、最大熵模型和條件隨機(jī)場(chǎng)模型是基于統(tǒng)計(jì)的方法中比較常用的模型。其中,條件隨機(jī)場(chǎng)模型是Lafferty[29]等在最大熵模型和隱馬爾可夫模型的基礎(chǔ)上提出來(lái)的,解決了隱馬爾可夫模型嚴(yán)格的獨(dú)立性假設(shè)限制和最大熵模型標(biāo)注偏差問(wèn)題。通過(guò)靈活結(jié)合上下文的多項(xiàng)特征,在分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等自然語(yǔ)言處理方面有著較好的應(yīng)用。

2 研究語(yǔ)料的預(yù)處理

本文以《方志物產(chǎn)》山西分卷為例,探討條件隨機(jī)場(chǎng)模型在方志古籍內(nèi)容挖掘中的應(yīng)用情況。有“三晉”之稱(chēng)的山西,位于黃河之濱,處于中原大地,是中華民族的發(fā)祥地之一。它有著長(zhǎng)達(dá)3 000余年的文字記載史,農(nóng)業(yè)發(fā)達(dá)、物產(chǎn)豐富,被譽(yù)為“華夏文明搖籃”和“中國(guó)古代文化博物館”。因此,山西能夠反映出中原地區(qū)、黃河流域甚至更廣范圍的情況,具有一定的代表性。

《方志物產(chǎn)》山西分卷共13卷,43萬(wàn)字,記載了明成化二十一年(1485年)至民國(guó)二十九年(1940年)間山西境內(nèi)51 545條物產(chǎn)信息。物產(chǎn)信息包含志書(shū)名稱(chēng)、記載時(shí)間、物產(chǎn)名稱(chēng)、物產(chǎn)備注、物產(chǎn)分類(lèi)等多項(xiàng)內(nèi)容。本文主要考察物產(chǎn)名稱(chēng)和物產(chǎn)備注兩項(xiàng)信息,其目的是通過(guò)計(jì)算機(jī)對(duì)人工標(biāo)注信息的學(xué)習(xí),基于條件隨機(jī)場(chǎng)的構(gòu)建物產(chǎn)別名自動(dòng)識(shí)別模型。

2.1 別名的人工標(biāo)注

受文字變遷和記載方志的影響,方志文獻(xiàn)中物產(chǎn)信息不盡完備。首先,物產(chǎn)備注信息存在缺失現(xiàn)象,即有的物產(chǎn)有備注信息,有的物產(chǎn)沒(méi)有備注信息,如圖1所示。而本文研究的目的是從物產(chǎn)的備注信息中抽取別名信息,故沒(méi)有備注信息的物產(chǎn)記錄對(duì)本研究無(wú)意義。51 545條物產(chǎn)信息中,有備注信息的物產(chǎn)共有9 085條,約占總物產(chǎn)量的17.54%;其次,物產(chǎn)名稱(chēng)存在不完整現(xiàn)象。山西分卷中記載的51 545條物產(chǎn),部分物產(chǎn)名稱(chēng)中除漢字以外,還包含“?、+、(、)、□”等其他符號(hào),表示該處為“缺字”或者“造字”等。例如,“□鵝、天□□、(班+鳥(niǎo))、□□、??”等。此類(lèi)物產(chǎn)共計(jì)有273條,約占總物產(chǎn)數(shù)量的0.53%。為了保證數(shù)據(jù)的原始性和完整性,我們?nèi)匀粚⑵浔A簦L試通過(guò)數(shù)據(jù)關(guān)聯(lián)的方式,補(bǔ)全缺失的物產(chǎn)名稱(chēng)。

圖1 隨機(jī)選取的10條物產(chǎn)信息樣例

在對(duì)物產(chǎn)的備注信息進(jìn)行標(biāo)注時(shí),用“Alias”表示別名。“A”代表標(biāo)注之處為別名,用“【”、“】”表示別名的左右邊界,完整的標(biāo)志結(jié)構(gòu)為“【A別名】”。例如,“螽斯蝗類(lèi)也長(zhǎng)而色青長(zhǎng)角長(zhǎng)股翼鳴者也亦有斑黑者其股似瑇瑁五月中以?xún)沙嵯嗲凶髀暵暵剶?shù)十步者是也俗名【A螞蚱】以其形似馬而鳴聲咋咋然也”,最終計(jì)算機(jī)識(shí)別出的螽斯的別名為螞蚱。標(biāo)注完成后,9 085條物產(chǎn)信息中含有別名信息的有2 522條,這就是本研究的最終語(yǔ)料。

2 522條語(yǔ)料共標(biāo)注出別名3 458次。去重后,共得到891個(gè)物產(chǎn)名稱(chēng)和1 485個(gè)別名。平均每個(gè)物產(chǎn)名稱(chēng)約有1.67個(gè)別名,物產(chǎn)至少有一個(gè)別名。如“百足蟲(chóng)”的別名為“錢(qián)龍”等,最多有42個(gè)別名,如物產(chǎn)“稷”。平均每個(gè)別名出現(xiàn)約2.33次,最少出現(xiàn)1次,如“羊胡草”等853個(gè)別名,最多出現(xiàn)46次,如“小米”和“諸葛菜”。

2.2 標(biāo)注集確定

在手工標(biāo)注的基礎(chǔ)上,識(shí)別構(gòu)建模型所需要的標(biāo)注。計(jì)算別名的加權(quán)長(zhǎng)度,可以明確標(biāo)注集長(zhǎng)度。生成標(biāo)注集如式(1)所示。

(1)

其中,Lik為當(dāng)i≤k時(shí),別名平均加權(quán)后的長(zhǎng)度,Ni為語(yǔ)料庫(kù)中長(zhǎng)度為i的別名出現(xiàn)的次數(shù)。k和j分別代表語(yǔ)料庫(kù)中別名長(zhǎng)度的最大值和最小值,N為語(yǔ)料庫(kù)中別名出現(xiàn)的總次數(shù)。通過(guò)計(jì)算和實(shí)驗(yàn)測(cè)試,本文確定在別名的自動(dòng)識(shí)別中,使用四詞位的標(biāo)注集,具體表示為P={B,M,E,S}。其中,B為別名的初始詞,M為中間詞,E為結(jié)束詞,S為別名標(biāo)記以外的詞。經(jīng)過(guò)手工標(biāo)記的語(yǔ)句“樗鷄 一名【A紅娘子】俗呼【A瞎眼婆婆】”,標(biāo)注集的結(jié)果,如表1所示。

表1 標(biāo)注集樣例

標(biāo)注集生成后,對(duì)別名的邊界詞進(jìn)行統(tǒng)計(jì)分析。假設(shè),我們把一條語(yǔ)料的構(gòu)成序列表示成“SLn,…,SLi,…,SL1,【R,R1,…,Rn】,SR1,…,SRj,…,SRn”。其中,【R,R1,…,Rn】表示標(biāo)注集,SLi表示標(biāo)注集的左邊界,SRj表示標(biāo)注集的右邊界。那么,SL1和SR1就是標(biāo)注集的左右一元邊界詞,SL2SL1和SR1SR2為標(biāo)注集的左右二元邊界詞,SL3SL2SL1和SR1SR2SR3為標(biāo)注集的左右三元邊界詞。在判定線(xiàn)性序中的別名時(shí),主要使用了左右一元邊界詞特征。別名的左右一元邊界詞的分布狀況運(yùn)用式(2)獲取。

(2)

其中,pc(ω)為ω在語(yǔ)料中作為一元邊界詞出現(xiàn)的概率,fβ(ω)為ω在一元邊界詞位置上出現(xiàn)的次數(shù),∑ωfβ(ω)為ω在語(yǔ)料庫(kù)中出現(xiàn)的總次數(shù)。

2.3 別名的內(nèi)外部特征分析

《方志物產(chǎn)》山西分卷的語(yǔ)料經(jīng)過(guò)人工標(biāo)注后,編寫(xiě)計(jì)算機(jī)程序,提取物產(chǎn)的別名和別名的左右一元邊界詞。在詞頻和詞長(zhǎng)統(tǒng)計(jì)的基礎(chǔ)上,對(duì)物產(chǎn)別名的長(zhǎng)度和左右一元邊界詞等內(nèi)外部特征進(jìn)行分析。

經(jīng)過(guò)標(biāo)注,共提取出人工標(biāo)注的別名3 458次。去除重復(fù)后,總計(jì)有1 485個(gè)不同的別名,每個(gè)別名出現(xiàn)的平均次數(shù)約為3次。別名的長(zhǎng)度主要有五種,即長(zhǎng)度為1、2、3、4、5,數(shù)字表示一個(gè)別名由幾個(gè)漢字組成。從詞頻統(tǒng)計(jì)結(jié)果看,長(zhǎng)度為2的別名最多,有2 001個(gè),約占總別名的57.87%;長(zhǎng)度為5的別名最少,只有9個(gè),僅占總別名的0.26%。別名的長(zhǎng)度主要集中在1、2、3上,共有3 353個(gè),約占總別名的96.96%,涵蓋了絕大多數(shù)的別名。

左右一元邊界詞分析有助于精確定位詞的邊界。別名的左右一元邊界詞及其出現(xiàn)的概率統(tǒng)計(jì)結(jié)果(按照出現(xiàn)次序由多到少排序各取前十)如表2所示。

表2 別名的左、右一元邊界詞信息統(tǒng)計(jì)結(jié)果(前十)

結(jié)果顯示,物產(chǎn)別名的左一元邊界詞高度集中。頻次最高的10個(gè)左一元邊界詞占所有一元邊界詞的比例高達(dá)91.73%。其中,“名”的頻次和出現(xiàn)次數(shù)均為最高,如“大力子 一名牛旁子又名鼠粘子”等;物產(chǎn)別名的右一元邊界詞較為分散,頻次最高的10個(gè)右一元邊界詞占所有右一元邊界詞的比例為44.02%。其中,“也”的出現(xiàn)次數(shù)最多,如“鳳仙 即海納也”等。而“李”的頻次最高,如“長(zhǎng)松草 亦名【A仙茅】李時(shí)珍曰長(zhǎng)松生古松下根色如薺苨長(zhǎng)五六寸味甘微苦類(lèi)人葠清香可愛(ài)”等。

3 基于CRF的識(shí)別模型構(gòu)建與測(cè)評(píng)

3.1 模型構(gòu)建

條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)是一種判別式的無(wú)向概率圖模型,用于在給定需要標(biāo)記的觀察序列的條件下,預(yù)測(cè)標(biāo)簽序列的概率分布。

本研究在構(gòu)建條件隨機(jī)場(chǎng)模型時(shí),假設(shè)變量x是方志物產(chǎn)語(yǔ)料庫(kù)中經(jīng)過(guò)人工標(biāo)注的別名實(shí)體,變量y是別名實(shí)體中每一個(gè)分布序列。一串變量y對(duì)一串變量x,將多個(gè)變量x作為一個(gè)整體,用于確定y和y之間的轉(zhuǎn)移概率,即當(dāng)變量x取值為x時(shí),變量y取值為y的概率。計(jì)算如式(3)所示。

(3)

在構(gòu)建CRF模型時(shí),語(yǔ)料中的上下文特征都應(yīng)該被加進(jìn)特征函數(shù)中去,以提高模型的性能。本研究的模型中需要加入上文所分析的別名的內(nèi)外部特征,例如,出現(xiàn)頻次、長(zhǎng)度、邊界詞等。

1. 別名長(zhǎng)度。如上文統(tǒng)計(jì),最常見(jiàn)的別名長(zhǎng)度為2,如“鳳仙 俗名【A海納】”。大多數(shù)的別名長(zhǎng)度都在1至3的范圍之內(nèi),長(zhǎng)度為1的如“榖 即【A粟】為秋橡之主東北一帶村莊半居岡阜地瘠苦寒種麥者僅十之一惟河西及南鄉(xiāng)澤鹵之地多種”,長(zhǎng)度為3的如“榖精草 即【A文星草】可餧馬令肥”。別名長(zhǎng)度用阿拉伯?dāng)?shù)字表示,作為一個(gè)特征加入模型中。

2. 一元邊界詞。命名實(shí)體的識(shí)別其實(shí)就是確定命名實(shí)體的左右邊界的過(guò)程。一旦左右邊界確定了,那么命名實(shí)體就順理成章地被識(shí)別出來(lái)了。因此,別名的左右一元邊界詞作為一個(gè)非常重要的特征,成為模型的一部分。在前文的統(tǒng)計(jì)中,“名、即、曰、呼、為、之、謂、稱(chēng)、有、作”是別名的左一元邊界詞的前十名,“也、一、又、有、俗、亦、以、種、李、即”是別名右一元邊界詞的前十名。在處理訓(xùn)練語(yǔ)料的時(shí)候,標(biāo)注出左右一元邊界詞,左一元邊界詞標(biāo)注為L(zhǎng),右一元邊界詞標(biāo)注為R,非一元邊界詞則標(biāo)注為N,并作為特征加入到模型之中。例如,語(yǔ)料“花紅 即【A奈】也俗名【A紅果】即謂【A文官果】也”,標(biāo)注左右一元邊界詞的結(jié)果,如表3所示。

表3 左右一元邊界詞的標(biāo)注樣例

3.2 測(cè)評(píng)方法

命名實(shí)體識(shí)別的評(píng)價(jià)指標(biāo)有三個(gè): 精確率P、召回率R及調(diào)和平均數(shù)F。精確率是指識(shí)別結(jié)果中正確的命名實(shí)體所占的比例,召回率是指識(shí)別結(jié)果中正確的命名實(shí)體數(shù)量占語(yǔ)料中所有命名實(shí)體總量的比例,調(diào)和平均數(shù)是精確率和召回率的加權(quán)幾何平均值。計(jì)算公式如式(4)~式(6)所示。

其中,識(shí)別正確的命名實(shí)體數(shù)量,是指模型識(shí)別的結(jié)果中是別名的個(gè)數(shù);識(shí)別錯(cuò)誤的命名實(shí)體數(shù)量,是指模型識(shí)別的結(jié)果中不是別名的個(gè)數(shù);沒(méi)有識(shí)別的命名實(shí)體數(shù)量,是指模型沒(méi)有識(shí)別出的別名個(gè)數(shù)。

在利用精確率和召回率進(jìn)行別名識(shí)別模型的性能評(píng)價(jià)時(shí),單方面提高精確率,會(huì)導(dǎo)致召回率下降,反之亦然。本文采用精確率和召回率的加權(quán)幾何平均數(shù)F作為別名識(shí)別模型的綜合評(píng)價(jià)指標(biāo)。

(6)

其中,α為P和R的相對(duì)權(quán)重。當(dāng)α>1時(shí),P的權(quán)重較R大,當(dāng)α<1時(shí),R的權(quán)重較P大,當(dāng)α=1時(shí),P與R具有相同的權(quán)重。

3.3 測(cè)評(píng)結(jié)果

《方志物產(chǎn)》山西分卷中物產(chǎn)的備注信息中有別名信息的共有2 522條。為了提高調(diào)和平均數(shù)的值,本文采用交叉驗(yàn)證的方式構(gòu)建和測(cè)評(píng)識(shí)別模型。將2 522條語(yǔ)料分成10等份,進(jìn)行10次實(shí)驗(yàn)。每次選取其中的9份作為訓(xùn)練語(yǔ)料,構(gòu)建模型,將剩余的1份作為測(cè)試語(yǔ)料,對(duì)模型的性能進(jìn)行測(cè)試和評(píng)價(jià)。針對(duì)識(shí)別結(jié)果計(jì)算P、R、F值,結(jié)果如表4所示。

表4 物產(chǎn)別名自動(dòng)識(shí)別模型的測(cè)試結(jié)果

整體而言,基于CRF的模型識(shí)別精確率最高,平均值達(dá)到了93.52%,而召回率相對(duì)較低,為80.63%。即模型的識(shí)別結(jié)果中別名正確率較高,但占全部應(yīng)識(shí)別出的別名比例稍低。就單次測(cè)試結(jié)果而言,第7份測(cè)試的整體效果較好。該次測(cè)試的語(yǔ)料中,別名的內(nèi)外部特征與識(shí)別模型的特征模板高度吻合。別名長(zhǎng)度在1~3之間,符合別名長(zhǎng)度的分布趨勢(shì);73.50%的左右一元邊界詞都是總體排名前十的字,有利于別名左右邊界的精確定位。

3.4 結(jié)果分析

測(cè)試結(jié)果顯示,條件隨機(jī)場(chǎng)模型在《方志物產(chǎn)》山西分卷的物產(chǎn)別名識(shí)別中發(fā)揮了較好的作用,取得了良好的實(shí)驗(yàn)效果。不過(guò)還有一定的提升空間,主要是由于以下幾個(gè)方面的原因。

(1) 別名單獨(dú)出現(xiàn)。別名前后沒(méi)有明顯的標(biāo)識(shí)字符,且出現(xiàn)次數(shù)較少,不足以形成規(guī)律。例如,以下三條語(yǔ)料“滴溜 甘露子”、“醋注 長(zhǎng)柄瓠”、“白鱔 鰻鱺”等,“滴溜、醋注、白鱔”為物產(chǎn)名稱(chēng),“甘露子、長(zhǎng)柄瓠、鰻鱺”分別是三種物產(chǎn)的別名,這三個(gè)別名在整個(gè)語(yǔ)料當(dāng)中都只出現(xiàn)了一次,別名兩側(cè)又沒(méi)有任何標(biāo)識(shí)字符。因此,計(jì)算機(jī)模型無(wú)法將其識(shí)別出來(lái)。

(2) 別名與物產(chǎn)名相同。人工標(biāo)注過(guò)程中,一旦發(fā)現(xiàn)物產(chǎn)備注信息中出現(xiàn)的別名與物產(chǎn)名稱(chēng)相同,就放棄對(duì)該名稱(chēng)的標(biāo)注,認(rèn)為它是物產(chǎn)名稱(chēng)在備注信息中重復(fù)出現(xiàn)。但計(jì)算機(jī)模型識(shí)別的時(shí)候,只要判斷符合別名特征,就會(huì)被當(dāng)作別名識(shí)別出來(lái)。例如,“半癡 俗名半翅檢徐天地集名半癡因其性也”,人工標(biāo)注的時(shí)候只標(biāo)注出“半翅”,而計(jì)算機(jī)模型識(shí)別的結(jié)果為“半翅”、“半癡”。

(3) 別名重復(fù)出現(xiàn)。在同一個(gè)物產(chǎn)的同一條備注信息中,某別名多次出現(xiàn),人工標(biāo)注僅標(biāo)注一次,而計(jì)算機(jī)模型不會(huì)判斷別名是否重復(fù)出現(xiàn)。例如,“鳲鳩 俗呼布穀身灰色翅尾俱有黑斑辳夫侯此鳥(niǎo)鳴乃布種其榖故名布穀”,人工只對(duì)“俗呼布穀”進(jìn)行標(biāo)注,結(jié)果為“布穀”,而計(jì)算機(jī)模型識(shí)別的結(jié)果為“布穀”、“布穀”。

(4) 別名與其它信息混淆。在物產(chǎn)的備注信息中,有品種、地名等其它類(lèi)型的命名實(shí)體出現(xiàn)的規(guī)則與別名相似,在計(jì)算機(jī)模型分析判斷之后,成為識(shí)別結(jié)果的一部分。例如,“赭石 生河?xùn)|山中別錄曰出代郡者名代赭李時(shí)珍曰赭赤色也代即雁門(mén)也俗呼土朱鐵”,人工識(shí)別的結(jié)果為“代赭、土朱鐵”,而計(jì)算機(jī)模型識(shí)別的結(jié)果為“代赭、雁門(mén)、土朱鐵”。顯而易見(jiàn),“雁門(mén)”并非物產(chǎn)“赭石”的別名,而是地點(diǎn)“代”表示的地名。

(5) 別名的長(zhǎng)度判斷錯(cuò)誤。物產(chǎn)的別名長(zhǎng)度大多數(shù)為2~3個(gè)字,但也有一些較長(zhǎng)的別名,在計(jì)算機(jī)模型進(jìn)行判斷時(shí),識(shí)別的完整性較低。例如,“玄精石 出解州塩池本草曰乃鹹鹵至陰之精凝結(jié)而成故名又名太乙玄清石”,計(jì)算機(jī)模型只識(shí)別出“太乙”。

(6) 別名并列連續(xù)出現(xiàn)。即一個(gè)物產(chǎn)有數(shù)個(gè)別名,這些別名在備注信息中是并列連續(xù)出現(xiàn)的。別名之間沒(méi)有任何標(biāo)識(shí)字符,計(jì)算機(jī)模型無(wú)法準(zhǔn)確判斷別名個(gè)數(shù),不能實(shí)現(xiàn)自動(dòng)分詞。例如,“黃精 葉似竹每葉傍生二黑子一名重樓又有莬竹雞格救窮鹿竹等名宋僧延一舊志云出西臺(tái)”,人工標(biāo)注的結(jié)果為“重樓、莬竹、雞格、救窮、鹿竹”,而計(jì)算機(jī)模型僅僅識(shí)別出“重樓”,“莬竹、雞格、救窮、鹿竹”在計(jì)算機(jī)模型中被判定為無(wú)效字段。

3.5 結(jié)果應(yīng)用

物產(chǎn)的別名,關(guān)系著物產(chǎn)的起源、分布范圍和傳播路徑,蘊(yùn)含著文化的交流與變遷狀況,對(duì)于全面認(rèn)識(shí)物產(chǎn)具有重要的價(jià)值和意義。

首先,本研究自動(dòng)抽取出的物產(chǎn)別名可以直接為物產(chǎn)研究人員提供別名信息,只要明確物產(chǎn)名稱(chēng),就可以快速而精確地展示出方志物產(chǎn)中記載的該物產(chǎn)的別名信息,圖2即是物產(chǎn)“菠菜”的別名信息。

圖2 物產(chǎn)“菠菜”的別名信息

其次,根據(jù)物產(chǎn)與別名之間的關(guān)系,可以清晰地梳理出不同物產(chǎn)之間具有相同別名的信息,有助于領(lǐng)域人員開(kāi)辟不同物產(chǎn)之間的相關(guān)性研究,促進(jìn)物產(chǎn)研究的體系化。圖3是物產(chǎn)與別名信息中抽取出的一部分網(wǎng)絡(luò)。結(jié)果顯示,芍藥與萊菔具有相同的別名蟲(chóng)媒花。

圖3 物產(chǎn)—?jiǎng)e名共用網(wǎng)絡(luò)

4 結(jié)語(yǔ)

本文以《方志物產(chǎn)》山西分卷為例,在數(shù)據(jù)格式化處理和全文人工標(biāo)注的基礎(chǔ)上,通過(guò)特征分析,完成了基于條件隨機(jī)場(chǎng)的別名自動(dòng)識(shí)別模型構(gòu)建。并通過(guò)十次交叉驗(yàn)證法,對(duì)模型的識(shí)別性能進(jìn)行測(cè)試,取得了較好的實(shí)驗(yàn)結(jié)果,驗(yàn)證了條件隨機(jī)場(chǎng)模型在方志古籍的內(nèi)容挖掘中具有良好的可行性和應(yīng)用前景。

在進(jìn)一步的研究中,主要通過(guò)兩個(gè)方面提升命名實(shí)體的識(shí)別效果。一是擴(kuò)大語(yǔ)料規(guī)模。將研究語(yǔ)料從山西一個(gè)省擴(kuò)展至華北地區(qū)多個(gè)省甚至全國(guó)范圍,增加語(yǔ)料的多樣性;二是完善特征模板,作為構(gòu)建識(shí)別模型的基礎(chǔ)。特征模板越完善,識(shí)別模型的性能越高。隨著研究的逐步深入,智能識(shí)別效果會(huì)越來(lái)越精確。

內(nèi)容抽取是古籍整理的中間環(huán)節(jié),連接著數(shù)字化建設(shè)和知識(shí)發(fā)現(xiàn)結(jié)果。古籍中凝聚著古人的經(jīng)驗(yàn)和智慧,挖掘其中蘊(yùn)含的信息,可以更好地了解過(guò)去、認(rèn)識(shí)現(xiàn)在、指導(dǎo)未來(lái)。數(shù)字圖書(shū)館和現(xiàn)代信息技術(shù)的發(fā)展為基于內(nèi)容的古籍整理提供了堅(jiān)實(shí)的資料基礎(chǔ)和技術(shù)支持,推動(dòng)了古籍文獻(xiàn)服務(wù)社會(huì)的進(jìn)程。但仍有待于進(jìn)一步深入探索,充分挖掘古籍資料的價(jià)值。

猜你喜歡
信息模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
展會(huì)信息
一個(gè)相似模型的應(yīng)用
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久伊人操| 天天做天天爱夜夜爽毛片毛片| 女人18毛片久久| 欧美日韩一区二区三区在线视频| 亚洲一区二区三区国产精华液| 99热这里只有精品2| 亚洲婷婷在线视频| 性做久久久久久久免费看| 波多野结衣第一页| 亚洲视频一区| 久久国产精品国产自线拍| 欧美伊人色综合久久天天| 日韩毛片视频| 日本一区高清| 国产亚洲精品在天天在线麻豆| 国产亚洲欧美另类一区二区| 亚洲小视频网站| 亚洲成人一区在线| 亚洲人成网站色7799在线播放| 免费国产在线精品一区| 91最新精品视频发布页| 真实国产精品vr专区| 免费国产高清视频| 重口调教一区二区视频| 国产三级韩国三级理| 一本综合久久| 三区在线视频| 亚洲天堂视频在线播放| 成人无码一区二区三区视频在线观看| 在线另类稀缺国产呦| 国产国拍精品视频免费看 | 五月婷婷欧美| 国产成人艳妇AA视频在线| 国产精品免费p区| 日a本亚洲中文在线观看| 人人艹人人爽| 精品人妻AV区| 在线观看免费AV网| 亚洲精品中文字幕午夜| 婷婷色丁香综合激情| 精品伊人久久久久7777人| 午夜精品福利影院| 国产伦精品一区二区三区视频优播 | 在线观看无码av五月花| 91视频青青草| 亚洲精品无码日韩国产不卡| 亚洲无线一二三四区男男| 最新亚洲av女人的天堂| 国产精品极品美女自在线看免费一区二区 | 欧美国产综合色视频| 亚洲欧洲天堂色AV| www.精品国产| 91口爆吞精国产对白第三集| av一区二区三区高清久久| 91色在线视频| 国产SUV精品一区二区| 亚洲综合色在线| yjizz视频最新网站在线| 国产在线观看一区精品| 欧美在线视频不卡第一页| 欧美精品亚洲日韩a| 视频一区视频二区中文精品| 国产18页| 婷婷五月在线| 伊人久久婷婷五月综合97色| 久热中文字幕在线| 精品国产网站| 国产日本一区二区三区| 丝袜国产一区| 欧美日韩国产一级| 凹凸国产分类在线观看| 久久国产精品娇妻素人| 97se亚洲综合在线| 波多野结衣第一页| 自拍偷拍一区| 日韩一二三区视频精品| 一级毛片免费观看久| 美女被操黄色视频网站| 九九热精品视频在线| 91国内在线视频| 国产精品自拍合集| 亚洲乱码视频|