李 娜 包 平
(1.南京林業大學人文社會科學學院 南京 210037;2.南京農業大學中華農業文明研究院 南京210095;3.南京農業大學信息科學技術學院 南京 210095)
數字人文(Digital Humanities)由計算人文和人文計算領域演變而來[1],是針對計算工具與所有文化產品交叉領域的研究[2]。作為一個跨學科的領域,數字人文涉及了文學、計算機科學、歷史學、語言學等多個學科,新的研究方法和研究范式在文獻與技術的結合中重疊創新[3],增加了人文學科研究的廣度和深度[4]。近年來,國內外相繼成立了數字人文聯盟、協會、學會等組織,一些高校創設了數字人文研究中心,為人文研究提供技術和數據支撐,有效地推動了新興交叉學科的發展。
圖書館作為人文研究所需原始資料的保存和服務機構,經過20余年的數字化建設,積累了大量的數字資源和高度結構化、規范化的元數據記錄,為數字人文項目的開展奠定了數據基礎[5]。
作為圖書館館藏古籍文獻的大宗,地方志是按照一定體例記載特定時空下自然和社會各個方面歷史與現狀的綜合性著述,是我國傳統歷史文獻中具有代表性的資料。它起源早、持續久、類型全,客觀地反映不同時期的思想文化、自然開發、科學技術等社會和生活狀況,被譽為“一方之全史”,是中國乃至世界文化遺產的重要組成部分,為后世提供取之不竭的史料資源。白壽彝提出要善于利用歷史文獻,把大量的歷史文獻聯系起來,觀察規律性的東西,發現至今仍有生命力的內容[6]。在信息化背景下,地方志開發利用應引入數字人文的新方法,輔助傳統的手工研究,對資料進行深入加工和整理,提高利用效率,實現價值最大化。
面對結構化和非結構化的信息,如何從中抽取人們感興趣的內容,發現內在規律,越來越受到學術界關注,命名實體識別在這一過程中發揮著關鍵作用。近年來,作為命名實體識別三大任務之一的地名識別研究得到了有效推動,催生了一系列學術成果。
關于中文地名的自動識別,前人的研究主要集中在現代漢語語料上。唐旭日等以北大語料庫為對象,基于條件隨機場模型,構建了以篇章為單位的中文地名識別系統,封閉和開放測試的F值分別達到了92.87%和89.76%[7];孫虹和陳俊杰基于雙層條件隨機場模型識別地名,再使用規則對識別結果進行過濾,在MSRA語料上進行開放測試,獲得了較好的識別效果[8];邱莎等人以《人民日報》為語料,使用條件隨機場模型在字一級粒度上構建了中文地名識別模型,多次閉合和開放測試的結果F值均達到了90%左右[9];李麗雙等以MSRA語料為例,采用遞增式學習策略對條件隨機場的特征模板進行優化,結合基于規則的方法,實現了統計與規則相結合的中文地名識別系統,提高了識別性能[10];黃德根以《人民日報》為語料,通過規則統計,計算地名構詞和接續的可信度,完成了中文地名的識別[11-12];李穎等以作戰文書為研究對象,通過分析語料的特點歸納和句類分析,基于規則的方法對地名進行了識別[13];鄔倫等從中文地名用字特征出發,采用傳統地名與通名結合的方法,將詞素特征融入條件隨機場模型,完成了《人民日報》標注語料中地名的識別[14]。
以古代漢語為語料的中文地名識別研究較少。肖磊以先秦語料《左傳》為研究對象,設計了基于條件隨機場模型的地名識別流程,構建了地名知識庫[15];黃水清等以《春秋左氏傳》為語料庫,分別構建了最大熵模型和條件隨機場模型,完成了地名自動識別,并在《國語》文本集合上進行測試,結果顯示,CRF模型優于ME模型,基于人工標注語料構建CRF模型能取得較好的識別效果[16];王錚將條件隨機場模型應用到《三國演義》的地名識別中,識別結果的準確率為99.16%[17];朱鎖玲等以《方志物產》為語料,通過基于規則的方法,完成了方志古籍中地名的識別,準確率為63.38%[18-19]。
從上述文獻梳理發現,地名自動識別研究主要采用命名實體識別技術中基于統計的方法。現階段,基于統計的方法比較常用的模型有三種,即隱馬爾科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)和條件隨機場模型(Conditional Random Field,CRF)。其中,條件隨機場模型是J.Lafferty等[20]在隱馬爾科夫模型和最大熵模型的基礎上提出的,突破了隱馬爾科夫模型的嚴格獨立性假設限制,優化了最大熵模型的歸一化處理,從而解決了標注偏差的問題,能夠靈活地融合上下文的多種特征,基于條件概率處理序列標注問題,有成熟的開源工具,在中文分詞領域有著良好的性能和廣泛的應用。
方志古籍語料在行文結構和時空范圍等方面具有獨特性,其數字化整理尚處于起步階段,面向數字人文領域的新方法應用具有積極的探索意義。本文以《方志物產》山西分卷為語料,在全文人工標注的基礎上,基于條件隨機場和標注語料庫構建地名自動識別模型;采用10次交叉驗證方法測試模型的識別性能,尋找最優方案。本研究通過探討條件隨機場模型在方志古籍地名自動識別的應用前景,以期為方志古籍整理與利用提供新的途徑。
目前,有關古漢語地名自動識別的研究成果相對較少,且使用的語料庫在規模、類型上各有不同,尚未發現基于全文手工標注的方志古籍地名自動識別研究。方志古籍是我國古籍文獻的大宗,據《中國地方志聯合目錄》統計,保存至今的宋至民國時期的方志多達8 264種,11萬余卷,約占中國古籍的十分之一。20世紀50年代,我國著名農史學家、農史學科創始人之一萬國鼎先生,組織數十人前往全國40多個大中型城市的100多個文史單位,從近7 000部地方志中手工摘抄物產部分,編纂成《方志物產》叢書,藏于南京農業大學圖書館。目前,《方志物產》是國內外唯一一套手工整理的方志農業專題資料,全文共431卷、3 000余萬字,包含省志、府州志、縣志、鄉志、邊關志、山川志等多種類型的志書,記載從宋熙寧九年(1076)至民國三十八年(1949)全國范圍內動物、植物、貨物等物產信息,尤其以品種資源和種植、飼養、利用技術為主,為農業史、區域史等人文學科研究提供了豐富的資料[21]375。《方志物產》語料樣例見圖1。
近年來,借助現代信息技術,《方志物產》數字化整理研究取得了一定進展。王思明教授研究團隊完成了《方志物產》從紙質手抄本到電子文本的數字化工作,解決了資料多形態保存的問題,促進了資源的檢索、傳播和利用[22];衡中青以《方志物產》廣東分卷為語料,探索了基于規則的命名實體識別方法在別名、引書自動識別上的應用,開辟了《方志物產》數字化整理的先河[23]。黃建年以包括《方志物產》廣東分卷在內的13種農業古籍為數據來源,進行了自動分詞研究,《方志物產》,分詞正確率達到了92%[24];朱鎖玲以廣東、福建、臺灣三省的《方志物產》為研究對象,在地名識別的基礎上,嘗試引入GIS技術,可視化展示物產在地域上的分布和傳播,進一步推動了《方志物產》的數字化整理工作[25]。筆者以《方志物產》山西分卷為例,在梳理和分析物產的分類信息特征的前提下,重構了一套物產分類體系,并實現了物產分類信息的自動化完善,為基于分類的物產信息處理打下了基礎[26]。
《方志物產》手抄紙本數字化工作為本研究的開展提供了堅實的數據基礎,基于文本內容的數字化整理探索為本文進行研究方法的選擇和研究思路的設計提供了借鑒。
中文地名起源早、類型多,處于不斷的發展演變進程中,具有明顯的普遍性、地域性、民族性、穩定性、時代性等特征[27],且數量龐大、用字自由、長度不一、結構復雜,導致中文地名的識別難度較大。現代漢語中地名自動識別可以參考地名庫、前綴介詞以及結束詞等內容,其中,地名庫收錄了絕大部分的現用地名,有助于識別結果的判別;前綴介詞如“去、在”等,有助于地名起始位置的判斷;結束詞為“省、市、區、縣、鄉、鎮、村、莊”等,有助于地名結束位置的判斷。
相比較而言,古漢語地名自動識別要復雜得多,沒有成熟的地名庫為參照,正異體字或者訛字等現象的存在導致識別難度更大。尤其是方志古籍,時間跨度大、空間范圍廣,時代性和地域性較為突出,地名特征呈現多樣化。
(1)舊名為主。文中出現的地名多為舊稱,與現代地名有著很大的差別,例如市級行政單位,山西省如今有“大同市、朔州市、忻州市、呂梁市、太原市、陽泉市、臨汾市、晉中市、長治市、晉城市、運城市”等11個,而方志古籍中對應級別的府州有19個,分別是“大同府、朔平府、保德州、寧武府、代州、忻州、平定州、太原府、遼州、汾州、沁州、隰州、霍州、潞安州、平陽府、澤州府、絳州、蒲州、解州”。
(2)范圍多樣。方志古籍中包含的地名表示的地域范圍大小不一,有些地名表示的范圍較大,有國家級單位如“西域、頗陵國、大宛國”等,有省級單位如“山西、河南”等、有府州級單位如“太原府、平陽府、保德州”等、有縣級單位如“陽曲縣、河津縣”等、有村級單位如“下石門村、翟家橋村”等,也有特定的山川河流寺廟如“汾州眾香寺、石姑山、晉祠”等,還有一些泛指的地名如“河東山谷、北鄉近水村落、北山一帶”等。
(3)簡、全并存。在方志古籍的記載中,地名表達的完善程度不統一,有些地名記述的比較完整,如“太原縣、廣昌縣”等,有些地名則是使用的簡稱,如“澤、潞”等,這種現象導致一部分地名有特定的結尾詞,而另一部分則沒有,如“府、州、縣、村、山”等。
(4)左右邊界。經過文本分析,部分地名在上下文中有一定的規律性,即有著比較明顯的前后綴詞,如“出……、俱……出、產于……、……貢”等。
(5)出現方式。地名出現的方式有多種,有單獨出現,如“冬瓜 出太原縣”,有多個地名組合出現,如“丁香 左云馬邑有”。
除了上述幾種典型的情況,方志古籍中地名還有其他類型特征。總而言之,古今地名的差異大,無法參照現有地名庫進行結果判別;語料書寫采用繁體字,夾雜著大量的正異體字、訛字、組成字等,復雜程度高;文本中沒有任何句讀,分析難度大。所以,方志古籍中地名自動識別相對困難。已有研究使用基于規則的方法進行了地名自動抽取探索,準確率、召回率和F值分別為63.38%、82.89%、71.83%[25]95,識別效果還有很大的提升空間。
本文以《方志物產》山西分卷作為研究語料。語料庫共13卷,約43萬字,記載了自明成化二十一年(1485)至民國二十九年(1940)山西境內的51 545條物產信息,分為植物、動物、貨物三大類別。山西,又稱“三晉”,地處中原,位于黃河之濱,是中華民族的發祥地之一,有文字記載的歷史達三千余年,自古以來,農業發達,物產豐富,被譽為“華夏文明搖籃”,有“中國古代文化博物館”之稱。因此,以山西分卷為例進行地名自動識別研究,能夠代表黃河流域甚至更廣范圍的情況,為全國范圍內《方志物產》中命名實體識別提供借鑒。
進行地名人工標注的過程中,首先,要從語料庫中篩選出具有備注信息的物產,共得到9 085條語料。然后,制定標注規范,“L”標注類型為地名,“【”與“】 ”表示地名的左右邊界,因此,完整的地名標注方式為“……【L地名】……”,如“桐出【L汾陽】【L介休】【L孝義】一名白桐體最輕虛不生蟲蛀斲琴最良一名青桐即梧桐也其子可炒作果立秋日必墜一葉詩云梧桐一葉落天下盡知秋”。最終,與物產“桐”相關的地名標注結果為“汾陽”“介休”“孝義”,所有語料中共標注出地名2 287次。
在進行地名識別模型的構建和自動識別之前,要先對標注語料進行預處理,把語料拆分成單字并添加標識符,生成標注集。為了區分地名和非地名用字的差別,本文采用四位標注集,即P={B,M,E,S},其中,B代表地名的初始字,M代表地名的中間字,E代表地名的結束字,S代表地名以外的字,M位于B、E之間,S位于B、E之外,可以是B之前,也可以是E之后。如經過手工標記的語料“五靈脂 即寒號蟲糞出【L太原諸山】 ”,標注集的生成結果如表1所示:

表1 方志古籍地名標注集樣例
經過標注集的生成,將標注語料處理成具有特定標識符的單字,能夠為地名左右邊界特征的統計提供便利,左右邊界是特征模板的重要組成部分,影響地名自動識別模型的功能完善和識別效果。
在人工標注和標注集的基礎上,對地名的外部特征進行統計分析,將結果作為參數融入模型構建中,以保證地名自動識別模型的準確率和召回率。本研究中,地名的內部特征主要是指地名的長度和出現的頻次,外部特征主要是指地名的左右一元邊界詞。
(1)地名的內部特征分析
地名的長度就是組成地名的漢字個數。通過地名長度的統計分析,可以幫助確定識別序列的跨度。標注語料中共提取出人工標注的地名2 287個。經過長度統計,地名的長度有“1、2、3、4、5、6、7、11”等八種類型。從詞頻統計結果看,長度為1的地名有226個,約占全部地名的9.88%;長度為2的地名數量最多,有1 635個,約占全部地名的71.49%;長度為3的地名有307,約占全部地名的13.42%;長度為7和11的地名最少,分別只有3個和2個,如“芮城北山地黃村”“壽陽縣西南六十里建工村”。可見,地名的長度主要集中在1、2、3上,共有2 168個,約占地名總數的94.80%,涵蓋了絕大多數的地名。地名長度的統計分析有助于識別過程中地名長度的判斷。
地名的頻次是指地名的記載次數。對語料庫中人工標注的地名進行去重處理,得到430個不同的地名,平均每個地名出現約5.32次。其中,出現次數高于15的地名共有27個,出現次數最高的為“太原”,共出現了93次,其次是“平陽”,出現了89次,第三是“安邑”和“夏縣”各出現了20次。這27個高頻地名共出現了926次,約占整個地名的40.49%。高頻地名的準確識別,是地名自動識別模型性能的基本保證。
(2)地名的外部特征分析
假設我們把一條語料表示成“SLn,…,SLi,…,SL1,【R,R1,…Rn】,SR1,…,SRj,…,SRn”,其中【R,R1,…Rn】表示地名,SLi表示地名的左邊界,SRj表示地名的右邊界,如SL1、SR1分別為地名的左右一元邊界詞,SL1、SL1和SR1、SR1分別為地名的左二元邊界詞。本研究使用的機器學習模型主要參考左右一元邊界詞。方志古籍中地名的左右一元邊界詞,即SL1、SR1,可以運用公式(1)獲取和分析。

其中,為在語料中出現的頻率,為邊界詞在邊界詞位置上出現的次數,為邊界詞在語料庫中出現的總次數。經過計算統計,地名高頻左右一元邊界詞的分布情況如表2所示。

表2 地名的左、右一元邊界詞統計結果
統計結果顯示,地名的左一元邊界詞比較集中,頻次最高的10個左一元邊界詞占所有左一元邊界詞的比例為55.94%,其中,“出”的出現次數最多,如“出太原縣”等,而“載”的出現概率最高,如“即馬藺子也俗呼馬揀子平陽出本草載冀州”等;地名的右一元邊界詞相對分散,頻次最高的10個右一元邊界詞占所有右一元邊界詞的比例僅為39.71%,其中,仍然是“出”的出現次數最多,如“五臺山出”等,而“境”的出現頻次最高,如“出太原府境”等。
條件隨機場是一種判別式的概率圖模型,主要用于在給定需要標記的觀察序列的條件下,定義標簽序列的概率分布。設圖G=(V,E)是一個無向圖,Y為標注序列,X為待標注序列,令如果服從馬爾科夫屬性,則(X,Y)構成一個條件隨機場,滿足表示是相鄰的節點。
在構建CRF模型時,語料中上下文的特征都應該加進去,以提高模型的性能。本研究的模型中主要加入上文所分析的地名內外部特征,即長度、頻次、邊界詞等。
(1)地名長度。如上所述,方志古籍語料中,最常見的地名長度為2,如“酸棗仁 【L太原】【L迤南】【L平陽】【L汾】【L沁】【L澤州】俱出本草載【L河東】”,絕大多數的地名長度都在1至3的范圍內,長度為1的如“兔絲子 【L蒲】 【L絳】二州出”,長度為3的如“銅出【L鳳游峪】并出蟾酥”。地名長度用阿拉伯數字表示,作為一個重要特征加入識別模型。
(2)一元邊界詞。地名的識別過程中,一旦確定了左右一元邊界詞,地名的具體位置就鎖定了,地名也就被識別出來了。因此,地名的左右一元邊界詞是模型構建中一個極為重要的特征。在前文的統計中,地名的左一元邊界詞和右一元邊界詞的前10名分別為“出、有、者、平、俱、馬、貢、境、等、潞”和“出、有、者、平、俱、馬、貢、境、等、潞”。在模型訓練時,標注出左右一元邊界詞,左一元邊界詞標注為L,右一元邊界詞標注為R,非一元邊界詞則標注為N,并作為特征加入模型之中,例如語料“棗 史記雲【L安邑】千樹棗其人與千戶侯等”,語料訓練結果如表3所示。

表3 一元邊界詞的標注樣例
命名實體識別采用三個指標對模型的識別效果進行綜合評價,分別是精確率P、召回率R和調和平均數F[28]。見公式(2)-(4):

其中,Correct是機器識別正確的地名數量,Incorrect是機器識別錯誤的地名數量,Unrecognized是機器沒有識別出來的地名數量。
為了得到更加科學和合理的測試結果,本研究采用10次交叉法驗證模式的識別性能。將語料打亂順序隨機排列后,平均分成10等份,每次選取其中的9份作為訓練語料,用于構建地名自動識別模型,將剩余的1份作為測試語料,對模型的性能進行訓練和評價,共進行10次實驗,以獲得最優的地名自動識別模型。實驗結果見表4。
整體而言,基于CRF模型識別的精確率最高,平均值達到了95.48%,召回率相對較低,為86.04%,調和平均值達到了90%以上,即模型的識別結果中地名正確率較高,但是占全部應識別出的地名比例稍低。就單次測試結果而言,第9份測試的整體效果最好,該測試語料中,地名的內外部特征與識別模型的特征模板吻合度最高,為更大規模、更多類型的語料庫進行更加精準的人工標注、語料劃分和模型構建提供了研究基礎和借鑒。

表4 地名自動識別模型的測試結果
對錯誤的識別結果進行分析,發現錯誤的原因主要集中在以下幾個方面。一是非常規地名,如“惟西山中間有之”,句中“西山中間”不是一個具體的地名;二是不常見地名,如“訓峪後溝等十數村均産”,句中“訓峪後溝等十數村”屬于較少出現的小級別行政單位;三是長度較大地名,如“產縣西石明村藺相如墓上俗言童子入學佩之多聰慧”,句中“縣西石明村藺相如墓”為長度較長的地名,以上三種屬于容易漏識的情況。還有容易錯識的情況,一種情況是單字地名并列出現,如“忻代岢嵐遼州翼城縣諸山上出”,句中“忻代”被錯誤地作為一個地名識別出來;另一種情況是長度判斷偏差,如“一統志出代州鳳游峪今閉塞”,模型僅識別出“代州”,而不是完整地名“代州鳳游峪”。在未來的研究中,要降低甚至消除錯誤情況的影響,不斷提升模型的識別性能。
本文以《方志物產》山西分卷為例,在全文人工標注的基礎上,統計分析地名特征,基于條件隨機場構建了方志古籍地名自動識別模型,并通過10次交叉方法,測試了模型的識別性能。結果顯示,本研究能夠取得較好的識別效果,其中,準確率、召回率和F值分別為98.16%、91.55%、94.57%的模型為方志古籍地名識別的最佳模型,相較于已有研究中基于規則的方法平均提高了20%以上。
方志古籍類型多、規模大,本文僅以山西一省語料為例完成探索,語料規模和地域范圍較小,識別效果仍有提升的空間,可以從以下幾個方面逐步完善識別模型。
(1)提高人工標注的準確度。人工標注是地名自動識別模型構建的基礎工作,其準確程度影響特征模板內容、模型功能和測試結果,因此,要盡可能地減少錯標、漏標的次數,保證標注的準確率。
(2)提高地名長度判斷功能。方志古籍中,地名的表述不統一,同一個地名有時會以不同的稱呼出現,有些是因為名稱變遷,有些是因為全稱和簡稱的使用,例如“潞安府”就有“潞安”“潞安府”“潞州”“潞”等不同的名稱,因此,在地名識別的過程中,如何更加準確地判斷一個地名的長度,是一項仍需加強的研究。
(3)提高邊界區分能力。在描述一個多處均有產出的物產時,往往會連續記載一系列地名,而且不同地名之間沒有明顯的字符隔開,難以判斷左右邊界,如“柘 【L太原】【L平陽】【L潞安】【L汾】【L沁】【L遼】【L澤】境內俱出惟【L高平縣】有萬條桑”,并列出現的地名之中,長短不一,識別難度大,需要更加深入的探索。
(4)擴大語料庫規模。《方志物產》山西分卷作為本研究的語料,包含地名信息的物產信息僅有1 308條,規模相對較小。隨著研究的逐步深入,逐步擴大研究的地域范圍,在更大規模人工標注的語料上,基于條件隨機場的方志古籍地名自動識別模型將會取得更好的效果。
多年來圖書館數字化建設成果,為數字人文的開展奠定了數據基礎,各種數字人文方法和工具的不斷成熟,為館藏資源的開發利用提供了技術保障。在數字人文研究不斷探索的過程中,圖書館要做好館藏資料的保護開發和開放利用,逐漸拓展研究視野和研究方法,更要重視文獻之間的關聯性和多學科融合合作,逐步提升服務和創新能力,成為人和社會全面發展的知識庫和信息源。
(來稿時間:2017年9月)
參考文獻:
1.Digital humanities [EB/OL].[2017-05-29].https://en.wikipe dia.org/wiki/Digital_humanities.
2.Library and information science and digital humanities: two disciplines, joint future? [EB/OL].[2017-05-29].https://core.ac.uk/download/pdf/30446946.pdf.
3.Dalbello M.A genealogy of digital humanities [J].Journal of Documentation, 2011, 67(3):480-506.
4.李啟虎,尹力,張全.信息時代的人文計算[J].科學,2015, 67(1):35-39.
5.吳建中.再議圖書館發展的十個熱門話題[J].中國圖書館學報, 2017, 43(4):4-17.
6.白壽彝.中國通史(第1卷)導論[M].上海:上海人民出版社,1989:292-294.
7.唐旭日,陳小荷,許超,等.基于篇章的中文地名識別研究[J].中文信息學報,2010, 24(2):24-33.
8.孫虹,陳俊杰.雙層CRF與規則相結合的中文地名識別方法研究[J].計算機應用與軟件, 2014, 31(11):175-177.
9.邱莎,阿圓,王付艷,等.基于統計的中文地名自動識別研究[J].計算機技術與發展,2011, 21(11):35-38.
10.李麗雙,黨延忠,廖文平,等.CRF與規則相結合的中文地名識別[J].大連理工大學學報,2012, 52(2):285-289.
11.黃德根,岳廣玲,楊元生.基于統計的中文地名識別[J].中文信息學報,2003, 17(2):37-42.
12.黃德根,孫迎紅.中文地名的自動識別[J].計算機工程,2006, 32(3):220-222.
13.李穎,王青海,池毓煥.句類分析準則在作戰文書地名識別中的應用[J].計算機工程與設計,2013, 34(8):2903-2907.
14.鄔倫,劉磊,李浩然,等.基于條件隨機場的中文地名識別方法[J].武漢大學學報·信息科學版,2017, 42(2):150-156.
15.肖磊.先秦地名知識庫構建[D].南京師范大學,2010.
16.黃水清,王東波,何琳.基于先秦語料庫的古漢語地名自動識別模型構建研究[J].圖書情報工作,2015(12):135-140.
17.王錚.基于CRF的古籍地名自動識別研究[D].廣西民族大學,2008.
18.朱鎖玲,包平.方志類古籍地名識別及分析研究——以《 方志物產》(廣東分卷)為例[J].圖書館論壇,2012, 32(4):171-176.
19.朱鎖玲,包平.方志類古籍地名識別及系統構建[J].中國圖書館學報,2011, 37(3):118-124.
20.Lafferty J D, Mccallum A, Pereira FCN.Conditional Random Fields: Probabilistic Models For Segmenting And Labeling Sequence Data [C].2001:282-289.
21.王思明,陳少華.萬國鼎文集[M].北京:中國農業科學技術出版社,2005:375.
22.胡以濤,宋葉.抄寫本方志古籍數字化整理與實踐[J].圖書館理論與實踐,2014(8):101-103.
23.衡中青.地方志知識組織及內容挖掘研究[D].南京農業大學,2007.
24.黃建年.農業古籍的計算機斷句標點與分詞標引研究[D].南京農業大學,2009.
25.朱鎖玲.命名實體識別在方志內容挖掘中的應用研究[D].南京農業大學,2011.
26.李娜,包平.基于《方志物產》的物產分類體系智能化研究——以《方志物產》山西分卷為例[J].中國農史,2016,35(4):31-38.
27.董曉曉.中國地名的人文地理特征及其空間分布研究[D].山西師范大學,2012.
28.Atterer M, Schütze H.Prepositional phrase attachment without oracles [J].Computational Linguistics, 2007, 33(4):469-476.