任璀洛
(湖南省地方志編纂院 湖南省地方文獻(xiàn)研究所,湖南 長(zhǎng)沙 410003)
中國(guó)共產(chǎn)黨第二十次全國(guó)代表大會(huì)上的報(bào)告提出,實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略,健全現(xiàn)代公共文化服務(wù)體系,創(chuàng)新實(shí)施文化惠民工程。2023 年2 月,黨中央、國(guó)務(wù)院印發(fā)《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》(以下簡(jiǎn)稱(chēng)《規(guī)劃》),強(qiáng)調(diào)打造自信繁榮的數(shù)字文化,要求推進(jìn)文化數(shù)字化發(fā)展,深入實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略,建設(shè)國(guó)家文化大數(shù)據(jù)體系,形成中華文化數(shù)據(jù)庫(kù)。地方志工作應(yīng)該適應(yīng)新時(shí)代的發(fā)展需要,主動(dòng)融入宏大的“數(shù)字中國(guó)”圖景,推動(dòng)數(shù)字技術(shù)在地方志領(lǐng)域全過(guò)程的融合應(yīng)用,堅(jiān)持守正與創(chuàng)新的辯證統(tǒng)一,進(jìn)一步轉(zhuǎn)型升級(jí)傳統(tǒng)地方志的傳承、編纂、傳播、利用方式,提升地方志數(shù)據(jù)的質(zhì)量、可靠性和安全性,有效地支撐政府決策和社會(huì)服務(wù)。
地方志文本內(nèi)容的數(shù)據(jù)處理已有較多研究,但針對(duì)地方志的數(shù)據(jù)模型研究仍比較少。魯?shù)ぁ⒗钚姥芯空系胤街緮?shù)據(jù)遇到的五個(gè)方面問(wèn)題,討論了核心數(shù)據(jù)的映射關(guān)系表,但對(duì)地方志中的文本數(shù)據(jù)提取未做相關(guān)研究[1]魯?shù)?李欣.數(shù)字人文環(huán)境下異構(gòu)方志元數(shù)據(jù)整合策略[J].圖書(shū)館論壇,2019,(04).(P158-165)。溫永寧等基于GIS(地理信息系統(tǒng))的方法,研究了家譜信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),但僅支持人員、地點(diǎn)、時(shí)間等信息建模,與地方志文本內(nèi)容的數(shù)據(jù)處理復(fù)雜度有較大差別[2]溫永寧,閭國(guó)年,陳旻,等.華夏家譜GIS的數(shù)據(jù)組織與系統(tǒng)架構(gòu)[J].地球信息科學(xué)學(xué)報(bào),2010,(02).(P2235-2241)。趙思淵以“中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)”為例,討論了引入文獻(xiàn)數(shù)據(jù)庫(kù)結(jié)構(gòu)和分析工具的目的、意義以及規(guī)范等[3]趙思淵.地方歷史文獻(xiàn)的數(shù)字化、數(shù)據(jù)化與文本挖掘:以《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》為例[J].清史研究,2016(4).(P26-35)。歐陽(yáng)劍提出了古籍文本可視化思路,包括以時(shí)間軸為主線的微觀散點(diǎn)圖分析、以時(shí)間軸為主線的宏觀曲線分析、空間信息展示、詞頻分析、詞語(yǔ)首見(jiàn)年代考證等方式,未涉及具體的數(shù)據(jù)架構(gòu)[4]歐陽(yáng)劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國(guó)圖書(shū)館學(xué)報(bào),2016,(02).DOI:10.13530/j.cnki.jlis.160011(P66-80)。王銳等基于GIS(地理信息系統(tǒng))的方法,將地方志信息劃分為空間信息、時(shí)間信息和多媒體信息三類(lèi),提出將地方志信息融入空間基礎(chǔ)地理信息,構(gòu)建了概括式的要素類(lèi),以及要素的空間、時(shí)間、主題、多媒體模型,將實(shí)體的坐標(biāo)數(shù)據(jù)、拓?fù)鋽?shù)據(jù)和屬性數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)[5]王銳,馬德濤,袁家勇,等.基于GIS的地方志信息與空間基礎(chǔ)地理信息融合方法的研究[C]//中國(guó)地理信息系統(tǒng)協(xié)會(huì).2009'中國(guó)地理信息產(chǎn)業(yè)論壇暨第二屆教育論壇就業(yè)洽談會(huì)論文集.[出版者不詳],2009.(P280-285)。徐蒙蒙總結(jié)歸納出時(shí)空數(shù)據(jù)的語(yǔ)言描述特征,研究了地方志時(shí)空數(shù)據(jù)組織的方法和信息抽取方法,設(shè)計(jì)了地名對(duì)象數(shù)據(jù)庫(kù)表[6]徐蒙蒙. 地方志時(shí)空數(shù)據(jù)組織與應(yīng)用[D].南京師范大學(xué),2014.。徐晨飛以《方志物產(chǎn)》云南卷為例,分析了地方志物產(chǎn)領(lǐng)域的語(yǔ)義和組織,提出構(gòu)建地方志物產(chǎn)知識(shí)庫(kù),并探討了知識(shí)庫(kù)的應(yīng)用[7]徐晨飛.數(shù)字人文視域下方志物產(chǎn)知識(shí)庫(kù)構(gòu)建研究[D].南京農(nóng)業(yè)大學(xué),2020.DOI:10.27244/d.cnki.gnjnu.2020.002530.。相關(guān)研究都是從其他學(xué)科的知識(shí)架構(gòu)出發(fā),從地方志中抽取數(shù)據(jù),滿(mǎn)足其學(xué)科研究范式,而全面系統(tǒng)分析地方志文本的數(shù)據(jù)特征,并相應(yīng)提出如何充分利用數(shù)據(jù)的研究成果仍較為罕見(jiàn)。
本研究運(yùn)用計(jì)算機(jī)科學(xué)的相關(guān)原理,分析地方志文本數(shù)據(jù)特征,設(shè)計(jì)地方志數(shù)據(jù)模型,提出模型的規(guī)范架構(gòu)、分類(lèi)方式和應(yīng)用場(chǎng)景,主要采用了文獻(xiàn)分析方法、現(xiàn)狀分析和問(wèn)題定義方法、軟件工程方法、數(shù)據(jù)治理方法、實(shí)證研究方法。
研究地方志模型的設(shè)計(jì)和構(gòu)建,可以探索挖掘和利用地方志資源寶庫(kù)的方式,達(dá)成地方志工作者的數(shù)據(jù)共識(shí),完善地方志理論體系,反饋促進(jìn)編纂工作,指導(dǎo)地方志編纂過(guò)程的數(shù)據(jù)資源收集,拓展地方志信息化前進(jìn)之路,更便于調(diào)研、分析、界定社會(huì)公眾對(duì)地方志的數(shù)據(jù)需求,提供更加靈活和高效的數(shù)據(jù)訪問(wèn)方式,豐富地方志文化內(nèi)涵,開(kāi)拓地方志多元化應(yīng)用場(chǎng)景,提升地方志服務(wù)的能力和價(jià)值。
地方志文本數(shù)據(jù)特征不是指地方志的資料性、全面系統(tǒng)性、地域性等本體特征,強(qiáng)調(diào)的是在數(shù)據(jù)治理過(guò)程中的特點(diǎn)。從數(shù)據(jù)應(yīng)用角度分析,地方志數(shù)據(jù)具有明顯的數(shù)據(jù)源復(fù)雜且差異明顯、數(shù)據(jù)格式多樣化、數(shù)據(jù)以非結(jié)構(gòu)化文本為主、覆蓋面廣但顆粒度不足、數(shù)據(jù)產(chǎn)生速度較慢但仍具有一定價(jià)值等特點(diǎn)。
中國(guó)地方志工作辦公室公布的2021 年度數(shù)據(jù)統(tǒng)計(jì)結(jié)果顯示,全國(guó)有省級(jí)地方志工作機(jī)構(gòu)33個(gè)[1]23個(gè)省、5個(gè)自治區(qū)、4個(gè)直轄市和新疆生產(chǎn)建設(shè)兵團(tuán),香港、澳門(mén)、臺(tái)灣未統(tǒng)計(jì)在內(nèi)。,地市級(jí)地方志工作機(jī)構(gòu)349 個(gè),縣區(qū)級(jí)地方志工作機(jī)構(gòu)2621 個(gè)。部分地區(qū)的省志和市志存在分志,某些地區(qū)還出版了鄉(xiāng)鎮(zhèn)志和村志。地方志數(shù)據(jù)源呈現(xiàn)層級(jí)多樣化、地域特色化的特點(diǎn)。3000 個(gè)地方志工作機(jī)構(gòu)組織編纂的地方志雖然在體例和風(fēng)格上基本相似,但是篇目框架和篇幅內(nèi)容有著巨大的差異。顯而易見(jiàn),省、市、縣不同層級(jí)的地方志對(duì)地情要素的關(guān)注重點(diǎn)是迥然不同的,綜合志書(shū)、地方年鑒等不同類(lèi)型的地方志篇幅內(nèi)容是差異較大的。
同層級(jí)、同類(lèi)型但不同區(qū)域的地方志,框架篇目的結(jié)構(gòu)和順序也有一定差異,所包含的地情要素各有特點(diǎn)。例如《長(zhǎng)沙縣志》(1995 年10 月版)分33 篇,《洪江市志》(1994 年6 月版)分23 篇,兩者同為湖南省的縣級(jí)行政區(qū)域、出版時(shí)間相近、出版社相同,僅有“建置”“自然環(huán)境”“人口”“工業(yè)”“商業(yè)”“交通 郵電”“人物”這七個(gè)篇目名稱(chēng)一致,框架篇目的分類(lèi)包含關(guān)系和排列順序則大相徑庭,篇目下記載的地情要素更加難以比較。編纂地方志時(shí)間跨度大,涉及行業(yè)廣,需要眾多人員的直接參加或間接參與直接寫(xiě)稿、提出修改意見(jiàn)、反復(fù)審改加工等環(huán)節(jié)。不同區(qū)域和不同年代的資料搜集人員在資料的取舍上存在差異。在地方志編纂過(guò)程中,因各環(huán)節(jié)的參與人員學(xué)歷文化水平和地情認(rèn)知差異,需要記錄的地情要素沒(méi)有統(tǒng)一標(biāo)準(zhǔn)。因此,同層級(jí)、同類(lèi)型但不同區(qū)域的地方志記載的數(shù)據(jù)多有出現(xiàn)“你有我無(wú)”“我有你無(wú)”的現(xiàn)象。
即使是同層級(jí)、同類(lèi)型、同區(qū)域的地方志,框架篇目和記載的地情要素也存在大同小異和隨社會(huì)發(fā)展不斷調(diào)整的情況。各省的年鑒一年一卷,大多創(chuàng)刊在30 年以上,但較少有某一個(gè)要素?cái)?shù)據(jù)記錄30 年以上,很多數(shù)據(jù)都是記載了三五年之后,后續(xù)卷再也找不到相關(guān)記載。例如,從1985-1993 年《湖南年鑒》各卷中尋找對(duì)全省金融機(jī)構(gòu)數(shù)量的記載,得出結(jié)果如下表所示。這個(gè)金融機(jī)構(gòu)數(shù)量數(shù)據(jù)連續(xù)記載9 年,從1994 年以后,《湖南年鑒》中不再記載。這個(gè)隨意抽檢的一個(gè)數(shù)據(jù)要素可以證實(shí),層級(jí)、空間、時(shí)間和客體的變動(dòng),都會(huì)導(dǎo)致地方志數(shù)據(jù)的多源差異化。貴陽(yáng)方志云的數(shù)據(jù)比對(duì)功能效果不佳,可能就是由多源差異化原因所造成。各種地方志記載的同一地情要素指標(biāo)的數(shù)據(jù)因書(shū)籍章節(jié)排列的差異,分布在書(shū)內(nèi)的不同位置,加上要素名稱(chēng)的同義多名現(xiàn)象,給地方志數(shù)據(jù)分析整理增加了相當(dāng)大的難度。

1985-1993 年《湖南年鑒》各卷次記錄的金融機(jī)構(gòu)數(shù)量(個(gè))
目前,全國(guó)多個(gè)數(shù)字方志館或數(shù)據(jù)庫(kù)已經(jīng)建成投入使用,為地方志數(shù)據(jù)模型的設(shè)計(jì)和構(gòu)建提供了一定的資源基礎(chǔ),但各省地方志數(shù)據(jù)存儲(chǔ)采用的數(shù)據(jù)庫(kù)類(lèi)型版本,以及文本表現(xiàn)形式是多樣化的。2019 年10 月,參照國(guó)家圖書(shū)館的數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)加工規(guī)范制定的《國(guó)家數(shù)字方志館資源元數(shù)據(jù)規(guī)范(征求意見(jiàn)稿)》《國(guó)家數(shù)字方志館資源數(shù)據(jù)加工規(guī)范(征求意見(jiàn)稿)》,兩個(gè)規(guī)范在征求意見(jiàn)時(shí),多個(gè)省級(jí)地方志工作機(jī)構(gòu)已按各自標(biāo)準(zhǔn)建設(shè)了本省的數(shù)字方志項(xiàng)目,這些項(xiàng)目存在規(guī)范標(biāo)準(zhǔn)不統(tǒng)一的現(xiàn)象。例如在志鑒文本數(shù)字化加工模式方面,雙層PDF 模式、純文本模式、圖片和文本對(duì)照模式均存在一定份額的擁躉(如右圖所示)。

已開(kāi)展數(shù)字方志工作省份志鑒數(shù)字化方式比例(注:部分省份使用多種方式數(shù)字化)
根據(jù)各省地方志工作機(jī)構(gòu)網(wǎng)站2023 年4 月前的公開(kāi)數(shù)據(jù)統(tǒng)計(jì),4 個(gè)省級(jí)地方志工作機(jī)構(gòu)選擇雙層PDF 格式,5 個(gè)省級(jí)地方志工作機(jī)構(gòu)選擇純文本格式,3 個(gè)省級(jí)地方志工作機(jī)構(gòu)選擇雙層PDF 格式和純文本格式混用,還有些省份采用單層PDF 格式或多種格式混用。即使是同一省份內(nèi)的地方志工作機(jī)構(gòu)之間,建設(shè)數(shù)字方志項(xiàng)目采用的格式和標(biāo)準(zhǔn)也不盡相同。不少省份已完成了較大數(shù)據(jù)量的加工,短期內(nèi)難以按照新規(guī)范標(biāo)準(zhǔn)重新加工數(shù)據(jù)。數(shù)據(jù)格式多樣化,在一定程度上增加了數(shù)據(jù)采集和集成的難度,影響數(shù)據(jù)模型的設(shè)計(jì)和構(gòu)建。
人類(lèi)生產(chǎn)生活所產(chǎn)生的信息數(shù)據(jù)天然地具有非結(jié)構(gòu)化的特性,結(jié)構(gòu)化的數(shù)據(jù)是經(jīng)過(guò)人工干預(yù)形成的,地方志數(shù)據(jù)自然也以非結(jié)構(gòu)化為主。地方志內(nèi)容雖然有不少表格和枚舉文字,但在未進(jìn)行數(shù)據(jù)處理前,表格和枚舉式的文字同樣屬于非結(jié)構(gòu)化文本。非結(jié)構(gòu)化數(shù)據(jù)具有易擴(kuò)展、易運(yùn)維、易管理的特點(diǎn),但是在面臨深度數(shù)據(jù)分析時(shí)則力有不逮,需要對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。
此處所稱(chēng)的非結(jié)構(gòu)化限定為地方志文本內(nèi)容,而不是地方志作品本體。全國(guó)范圍內(nèi)的數(shù)字方志項(xiàng)目,大部分對(duì)地方志作品本體進(jìn)行了結(jié)構(gòu)化存儲(chǔ)。其數(shù)據(jù)結(jié)構(gòu)是針對(duì)某一本地方志作品本體的元數(shù)據(jù)標(biāo)準(zhǔn),即元數(shù)據(jù)為該書(shū)的分類(lèi)、書(shū)名、出版時(shí)間、書(shū)號(hào)、斷限等書(shū)籍信息,對(duì)于地方志中蘊(yùn)含的各類(lèi)地情要素,沒(méi)有深度分析數(shù)據(jù)屬性,沒(méi)有定義數(shù)據(jù)規(guī)則,沒(méi)有進(jìn)行合理化的數(shù)據(jù)建模,不同地方志中的數(shù)據(jù)之間沒(méi)有建立關(guān)聯(lián),書(shū)中由多方搜集凝練的寶貴數(shù)據(jù)仍處于非結(jié)構(gòu)化狀態(tài),雜亂無(wú)章。《國(guó)家數(shù)字方志館資源元數(shù)據(jù)規(guī)范(征求意見(jiàn)稿)》定義的元數(shù)據(jù)規(guī)范也是基于地方志作品本體的數(shù)據(jù)結(jié)構(gòu),按照規(guī)范進(jìn)行加工形成的地方志數(shù)字化文本數(shù)據(jù)庫(kù),只能滿(mǎn)足按章節(jié)或頁(yè)碼展示原書(shū)、書(shū)籍內(nèi)容全文檢索的數(shù)據(jù)需求。可見(jiàn),對(duì)非結(jié)構(gòu)化文本類(lèi)數(shù)字方志地情要素的數(shù)據(jù)模型研究,同時(shí)就是對(duì)數(shù)字方志發(fā)展方向的探索。
地方志雖全面系統(tǒng)地記述了行政區(qū)域內(nèi)的歷史與現(xiàn)狀,卻是一種高度精煉和概括的文獻(xiàn),決不能將其類(lèi)比于前信息時(shí)代的“數(shù)據(jù)庫(kù)”。數(shù)據(jù)庫(kù)是實(shí)時(shí)記錄數(shù)據(jù)細(xì)節(jié),而地方志是各方面的經(jīng)過(guò)時(shí)間沉淀后的凝練數(shù)據(jù)。因篇幅限制,地方志不可能窮舉一地所有情況,即使是篇幅最大的省志,洋洋灑灑五千萬(wàn)字,也無(wú)法面面俱到、事無(wú)巨細(xì)錄入全省所有數(shù)據(jù),只能對(duì)關(guān)鍵且重要內(nèi)容加以記載,摘錄關(guān)系重大的統(tǒng)計(jì)數(shù)據(jù)。統(tǒng)計(jì)過(guò)程中數(shù)據(jù)的細(xì)節(jié)是沒(méi)有辦法得以體現(xiàn),數(shù)據(jù)庫(kù)的優(yōu)勢(shì)即在數(shù)據(jù)細(xì)節(jié),而地方志的數(shù)據(jù)深度是不足的。地方志只是從各部門(mén)的成分不同的數(shù)據(jù)水桶中獲取一滴,按一定順序點(diǎn)在一個(gè)面板上。這一特征,注定了地方志數(shù)據(jù)可以為絕大部分領(lǐng)域的工作提供一定的參考,但因顆粒度不足,無(wú)法深度參與某一特定工作。地方志數(shù)據(jù)模型的價(jià)值大小即受限于這一因素,這在設(shè)計(jì)和構(gòu)建地方志數(shù)據(jù)模型時(shí)需要重點(diǎn)平衡斟酌。
地方志書(shū)每20 年左右編修一次,地方綜合年鑒一年編修一次。雖然地方志書(shū)中可能會(huì)包含多年的詳細(xì)數(shù)據(jù),但一般情況也是年度統(tǒng)計(jì)數(shù)據(jù)。因此可知地方志數(shù)據(jù)產(chǎn)生的時(shí)間間隔在一年以上。相比于某些互聯(lián)網(wǎng)應(yīng)用每秒鐘產(chǎn)生成千上萬(wàn)條數(shù)據(jù),特別是阿里巴巴的數(shù)據(jù)應(yīng)用在“雙十一”期間每秒的消息處理甚至高達(dá)40 億條,地方志的數(shù)據(jù)產(chǎn)生的速度是極慢的。通常情況下,以這種速度產(chǎn)生的數(shù)據(jù)其挖掘的價(jià)值較小。地方志數(shù)據(jù)具有一定的特殊性,數(shù)據(jù)覆蓋面廣且官修屬性使得其數(shù)據(jù)的權(quán)威性較高、可靠性較強(qiáng),具有一定的參考價(jià)值和跨領(lǐng)域關(guān)聯(lián)價(jià)值。
從本世紀(jì)初開(kāi)始,全國(guó)各省地方志工作機(jī)構(gòu)在數(shù)字方志建設(shè)方面進(jìn)行了有益探索。迄今為止,數(shù)字方志已經(jīng)成為了數(shù)字文化發(fā)展的重要組成部分,例如全國(guó)智慧圖書(shū)館體系建設(shè)項(xiàng)目,地方志就是其中數(shù)字化的一個(gè)重要方面。但這些探索主要限制在使用OCR(光學(xué)字符識(shí)別)對(duì)地方志文本加工處理后實(shí)現(xiàn)全文的檢索。分析地方志數(shù)據(jù)結(jié)構(gòu),設(shè)計(jì)數(shù)據(jù)模型的應(yīng)用仍比較少見(jiàn)。列舉分析以下幾個(gè)地方志數(shù)據(jù)模型的推廣和應(yīng)用案例。
全粵村情數(shù)據(jù)平臺(tái)采用了數(shù)字方志和地理信息系統(tǒng)(GIS)技術(shù)相結(jié)合的方式,圍繞鄉(xiāng)村振興戰(zhàn)略構(gòu)建村情專(zhuān)題指標(biāo)體系,以廣東省自然村落歷史人文普查為基礎(chǔ),整理、分析廣東省13 萬(wàn)多個(gè)自然村落的歷史人文普查數(shù)據(jù);建立數(shù)據(jù)庫(kù),對(duì)村情數(shù)據(jù)進(jìn)行深入挖掘、全面分析,形成村情專(zhuān)題分析報(bào)告;通過(guò)地圖、圖表等方式展示和分析數(shù)據(jù),直觀化展示廣東省內(nèi)鄉(xiāng)村的歷史、文化、風(fēng)土人情等方面信息,提高了地方志數(shù)據(jù)的可視化程度;提供自然村落普查數(shù)據(jù)展示、自然村情可視化統(tǒng)計(jì)分析、自然村情專(zhuān)題分析等服務(wù),通過(guò)“粵智助”平臺(tái)向公眾全方位展示村落鄉(xiāng)情,在古村活化、古驛道保護(hù)與修復(fù)利用、旅游開(kāi)發(fā)、地理標(biāo)志產(chǎn)品申報(bào)、服務(wù)鄉(xiāng)村振興戰(zhàn)略等方面均起到一定積極作用。
貴陽(yáng)方志云主要收錄了貴陽(yáng)市各個(gè)地方的地情歷史文獻(xiàn),該項(xiàng)目的特色是數(shù)據(jù)對(duì)比功能。用戶(hù)可以選擇區(qū)域、時(shí)間、指標(biāo)進(jìn)行數(shù)據(jù)對(duì)比和分析,對(duì)比不同區(qū)域在不同歷史時(shí)期的文化和社會(huì)發(fā)展變化情況,生成報(bào)表、圖表、數(shù)據(jù)地圖。但實(shí)際的比對(duì)效果未能達(dá)到預(yù)期,其功能實(shí)現(xiàn)的底層邏輯原理沒(méi)有相關(guān)資料難以定論。
復(fù)旦大學(xué)和哈佛大學(xué)聯(lián)合研發(fā)的“中國(guó)歷史地理信息系統(tǒng)”(CHGIS)項(xiàng)目的“晚明松江地區(qū)歷史地理信息系統(tǒng)數(shù)據(jù)庫(kù)”,利用《嘉慶一統(tǒng)志》為核心資料,復(fù)原了1820 年行政區(qū)劃的基礎(chǔ)地理信息,建立寺廟、學(xué)校、商路、渡頭、人口、賦稅數(shù)據(jù)等多個(gè)圖層[1]張曉虹. GIS與中國(guó)歷史地理信息平臺(tái)建設(shè)[N].光明日?qǐng)?bào),2023-09-25.。該系統(tǒng)以歷史地理學(xué)知識(shí)架構(gòu)為基礎(chǔ),對(duì)1949 年以前的傳統(tǒng)方志數(shù)據(jù)模型的構(gòu)建能提供一定的參考價(jià)值。
現(xiàn)階段全國(guó)范圍內(nèi)的數(shù)字方志成果,包括北京愛(ài)如生數(shù)字化技術(shù)研究中心的中國(guó)方志庫(kù)、北京籍古軒圖書(shū)數(shù)字技術(shù)有限公司的中國(guó)數(shù)字方志庫(kù)等商業(yè)性質(zhì)的數(shù)字方志文本,相比傳統(tǒng)紙質(zhì)地方志,大部分能夠?qū)崿F(xiàn)全文檢索,為研究人員和愛(ài)好者提供了相當(dāng)程度的便利,但對(duì)更深一層的信息化路徑?jīng)]有突破。非結(jié)構(gòu)化文本類(lèi)的數(shù)字方志,在地方志的開(kāi)發(fā)和利用方面只是一項(xiàng)基礎(chǔ)工作,數(shù)據(jù)模型的作用是在此基礎(chǔ)上設(shè)計(jì)一棟高樓。地方志數(shù)據(jù)模型可以將一個(gè)區(qū)域的物體和活動(dòng)抽象概況成為實(shí)體,定義清晰的實(shí)體屬性,相比非結(jié)構(gòu)化文本類(lèi)的數(shù)字方志,具有五個(gè)方面的優(yōu)勢(shì)。
通過(guò)數(shù)據(jù)模型在各區(qū)域之間的共享使用,可以促進(jìn)建立統(tǒng)一的區(qū)域元數(shù)據(jù)體系,促使各區(qū)域按照統(tǒng)一的地情要素編寫(xiě)地方志,并能有效識(shí)別過(guò)往的地方志缺失數(shù)據(jù)。經(jīng)過(guò)一定時(shí)間的規(guī)范發(fā)展,統(tǒng)一的地方志數(shù)據(jù)將有利于簡(jiǎn)化數(shù)據(jù)處理和共享程序,降低數(shù)據(jù)加工成本,提高數(shù)據(jù)支撐決策能力。
連續(xù)性是在規(guī)范性基礎(chǔ)上發(fā)展而來(lái)的特性,有了統(tǒng)一的區(qū)域元數(shù)據(jù)體系,使得地方志的內(nèi)容必須根據(jù)模型的所有實(shí)體屬性數(shù)據(jù)進(jìn)行完善,年鑒等連續(xù)出版物對(duì)區(qū)域信息的記載將保證數(shù)據(jù)在時(shí)間和空間上的連續(xù)和一致。經(jīng)過(guò)一定時(shí)間的規(guī)范發(fā)展,統(tǒng)一的地方志數(shù)據(jù)將有利于減少數(shù)據(jù)出現(xiàn)斷層和異常波動(dòng)的情況,提高數(shù)據(jù)的質(zhì)量和可信度,反映區(qū)域的整體趨勢(shì)和規(guī)律,有助于更好地理解區(qū)域的特征和變化情況,在一定程度上有利于地方志編輯人員判斷數(shù)據(jù)的人為因素干擾和誤差,提高數(shù)據(jù)的準(zhǔn)確性和可靠性。
地方志數(shù)據(jù)模型可以借助信息技術(shù)和可視化手段,將信息轉(zhuǎn)化為可視化的圖表、地圖等,呈現(xiàn)更豐富、更生動(dòng)的地情信息,能更加直觀地展示一個(gè)地區(qū)的狀況,有利于提升地方志傳播效益、增強(qiáng)地方志文化影響力。非結(jié)構(gòu)化文本類(lèi)的數(shù)字方志在不進(jìn)行數(shù)據(jù)處理的情況下難以實(shí)現(xiàn)可視化。
對(duì)地方志數(shù)據(jù)模型進(jìn)行訓(xùn)練,模型的數(shù)據(jù)(即訓(xùn)練數(shù)據(jù))就可以用于對(duì)新的、類(lèi)似的數(shù)據(jù)進(jìn)行分類(lèi)或預(yù)測(cè),可以在不同平臺(tái)、不同領(lǐng)域、不同項(xiàng)目之間實(shí)現(xiàn)高效的數(shù)據(jù)分析和研究,使地方志數(shù)據(jù)具有更廣泛的應(yīng)用價(jià)值。非結(jié)構(gòu)化文本類(lèi)的數(shù)字方志則需要每次重新進(jìn)行檢索和信息整合。
地方志數(shù)據(jù)模型不僅可以作為一種數(shù)據(jù)模型使用,而且提供了一種模板式的簡(jiǎn)志編纂方法和展現(xiàn)形式,對(duì)數(shù)字方志和信息方志的工具和邊界是有益的擴(kuò)充。非結(jié)構(gòu)化文本類(lèi)的數(shù)字方志只是將地方志的存儲(chǔ)形式由紙質(zhì)變?yōu)殡娮樱诮Y(jié)構(gòu)內(nèi)容和編纂方法上沒(méi)有開(kāi)創(chuàng)新面貌。
非結(jié)構(gòu)化文本類(lèi)的數(shù)字方志在讀志用志方面發(fā)揮了一定的積極作用,但也面臨著多方面的局限和挑戰(zhàn)。為構(gòu)建地方志的核心競(jìng)爭(zhēng)力,推動(dòng)地方志文化的創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展,應(yīng)積極嘗試前沿?cái)?shù)據(jù)治理手段和地方志的結(jié)合,加強(qiáng)政策支持、規(guī)則制定、人才培養(yǎng)、資金支持、數(shù)據(jù)共享和交流等方面的工作,逐步消除各種限制,推廣和普及全國(guó)地方志數(shù)據(jù)模型,提升地方志數(shù)據(jù)賦能水平。設(shè)計(jì)和構(gòu)建數(shù)據(jù)模型的具體步驟如下。
全國(guó)數(shù)字方志項(xiàng)目建設(shè)存在頂層設(shè)計(jì)不足、標(biāo)準(zhǔn)多樣的問(wèn)題,大部分處于加工數(shù)字文本的基礎(chǔ)階段,必須按照統(tǒng)一的內(nèi)容展示和存儲(chǔ)格式,推動(dòng)數(shù)字方志建設(shè)和普及,持續(xù)對(duì)地方志作品尤其是歷代舊志進(jìn)行數(shù)字加工,擴(kuò)大數(shù)字方志規(guī)模,提高數(shù)字方志規(guī)范程度,筑牢地方志數(shù)據(jù)資源基礎(chǔ)。標(biāo)準(zhǔn)化建設(shè)需要在必要時(shí)采取一定的行政手段,加強(qiáng)數(shù)字方志建設(shè)的指導(dǎo)和支持,制定全流程的數(shù)字方志工作標(biāo)準(zhǔn),包括數(shù)字方志的編纂、存儲(chǔ)、標(biāo)引、加工、發(fā)布、導(dǎo)入導(dǎo)出、數(shù)據(jù)接口等各方面全周期工作標(biāo)準(zhǔn),優(yōu)先制定數(shù)字方志建設(shè)文本加工規(guī)范和標(biāo)準(zhǔn),向基層地方志工作機(jī)構(gòu)提供數(shù)字方志建設(shè)的技術(shù)咨詢(xún)和技術(shù)支持,鼓勵(lì)基層地方志工作機(jī)構(gòu)開(kāi)展地方志數(shù)字加工,以利于非結(jié)構(gòu)化文本類(lèi)的數(shù)字方志的高效數(shù)據(jù)提取。
一般的數(shù)據(jù)治理過(guò)程,會(huì)先提取數(shù)據(jù)和對(duì)數(shù)據(jù)預(yù)處理,然后進(jìn)行數(shù)據(jù)元模型的定義。地方志作品中紛繁復(fù)雜的數(shù)據(jù),難以按照常規(guī)的步驟進(jìn)行,須先定義元模型,才能被準(zhǔn)確和廣泛地提取數(shù)據(jù)。定義地方志數(shù)據(jù)規(guī)則和構(gòu)建元模型,確保地方志數(shù)據(jù)治理過(guò)程有章可循,促使各地方志作品的異構(gòu)數(shù)據(jù)同構(gòu)化、同構(gòu)數(shù)據(jù)關(guān)聯(lián)化,需要全國(guó)各級(jí)地方志工作機(jī)構(gòu)的共同努力。為了構(gòu)建一套長(zhǎng)期可用的、準(zhǔn)確概括一個(gè)地域的各方面屬性的元模型,需要承擔(dān)地方志編纂的各工作部門(mén)協(xié)同參與。
地方志數(shù)據(jù)元模型分為兩種類(lèi)型,即通用型的元模型和分級(jí)分類(lèi)的元模型,它們各有優(yōu)劣之處。
1.通用型元模型
通用型元模型的優(yōu)點(diǎn)在于模型構(gòu)建速度較快,只需要選擇某特定行政區(qū)域的關(guān)鍵基礎(chǔ)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)即可,即選取該行政區(qū)域地方志文本數(shù)據(jù)的“最大公約數(shù)”,具有一定的通用性和可擴(kuò)展性,且基本不用進(jìn)行數(shù)據(jù)補(bǔ)充。它的缺點(diǎn)在于通用狀態(tài)下,必須拋棄大量有效數(shù)據(jù)。舉例來(lái)說(shuō),假設(shè)省志的字?jǐn)?shù)篇幅在5 千萬(wàn)字左右,縣志的字?jǐn)?shù)篇幅在200 萬(wàn)字左右,省志中記載了25 萬(wàn)條有效數(shù)據(jù),縣志中記載了1 萬(wàn)條有效數(shù)據(jù),而通用型元模型只選取一個(gè)地域最關(guān)鍵、核心、普適的數(shù)據(jù),元模型下可能只有1 千個(gè)數(shù)據(jù)屬性,那么省志中24 萬(wàn)9 千條數(shù)據(jù)和縣志中9 千條數(shù)據(jù)在后期就得不到結(jié)構(gòu)化提取,勢(shì)必造成數(shù)據(jù)浪費(fèi)。通用型元模型雖然普適性較好,但也做不到無(wú)限通用,能在省市縣三級(jí)通用的元模型如果套用在鄉(xiāng)鎮(zhèn)、村、社區(qū)、小區(qū)時(shí),因?yàn)榈赜蚪Y(jié)構(gòu)或統(tǒng)計(jì)口徑等多方面差異,會(huì)造成大量的數(shù)據(jù)空值。
2.分級(jí)分類(lèi)的元模型
分層級(jí)、分作品類(lèi)型建立不同的元模型,其優(yōu)點(diǎn)在于元模型數(shù)據(jù)屬性可以較為廣泛、覆蓋面廣、顆粒度更加細(xì)膩,能更加充分利用地方志中的數(shù)據(jù),模型實(shí)用性更強(qiáng),但相對(duì)來(lái)說(shuō)建模速度較慢,需要建立多個(gè)元模型,增加了工作難度和復(fù)雜度。同時(shí)在建立每個(gè)元模型后,在數(shù)據(jù)提取過(guò)程中,需要從多個(gè)同級(jí)別行政區(qū)劃的地方志文本求取“最大公倍數(shù)”,并對(duì)所有行政區(qū)劃的地方志中缺項(xiàng)漏項(xiàng)的數(shù)據(jù)進(jìn)行調(diào)查和補(bǔ)充。
地方志數(shù)據(jù)元模型建立要根據(jù)實(shí)際需求和人力、財(cái)力、物力的配置情況綜合考量,也可以采取混合模式,先建立通用型元模型,在通用型基礎(chǔ)上,再構(gòu)建分級(jí)分類(lèi)元模型。同時(shí),元模型的屬性應(yīng)該注意結(jié)構(gòu)分明,以大類(lèi)統(tǒng)小類(lèi),例如可以分基礎(chǔ)信息類(lèi)、資源生態(tài)類(lèi)、基礎(chǔ)設(shè)施類(lèi)、社會(huì)經(jīng)濟(jì)類(lèi)、文體藝術(shù)類(lèi)、政治組織類(lèi)等大類(lèi),基礎(chǔ)信息大類(lèi)下又可統(tǒng)攝地名、地理位置、地形地勢(shì)、行政區(qū)劃面積等信息。元模型的建立,仍要采取“眾手成志”的模式,征求各相關(guān)行業(yè)專(zhuān)業(yè)人士意見(jiàn)。通用型元模型的數(shù)據(jù)屬性應(yīng)以簡(jiǎn)約而不漏重要項(xiàng)為原則,分級(jí)分類(lèi)元模型則應(yīng)盡可能做到數(shù)據(jù)屬性充分而不冗余。無(wú)論是哪一種元模型,都必須充分考慮屬性的可延續(xù)性。這些數(shù)據(jù)屬性需要在時(shí)代發(fā)展趨勢(shì)下保持大范圍的穩(wěn)定性,在未來(lái)較長(zhǎng)時(shí)間之內(nèi),仍然是社會(huì)公眾所需要、愿意且能夠統(tǒng)計(jì)的數(shù)據(jù)。
根據(jù)地方志覆蓋面廣的數(shù)據(jù)特征,采取由下而上的方式開(kāi)展數(shù)據(jù)處理較為合適。各地方志工作機(jī)構(gòu)應(yīng)根據(jù)定義的數(shù)據(jù)規(guī)則,分工對(duì)本區(qū)域的地方志進(jìn)行數(shù)據(jù)提取,逐層向上一級(jí)數(shù)據(jù)倉(cāng)庫(kù)匯總。針對(duì)元模型的每項(xiàng)屬性,通過(guò)文本挖掘技術(shù),從地方志數(shù)據(jù)中提取關(guān)鍵詞和主題,查詢(xún)檢索到地方志中的對(duì)應(yīng)數(shù)據(jù),形成數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)的形式可以是基于數(shù)據(jù)庫(kù)的平臺(tái),也可以是按照一定格式排列的文檔。有條件的地方,應(yīng)開(kāi)展元模型數(shù)據(jù)標(biāo)記和元模型數(shù)據(jù)索引。形成數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,要根據(jù)地方志記載的數(shù)據(jù)情況,對(duì)元模型的準(zhǔn)確性和科學(xué)度進(jìn)行分析和評(píng)估,并將分析和評(píng)估情況向上一級(jí)地方志工作機(jī)構(gòu)反饋。
從地方志中提取的數(shù)據(jù),可能出現(xiàn)數(shù)據(jù)重復(fù)、數(shù)據(jù)單位不一致、數(shù)值有差異等諸多情況。一般情況下,數(shù)據(jù)清洗是數(shù)據(jù)加工不可省略的重要環(huán)節(jié),完整構(gòu)建地方志數(shù)據(jù)模型必須在提取地方志數(shù)據(jù)以后進(jìn)行數(shù)據(jù)清洗。通過(guò)邏輯判斷、縱橫比對(duì)等方式,判斷數(shù)據(jù)的準(zhǔn)確度,刪除重復(fù)數(shù)據(jù)、轉(zhuǎn)換不一致的數(shù)據(jù),舍棄不合理數(shù)據(jù)并補(bǔ)充缺失數(shù)據(jù),消除在應(yīng)用中造成使用者信息誤判的可能性。
地方志的數(shù)據(jù)預(yù)處理中最重要的環(huán)節(jié)就是缺失數(shù)據(jù)的補(bǔ)充。根據(jù)地方志數(shù)據(jù)源復(fù)雜且差異明顯的數(shù)據(jù)特征,可以判斷預(yù)處理階段必然存在不少數(shù)據(jù)缺失。這些數(shù)據(jù)缺失是地方志編纂過(guò)程的先天缺陷。過(guò)多的數(shù)據(jù)缺失將造成模型的不完整性,導(dǎo)致后續(xù)的數(shù)據(jù)挖掘失敗。必須邀請(qǐng)參與地方志編纂的各單位給予配合支持,將數(shù)據(jù)補(bǔ)充完善。一般來(lái)說(shuō),數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理工作使用計(jì)算機(jī)完成,但對(duì)于地方志的數(shù)據(jù)模型構(gòu)建來(lái)說(shuō),數(shù)據(jù)預(yù)處理階段可能需要大量人工干預(yù)。
通過(guò)元模型和數(shù)據(jù)的正式匹配,即可初步構(gòu)建地方志數(shù)據(jù)模型。模型建立之后,需進(jìn)行廣泛的宣傳和推廣,并使之能反作用于地方志編纂。即要求地方志作品在編纂中,建立數(shù)據(jù)模型索引,標(biāo)注清楚模型的屬性對(duì)應(yīng)到書(shū)籍的頁(yè)數(shù)和行數(shù)等位置信息,以利于成書(shū)之后的數(shù)據(jù)能在較短時(shí)間內(nèi)高效利用。同時(shí),也需要積極探索模型的相關(guān)應(yīng)用。
1.模型內(nèi)容的分類(lèi)、聚類(lèi),強(qiáng)化供給價(jià)值
要充分利用龐雜的地方志數(shù)據(jù),必須先對(duì)數(shù)據(jù)進(jìn)行分類(lèi),這是前人探索的有效經(jīng)驗(yàn)。例如竺可楨摘取各類(lèi)方志記載的植物分布及花開(kāi)花落時(shí)間的變化加以匯總研究,在《中國(guó)近五千年來(lái)氣候變遷的初步研究》中提出“方志時(shí)期”(1400—1900 年)。北京天文臺(tái)從眾多舊志中摘錄了數(shù)百萬(wàn)字的天文資料,匯編成《中國(guó)天文資料匯編》。還有《中國(guó)古銅礦錄》《中國(guó)地震歷史資料匯編》等書(shū)的匯錄。這些案例都是通過(guò)分類(lèi)、聚類(lèi)的方式對(duì)地方志文本數(shù)據(jù)進(jìn)行提取。可以根據(jù)地理位置、時(shí)間、行業(yè)、領(lǐng)域、主題等因素制定分類(lèi)方法,建立一整套分類(lèi)框架,包括分類(lèi)目錄、分類(lèi)指南,同時(shí)鼓勵(lì)引導(dǎo)多學(xué)科參與其中,加強(qiáng)跨學(xué)科合作,整理和分類(lèi)地方志數(shù)據(jù)模型中的內(nèi)容,以提高數(shù)據(jù)模型的應(yīng)用價(jià)值。
2.建立數(shù)據(jù)關(guān)聯(lián),打造多形態(tài)的地方志數(shù)據(jù)模型應(yīng)用
通過(guò)關(guān)聯(lián)規(guī)則挖掘技術(shù),尋找地方志數(shù)據(jù)中各個(gè)數(shù)據(jù)之間的聯(lián)系和規(guī)律。通過(guò)模型數(shù)據(jù),分析數(shù)據(jù)之間的因果關(guān)系、時(shí)序關(guān)系、頻繁模式關(guān)系、分類(lèi)關(guān)系、依賴(lài)關(guān)系。將數(shù)據(jù)挖掘結(jié)果以圖形、圖像和動(dòng)畫(huà)等形式呈現(xiàn),直觀展示數(shù)據(jù)特征和規(guī)律。運(yùn)用地理信息系統(tǒng)(GIS)技術(shù),將空間數(shù)據(jù)可視化,是目前已探索出成果的應(yīng)用方式。同時(shí),豐富地方志數(shù)據(jù)模型應(yīng)用還需要拓展地方志數(shù)據(jù)模型應(yīng)用傳播渠道,在線上綜合呈現(xiàn)多媒體可視化的數(shù)據(jù)分析結(jié)果,對(duì)接外部鏈接和數(shù)據(jù),滿(mǎn)足不同用戶(hù)的需求,提升數(shù)字方志的互動(dòng)性和用戶(hù)參與度,深化模型的應(yīng)用價(jià)值,及時(shí)獲得公眾的反饋,便于進(jìn)一步調(diào)整優(yōu)化模型。
全國(guó)地方志非結(jié)構(gòu)化文本的數(shù)據(jù)模型設(shè)計(jì)與構(gòu)建的探索、研究處在萌芽狀態(tài),是地方志信息化發(fā)展中具有前瞻意義的研究課題,對(duì)于地方志事業(yè)高質(zhì)量發(fā)展具有重要作用和意義。在模型設(shè)計(jì)的探索過(guò)程中,發(fā)現(xiàn)了一些理論問(wèn)題和難點(diǎn),需要結(jié)合地方志數(shù)據(jù)的特征,加以克服和解決,特別是要盡快解決地方志文本數(shù)據(jù)無(wú)規(guī)則、數(shù)據(jù)無(wú)結(jié)構(gòu)的問(wèn)題,不斷改進(jìn)數(shù)據(jù)關(guān)聯(lián)能力,提高數(shù)據(jù)可視化。結(jié)構(gòu)化和智能化的地方志數(shù)據(jù)模型,將作為重要數(shù)據(jù)元素載體,極大豐富地方志資源開(kāi)發(fā)利用的形式和內(nèi)容,融合數(shù)字文化等領(lǐng)域的發(fā)展,推動(dòng)地方志事業(yè)的創(chuàng)新和轉(zhuǎn)型,為實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略、加強(qiáng)精神文明建設(shè)貢獻(xiàn)“志”慧,為推進(jìn)文化自信自強(qiáng)、鑄就社會(huì)主義文化新輝煌貢獻(xiàn)“志”力。