沈紅雨/紹興文理學院
農(nóng)村治理是基層社會治理的重要內(nèi)容,農(nóng)村檔案管理是事關(guān)農(nóng)村經(jīng)濟建設(shè)和平安建設(shè)的重要基礎(chǔ)工作。然而至今農(nóng)村檔案管理仍然存在許多突出問題,如檔案收集不完整、保管不集中、檔案工作發(fā)展不平衡等,特別是在村組織換屆選舉、行政村規(guī)模調(diào)整期間經(jīng)常出現(xiàn)檔案管理脫節(jié)、隨意處置、檔案散失等現(xiàn)象,給農(nóng)村工作尤其是社會治理工作帶來很多隱患。
造成以上問題有村委的實際困難,如村務(wù)繁雜、村委人手有限,沒有精力去學習檔案整理知識;由于歸檔文件得不到有效管理,工作人員使用歸檔材料非常不方便,進一步使得歸檔沒有積極性,文件不如自存自用自管,時日一久自然散失了。
解決以上問題,除了需要管理層面上對癥下藥,在技術(shù)層面上設(shè)計一個好用好查的農(nóng)村檔案管理系統(tǒng)也是關(guān)鍵。
關(guān)聯(lián)數(shù)據(jù)技術(shù)可以用基于深度學習的模型,對全文進行實體識別、句法分析,將語言特征轉(zhuǎn)化為分布式表示,進行實體與關(guān)系抽取,構(gòu)建語義關(guān)聯(lián),從而達成信息按主題呈現(xiàn)的功能。農(nóng)村檔案中,運用關(guān)聯(lián)數(shù)據(jù)技術(shù)可以將檔案與歸檔條款作關(guān)聯(lián),實現(xiàn)檔案自動分類;可以將檔案信息以村民為核心,以村民生產(chǎn)、生活情況為主題聚類呈現(xiàn),由此大大提升檔案信息的組織能力。
在語義識別中,語義規(guī)則和實體變化越豐富,訓練語料庫所需的數(shù)據(jù)量就越大,對深度學習算法的要求就越高;反之語義規(guī)則和實體越明確,識別成本就越低。因此通過構(gòu)建語義規(guī)則模板,通過模板和字符串匹配來完成識別,人工明確的實體字典和關(guān)系規(guī)則越多,識別就越容易。村民、地理位置和事由是農(nóng)村檔案關(guān)聯(lián)性呈現(xiàn)的核心點,本文提出了通過將語義模糊的實體明確成相應(yīng)的數(shù)據(jù)字典,實現(xiàn)簡單的結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián),到建立本體模型實現(xiàn)語義關(guān)聯(lián)的技術(shù)進階路徑。此種輕量化關(guān)聯(lián)技術(shù)大大提升了檔案信息的聚類能力,系統(tǒng)以面向深度語義識別為開發(fā)基礎(chǔ),有良好的升級空間。以此供當下具有不同經(jīng)濟條件和技術(shù)條件的鄉(xiāng)鎮(zhèn)作參考。
不少農(nóng)村尚未實現(xiàn)文檔一體化在線管理,紙質(zhì)檔案仍需手動整理錄入,農(nóng)村檔案管理系統(tǒng)首要考慮歸檔操作簡易性。
事由是各工作線最熟悉的文件聯(lián)系性。事由可以指一件具體的事,或一個具體的問題,或一段較緊密的工作過程等[1]。根據(jù)事由原則,檔案是有關(guān)一個“事由”的檔案文件的集合。文件以事由為單位進行歸檔最易被掌握,也符合檔案整理的規(guī)范。
系統(tǒng)允許用戶根據(jù)國家檔案局《村級文件材料歸檔范圍和檔案保管期限表》設(shè)置本村立卷目錄字典,農(nóng)村工作由黨建、行政、婦女、基建、會計等各條工作線組成,立卷目錄按工作線分塊,目錄內(nèi)容包括立卷條款類別、條款名稱、其相對應(yīng)的保管期限和檔案分類號。歸檔條款依據(jù)作者、主題和文種確定。系統(tǒng)允許設(shè)置諸如“糾紛”“山地承包”等事由標簽(類似于主題詞),在立卷目錄字典中將事由標簽結(jié)合作者和文種置入對應(yīng)的歸檔條款。各工作線工作人員將文件按事由整理好后結(jié)合國家著錄格式逐一錄入系統(tǒng),點擊對應(yīng)的事由標簽,完成錄入。農(nóng)村一年的事務(wù)由常規(guī)事由和新增事由組成,事由標簽存入事由字典后可以被反復(fù)調(diào)取。文件作者和文種由系統(tǒng)根據(jù)著錄的結(jié)構(gòu)化內(nèi)容提取判斷。

圖1 農(nóng)村檔案本體模型(實線:子類;虛線:對象屬性)

圖2 農(nóng)村檔案項目類及其主要屬性
系統(tǒng)根據(jù)立卷目錄字典和事由的對應(yīng)關(guān)系,對事由下的文件自動分配檔案號和保管期限完成預(yù)歸檔。立卷目錄字典的設(shè)置可以由檔案局指導,常規(guī)事由基本不變,新增事由作增加,對指導員來說工作量不大。
村兼職檔案員在每年歸檔期檢查系統(tǒng)分配的文件分類和順序,不妥之處進行手工調(diào)整,確定歸檔后鎖定檔號由系統(tǒng)產(chǎn)生歸檔目錄,各線負責人根據(jù)歸檔目錄排放紙質(zhì)文件,填寫相應(yīng)的歸檔章信息。系統(tǒng)根據(jù)立卷目錄對于應(yīng)歸未歸文件作出未歸檔提醒,未歸清單可作為干部離任檔案工作審計依據(jù)。
總之,系統(tǒng)將歸檔工作人員分成專業(yè)和不專業(yè)兩種,最大量的文件錄入整理工作并不需要檔案整理知識。檔案整理專業(yè)規(guī)范由專業(yè)人員來設(shè)置,系統(tǒng)通過將事由和立卷規(guī)則相關(guān)聯(lián),將“不專業(yè)”的文件整理結(jié)果根據(jù)“專業(yè)”的設(shè)置規(guī)則進行智能化整理。
檔案信息好查是激發(fā)村民積極移交手中的檔案,最終將其匯成“智庫”的根本要素。
在以人為本的農(nóng)村治理中,以村民為主題呈現(xiàn)檔案信息是全面精準掌握村民情況的必然要求,為村民提供檔案信息和證明也是服務(wù)為民的重要內(nèi)容。國家規(guī)定村民檔案按“一戶一檔一袋”的要求進行整理,然而更有大量涉及人的檔案分散于各工作線上。通過戶籍系統(tǒng)導入建立由姓名、曾用名、身份證號、家庭關(guān)系、家庭住址等戶籍信息組成的村民字典,此外補充特長、務(wù)工情況、留守兒童標注、貧困戶標注等信息。預(yù)歸檔文件信息錄入過程中涉及某村民有關(guān)的文件,通過打入名字或姓名首字母等方式從關(guān)聯(lián)的村民字典中選取此人或此戶的信息。從而做到涉人檔案件件對準人和戶,以村民字典為關(guān)聯(lián)點在系統(tǒng)中形成邏輯上的“一戶一檔”,檔案實體分散在各線“事由”中并不影響檔案信息按人按戶的全面呈現(xiàn)。
分散在各線的“事由”是同一事由的不同側(cè)面,如一項經(jīng)濟合作項目可能涉及村委會會議記錄、扶貧工作和“三資”工作。振興鄉(xiāng)村從了解鄉(xiāng)情開始,鄉(xiāng)情即是無數(shù)“事由”的組合。以事由字典為關(guān)聯(lián)點將關(guān)于同一事由的檔案相關(guān)聯(lián),確保鄉(xiāng)情記憶呈現(xiàn)的完備性。
村情村務(wù)檔案走向開放是農(nóng)村民主的重要部分,檔案的機要性要求開放具有限制性。系統(tǒng)建立事由公開清單,村民字典分群,建立事由與村民群的對應(yīng)開放關(guān)系。系統(tǒng)設(shè)置村務(wù)開放時間,對開放清單中未歸檔材料提出警告,以此由民眾督促檔案及時收歸。“涉人檔案件件對準人”為村民自主獲取個人檔案提供了信息安全壁壘保障,村民登錄系統(tǒng)或憑身份證到出證服務(wù)站可自主獲得與其本人有關(guān)的檔案證明。
由于農(nóng)村自然資源稟賦、產(chǎn)業(yè)特色不同,貧困人口、留守兒童等人口分布情況也不均衡,在農(nóng)村治理中需要分門別類進行分析、研究、歸納,從而整合資源因“地”制宜。GIS又稱為“地學信息系統(tǒng)”,系統(tǒng)運用GIS實現(xiàn)一張圖上綜合展示和管理檔案,賦予檔案以地理位置信息。GIS將農(nóng)村網(wǎng)絡(luò)化,網(wǎng)格對應(yīng)產(chǎn)生地理代碼形成地理代碼字典,從中選擇相應(yīng)的代碼錄入到村民字典、“三資”、企業(yè)、旅游開發(fā)點等與地理信息緊密相關(guān)的檔案著錄項中。檔案系統(tǒng)將檢索結(jié)果的正題名推送到GIS地理信息庫,將數(shù)字件推送到GIS的catalog目錄下,GIS通過地理代碼與有關(guān)檔案作關(guān)聯(lián),呈現(xiàn)整個村或者相應(yīng)網(wǎng)格里分布的人、產(chǎn)業(yè)題名等信息。點擊相應(yīng)的題名,瀏覽相關(guān)檔案內(nèi)容。

圖3 村民字典類及主要屬性

圖4 LodView發(fā)布后的檔案“土地登記申請”詳細頁面

圖5 通過“ead:personName”屬性鏈接跳轉(zhuǎn)到“村民字典:李三”頁面
運用關(guān)系數(shù)據(jù)庫技術(shù),以數(shù)據(jù)字典為關(guān)聯(lián)點,可以實現(xiàn)檔案跨分類按主題呈現(xiàn),但是呈現(xiàn)關(guān)系沒有語義化,不易被理解。語義化關(guān)聯(lián)組織首先需要明確本體概念。在信息科學與計算機領(lǐng)域,本體可以看作是一種模型,是對客觀存在對象或概念及其屬性和相關(guān)關(guān)系形式的表達[2]。
結(jié)合農(nóng)村檔案自身特點以及系統(tǒng)的業(yè)務(wù)需要,分析農(nóng)村組織的基本結(jié)構(gòu)、家庭結(jié)構(gòu)、事務(wù)流程和文件關(guān)系,該本體模型以檔案標準文件《中國檔案分類法》和《中國檔案主題詞表》為依據(jù),復(fù)用了檔案編碼著錄EAD[3]、文獻描述參考CIDOC CRM1[4]、“朋友的朋友”FOAF[5]等本體模型。參考都柏林核心(Dublin Core,DC)元數(shù)據(jù)標準和DBpedia等知識庫,以上文數(shù)據(jù)字典為基礎(chǔ),自定義事由、地點和村民三個核心類,擴展定義部分農(nóng)村檔案屬性。每個核心類定義相應(yīng)的數(shù)據(jù)屬性,實體之間的關(guān)系通過對象屬性進行描述與揭示。建立規(guī)范的檔案本體有利于本體拓展和與外部資源建立共享連接。模型見圖1,模型定義中的農(nóng)村檔案項目類及其主要屬性見圖2,村民字典類及主要屬性見圖3。
作為語義網(wǎng)的輕量級解決方案,借助由事由、村民和地點組成的數(shù)據(jù)字典對文件內(nèi)容作概括,除了事由字典有些許語義分歧,其余兩個字典數(shù)據(jù)精確、實體明確。
事由的描述各人主觀概括不完全一致,如“1號地確權(quán)”“1#地確權(quán)”“一號地確權(quán)”這三個詞指向同一事由,如“二工”一指水利工程的勞動積累工和義務(wù)工,一指志愿服務(wù)的社工和義工。事由字典可以通過人工在字典中將同義詞標簽標注為同一事由,將一詞多意標簽標明為不同事由。在前期小規(guī)模數(shù)據(jù)量的農(nóng)村檔案中,事由標簽數(shù)據(jù)量有限,即使通過人工標注也是可行的。
面向深度語義識別可以在機器學習中通過建立事件本體模型,通過CRF、ME、SVM、觸發(fā)詞、模式匹配和聚類算法的對OCR內(nèi)容進行事件信息抽取,按模型設(shè)定抽取出事件類型、時間、地點、人物等信息進行結(jié)構(gòu)化存儲。還可以擴展到將全部檔案內(nèi)容OCR成文字,通過Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT等深度學習模型進行自動識別,基于概率的全局算法PARIS自動實現(xiàn)實體消歧或共指消解。全面的語義識別需要大量的語料訓練,可以用來滿足更加復(fù)雜的本體模型。在農(nóng)村檔案數(shù)字化到一定的規(guī)模,在整個行業(yè)檔案形成云氣候的階段,面向深度語義識別是必須的。
RDF是關(guān)聯(lián)數(shù)據(jù)采用的數(shù)據(jù)模型,一般用“實體、屬性、值”三元組來描述領(lǐng)域資源。可以通過農(nóng)村檔案本體以及其他外部本體詞表,對領(lǐng)域資源中的各類實體對象進行規(guī)范化描述。將關(guān)系數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換成RDF三元組的技術(shù)中,有直接映射和領(lǐng)域語義驅(qū)動映射兩種模式。直接映射簡單方便、映射速度快,但不能捕捉數(shù)據(jù)的真正語義。小規(guī)模農(nóng)村檔案管理系統(tǒng)應(yīng)用直接映射技術(shù)效率更高。領(lǐng)域語義驅(qū)動映射方法在轉(zhuǎn)換過程中較為完整地保留了RDB數(shù)據(jù)蘊含的語義,可以實現(xiàn)較為復(fù)雜的映射,但依賴于專門的領(lǐng)域本體和映射語言,轉(zhuǎn)化過程較為繁瑣,耗費時間較長[6]。
這兩種映射模式可以互相補充,在前期系統(tǒng)數(shù)據(jù)簡單、語義明確的情況下以前者機器自動轉(zhuǎn)換的初始規(guī)則生成RDF圖,后期數(shù)據(jù)和語義變復(fù)雜的情況下在默認的RDF圖的基礎(chǔ)上進行個性化定義和配置[7]。
RDF三元組的存儲方式目前有關(guān)系型數(shù)據(jù)庫、RDF三元組數(shù)據(jù)庫和圖數(shù)據(jù)庫三種。目前絕大部分的農(nóng)村檔案管理系統(tǒng)采用關(guān)系型數(shù)據(jù)庫,對于開發(fā)條件有限的鄉(xiāng)鎮(zhèn),可以通過在原有關(guān)系型數(shù)據(jù)庫中建立語義主謂賓三元對應(yīng)表,在各表明確關(guān)聯(lián)字段,達到簡單的語義關(guān)聯(lián)效果。但是此法不適合多對多和多深度關(guān)系、多語義應(yīng)用,對大體量的數(shù)據(jù)管理所需軟硬件成本很大。圖數(shù)據(jù)庫結(jié)點的存儲能力不適合存儲檔案信息,但是擅長存儲和檢索復(fù)雜的結(jié)點關(guān)系,直觀高效表現(xiàn)檔案實體和實體之間的復(fù)雜多重關(guān)系,適用于土地流轉(zhuǎn)、家庭成員活動軌跡等特定應(yīng)用。RDF三元組數(shù)據(jù)庫擅長語義推理,具有支持Web擴展和高性能數(shù)據(jù)管理性能,是專門為存儲大規(guī)模RDF數(shù)據(jù)而開發(fā)的知識圖譜數(shù)據(jù)庫,語義解析能力強,適合于存儲數(shù)據(jù)量大、面向外部資源鏈接的檔案系統(tǒng)。

圖6 LodLive發(fā)布后的以檔案“土地登記申請”為核心的關(guān)系圖形

圖7 以地理代碼為關(guān)聯(lián)點GIS綜合呈現(xiàn)檔案效果圖
考慮到農(nóng)村檔案的數(shù)據(jù)面向未來具有可擴展性,本文以O(shè)penLink Virtuoso這一典型的RDF三元組數(shù)據(jù)庫管理軟件為例。采用LodView工具將服務(wù)器上的RDF數(shù)據(jù)轉(zhuǎn)換為HTML網(wǎng)頁進行展示,如檔案“土地登記申請”經(jīng)過LodView發(fā)布后的詳細頁面(圖4),通過“ead:personName”屬性鏈接跳轉(zhuǎn)到村民字典的“李三”頁面(圖5)、來源檔案“土地登記申請”的詳細頁面。通過“ra:hasAffair”屬性鏈接跳轉(zhuǎn)到事由字典的“土地確認權(quán)”的詳細頁面。
以事由和相關(guān)的時間、地點和人物為核心綜合呈現(xiàn)檔案,相關(guān)檔案相互間復(fù)雜的關(guān)系最適合使用圖形化的方式表示。農(nóng)村檔案關(guān)聯(lián)關(guān)系的可視化通過LodLive系統(tǒng)實現(xiàn),以數(shù)據(jù)字典數(shù)據(jù)或檔案的著錄數(shù)據(jù)為結(jié)點,以關(guān)系為連接線,直觀提供檔案瀏覽圖。LodLive可自動查詢與該結(jié)點(實體)相關(guān)的三元組信息,并可與DBpedia、GeoNames等外部數(shù)據(jù)集進行關(guān)聯(lián)查詢(如圖6)。圖7所示以地理代碼為關(guān)聯(lián)點通過GIS綜合呈現(xiàn)檔案的可視化效果。
在大數(shù)據(jù)時代的農(nóng)村檔案管理中,農(nóng)村檔案管理部門將慢慢變成信息存儲和服務(wù)中心,伴隨著農(nóng)村經(jīng)濟的迅速變遷,農(nóng)村治理模式將越來越走向自治模式多樣化和村治開放化,服務(wù)個性化思維、網(wǎng)絡(luò)化思維、信息化思維、資源共享性思維四大思維將成為農(nóng)村檔案管理的一個趨勢。關(guān)聯(lián)數(shù)據(jù)技術(shù)尤其是結(jié)合了語義網(wǎng)技術(shù)后,將在未來的農(nóng)村治理語境下的檔案管理中發(fā)揮巨大作用。高質(zhì)量的檔案知識開放數(shù)據(jù)集與知識服務(wù)平臺的構(gòu)建,一方面為更深層次的檔案知識分析與研究提供了科學的數(shù)據(jù)集,促使檔案知識發(fā)揮出更大的價值[8],另一方面精準的語義抽取技術(shù)將為檔案數(shù)據(jù)共享關(guān)聯(lián)賦予保密性保障。