高大偉 韓瑞雪


摘? 要:領域知識圖譜構建是實現城建檔案資源深度關聯,提升資源建設與服務效能的重要方法。城建檔案領域知識圖譜構建應完善實施條件,明確實施原則。在構建流程上,城建檔案領域知識圖譜構建流程包括數據獲取、本體構建、知識抽取、知識融合、知識更新與存儲應用。
關鍵詞:知識圖譜;本體;城建檔案;檔案資源建設;檔案服務
Abstract: The construction of domain knowledge graph is an important method to realize the deep correlation of urban construction Archives resources and improve the efficiency of resource construction and service. The construction of knowledge map in the field of urban construction Archives should improve the implementation conditions and clarify the implementation principles. In the construction process, the construction of knowledge map in the field of urban construction Archives includes data acquisition, ontology construction, knowledge extraction, knowledge fusion, knowledge update, storage and utilization.
Keywords: Knowledge graph; Ontology; Urban construction archives; Archives resource construction; Archives service.
1 引言
當前,知識圖譜前沿技術和領域實踐快速發展,網絡本體描述語言(Ontology Web Language,OWL)、資源描述框架(Resource Description Framework,RDF)、圖數據庫(Graph Database)等應用基礎不斷豐富,《信息與文獻 文化遺產信息交換的參考本體》(GB/T 37965)和《知識管理 第7部分:知識分類通用要求》(GB/T 23703.7)等相關標準陸續發布,在名人檔案、科研檔案和文化遺產檔案等領域的知識圖譜研究逐漸增多。本文圍繞知識圖譜在城建檔案領域的通用應用路徑,探討了城建檔案領域知識圖譜構建準備與實施方法,以期為相關研究提供借鑒。
2 城建檔案領域知識圖譜構建準備
2.1 完善實施條件。第一,組織保障。完善城建檔案管理協作機制,促進城建檔案領域知識圖譜構建的對象、價值、技術和業務認同,建立具備“矩陣式協作聯盟結構”[1]的組織體系,凝聚共識,健全組織保障。第二,標準規范。以現有城建檔案采集、描述和存儲規則為基礎,加強相關數據規則的銜接、定制和城鄉建設標準化術語、編碼引用,形成有包容性的相對統一的標準規范體系。第三,其他條件。準備必要的資金,做好知識產權管理和檔案開放鑒定,建立具有相關知識處理經驗、技術能力的業務和專家團隊,并配備相關軟硬件設施設備,加強安全防控等。
2.2 明確實施原則。第一,項目建設原則。一是問題導向、應用牽引。在規劃階段應聚焦城建檔案資源特色優勢和發展瓶頸,挖掘應用場景,明確技術需求,同時從檔案機構技術能力和現有數字檔案館平臺條件出發,適配應用需求。二是資源整合、集成管控。在實施過程中,既應做好多源異構檔案資源的規范化整合,消弭機構內外部“信息孤島”,還應注意城建檔案管理與趨勢性知識管理的差異及協同策略,明確以“卷/件”和以“知識”為單元的組織利用在效率提升、合規審計、互操作權限上的優勢與風險,建立科學的集成管理模式。三是循序漸進、人機協同。在實施過程中,既要秉承循序漸進原則,加強成熟度評價,根據先易后難、由點及面、由粗到細的思路分步建設,又要在機器自動處理、知識計算和人工概念分類、標準設置、樣本標注、反饋控制等方面,加強數據驅動和人為干預的協同。
第二,本體構建原則。形成領域本體是城建檔案領域知識圖譜構建的中心工作,根據學界對本體構建原則的一般認識,[2]城建檔案領域知識本體構建應遵循以下原則:一是明確性原則,即在構建知識本體時,應盡可能使用領域專業術語,對所獲取檔案數據中的概念及概念關系給出明確定義和描述。二是完整性原則,即提升本體構建過程中城建檔案資源對象來源、數量和種類的豐度,提升知識關聯關系的多樣性。三是一致性原則,指在領域知識本體構建過程中要保證其定義與本體推理結果的一致。四是可擴展性原則,即向領域知識本體中添加通用或專用的術語時,可適當豐富和擴展,而不需要修改其已有的內容。五是最小編碼偏好原則,即本體的概念體系應建立在知識層面,而不過于依賴符號層面的處理。六是最小本體承諾原則,即本體構建過程中盡可能減少約束聲明,允許各方相對自由地根據需要專門化和實例化本體,方便未來跨領域、跨專業共享。七是可管理性,即對構建的本體應建立知識產權、使用權限等必要的管理機制。
3 城建檔案領域知識圖譜構建實施
根據知識圖譜構建通用方法,城建檔案領域知識圖譜構建流程包括數據獲取、本體構建、知識抽取、知識融合、知識更新與存儲應用。
3.1 城建檔案領域數據獲取。城建檔案領域知識圖譜構建包括數字檔案館系統數據,工程審批、國土空間規劃、地理信息、建筑市場監管等外部平臺數據,知識樣本較多的維基百科、百度百科等外部知識庫、網絡動態數據,以及城鄉政策法規、實景信息、口述史料、研究資料等數據源。982FCBB3-2C17-4A65-A177-1A1E918B77F0
在具體管理中,一是做好數據源調查研究,摸清資源特色內容、利用情況、開放程度和使用權限,掌握資源結構化、半結構化、非結構化等數據特點及存儲媒介、數據格式等;二是應以PDCA循環思路,邊獲取邊檢查邊調整,把握數據源的數據特征和時空分布,不斷調整來源范圍,提升數據獲取質量。
在數據獲取過程中,應根據不同數據源,選擇針對性數據采集方法。一是通過API接口、中間數據庫等方式獲取數字檔案館系統數據及外部相關平臺數據;二是通過python爬蟲等技術工具采集外部知識庫、網絡動態數據;三是通過三維掃描、多媒體采集、模型輕量化等方式獲取城市實景信息、口述史料、聲像檔案及BIM、CIM模型數據。此外,數據采集時還應注重數據預設的知識結構、處理規則等獲取,在真實性、一致性、可靠性、可用性和知識產權等方面做好交叉驗證和合規審查,并豐富接下來本體構建的思路。
3.2 城建檔案領域本體構建。領域本體是指以基本詞匯表對領域現象的形式化表達,是知識圖譜模式層構建的主要對象。
城建檔案種類繁多,所涉領域方向和專業類別較為復雜,城建檔案管理機構也有服務工程建設維護、城鄉數智治理、文化保護傳承等多元任務。因此,在本體構建思路上,應按照循序漸進、人機協同的原則,運用“骨架法”“七步法”等方法,對本體來源和范圍進行分析處理,揭示、定義城建檔案領域實體、實體屬性及相互關系,優化知識結構,建立側重檔案憑證價值描述的檔案本體,及偏向檔案情報價值描述的學科本體,并在知識融合階段形成完整的城建檔案領域本體。
在檔案本體設計上,應以城建檔案有關術語和資源描述規范為基礎,梳理知識要素,建立術語概念和編碼集合,形成城建檔案本體模型。以城建檔案的核心組成建設工程檔案為例,以《城市建設檔案著錄規范》(GB/T 50323)、《建設工程檔案信息數據采集標準》(T/CECS 707)、《建設電子檔案元數據標準》(CJJ/T 187)、《建設電子文件與電子檔案管理規范》(CJJ/T 117)、《建設工程文件歸檔整理規范》(GB/T 50328)為依據,形成包含文件實體、業務實體、責任者實體和關系實體的4類檔案實體,擁有聯合、包含、控制、建立、擁有和前后等實體關系及相關元數據項的建設工程檔案本體模型。
在學科本體設計上,應根據《中國檔案主題詞表》《城建檔案主題詞表》及《建筑和設施管理部門元數據的應用》(ISO 82045 -5)和《基礎地理信息本體模型》(GB/T 40765)等城建領域術語編碼和知識規范,結合外部知識庫,建立城建學科本體。
在具體建設中,可根據任務目標,調整細化學科本體內容。以鄭州國棉三廠歷史文化街區改造項目為例,可根據項目內容和工程特點,借鑒《信息與文獻 文化遺產信息交換的參考本體》(GB/T 37965)和《智慧城市領域知識模型 核心概念模型》(GB/T 36332),通過網絡數據檢索和關鍵詞分析,結合自頂向下和自底向上兩種方式,建立城建項目、地理位置、相關機構、相關人員或團體、重大事件等領域實體概念,明確實體屬性和關系,最后使用Protégé編輯器形成該領域學科本體模型,如圖1和圖2所示。
3.3 城建檔案領域知識抽取。知識抽取指根據領域本體,抽取數據源的實體、關系和屬性,并將其存儲于城建檔案領域知識庫。
實體抽取強調綜合人工提取和命名實體識別技術,識別數據源特定實體。如抽取歷史文化街區改造項目中的項目、地理、機構和人物名稱等。
關系抽取是識別兩個或多個實體之間的語義關系,如“機構-參與-項目改造”,針對自然語言的歧義性和模糊性,關系抽取通常先由人工預先設置一定的實體關系類型作為訓練集,再使用監督、半監督等機器學習方法提升召回率。
屬性抽取指采集特定實體的屬性信息,如人物的性別、職業等,可采用基于規則或啟發式算法等屬性抽取方法實現。[3]
針對城建檔案中大量存在的照片、聲像等非結構化數據,可應用文字識別、圖像特征提取、音視頻詞匯提取等識別技術,進行格式轉換、機器識讀、人工校正及人機協同標引,將其轉化為結構化數據,再實施知識抽取。此外,還應關注隱性知識抽取,如以結構化知識模板記錄對歷史文化街區居民的訪談,并提煉RDF三元組元素。
3.4 城建檔案領域知識融合。根據城建檔案領域本體構建思路,本體匹配是兩類方法的結合,即將從不同數據源、興趣點而來的各類檔案本體、學科本體充分集成,并建立映射關系,形成一個更趨完整的城建檔案領域本體模型。實例匹配包括實例鏈接和消歧等任務,如規范“工程策劃、籌備文件”對多個實例的鏈接,消歧同一個地理坐標對兩個不同工程項目的標識,將相同解釋的“工程文件”“項目文件”進行對齊。實例匹配主要通過基于相似度計算、基于規則或學習的匹配方法及人工抽檢實現。
3.5 城建檔案領域知識更新與存儲應用。模式層更新指城建檔案本體更新,通過刪減、增加或重新定義有關概念及概念關系實現。如根據工程審批制度改革對檔案驗收程序的調整,重新定義檔案驗收,增加聯合驗收、容缺驗收定義。數據層更新指調整城建檔案領域本體所存儲的實體、關系和屬性值。如根據機構改革結果,更新某個城建檔案管理機構的隸屬關系;為響應歷史文化街區改造項目的工業文化遺產內涵,新增某個城建檔案管理機構的服務屬性區間。在知識更新中,應使用準確率、精確率、召回率等指標對已構建的知識圖譜進行評價,調整更新策略。
最后階段是進行存儲和應用,城建檔案領域知識圖譜的可選存儲手段包括面向RDF的三元組數據庫,及Neo4j、JanusGraph等圖數據庫。在應用上,根據不同任務目標的構建成果,知識圖譜可被用于城建檔案利用服務中的智能搜索、個性化推薦和知識問答,也可借助頁面級、數據級的關聯發現,實現城建檔案質量要素的智能合規檢查,支撐可視化業務指導和驗收移交。
*本文系國家社科基金青年項目“國家建設工程檔案資源保障體系研究”(編號:17CTQ049)的階段性成果之一。982FCBB3-2C17-4A65-A177-1A1E918B77F0
參考文獻:
[1]趙生輝,胡瑩,黃依涵.打造“時光機器”:城市逆向記憶工程理論與實踐初探[J].檔案學研究,2021(06):120.
[2]GRUBER T.Towards principles for the design of ontologies used for knowledge sharing[J].International Journal of Human-Computer Studies,1995(05):907-928.
[3]劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016 (03):588-591.
(作者單位:鄭州航空工業管理學院 來稿日期:2022-02-20)
[15][16][18](后晉)劉昫.舊唐書[M].北京:中華書局,1975:1867,1868,1838.
[17](宋)歐陽修.新唐書[M].北京:商務印書館,1928:939.
[19](元)脫脫.宋史[M].北京:中華書局,1977:3842-3845.
[20](宋)李心傳.建炎以來系年要錄.[M].清文淵閣四庫全書本.
[21](明)宋濂.元史[M].北京:中華書局,1976:2190.
[23][25][26][27](清)張廷玉.明史[M].北京:中華書局,1974:1829,1787,1789,1791.
[24](明)鄭曉.今言[M].刻本.嘉興:項篤壽,1566(明嘉靖四十五年).
[28](清)佚名.欽定大清會典則例[M].刻本.清文淵閣四庫全書本.
[29](清)王闿運.湘軍志[M].長沙:岳麓書社,1983.163.
[30](清)朱彝尊.曝書亭集[M].上海:世界書局,1931:874.
(作者單位:河南省疾病預防控制中心 來稿日期:2021-12-21)
[12]塞繆爾·P·亨廷頓.難以抉擇——發展中國家的政治參與[M].1989.
[13]格里·斯托克,華夏風.作為理論的治理:五個論點[J].國際社會科學雜志(中文版),1999(01):19-30.
[15]韋忻伶,安小米.開放政府背景下的檔案開放準備度評估體系研究[J].圖書情報知識,2019(03):72-80.
[17]趙靜.在“度”與“量”中尋求平衡——城建檔案開放窘狀分析與建議[J].蘭臺世界,2019(10):77-79.
[18]郝偉斌.機構改革背景下城建檔案管理的轉型[J].檔案學通訊,2019(05):105-107.
[19]ARNSTEIN S R.A ladder of citizen participation[J].Journal of the American Institute of planners,1969,35 (04):216-224.
[20]CADDY J,GRAMBERGER M,VERGEZ C.Citizens as partners:Information,consultation and public participation in policy-making[M].Organisation for Economic Co-operation and Development PUMA Working Group on Strengthening.
Government-Citizen Connections,2001.
[21]王會粉,劉永,張碩.新基建:建設項目檔案治理研究的新視域[J].檔案管理,2021(04):62-64+66.
[22]郝偉斌,周昊,李璐璐.“互聯網+”環境下建設項目檔案新型監管機制研究[J].檔案管理,2020(06):48-51.
[23]胡榮.社會資本與城市居民的政治參與[J].社會學研究,2008(05):142-159+245.
[24]曾凡斌.論網絡政治參與的九種方式[J].中州學刊,2013(03):19-22.
[25]肖唐鏢,易申波.當代我國大陸公民政治參與的變遷與類型學特點——基于2002與2011年兩波全國抽樣調查的分析[J].政治學研究,2016(05):97-111+127-128.
[26]深圳市住房和建設局.深圳市住房和建設局關于公開征求《關于加強我市城建檔案管理工作的通知(征求意見稿)》意見的公告[EB/OL].[2021-6-18]http://zjj.sz.gov.cn/hdjlpt/yjzj/result/12673.
[27]上海市規劃和自然資源局.上海市城市建設檔案館通過微信公眾號提供檔案利用咨詢服務[EB/OL].[2020-8-5]https://ghzyj.sh.gov.cn/gzdt/20200805/56e7d4779353464682524f160002c9bd.html.
[28]托馬斯·R·戴伊.理解公共政策[M].北京:中國人民大學出版社,2010.
(作者單位:魏楠,鄭州航空工業管理學院信息管理學院;張笑涵,愛丁堡大學社會與政治科學學院 來稿日期:2022-02-20 )
Sociology,1990,13(01):6-7.
[12]習近平.用好紅色資源,傳承好紅色基因把紅色江山世世代代傳下去[J].當代廣西,2021(10):4-8.
[13][24]劉廷智.河池東蘭:打造黨史學習教育“紅色熔爐”[J].當代廣西,2021(07):41.
[14]徐擁軍,熊文景.用“檔案之制”筑牢“檔案之治”[J].中國檔案,2020(01):72-73.
[15]李穎,魏歌.阿聯酋國家檔案館檔案資源建設分析及思考[J].檔案學通訊,2020(01):94-100.
[16]王向女,姚婧.長三角地區紅色檔案資源整合探析[J].浙江檔案,2020(02):30-32.
[17]韋禮富.且看東蘭老區如何光榮脫貧摘帽[EB/OL].[2021-06-01].http://www.donglan.gov.cn/gddt/t7323076.shtml.
[18]本刊訊.中辦國辦印發《“十四五”全國檔案事業發展規劃》[J].中國檔案,2021(06):18-23.
[20][23]周林興,崔云萍.區域性紅色檔案資源的協同開發利用探析——以長三角區域為分析對象[J].檔案學通訊,2021(05):4-13.
[21]梁文華.左右江革命根據地紅色歌謠[M].南寧:廣西美術出版社.2009:74.
[22]馮向陽.紅色檔案助力黨史宣傳的內在機理與實現路徑研究[J].檔案管理,2021(05):12-13.
[25]王向女,姚婧.“互聯網+”時代長三角地區紅色檔案資源開發與利用的新方向[J].檔案與建設,2020(08):4-8.
[26]王阮,鄧君,鐘楚依等.我國口述歷史建設可持續發展保障機制研究[J].圖書情報工作,2020(17):49-57.
[27][19]劉蕓.解讀《國家重點檔案保護與開發項目管理辦法》[J].中國檔案,2016(09):21-22.
(作者單位:廣西民族大學來稿日期:2021-10-982FCBB3-2C17-4A65-A177-1A1E918B77F0