中圖分類號:TP311.52 文獻標識碼:A 文章編號:2096-4110(2025)08(c)-0189-06
Research on Empowering Genealogy Digitization and Knowledge Graph Construction with Large Language Models
—Taking the Practice of Tianyi Pavilion Museum in Ningbo as an Example
HUANG Gang, LIN Lei (TianyiPavilionMuseum,Ningbo Zhejiang,315O1O, China)
Abstract: Genealogyasanimportant tolforrecording familybloodrelationships,cariesrichhistorical andculturalconnotations.BasedotheNingboGenealogyDigitizationProject,thisarticleproposesafeasiblepathforstructuringChinesegenealogiesand constructingknowledgegraphsusingLargeLanguageModel(LLM)technology.Onthebasisofullyunderstandingtheimporatvalue of genealogyasacarieroffamilyhistory,ulturalmemoryandticalspirt,wehavedesignedacompletetchicalprocessbyombiningthelatestditalmanitndatialitellgnetelogies.nalleimportedboutOuctuedde tractedintothedatabaseandconstructedagenealogyknowledgegraph.Theexperimentalresultsshowthatthismethodhassignificant advantages intems ofscaleandacuracyof information extraction.Thepaperalsodiscuses thesignificanceofdigitizingfamilygenealogyandthethicalandprivacyprotectionmeasuresintheaplicationproce.Thisstudyprovidesnewideasandpracticalefer ences for the digitization of Chinese genealogies and other ancient literature.
Key words: Digitalization offamily genealogy;Large Language Model (LLM); Knowledge graph; Digital humanities; Ningbogenealogy; Genetic mapping
家譜作為承載家族血緣關系、歷史沿革與倫理教化的文獻載體,在中華優秀傳統文化中具有不可替代的地位。一部完整的家譜通常包含姓氏源流、世系表、始祖與先賢傳記、家訓家規、遷徙沿革等豐富信息,歷來為后人識源明系和研究社會變遷提供重要依據1-2。一份完整的家譜文獻,如實展現了家族的發展歷程、科舉功名和地方遷徙,為歷史學、人口學等提供了寶貴的第一手資料。然而,傳統家譜長期以紙質文獻形式保存,面臨年久損毀、內容散佚和檢索困難等挑戰。許多珍貴譜牒深藏于圖書館、博物館、檔案館和私人收藏中,公眾難以檢索和利用。這些局限不僅制約了學術研究,也妨礙了家譜文化的傳播和創新。由此可見,實現家譜數字化、將分散的數據轉化為結構化知識庫,是保護和傳承這一優秀文化遺產的迫切需求[3]
近年來,數字人文技術為文化遺產的保護與研究開辟了新途徑。中國數字人文進入加速發展的建制化階段,涌現出包括古籍數字化、數據庫建設、文本挖掘、GIS可視化等一系列實踐成果[4-5]。本研究基于對家譜文化傳承需求、地方家譜資源價值挖掘和人工智能技術發展的綜合考量,提出了“大語言模型驅動的家譜數字化探索\"構想,重點聚焦寧波地區豐富且具有地方特色的家譜資源展開實驗。本研究通過案例實踐驗證了大語言模型(LargeLanguageModel,簡稱LLM)在中文古籍家譜處理中的有效性,探討了相應的技術細節、應用價值與挑戰。
1家譜數字化與大語言模型
家譜的價值由于技術手段的限制長期以來難以充分發揮。數字化技術的興起為解決這一問題帶來了新機遇。數字人文作為交叉學科,強調利用計算工具為傳統人文研究服務。中國學者在古籍數字化、數據庫建設、文本挖掘和可視化等方面進行了大量實踐。例如,包弼德教授主持的中國歷代人物傳記資料庫(CBDB)對人物關系網絡進行構建與分析;上海圖書館的家譜平臺實現了家族目錄和內容的電子化;南京師范大學的華夏家譜GIS平臺將家譜信息與地理時空數據結合,揭示了家族遷徙規律。這一系列工作為本研究提供了借鑒經驗,表明技術在家譜研究中已可從“數據收集”向“知識發現\"轉型。在此基礎上,大語言模型與知識圖譜(KnowledgeGraph,簡稱KG)的應用為家譜信息學帶來了新的革新。LLM通過在大規模文本上預訓練,具備強大的自然語言理解、命名實體識別和關系抽取能力,已經在古籍詞性標注、文言文翻譯等領域取得初步成果。對于格式相對規范的家譜文本,LLM能夠自動完成標點糾正、人物與地名識別等操作,顯著提升處理效率和準確度8。同時,知識圖譜以圖形式組織知識,節點代表實體、邊代表關系,更擅長表達家譜中的血緣、婚姻、師承、遷徙等復雜聯系。大語言模型等AI技術的發展為家譜的深度挖掘提供了前所未有的工具,它可以自動理解和處理復雜的古漢語文本,突破傳統方法的瓶頸。這些都表明 ?LLM+KG, 的技術路徑極具潛力。
2 研究構想與技術實現
2.1 研究構想
如何高效處理寧波地區龐大的家譜資源,挖掘其中的深層文化價值,實現家譜數字化的規模化和智能化,是寧波天一閣博物院面臨的挑戰。本研究選取寧波地區的家譜資源作為核心對象,是因為當地歷史悠久、商業繁榮、人口流動頻繁,形成了豐富且風格多樣的家譜文獻。寧波天一閣博物院的館藏家譜,數量眾多,版式規范,具有研究價值。
基于文化使命(家譜傳承與創新的需求)技術驅動(LLM帶來的可能)和地方特色(寧波家譜資源的獨特性)綜合考量,也基于對文化價值的理解和技術能力的把握,提出了大語言模型驅動的寧波家譜數字化構想。
2.2 技術實現
本研究設計了一條從原始文獻到結構化知識的完整技術路徑,核心在于通過大語言模型進行信息抽取,并結合必要的人工干預與后處理。主要步驟包括數據準備、信息抽取、后處理與知識圖譜構建。
2.2.1 數據準備
選擇上海古籍出版社出版、上海圖書館編纂的《中國家譜總目》(1—8冊)及浙江人民出版社出版的圖書《浙江家譜總目提要》(1冊)作為實驗數據源。這兩本圖書作為權威聯合目錄,排版統一、條目格式規范,為批量OCR識別提供了便利(見圖1)。
對9冊書進行高清掃描并應用OCR技術提取文字,然后進行人工校對以確保文本準確性,這是確保后續抽取質量的關鍵。校對完成后,將文本格式化處理:將每個以“條目\"編號的家譜記錄作為基本單元,并使用分隔符(如地名等)標識關鍵字段,使得文本可以被程序化地解析。最終生成了標準化的文本和JSON輸入文件。為方便模型處理,將每個“條目\"編號作為JSON的鍵(Key),對應的內容為該條目下的文本段落(Value),并保留原始編號等元信息。
2.2.2大語言模型信息抽取
在預處理完成的基礎上,使用Qwen2.5-72B大語言模型來提取結構化信息。該模型是通義千問系列中的超大參數模型,具備強大的中文長文本處理
丁晏纂修。清咸豐三年(1853)刻本,一冊。書名丁 據卷端題。始祖國信,明代人。始遷祖近淮,明代人。清人丁晏、丁壽昌即出於是族。
001-0001[河北鹽山]丁氏族譜丁恩新等纂修。 南京圖
1994年鉛印本,一冊。書名據封面題。始遷祖南陽,明萬曆三十年自山東青城縣城北 001-0007[江蘇淮安]山陽丁氏族譜不分卷(清)
遷居鹽山縣曾家莊。後裔又散居至河北滄縣及山 丁晏纂修。清同治七年(1868)刻本,一冊。書名
東慶雲縣等地。譜載序、各支世系表。 據版心、卷端題。上圖 先祖同上。吉林大學
001-0002[上海崇明]丁氏家乘不分卷(清)丁
元琳纂修。清同治五年(1866)刻本,一冊。書名 001-0008[江蘇淮安]山陽丁氏族譜不分卷(清)
據版心題。 丁晏纂修,(清)丁元福續修,丁步坤補修。抄本,始遷祖尊、富,宋靖康間自句容遷居崇明。譜載 二冊。記事至清光緒間。
譜序、家訓。 先祖同上。上圖 鎮江圖
001-0003[上海崇明]丁氏家乘不分卷(清)丁 001-0009[江蘇淮安]淮安丁氏世系表一卷丁步
子華等纂修。清光緒二十一年(1895)刻本,十冊。 坤纂修。1945年石印本,一冊。
書名據版心題。 先祖同上。先祖同上。譜載譜序、遺像、世系等。 鎮江圖上圖
和結構化輸出能力。模型部署在4張NVIDIAA6000GPU的并行平臺上,以保證對數十萬條文檔的高效處理。信息抽取前,定義了家譜記錄中的一系列核心實體和屬性,如\"地區\"“宗譜名稱\"\"始祖\"\"始遷祖”\"遷徙信息\"“排行字\"“本支名人\"\"存放地\"等。這些實體和說明共同構成了知識圖譜的本體模型基礎。為了讓LLM準確完成提取任務,精心設計了Prompt:指示模型以“宗譜信息提取專家\"角色進行回答,清晰描述輸入格式,并要求輸出符合JSON字典結構,鍵為實體名稱、值為列表形式。在提示中提供了示例輸入輸出,采用Few-Shot學習方式幫助模型理解任務。
2.2.3 后處理
模型返回的JSON輸出需要進行檢查和清洗,以保證格式規范并適合入庫。編寫腳本對輸出內容進行如下處理:將可能出現的中文標點改為英文符號;清除值中多余的換行符、制表符等非法字符;針對模型生成的特殊符號進行校正;對整個JSON結構進行校驗,修正不完整或不匹配的括號。經過這些步驟,最終得到干凈、標準化的結構化數據文件(見圖2)。
此環節體現了對數據質量控制的重視,盡管LLM大幅提高了提取效率,但人工后處理是確保高質量輸出的必要保障。
2.3 實驗平臺與規模
本研究在配置4張NVIDIAA6000GPU的服務器上開展實驗。這些GPU并行工作,為 Qwen2.5AA- 72B模型提供了強大的計算資源。最終,技術路徑成功地從9冊文獻中抽取并生成了約30萬條結構化家譜記錄。對這些記錄進行人工抽樣校對后發現,其完整性和規范性表現良好:所有預先設定的元數據字段(如地區、宗譜名、始祖、遷徙信息、存放地等)均已被準確提取,且內容基本符合傳統家譜記載規范。這一結果驗證了所提方法在大規模家譜文獻處理和復雜實體抽取任務中的可行性,為后續更大規模的應用奠定了基礎。
3 家譜知識服務構建
通過上述流程,大語言模型驅動的寧波家譜數字化研究取得了顯著成果。在這一成果的基礎上,通過結構化數據存儲與管理、知識圖譜構建、可視化與交互應用開發等,完成家譜知識服務體系的構建。
3.1大語言模型驅動的寧波家譜數字化成果
運用 Qwen2.5-72B 模型和細致的處理流程,本研究從《中國家譜總目》和《浙江家譜總目提要》中成功提取了約30萬條結構化家譜數據。通過人工抽樣校對確認,這些數據的完整度和規范度較高,關鍵字段提取準確。該規模化的數據成果本身就是重要階段性成果,它為分析中國家譜的分布規律、譜系結構和遷徙特征等提供了前所未有的數據基礎
3.2 結構化數據存儲與管理
對生成的JSON數據,采用關系型數據庫和圖數據庫相結合的方式管理。一方面,將標準化的屬性數據(如條目號、宗譜名稱、編纂年代、存放地等)導入MySQL等關系型數據庫中,便于進行事務一致性維護和常規查詢分析。另一方面,將家譜中的網絡化信息(親屬關系、婚姻關系、遷徙關系等)映射到圖數據庫(如Neo4j)中,通過節點與邊直觀存儲。關系型數據庫提供屬性數據的管理效率,圖數據庫則支持復雜網絡的高效檢索和圖算法分析,這一混合存儲策略兼顧了多種數據利用需求[10]。
圖2結構化家譜數據成果示意

3.3 家譜知識圖譜構建
家譜知識圖譜是將抽取得到的結構化信息轉換為語義網絡的過程。首先,設計本體模型。定義核心實體類型(如人物、家族、地點、事件、官職、譜牒等)及其屬性(如姓名、字號、生卒年、籍貫、堂號等),并明確定義實體間的關系類型(如父子、夫婦、兄弟、師生、同僚、遷徙等)。本體設計參考了包括CBDB人物關系本體在內的成功案例,并結合譜牒學與歷史學知識,使之貼合家譜特色。其次,將LLM輸出的JSON數據按照本體模型映射為圖數據庫格式。例如,人物實體映射為節點,親屬關系映射為連邊,同時保留相關屬性。針對家譜異名同名或與其他知識庫的關聯問題,進行知識融合。例如,將家譜中的人物與CBDB等外部庫進行鏈接,將地名標準化為GIS庫中對應位置,以豐富圖譜信息并實現數據互通。
3.4 可視化與交互
構建完成的知識圖譜可以通過可視化工具(如
Gephi、Cytoscape或定制界面)呈現給用戶。例如,可以生成家族世系樹、人物關系網和家族遷徙時空圖等,幫助直觀理解譜系結構。用戶可在交互平臺上通過關鍵詞檢索、節點篩選、圖譜瀏覽等方式探索家族網絡。例如,上海圖書館家譜平臺支持通過堂號、郡望、遷徙時間等多維條件檢索家譜,并可直接查看譜牒掃描圖像。
結構化數據還可用于統計分析:借助量化歷史數據庫的理念,可以分析特定姓氏家族的人口變化、婚姻模式、職業構成等,為社會學和人口學提供新視角。對于公眾和教育領域,可以將數字家譜資源用于博物館展覽、在線教育和尋根活動,以多媒體和互動方式增強公眾的文化認同和參與感。
綜上,本研究通過技術手段將寧波家譜數據轉化為可查詢、可視化、可擴展的知識資產,構建了多層次的家譜知識服務體系。這一轉化過程體現了數字人文的核心理念:將傳統文化遺產從靜態文獻轉變為動態知識,為研究和公眾服務開辟了新路徑。
4文化價值挖掘與倫理思考
家譜數字化與知識圖譜構建的意義不僅在于技術創新,更體現在文化價值的再發現和社會影響方面。通過數字技術,可以重現家族的歷史脈絡和文化記憶:知識圖譜能夠將原本分散記錄在不同譜牒中的人物信息關聯起來,自動構建多代世系圖,并鏈接到相關歷史事件和社會背景,豐富了家族史敘述的細節。這種全景式的呈現使后人能直觀了解祖先的生活軌跡,從而增強個人的歷史感和歸屬感。對于研究者而言,規模化的結構化家譜數據和對應的知識圖譜能夠從宏觀層面研究區域社會史、人口遷移、社會流動和文化傳播等問題,揭示傳統研究難以發現的深層歷史規律。
此外,家譜數字化極大降低了公眾接觸傳統文化的門檻。傳統家譜往往文字古奧、卷帙繁雜,普通人難以直接閱讀和理解。而數字平臺尤其是結合可視化、交互和問答功能的知識服務,可以以生動直觀的方式向公眾呈現家譜內容。例如,公眾可以通過地圖界面查看家族遷徙路線,通過家族關系圖譜了解錯綜復雜的姻親關系,或者通過智能檢索找到歷史名人所在家族。這種體驗不僅激發了人們對家族史與地方文化的興趣,還潛移默化地傳遞了家譜中蘊含的孝悌、忠信、勤儉等價值觀念,增強了文化自信和民族認同感。
然而,在擁抱技術創新的同時,必須警惕數字化過程中可能出現的文化與倫理問題。技術絕非萬能,其應用必須以尊重文化原真性為前提。本研究始終堅持“文化為體、技術為用\"的原則:在技術方案、數據模型設計和呈現界面中,充分考慮家譜文獻的特點與歷史語境。倡導文獻學專家與工程師緊密合作,對輸出結果進行反復校訂,避免因自動化處理帶來的理解偏差。例如,過度依賴模型自動翻譯或格式化可能忽略家譜原有排版格式和語境信息,從而喪失文獻本來的風貌和莊重感。只有深度融合人文知識與技術應用,才能避免所謂的“文化折扣\"現象,即技術產品在特定文化領域中效果打折。此外,家譜數據中往往包含大量個人信息,涉及隱私和倫理考量。本研究嚴格遵守相關法律法規,采取了多項安全措施:對存儲和傳輸的數據進行加密,建立分級訪問權限控制;對公開數據進行必要的匿名化處理,如對近現代在世人員的敏感信息模糊化;收集在世人物信息時盡量取得知情同意;在研究和發布成果時客觀呈現家譜內容,避免對相關家族造成負面影響。更重要的是,倡議健全倫理審查機制,確保家譜數字化項自在尊重個人權利與隱私的同時,為文化傳承與學術研究提供社會價值。這種負責任的做法不僅是對個體的尊重,也是數字人文研究公信力的保障。
5 結論與展望
本研究在家譜數字化的方法論上進行了創新,提出并驗證了一套基于LLM的信息抽取與知識圖譜構建流程,為大規模中文古籍數字化提供了新思路;在實踐應用上,基于寧波家譜數字化案例,展示了理論構想到技術實施的完整流程,為類似項自提供了操作參考。通過研究表明:
第一,大模型提取效率與規模化能力顯著。利用Qwen2.5-72B等先進LLM并結合精細的提示詞設計,能夠高效地從規范化譜牒文本中提取結構化信息。實驗中已處理約30萬條家譜記錄,數據完整性和規范性良好,有力證明了技術方案在解決傳統家譜整理難題上的可行性與優越性。
第二,知識圖譜促進家譜價值深度利用。基于LLM抽取得到的結構化數據構建家譜知識圖譜,可以將孤立的信息網絡化,實現世系關系和事件的直觀可視化與查詢。這不僅為多維度的歷史分析和智能問答提供了基礎,還標志著家譜從傳統“文獻資源\"向“知識服務\"角色的轉變。
第三,家譜數字化是傳統文化傳承的重要途徑。通過數字化和智能化手段,不僅能保護面臨威脅的譜牒文獻,還能挖掘家譜蘊含的精神價值,增強公眾對中華優秀傳統文化的認知和認同,從而促進文化傳承與創新發展。
但本研究依然存在一些不足。當前數據來源相對單一,僅使用了排版規范的《中國家譜總目》《浙江家譜總目提要》進行驗證;對于手寫、殘損、體例多樣的原始家譜文獻,信息抽取的難度較大,需要進一步優化模型和方法;LLM的準確性雖高,但對罕見表達或深層語義理解仍可能出現誤差,因此人工校驗與迭代優化必不可少;知識圖譜的構建本身是復雜的系統工程,本研究提出的本體和融合方案仍處于初步階段,需要在實踐中不斷完善和評估。
未來,基于LLM的家譜數字化與知識圖譜研究可在以下幾個方向深化:
第一,模型領域適配。針對中文古籍的特點(繁簡體、異體字、專有名詞等),對LLM進行專門微調或訓練,提升在譜牒語料上的表現。
第二,多模態信息融合。探索將家譜中的圖像(族譜世系圖、牌位圖、地圖等)通過計算機視覺技術進行識別和關聯,構建更豐富的多元知識圖譜。
第三,知識圖譜高級應用。開發基于社會網絡分析和時空分析的功能,研究家族婚姻網絡、遷徙規律等;構建更加智能的問答系統或故事生成引擎,實現家譜知識的場景化服務。
第四,數據共享與生態建設。推動家譜知識圖譜與人物傳記數據庫(如CBDB)、地方志等知識庫互聯互通,構建更大范圍的歷史文化網絡;借鑒上海圖書館眾包修譜經驗,搭建開放平臺,鼓勵學者、家族和公眾參與家譜數據整理和知識完善。
第五,倫理與法規。隨著數字化深入,應不斷完善相關倫理規范和法律框架,確保個人隱私和文化權利得到充分保護
總之,通過本研究,以期能進一步推動學科交叉應用研究,推動譜牒學、歷史學、圖書館學與人工智能等領域的交叉融合,拓展數字人文研究的視野。以大語言模型和知識圖譜為代表的智能技術,正為中華文化遺產的數字化保護和傳承帶來新的可能。通過技術與人文的深度融合,有望更好地守護和弘揚家譜這一精神財富,讓傳統家族文化在數字時代綻放新的光彩。
參考文獻
[1]陳濤,劉偉,單榮榮,等.知識圖譜在數字人文中的應用研究[J].中國圖書館學報,2019,45(6):34-49.
[2]王超,陳靜,張韌弦,等.基于GIS的家譜資源整合集成研究[J].人文地理,2012,27(1):50-53.
[3]谷疏博.數字化賦能:中華文化傳承與傳播的創新路徑[N].中國藝術報,2025-06-18(3).
[4]梁晨,董浩,李中清.量化數據庫與歷史研究[J].歷史研究,2015(2):113-128,191-192.
[5]徐嘉澤,潘長在,賀莉麗,等.基于TopWORDS方法的古文獻專名識別:以《漢書》和《明史》為例[J].數字人文,2020(2):90-105.
[6]楊浩,孫羽菲,丁雨芯,等.領域大語言模型下的古籍詞性標注應用研究[J].科技情報研究,2024,6(2):21-29.
[7]胡娟,柯平.我國圖書館數字人文項目建設經驗與啟示:以上海圖書館家譜知識服務平臺項目為例[J.圖書館工作與研究,2022(1):27-36.
[8]郝佳,牛紅偉,杜鈞,等.知識圖譜與大模型賦能教育教學典型應用[J].中國現代教育裝備,2025(11):1-5.
[9]吳楊,呂鈺琪,杜鈞,等.知識圖譜驅動智能學習的內生邏輯[J].中國電化教育,2025(2):122-130.
[10]鄒紅軍,柳欣源.數字化社會的知識\"面相\"與教育應對[J]東北師大學報(哲學社會科學版),2024(3):108-119.