999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算人文下的古籍引書研究及全文本知識庫的構建

2024-01-03 09:10:12劉瀏齊月劉雛菲李文祺王東波
情報學報 2023年12期
關鍵詞:文本內容研究

劉瀏,齊月,劉雛菲,李文祺,王東波

(南京農業大學信息管理學院,南京 210095)

0 引 言

中華典籍是中華傳統文化的重要載體,加強文物和古籍保護研究利用是“推動中華優秀傳統文化創造性轉化、創新性發展”的主要途徑。在數據科學和人工智能迅猛發展的當下,面向古籍文本的知識挖掘與知識庫構建,以及古籍知識內容的數據分析與可視化視角展開的計算人文探索,已逐漸成為古籍保護和研究利用的重要主題[1],既是傳承弘揚中華優秀傳統文化的現代詮釋,也是“讓書寫在古籍里的文字都活起來”的鮮活實踐。

古籍引書是古籍計算人文研究的重要內容。古籍引書中凝結著先賢智慧的結晶,“引據大義,正之經典”,古人著書立言往往“旁征博引”以示學識之淵博,“詠古抒懷”以明立意之深遠,“辨章學術,考鏡源流”以求治學之嚴謹。卷帙浩繁的古籍以引書的形式彼此關聯,源遠流長的文化則在引書里留下傳承印記。古籍引書研究作為對“引經據典”的追本溯源,有助于發現古籍中記錄的思想發展源流,并從浩如煙海的古籍中梳理中華傳統文化傳承脈絡。從文獻學的角度看,古籍引書研究既可以通過考本源、辨支流的方法來厘清古代學術流派淵源,從而把握思想文化發展內涵,也可以提供廣博的訓詁、音韻、校勘內容,從而更準確地解釋和理解經典文獻著作;從史學的角度看,古籍引書研究可以充分搜集和利用旁證來解析相互矛盾之說,從而還原歷史的真相;從圖書情報的角度來看,古籍引書研究可以通過對大規模古籍文獻資源的知識挖掘,實現古籍關聯的數據分析和影響力的客觀評價。古籍引書研究是傳統文化傳承研究的絕佳切入點,具備了較大的研究潛力和價值,將是弘揚中華優秀傳統文化的有效助力。

計算人文時代的古籍研究以大規模數字化文本作為研究對象,以此為基礎的古籍引書研究則借文本知識挖掘和引文分析方法呈現新的發展潛力[2-4]。從研究內容來看,不論是從結構化知識出發的量化統計分析,還是宏觀視角的大規模網絡關系發現,抑或是基于客觀數據的古籍影響力衡量與評價,均需要更大規模的古籍語料、更智能的知識挖掘技術以及更高效的知識表示框架,古籍引書全文本知識庫的重要性由此可見一斑。計算人文視角的古籍引書研究及全文本知識庫資源構建,符合新文科尤其是圖情學科當下發展的新趨勢,契合“讓中華文化展現出永久魅力和時代風采”。

1 計算人文下古籍引書研究的內涵和價值

古籍引書是古籍中“引經據典”的現象,也可以將其視為“古籍文本中的被引文獻”,與文獻計量學中的引文現象類似[3]。參考“引文分析”的定義[5],古籍引書包含了施引和被引的雙向引用行為和現象,也可特指被引用的古籍,含義視上下文而定,因此,古籍引書研究同時關注引用現象和被引古籍。

例1.史記正義 虞喜志林云.南公者.道士.識廢興之數.知亡秦者必於楚.漢書藝文志云.南公十三篇.六國時人.在陰陽家流.

如例1所示,《史記正義》“虞喜志林云……”一句中,出現《志林》《漢書·藝文志》兩部古籍之處,均可以看作引書現象。其中《史記正義》為施引古籍,《志林》《漢書·藝文志》為被引古籍,“虞喜”為被引古籍作者,“南公者.道士.識廢興之數.知亡秦者必于楚”“南公十三篇.六國時人.在陰陽家流”則為引書內容。從該定義出發開展的古籍引書計量研究[2-3],充分利用了文獻計量學的數據解釋力,相較于傳統文獻學擅長的列舉和分析、考證和勘誤,能得到更加宏觀的分析和解釋視角。這恰恰體現出計算人文[6]的特點,通過引書知識的自動獲取、大規模計量分析和可視化數據結果呈現,為古籍引書研究提供了新的思路,也帶來了大量亟待解決的技術問題。

計算人文視角的古籍引書研究以知識的獲取和表示為基礎,通過對古籍引書研究對象和技術框架的重點闡釋,本文首先力圖厘清計算人文下古籍引書研究的理論和技術內涵。古籍引書從現象上可分為明引和暗引,其中,明引可分為目錄學典籍所引古籍題錄和經學注疏文獻所引古籍觀點內容,暗引可分為史學典籍所引古籍事實觀點和詩詞歌賦所引典故,不同類型的古籍引書目的風格存在較大差異。厘清各類型古籍引書特點異同,是引書知識的表示、標注和知識庫構建的基礎,也是計算人文下古籍引書研究的前提。

1.1 古籍引書的類型

目錄典籍引書可用于覽全貌、考版本、辨源流,自西漢劉向《別錄》、劉歆《七略》以來,后世歷代目錄編纂為概覽當時的圖書全貌提供了絕佳的對象,典型如《二十四史》中多部史籍的《藝文志》《經籍志》,宋代《太平御覽》、明代《永樂大典》、清代《四庫全書》《古今圖書集成》等,其數字化的工作也早已得到了廣泛的關注。從古籍引書研究視角看,目錄典籍所引古籍包含了書目題錄、版本卷冊等知識,《四庫全書總目》等還包含關于古籍主題內容、關聯傳承的簡介摘要。書目題錄等是知識表示和知識庫構建的基礎,也可作為古籍引書自動標注的外部知識,以提升深度學習等模型的性能。

經學注疏引書以解經義,并逐漸形成了引書規范,顧炎武《日知錄》述為“凡引前人之言,必用原文”[7],清末陳澧進一步闡釋為“說經之文與時文不同者,時文不能引書,說經之文,則必須有引書”,并總結出“引書法”規范十條,與現代學術引文規范異曲同工[8]。經學注疏的規范性使其成為古籍引書研究的絕佳對象,引據不僅包含出處、作者和原文,還兼顧觀點評價、二次文獻、共引評價等,以《十三經注疏》為代表的系列注疏文獻還包含了注解疏解多層級的引用體系,也為計算人文下古籍引書的多視角對比研究提供了天然的知識來源。

史書引書以求史實,無引書不成史書,史籍中所含引書知識豐富程度不亞于經學引書,然而其所引形式多為化用暗引,一般難以通過格式化手段自動獲得引書知識,借助自然語言處理前沿技術自動發現暗引內容并補全引書知識,可以成為史學引書研究的重要技術手段。進一步來說,史籍暗引研究與經籍明引研究相對應,在內容上可互為參照,在方法上可互為補充,如《史記》三家注、《三國志》裴松之注等重要史籍注疏文獻,將是對兩者進行對照考察的重要對象。另外,通史引書與斷代史引書在研究對象方法上也存在明顯差異,通史引書研究可關注史籍成書前各時代典籍動態關聯或變化,而斷代史引書研究則可更多考察某一時代典籍的靜態面貌情況。

詩詞歌賦引典以寓言、詠志和抒懷,引典雖然不是對古籍內容的直接引用,但從引用行為和引用效果來看,與引書十分相似,引典與引書均體現了古人“無一字無來歷”的寫作追求,可以將引典看作一類特殊的古籍引用現象。從古至今,詩詞歌賦引典之豐富讓人目不暇接,屈原、莊子的神話寓言,三曹與七子的建安風骨,引典以成詩文的同時,更成為后世所引之典,凝練在“莊生曉夢迷蝴蝶”“蓬萊文章建安骨”等傳世佳句中。引典的傳承造就了“中國盒子”式的藝術美感和文化內涵,更是中華民族文化綿延千年的靈魂,王勃引六百年前馬援典故以抒“老當益壯,寧移白首之心?窮且益堅,不墜青云之志”,而一千三百年后的今人仍能感受其氣魄,由此可見一斑。計算人文視角的詩詞歌賦引典研究,視典故為所引對象,由于所引形式多為文學性的化用,少有固定的格式,因而標注難度較大。一方面,可以借用史書暗引自動發現相關技術;另一方面,也可以將其看作詞匯語義知識,并使用古文信息處理中常見的詞匯語義標注方法。值得注意的是,知識表示中的引典知識與引書知識存在較高的相似性,因此可將其視為古籍引書知識庫的有效補充。

1.2 古籍引書研究與全文本知識庫構建思考

古籍引書研究的重要性早已為經學、史學、目錄、文獻等學科所發掘,但由于技術方法的限制,多精于單部經典的釋義考證,較少關注系列古籍間的交織關聯,難以梳理出古籍引書源流的客觀全貌,而這卻是計算人文的優勢所在。相較于傳統的古籍引書研究,計算人文的視角包含了從獲取到分析的一系列技術方法和應用探索,包括但不限于引書知識的表示和標注,引書知識的獲取與引書知識庫構建,基于文獻計量和社會網絡的引書分析和評價,以及基于全文本內容的引書情感分析、主題分析等。其中,全文本知識庫的構建具有承上啟下的作用,是古籍引書研究的核心內容。借由引文分析視角探索古籍經學引書的研究思路已得到初步嘗試,立足學術全文本分析挖掘目錄典籍引書、史書引書和詩詞歌賦引典的研究設想也具備了成熟的技術基礎。

古籍引書全文本知識庫之于古籍引書計算人文研究,就像引文數據庫之于引文分析研究,其構建過程還體現出對古籍引書內涵的深刻辨析和對前沿古籍文本挖掘技術的全面應用。知識庫的構建需要對引書條目知識進行標注和表示,即文本中明確出現的書名、作者等,若以人工方法標注,則將耗費大量時間和人力成本;若以計算機自動標注,則對文本的格式化程度有較高要求。從古籍引書格式來看,目錄典籍和經學引書相對規范,一般會在引用上下文中明確提及被引書名、作者和原文等,可稱為古籍明引。史書引書較為隱蔽,如《史記》雖也有對《詩經》《論語》等經典原文的直接引用,但更多的是在著述過程中化用史料,并輔以增補和刪減,較難在原文中直接找到明確規范的引書條目。詩詞歌賦引典則更為靈活,一般以詞語或短語形式化用被引內容,且文學性體裁更重修辭,難以直接借助格式自動獲取。以上兩者可稱為古籍暗引。

古籍引書格式化程度的不同,面向明引和暗引的古籍引書知識庫構建遵循的思路方法和技術難度也不同。對于前者,通過小規模人工標注,結合命名實體識別方法,構建機器學習模型,以實現計算機自動標注,這一思路可行性已得到前期研究的驗證;后者則對古籍文本智能處理技術提出了較高的要求。值得欣喜的是,預訓練框架下的深度學習為文本知識挖掘帶來了技術飛躍,頗具影響力的Si‐kuBERT等古漢語預訓練模型展現出良好性能的同時,進一步降低了技術門檻。面向隱藏在古籍字里行間的暗引,深度學習預訓練模型分布式的文本語義表示能力,有助于實現更加準確的詞匯級和句子級引書知識自動發現,使得面向暗引的古籍引書知識庫構建不再是空談。

古籍引書知識庫不僅限于文本中引書知識的標注,還包含了引書知識的完善。對于所有的引書條目來說,除了引書上下文中標注的知識外,還應補充引書上下文之外的相關知識,這對于更深入的古籍引書研究來說必不可少。具體來說,與書名相關的有卷名、篇章名、注疏關系等,與作者相關的有朝代、師承、學派等。引書知識的補充可以參考多種來源的知識,如目錄典籍引書中的“互著別裁”,經學引書中的“互參”,也可以利用引書知識標注文本進行自動補全。對于一些文本內容之外的知識,還可以通過人工方式參考專業文獻、書籍或辭典來完成。全文本知識庫也是對古籍引書相關全文本內容的涵蓋,不僅包含了引書上下文,還包括了施引和被引古籍的全文本內容,以及引書上下文和全文本內容的對應位置關系和鏈接。此外,知識庫還包含對全文本內容的詞匯語義知識標注,以及后續待考察的情感評價、主題風格等,知識庫的構建本身應體現出古籍引書研究的內容,并結合研究成果實現知識庫的不斷更新。

計算人文下的古籍引書研究同時也是全文本知識庫應用的最佳方案。面向古籍引書知識庫的統計計量和數據分析等計算人文研究,借助古籍文本知識挖掘技術,通過對古籍文本內容和關聯知識進行結構化組織、數據化闡釋和可視化呈現,有助于從新的視角認識和推動優秀傳統文化的傳承和發展,有利于降低專業研究成果的理解門檻,可助傳統文化的教育、普及和推廣。新視角下的古籍挖掘、應用與探索,是提升中華文化影響力的內在要求,是第二個百年奮斗目標下,增強文化自信力并推動中華文化獲取世界話語權,讓世界了解中華文明的精神魅力,并讓世界理解和認可中國特色社會主義文化內涵的必然選擇。

2 古籍引書知識庫的技術前瞻

古籍引書全文本知識庫的提出并不是空中樓閣,而是現有多個領域成熟技術和探索經驗的有效結合。其中,以深度學習為前沿的古文智能處理技術保證了古籍文本的信息處理和大規模知識自動挖掘,以關聯數據為代表的知識表示方法與知識庫構建技術保證了古籍引書多維度關聯知識的有效表示和存儲,而古典文獻學、史學、文獻計量學以及人文計算等傳統和現代的研究領域共同培育了古籍引書計算人文研究的應用土壤,使其成為一項具有獨特潛力的研究領域,并逐漸得到學者的關注和探索[3-4]。

2.1 古文智能處理

古文智能處理是古籍引書全文本知識自動獲取和組織的技術前提。作為一個頗具中國特色的交叉研究領域,古文智能處理是從古籍中挖掘中華傳統文化知識的鑰匙。古文智能處理可以看作自然語言處理和中文信息處理相關技術和方法在古籍文本中的應用和遷移,其根據古漢語詞匯和語法等特點進行領域化的調整和改進,并以知識挖掘和提取為主要目的[9]。近年來,隨著深度學習在自然語言處理中的逐漸成熟,古文智能處理的諸多研究問題開始全面轉向深度學習的技術和方法,研究重心也逐漸從基礎的自動分詞、詞性標注和命名實體識別等研究,延伸至知識庫建設等更復雜的領域[10]。隨著深度學習在預訓練模型下引領自然語言處理進入新的發展階段,古文智能處理領域也跟進了較有影響力的SikuBERT預訓練模型[11],有望成為古文智能處理的新標桿。

較之前期的機器學習方法,深度學習下的表示學習能夠從文本語料中自動學習得到詞語的分布式表示特征,不再需要額外的特征工程,古文智能處理在當下也越發關注更大規模的古籍對象以及更復雜的知識挖掘任務。古籍引書全文本知識挖掘是對現有古文智能處理前沿技術的全面應用以及對技術邊界的拓展,目前以深度學習預訓練模型為前沿的古文智能處理技術集中于序列標注任務,尚未在古籍文本主題分類、詞義分析、情感分析、內容生成等任務中得到較多嘗試和驗證,而這恰是古籍引書全文本知識挖掘的基礎,值得深入探索和解決。

2.2 知識表示及知識庫構建

知識表示是古籍引書全文本知識庫構建的主要內容,其關注以何種形式表示古籍引書知識和相關屬性以及知識之間的關聯。目前,最成熟的知識表示框架源于Berners-Lee等提出的語義網[12]及后續的關聯數據[13],并在谷歌提出知識圖譜[14]后得到了廣泛的認可。源于語義網的知識表示框架以RDF(re‐source description framework)為基礎,其自提出至今不斷更新和修改,形成了圍繞三元組資源表示的語言規范[15]。作為語義網的發起和維護組織,W3C(world wide web consortium)面向逐漸復雜的知識表示需求,在RDF基礎上制定了包括知識建模詞表RDFS(resource description framework schema)[16]、序列化的表示語言Turtle[17]、關聯數據表示方法JSON-LD(JavaScript object notation for linked da‐ta)[18]等,同一框架下的OWL(web ontology lan‐guage)語言[19]和后續更新的OWL2語言[20]則成為專門的知識本體表示規范。國內外重要的知識庫,如DBPedia、Schema.org、OpenKG和CN-DBPeidia等,均以語義網作為知識表示框架,隨著知識檢索、知識問答等人工智能應用的不斷探索,知識庫越發重要的資源價值也得到了更多領域和學科研究者的重視[21-23]。

語義網框架在本體構建、知識表示等多方面為古籍引書知識表示提供了較為完整的語言描述方案。對于古籍引書相關的古漢語研究、中國古代史研究、古代目錄文獻研究、古籍計算人文研究等領域來說,基于《十三經注疏》《二十四史》等經學、史學系列古籍構建的古籍引書全文本知識庫,可作為數據資源供相關研究者參考和使用。該知識庫以古籍引書本體為知識表示基礎,以RDF、OWL及Schema語言為框架,能夠與主流知識圖譜資源相對接,且以關聯數據形式構建結構化古籍引書知識,包含作者、書名、朝代、內容、主題等多方面的屬性,也包含各屬性之間的引用、相似、繼承、反對等多維關聯,并能夠支持知識檢索和知識問答,能夠提高古籍目錄研究、古籍版本研究、古籍散軼內容整理等大量相關研究的資源利用效率。

2.3 計算人文研究簡述

古籍計算人文[6],也可稱為“人文計算”或“數字人文”,是當下令人矚目的研究熱點,相關研究發展歷程和趨勢對本文的古籍引書知識庫的應用研究具有重要的參考意義。大致起步于20世紀80年代的國內計算人文以陳炳藻[24]關于《紅樓夢》作者的討論為代表[25-26],其研究和發展方向以計算機和信息技術為主要導向,并以面向古籍的歷史GIS(geographic information system)[27]和典籍數字化[28]研究最為鮮明。隨著自然語言處理技術的推進,計算人文得以將焦點從文本數字化逐漸轉向文本內容。數字人文這一表述的火熱激發了學者們對這一領域更深層的思考和討論[29],在人文與技術交叉現象的背景下,人文對象、人文問題乃至人文學科的重要性越發得到了重視[30],以中華傳統文化探尋為線索的古籍計算人文研究也迎來了新的發展契機。一方面,基于古文智能處理技術的古籍文本內容和知識挖掘如火如荼,詞法分析[31]、實體識別[32]、自動句讀[33]等領域和問題均取得了顯著的進步,而知識組織和知識庫建設也逐漸成為領域內持續性研究的前提,典型代表有支撐唐宋時期歷史人物探索的中國歷代人物傳記資料庫(China Biographical Data‐base,CBDB)[34-35],以詞法分析和實體標注為主要內容的《資治通鑒·周秦漢紀》知識庫[36],面向歷史事件結構化檢索的《史記·列傳》知識庫[37],面向農史的方志物產知識庫[38]等。

古籍計算人文研究以文本知識挖掘和知識庫構建為橋梁,可助跨越古籍文本所固有的語言知識和字符技術門檻,其成為近年來的研究熱點是得益于知識庫構建技術的蓬勃發展。古籍計算人文研究對于知識庫的應用集中于知識的統計分析和可視化呈現,因而對知識庫的結構化程度要求較高,而基于語義網框架的知識庫構建恰好能夠滿足這方面的應用需求;另一方面,古籍引書的計算人文視角能夠以更加直觀、樸素的方式切入傳統文化,通過數據分析技術獲得更加客觀、簡潔的研究結論,并以數據可視化的形式呈現出來,從而更契合研究成果的教育普及和大眾推廣,將傳承弘揚中華優秀文化落到實處。

2.4 古籍引書研究回顧

古籍引書是中國傳統文獻學的重要研究對象,其主要通過對引書內容的校勘考證,“正本清源”以幫助人們更好地理解古籍經典。從對象來看,古籍引書研究主要關注對古籍經典尤其是“四書五經”的引用,相關研究可以按古籍引書類別進行簡單劃分。面向古籍辭書的引書研究以《爾雅》《說文解字》等最為常見,一般通過校勘和考證理解古籍經書中的字詞句義。儒家經典也是古籍引書的重要研究對象,《詩經》被引最為常見,相關研究多以《詩經》背后蘊含的文化傳承價值為主要內容[39],其他先秦儒家經典,如《尚書》[40]、《禮記》[41]、《論語》[42]的被引現象均得到了充分的關注,《春秋》引書研究則更多是對相關注疏所引其他古籍的考察[43]。還有研究專門以系列經書如“五經”或者“十三經”為對象,以求考察引書現象的全貌[44]。值得注意的是,雖然發現和整理的難度較大,但古籍暗引的現象仍然得到了一定的探索[45]。可以看出,傳統的古籍引書研究主要通過人工文獻查閱檢索,憑借個人主觀理解來解讀和評價引書內容,也有少數研究直接關注引書背后的文化傳承現象,而基于大規模知識庫的數據分析和計算人文研究尚未得到太多關注。

古籍引書研究對經典的考察日臻全面、深刻,研究對象也逐漸延伸至特殊體裁的文獻以及相對冷僻的古籍。古籍引書研究方法對引書現象及其背后思想價值和文化內涵的把握和剖析較為深刻,然而大規模古籍引書之間的復雜關聯是傳統研究方法所難以企及的,其背后隱藏的文化傳承線索仍值得深入探究和挖掘。計算人文引入了數據計量與統計分析的視角,并以客觀、細實的研究結論充實現有古籍引書研究。總的來說,該研究以古籍引書知識庫為基礎,結合引文分析等方法,靜態地判斷和評價古籍引書的影響力,動態地描繪古籍引書的生命周期,觀察系列古籍引書間的關聯全貌,發現少量古籍引書間的相互關系,從全文本分析視角下挖掘古籍引書文本內容,對古籍引書主題和情感進行探索,發掘潛藏在古籍引書字里行間的文化礦脈。

3 古籍引書全文本知識庫構建框架

知識庫在古籍引書計算人文研究中的重要地位已毋庸置疑,然而其具體技術框架仍需充分考慮古漢語典籍文本以及古籍引書研究的各種特殊之處,這也是保證計算人文研究深度和廣度的重要前提。古籍引書全文本知識庫的構建以引書知識的本體構建和知識表示為基礎,以引書知識的人工標注和自動發現為主要過程,以全文本標注語料庫、關聯數據庫、深度學習模型庫為主要內容。本節圍繞上述環境闡述古籍引書全文本知識庫構建的主要框架。

3.1 古籍引書知識表示

古籍引書全文本知識庫以W3C知識表示體系作為技術基礎,使用RDF與OWL知識表示本體作為出發點。古籍引書本體關注古籍引用行為,面向史書引書和經學注疏引書兩類古籍引書對象,明引和暗引兩類古籍引書行為,圍繞古籍的著錄知識、引書內容等屬性,引用關系、著錄關系、人物關系等關系,并補充古籍引書全文本分析和數字人文研究所關注的引書計量分析數據和影響力評價指標等。具體來說,該本體將設計包括但不限于書籍、作者和引用條目三大類實體,題名、成書朝代、四部類別、思想學派、語言風格等屬性,篇章包含、直接引用、間接引用、暗引、情感評價、作者師承、內容關聯性等關系。這階段力求準確、完整地將古籍引書相關的對象、行為、屬性、關系、計量評價、主題內容等知識表示在同一個本體中,為后續相關的知識標注、知識庫構建以及計算人文研究提供可靠的知識來源。

基于OWL本體表示框架,使用protégé工具[46]設計古籍引書本體,圖1展示了古籍引書本體基本框架。具體來說,該本體設計了古籍引書對象、古籍引書作者和古籍引書條目三大類實體,并圍繞實體構建了七大類關系用于表示引用關系和著錄關系,描述了六種屬性用于補充古籍引書相關的其他知識,如朝代、被引頻次、引書內容等。古籍引書本體的設計和構建先于知識標注和知識發現,但應在此過程中逐漸完善,并在知識庫構建和后續應用研究中得到完整體現。

圖1 古籍引書本體示例(基于protégé)

RDF和OWL語言的優勢在于可以將本體知識表示為XML格式的文本序列化格式,如圖2所示。這樣可以與序列化標注的文本對接,高效地利用人工和自動標注得到的古籍引書知識,并快速、準確地構建超大規模的古籍引書本體和知識圖譜。以RDF和OWL語言為基礎,可以進一步擴展更新至W3C體系下的JSON-LD或Schema知識表示框架,從而與現有的主流知識圖譜和知識庫資源對接,使古籍引書本體得到更廣泛的推廣和應用,并有助于該領域得到更多的關注。除此之外,古籍引書本體還支持SPARQL查詢語言,可以兼容知識查詢和推理等進一步的應用探索。

圖2 古籍引書本體的RDF/OWL序列化表示示例

3.2 古籍引書知識標注

構建古籍引書全文本知識庫需要面向古籍文本進行標注,以得到本體描述框架中的古籍引書相關實體、屬性和關系等。古籍引書知識標注須以人工標注工作為基礎,輔之以機器學習模型,從而實現超大規模語料庫的知識標注。人工標注一般需制定標注規范以保證標注的一致性,且該規范應與古籍引書本體相對應,以保證面向文本的標注結果可以自動轉換為序列化的RDF和OWL語言。基于上文的古籍引書知識本體,可以初步設計一個包含六類實體、十六類關系的知識標注規范,其中實體包括引書名稱、引書內容、引用作者等,部分關系如表1所示。

2.PD1抑制劑:程序性細胞死亡蛋白-1(PD1)/CD279是一個CD28家族的共抑制分子。它主要在活化的CD4+和CD8+T細胞及Tregs細胞表面表達,也可以在活化的B細胞、NK細胞、單核細胞和特定的樹突狀細胞表面表達。PD1可以與其配體PD-L1和PD-L2相結合,參與調節外周T細胞的耐受性,導致T細胞增殖降低,使其失活并凋亡,形成免疫抑制的微環境。PD1抑制劑的代表性藥物是Nivolumab和Pembrolizumab,目前已經在惡性黑色素瘤、腎細胞癌、肺癌等腫瘤的研究中有陽性結果。

表1 古籍引書標注規范示例

在標注規范的基礎上,可借助BRAT[47]標注平臺實現古籍引書知識的人工標注。BRAT是一個開源的可視化標注平臺,可以搭建在服務器上通過客服端訪問,實現多線程同步標注,極大地提高標注效率。BRAT支持自定義標注規范,并支持程序設計以實現在自動標注基礎上的人工校對,同時標注結果可保存為序列化形式,以便于與語義網RDF和OWL語言的自動轉換。圖3展示了本文引言中例1所含引書知識的標注結果,該結果包含了實體和關系兩類,格式如表2和表3所示。

表2 古籍引書知識標注格式(實體部分)

表3 古籍引書知識標注格式(關系部分)

圖3 BRAT下古籍引書知識人工標注示例

同時,序列化表示的人工標注結果易于轉換為機器學習序列化標注模型所需要的訓練語料,因此,各類引書知識可以通過命名實體識別、實體鏈接、文本分類等任務來實現大規模自動標注。仍以本文引言中例1為例,“虞喜志林云.南公者.道士……”一句在序列化標注模型中的表示形式如表4所示,在這一模型中,可以將引書作者、引書名、引書內容視為不同類型的命名實體,并使用Siku‐BERT和SikuRoBERTa等古文預訓練模型構建深度學習下的命名實體識別任務,以實現多類別古籍引書知識的自動標注。而對于“南公者……”“南公十三篇……”兩處引書內容,則可借助文本分類模型將其自動區分為引書原文和觀點。圖4展示了深度學習下使用句子分類任務的模型框架,其核心是通過神經網絡模型自動學習得到引書內容的向量表示,再結合句子分類模型來判斷引書內容的具體類型。

表4 序列化標注模型中的古籍引書知識表示

圖4 深度學習下的引書內容自動分類模型框架

值得注意的是,深度學習模型還可用于暗引內容的自動發現。圖5展示了深度學習下的古籍暗引知識發現技術框架,基于孿生網絡模型這一神經網絡耦合架構,可以同時獲取兩個句子的向量表示,并在高維空間中比較兩個句子向量的相似程度。由此可以判斷某一句子是否為古籍暗引的內容,實現古籍暗引內容的自動發現。

圖5 基于孿生網絡模型的古籍暗引知識發現技術框架

3.3 古籍引書知識補全與消歧

對古籍引書知識進行人工和自動標注后,即可將其自動轉換為本體知識表示所需的各類序列化文本格式,但若要以此為基礎實現完整的古籍引書知識庫構建,還需對標注內容做進一步的補全和消歧,以保證知識的完整和準確。在例1中,“虞喜志林云……”一句可標注為一例引書實例,其中“虞喜”標注為引書作者,“志林”標注為引書對象,“南公者……”標注為引書內容,“漢書藝文志云……”一句可標注為另一例引書實例,其中“漢書藝文志”標注為引書對象,“南公十三篇……”標注為引書內容。此外,文本中引書知識之間的關系也已標注。不難發現,由于標注知識直接源于古籍文本內容,因此,仍有部分知識需要額外補充,如古籍《志林》的類型,虞喜所處朝代,《漢書》與《藝文志》之間篇章關系,《漢書》作者知識及所處朝代等。這部分引書知識的補全可以借助上下文標注知識相互補充,如此處“虞喜志林云”標注出《志林》的作者為虞喜,上下文中若單獨出現《志林》,則可以據此補充其作者“虞喜”。此外,也可以借助《漢語大詞典》等外部知識以人工方式補全。

同時,標注得到的引書知識之間可能存在指稱歧義,主要是古籍書名的同書異名和同名異書歧義[48],如《詩經》和《詩三百》。此外,還有數量繁雜的縮略名、別名現象,如《左傳》與《春秋左傳》《春秋左氏傳》《春秋左氏》《左氏傳》等。古籍引書知識庫構建之前,需對引書對象即古籍書名進行有效的歧義消解,以保證知識庫中實體指稱的唯一性。引書名的歧義可以借助上下文和外部知識進行人工消解,也可以利用自然語言處理中的實體鏈接等方法進行自動消解。

4 古籍引書全文本知識庫構建初探

本節從經學引書、史書引書、文獻目錄學引書和詩詞歌賦引典四個方面,結合研究實例進一步描述古籍引書全文本知識庫構建的具體流程,古籍引書知識表示本體、知識標注技術以及知識補全和消歧方法已在上文詳細說明,因此,本節不在額外贅述具體過程,只在必要時做出補充,并具體闡釋各知識庫構建時的特點和難點。此外,本文在第5節進一步討論知識庫的應用前景,并在后續研究中對各類知識庫的構建和應用進行拓展。

4.1 經學引書全文本知識庫的構建——以《論語注疏》為例

《論語注疏》作為《十三經注疏》之一,是注疏典籍中的經典,也是經學引書研究的代表對象。《論語注疏》成書于北宋時期,以魏晉何晏注和北宋邢昺疏為主體,引據典籍自先秦至隋唐,類型豐富,是儒家學說思想傳承脈絡的重要載體。

《論語注疏》引書時,大量使用作者的姓氏來指代其《論語》相關著作,如其序所言,“今謂何晏時.諸家謂孔安國.包咸.周氏.馬融.鄭玄.陳羣.王肅.周生烈也.集此諸家所說善者而存之.示無勦說.故各記其姓名.注言包曰馬曰之類是也”。

該書所引上述諸家著作形式一般為“鄭注云……”,其中“鄭注”即鄭玄所著《論語注》。其他經典文獻,如杜預《春秋釋例》、王弼《老子注》等,也使用作者名指代。對于這類引書條目,標注了引書作者和引書內容后,可以補全作者名、引書名等知識。而對于同一作者的不同著作,《論語注疏》引書時會有明確區分,如用形容“鄭注尚書……”明確區分于鄭玄《論語注》,避免了歧義。

《論語注疏》引書中還有一類重要的引書現象,形如“喪服四制引書云……”,即以《喪服四制》引用《尚書》的內容作為引書內容,類似于科學引文分析中的二次引用,是儒家經典傳承脈絡的直接體現,對于散軼古籍的自動整理和還原也大有裨益。對于此類引書條目,標注引書名的同時,需進一步標注其引用關系,以供引書知識的完整表示和知識庫的構建。此外,《論語注疏》中同一處引書條目下會出現多次引用現象,此時除首次出現的引書名,其余均會被省略引,如“晉灼曰……又曰……”,該例中前后兩處引書內容均出自晉灼《漢書集注》,后一處引書內容雖無法標注出引書或引書作者,但可以通過引書關系表示這類多次引用現象。

本文結合《論語注疏》的上述引書特點,利用古籍引書知識表示本體和古籍引書標注工具,通過人工標注和補全、消歧完成了《論語注疏》引書知識庫的構建。該知識庫包含引書條目1680條,如表5所示。

表5 《論語注疏》引書知識庫示例

4.2 史書引書全文本知識庫的構建——以《史記三家注》為例

《史記三家注》是《百衲本二十四史》所采用的《史記》版本,作為我國第一部紀傳體通史,歷代為之作注者眾多,然而現在大多都已亡佚,唯有南朝宋裴骃的《史記集解》、唐司馬貞的《史記索隱》和張守節的《史記正義》被保存了下來,合稱《史記三家注》。三者的成書時間不同,在注釋的側重點和完善程度上也有所差別,其中包含的引書知識十分豐富寶貴,對于古籍引書研究以及古代歷史研究都具有重要的價值。

《史記三家注》中,《史記集解》成書時間較早,因此《史記索隱》有時還會直接對《史記集解》的引書進行注解,從而形成更為復雜的引書現象,例如:

【集解】皇覽曰.蚩尤冢在東平郡壽張縣闞鄉城中.高七丈.民常十月祀之.有赤氣出.如匹絳帛.民名為蚩尤旗.肩髀冢在山陽郡鉅野縣重聚.大小與闞冢等.傳言黃帝與蚩尤戰於涿鹿之野.黃帝殺之.身體異處.故別葬之

【索隱】按.皇甫謐云.黃帝使應龍殺蚩尤于兇黎之谷.或曰黃帝斬蚩尤于中冀.因名其地曰絕轡之野.皇覽.書名也.記先代冢墓之處.宜皇王之省覽.故曰皇覽.是魏人王象.繆襲等所撰也

其中,《史記索隱》對《史記集解》所引《皇覽》的由來進行了解釋。從古籍引書視角來看,可以認為上述兩處引書條目都引用了《皇覽》,而《史記索隱》對《史記集解》所引《皇覽》還存在二次引用的關系,而這一現象可以通過文本格式自動抽取得到。

《史記三家注》引書內容極為豐富,存在大量散軼、難考的古籍,同時異名現象十分豐富,本文為此參考了《史記三家注引書索引》《史記索隱引書考實》等研究專著予以補充和完善。由于引用書目種類繁多,在完成引書知識補全和消歧后,本文以“書名首字拼音的大寫字母和書名順序的數字編號”為規則,為每部引書制定了唯一的編號,并以此為基礎構建了引書知識庫,如表6所示。

表6 《史記三家注》引書知識庫示例

4.3 文獻目錄學引書全文本知識庫的構建——以《四庫全書總目提要》為例

《四庫全書總目提要》(以下簡稱《總目》)是清代紀昀等為《四庫全書》編纂的目錄,包含了豐富的古籍目錄、傳承、版本相關知識,在規模、體制、編制能力等各方面均為歷代之最。本文不僅關注《總目》的目錄知識,還從古籍引書的視角進一步表示出其正文中出現的所有書目知識。以此為線索構建知識庫可以完整地表示《總目》的核心內容,并為引書計量等后續研究提供可靠的資源。

《總目》引書以別稱和縮略最為常見,因此,書名的同名異指和異名同指現象較為豐富,需要進行充分的消歧處理。異名同指即同一對象具有多個別稱,常見于注疏文獻,與經學引書中所見歧義相似,如《毛詩正義》又稱《詩正義》《毛詩》或《毛傳》。同名異指即多個對象具有同一個名稱,這在本文經學引書中并不常見,或源于《十三經注疏》的編寫體例和規范。但《總目》引書對象時間跨度大、類型范圍廣,因此存在較多同名異指,如《易傳》一名可指“十翼”,也可指《程子易傳》《朱子易傳》《東坡易傳》等共8部典籍。因此,《總目》引書知識標注中需要對兩類歧義進行重點消解。

此外,《總目》在書目的提要內容中大量引用了典籍篇章名稱用于解釋書目源流。例如,在《周禮注疏》條目下有“故建都之制不與召誥洛誥合.封國之制不與武成孟子合.設官之制不與周官合.九畿之制不與禹貢合云云”。其中,《召誥》《洛誥》《武成》《周官》《禹貢》皆為《尚書》篇名。因此,知識標注和知識庫構建時需將篇章從屬關系表示完整。

本文標注《總目》全文共得到64766處引書實例,消歧后共24185種引書實體,除了通用的作者、朝代知識,還包含《總目》特有的收錄形式、部類、版本、卷數等知識,具體如表7所示。

表7 《四庫全書總目提要》引書知識庫示例

4.4 詩詞歌賦引典全文本知識庫的構建——以《唐詩三百首》為例

《唐詩三百首》是唐詩研究的重要對象,唐詩引典也是古詩詞研究尤其是詩詞翻譯研究的重要領域,因此,適合作為知識庫構建的對象。一方面,詩詞引典從用法和目的上均與古籍引書存在一定區別,引用對象十分靈活,既可以是人物生平、歷史事件,也可以是其他古籍、詩詞或成語。雖然知識標注仍可以沿用實體標注技術和工具,但知識補全需要進一步做分類處理。另一方面,詩詞較之一般古籍內容結構較為特殊,一部典籍所收每首詩雖可看作篇章或者段落,但從引典的角度來看,將其作為單獨的作品對待更好,這樣才能對不同詩詞的引典現象進行對比分析和研究。因此,詩詞文章引典的全文本內容無需像古籍引書那樣構建倒排索引庫,可以直接作為引書條目對待。具體的知識庫構建如表8所示。

表8 《唐詩三百首》引典知識庫示例

5 古籍引書全文本知識庫的應用淺析

作為計算人文下古籍引書研究的技術和資源基礎,古籍引書全文本知識庫具有諸多應用領域和前景。

5.1 古籍引書計量分析和影響力評價

一方面,以古籍引書知識庫為基礎,利用引文分析和評價的思路和方法,可以對古籍引書進行計量分析和影響力評價,這也是計算人文下古籍引書研究的主要內容。具體來說,圍繞古籍引書計量數據,從成書朝代、古籍類型、思想學派等多個維度進行古籍引書計量以獲取高影響力古籍;利用G指數等作者評價指標,可以對古籍作者,如史學家、經學家進行影響力評價;參考半衰期等計量指標,可以考察先秦古籍尤其是儒家經典的持續影響力及影響力年代分布,還能從篇章角度進行對比分析,發現其中暗藏的思想和文化傳承線索;參考布拉德福定律,劃分古籍引書的核心區,考察高影響力引書的群體分布特點以及其背后的引書傳承規律。古籍引書計量和影響力評價在于從計量數據的全貌出發,獲取古籍的客觀影響力數據,以提供古籍引書研究的新角度和新數據。

另一方面,以古籍引書知識庫中引書關系為主要內容,基于引書知識之間的施引被引、耦合和同被引關系等引書關系,結合作者、朝代、類型等屬性關系,實現古籍引書關系網絡的構建,并以引書知識計量數據來確定網絡結點之間關系的權重。參考引文網絡分析方法,可以使用PageRank等算法得到引書網絡和作者網絡中引書和作者的排名,并使用這一排名進一步衡量引書和作者的影響力;根據引書網絡和作者網絡中的關系權重計算點度中心度,發現引用關系中頻繁出現的引書和作者,從而衡量其重要性和影響力;計算中介中心度發現引書網絡和作者網絡中的重要“中間人”,從而發現具有橋梁作用的古籍和作者;使用凝聚子群方法來發現引書網絡中和作者網絡中關系密切的小團體,探究古籍引用中的文化流派和學術團體。基于文獻耦合關系和同被引關系的計量數據,分別使用文獻耦合分析和同被引分析方法探究引書之間的相關性和主題相似性,并依此自動聚類以構建具有相同主題的引書集合,從引書主題關系的角度進行引書影響力評價。

5.2 古籍引書內容的主題分析和情感評價

基于古籍引書的全文本內容,可以分析探究引書內容,與學術文獻引用內容分析類似,該研究不關注引書的計量數據,而是關注具體的古籍引書內容,可以從情感和主題等角度進行古籍內容的理解和評價。這類研究主要使用自然語言處理中的文本分類和主題挖掘技術,如機器學習中LDA(latent Dirichlet allocation)主題模型,深度學習中句子向量表示模型等。借助這類文本內容挖掘方法,可以獲取古籍引書全文本內容中的主題、風格、思想等文化知識,以及歷史事件、人物關系、事實評價等歷史知識;可以對古籍影響力評價結果進行補充,以獲得更全面的評價結果,并結合情感分析、文本相似度分析等全文本分析思路,進一步考察古籍引書的觀點引用、數據引用、負面引用等特殊的引用現象。

引書內容的情感分類即引書作者對被引古籍的態度和評價,情感類別包括贊同、中立和反對三種。參考文本情感內容分析方法,可以使用機器學習中的SVM(support vector machine)模型和深度學習中的預訓練模型進行引書內容的文本分類。對于情感分類的結果,可以根據引書內容的不同類型即引書原文和觀點,進行更深入的計量分析;也可以計算引用情感類別與引書影響力、作者影響力的相關性,從而發現在古籍引書和傳統文化傳承過程中,古籍引書內容的情感態度能夠產生多大程度的影響,產生的影響是正向的還是逆向的。

引書內容的主題分析分為面向施引注疏文獻和面向被引古籍兩個方面。對于施引文獻來說,引用內容主題反映注疏文獻引用古籍時所關注和使用的主題內容,首先,基于引書知識庫中的引用內容,可以構建引書內容詞表并計算相應詞頻,結合TFIDF(term frequency-inverse document frequency)等特征詞抽取方法得到引書內容主題詞語;其次,根據引書內容語句,結合LDA主題模型求解古籍引書內容的主題分布和每個主題的詞語分布;最后,綜合兩種方法分別獲取表征古籍引用內容的主題詞語,并構建主題詞共現網絡,借助社會網絡分析方法挖掘分析引用內容中主題詞語的關聯,并藉此發掘主題詞語網絡中表現的傳統文化內涵。對于被引古籍來說,引用內容主題與被引古籍本身的主題并不一定相同,被引古籍引用內容主題的分析方法與施引古籍相關研究方法相同,通過構建被引古籍的引用內容主題詞語網絡,可以進一步計算引書影響力在不同引用內容主題下的表現,發現不同主題對引書影響力的貢獻程度,從而更深入地發現在古籍引用過程中、傳統文化傳承過程中,不同文化主題的地位及其發揮的影響力。

5.3 古籍引書與文化傳承

基于古籍引書知識庫及古籍引書影響力評價數據,古籍引書的計算人文研究還可以文化傳承為線索開展。具體來說,以古籍尤其是先秦古籍和儒家經典為對象,以《二十四史》《資治通鑒》等史書為朝代線索,以古籍引書知識為佐證材料,考察古籍中的觀點、思想和文化內涵在朝代變化中的發展和傳承特點。以儒家經典《論語》為例,從篇目、文本內容、主題、情感評價等角度,綜合考察其在不同被引用的分布情況,并結合影響力等評價指標進行量化視角的數據分析,最終以可視化形式呈現分析結果,相關結果對接至公開的知識檢索和問答系統,以助知識普及和文化推廣。此外,還可以利用上述主題挖掘知識開展傳統文化傳承內容和脈絡的探究和梳理,藉由影響力知識、聚類知識和相關性知識等,進行主題內容分析,將引書網絡擴展為主題網絡。從主題網絡出發,探索主題之間關聯、傳承和影響,發現其中的演變規律,并以傳統文化為線索,對引書主題進一步整合,從中凝練出傳統文化的傳承和發展規律,比如,《春秋》所蘊含的儒家文化主題及其相關引書所體現的儒家文化傳承發展規律。文化傳承研究的重心在于對古籍引書知識庫和古籍引書計量和影響力評價結果的數據分析和可視化呈現,為文化傳承研究提供基于數據的客觀解讀和量化結論。

5.4 古籍引書全文本內容與散軼古籍整理

基于古籍引書知識庫的全文本特點,可以面向散軼古籍整理進行輔助性的探索。實際上,目錄典籍引書和經學注疏引書中保留了大量散軼古籍的線索,這些線索也是傳統文獻學研究散軼古籍的重要參考依據。許多散軼古籍以古籍引書內容的形式分散留存在各類古籍中,人工獲取和整理的方式耗時、耗力。通過古籍引書全文本知識庫的助力,從計算人文視角探索大規模、系統化、自動化的散軼古籍內容整理,對于古籍整理和保護來說具有較大的探索潛力和價值。而自動整理得到的散軼古籍內容知識庫雖然不一定能完全還原散軼古籍本身,但對于古籍傳承脈絡探索和經學發展等傳統文獻研究來說,仍然具有值得參考的資源價值。

6 總結與展望

古籍計算人文如今已成為古籍研究的重要領域,也為文獻學的重要對象——古籍引書研究賦予了新技術和方法的視角。本文從四種較為典型古籍引書類型出發,關注其在引書現象中的共性和特點,并以知識庫的構建為落腳點,探討古籍引書研究在計算人文視角下的概念內涵和技術框架。本文詳細描述了古籍引書全文本知識庫中的主要方法,包括知識表示、知識標注、知識補全和消歧,以四類古籍引書為例,介紹了本研究團隊在知識庫構建中的現狀和進展,并分析和展望了知識庫在古籍引書計算人文研究中的應用。

在未來的研究中,將以知識庫構建為核心,面向《十三經注疏》《二十四史》等語料資源,進一步擴展和完善已有的古籍引書全文本知識庫。一方面,圍繞知識庫構建的技術框架,進一步探索引書知識的自動抽取和標注,引書內容的自動分類和暗引內容發現等任務;另一方面,以引書知識的計量分析、主題挖掘等研究為切入點,從大規模數據視角,考察和描述各類古籍的引書現象,發掘古籍引書計算人文研究的潛在價值。

猜你喜歡
文本內容研究
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
FMS與YBT相關性的實證研究
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品一区二区无码免费看片| 日韩精品一区二区三区视频免费看| 2020久久国产综合精品swag| 久久激情影院| 亚洲经典在线中文字幕| 欧美国产日韩在线观看| 国产一区二区三区免费观看| 操美女免费网站| 91视频免费观看网站| 久久亚洲精少妇毛片午夜无码| 中文字幕在线欧美| 97国产精品视频自在拍| 日韩中文精品亚洲第三区| 国产精品v欧美| 国产人妖视频一区在线观看| 欧美笫一页| 国产黄网站在线观看| 日韩不卡高清视频| 黄色国产在线| 亚洲高清资源| 日韩欧美中文在线| 久久久国产精品免费视频| AV不卡国产在线观看| 999国内精品久久免费视频| 婷五月综合| 亚洲精品国产首次亮相| 在线看AV天堂| 国产丝袜丝视频在线观看| 无码精品国产dvd在线观看9久| 中文字幕在线看| 99re66精品视频在线观看| 国产夜色视频| 激情無極限的亚洲一区免费| 国产在线91在线电影| 伊人久久大香线蕉影院| 久久久久免费精品国产| 青草视频免费在线观看| 成人精品亚洲| 久久精品国产亚洲AV忘忧草18| 日韩区欧美区| 欧洲熟妇精品视频| 亚洲国产91人成在线| 国产成年女人特黄特色大片免费| 日本高清免费不卡视频| 欧美亚洲欧美区| 波多野结衣久久精品| 91丝袜在线观看| 色呦呦手机在线精品| 91欧洲国产日韩在线人成| 国产精品页| 色婷婷在线播放| 日日碰狠狠添天天爽| 久久这里只有精品66| 欧美一道本| 亚洲伊人天堂| 国产视频一区二区在线观看 | 视频二区国产精品职场同事| 97综合久久| 国产欧美日韩专区发布| 幺女国产一级毛片| 成人日韩精品| 人妻丰满熟妇啪啪| 国产区人妖精品人妖精品视频| 无码专区国产精品一区| 国产精品视频导航| 国产清纯在线一区二区WWW| 天天综合网在线| 欧美狠狠干| 亚洲精品在线影院| 国产一区二区三区精品欧美日韩| 67194亚洲无码| 福利在线一区| 久久中文字幕2021精品| 91精品专区国产盗摄| 国产极品嫩模在线观看91| 玩两个丰满老熟女久久网| 国产美女精品人人做人人爽| 波多野结衣一二三| 高清无码不卡视频| av无码一区二区三区在线| 精品人妻无码中字系列| 亚洲乱码在线播放|