999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向古漢語史料的信息抽取方法綜述

2019-09-18 03:58:30丁若堯
中國科技縱橫 2019年14期

丁若堯

摘 要:本文基于2018年度教育部人文社會科學研究青年基金項目《面向二十四史的中國歷史人物時間關系圖譜構建方法研究》,分析項目研究的理論和實際應用價值,闡述目前國內外相關研究的現狀和趨勢,提出面向古漢語史料的信息抽取一般方法流程。

關鍵詞:古漢語史料;信息抽取方法;研究價值和現狀;一般方法流程

中圖分類號:TP274 文獻標識碼:A 文章編號:1671-2064(2019)14-0050-02

隨著計算機技術的快速發展,中文信息處理技術也得到了實質性的跨越,這就使古漢語史料的信息抽取獲得了前所未有的智能化技術支撐。面對浩如煙海的中國古代文獻,計算機的輔助處理無疑給研究工作者創設了一條精準、便捷的路徑,而對計算機處理古漢語文本的基礎性問題研究自然應引起高度的重視。鑒于目前中文信息處理研究多以現代漢語為主,在古漢語及古典文獻信息處理方面側重于錄入、顯示及電子文本資源庫建設,對古漢語史料信息抽取方面的研究尚存在一定的缺憾。我們擬以《面向二十四史的中國歷史人物時間關系圖譜構建方法研究》為課題展開研究,以求運用現代信息技術和自然語言處理技術,以中國古典史集《二十四史》中的人物為關鍵詞,尋找科學的中國歷史人物時間關系圖譜構建方法,促進中國古代歷史人物研究手段和方式的信息化進程。本課題于2018年8月被確立為教育部人文社會科學研究青年基金項目,研究周期為兩年。

1 本課題研究的理論和實際應用價值

中國是一個歷史悠久的文明古國,對中國歷史人物的研究是史學界研究的一項重要內容。古漢語史料作為歷史學研究的權威依據,其中記錄的人物信息是了解中華名族燦爛輝煌發展歷程的重要途徑。利用信息技術對大數據量古漢語史料中的人物信息進行抽取,并將抽取到的信息經過分析處理最終匯總至數據庫,可以在提高歷史研究成果利用效率的同時,為數據庫中所存儲的信息提供史料指向依據,對推動史學研究特別是歷史人物研究的發展,乃至滿足人們日常生活中對歷史信息的需求,增強中華民族文化自信,促進中國歷史文化傳承均具有重大作用。具體而言,本課題的研究具有以下理論價值和實際應用價值:

1.1 本課題研究理論價值

本課題以文本信息抽取技術為依托,研究從古漢語史料中抽取人物名稱及其所屬時間信息,并以此二者為依據構建歷史人物時間關系圖譜的方法。開展本課題的研究,在促進信息技術與歷史研究方法相結合、提高現有歷史研究方法的信息化程度、創新中華歷史文化呈現方式等方面均具有重要理論價值。此外,本課題中提出的模型方法可以被擴展到類似課題的研究,為后續面向海量史料的信息抽取研究、推動大數據時代歷史研究的跨越式發展等方面提供可借鑒的理論基礎和模型方法。

1.2 本課題研究實際應用價值

二十四史是研究中國古代史的權威史料資源。以其作為史料依據,利用信息技術從中抽取歷史人物名稱及其所屬時間信息,進而構建中國歷史人物時間關系圖譜,首先可以以直觀明了的方式展示各個歷史人物之間的時間關系,為歷史教學和歷史傳承傳播提供歷史人物譜系;其次,以這些關系為基礎可以構建出中國歷史人物時間關系數據庫,對歷史人物研究的信息化存儲及查詢過程均具有促進作用;再次,通過歷史人物對應的時間信息,可以將歷史人物與同時期的歷史事件乃至同時期其他國家的歷史人物相關聯,促進歷史學領域其他課題的研究;最后,利用本課題中的研究方法得到的歷史人物信息均可回溯到其所被抽取到的原始史料位置,這可以為研究人員查詢相關歷史人物信息提供權威的史料指向依據。

2 國內外本課題相關研究的現狀和趨勢

本課題組對各類學術網站及數據庫進行了細致而全面的調研,發現目前公開發表的利用信息技術對古漢語史料中的信息進行抽取的相關研究工作及資源并不多,并且主要的研究工作都集中在國內。下面對一些有代表性的相關工作按照不同的內容類別分別進行介紹。

2.1 針對歷史人物名稱及其所屬時間信息的相關研究工作及資源

《中國歷代名人辭典》由南京大學歷史系在1982年通過人工的方式編寫完成,通過其可以查閱到中國古代和近代重要歷史人物的姓名、字號、生卒年、身份等信息。但是此部辭典中所涉及的歷史人物并不全面,其包含的主要是一些例如政治領袖、農民起義領袖等歷史名人。例如,在此部辭典的“秦,秦漢之際”部分,僅包含有31位著名歷史人物,對于同時期其他人物并沒有提及。在互聯網已廣泛融入于人們日常生活的今天,關于歷史人物的相關信息在互聯網上也存在有大量的資源,例如百度百科、Wikipedia等都有著大量的相關信息收錄。然而這些信息的來源主要是互聯網上的電子出版物、網頁文章等,除了其中包含的歷史人物不夠全面的問題,由于這些信息來源并非是史料,其在信息的可信度及權威度方面也存在一定的缺陷,因此無法作為歷史研究過程中的佐證依據。

2.2 面向古漢語文獻資料的信息抽取工作

以往面向古漢語文獻的信息抽取研究工作主要是通過人工閱讀的方式進行開展。隨著信息技術的飛速發展,越來越多的研究工作開始向自動化、智能化的方向邁進。下面僅列舉最近5年內的部分相關研究工作:

2013年香港城市大學的留金騰等人以古漢語文獻《淮南子》為基礎,構建了一個可用于古漢語分詞及詞性標注的語料庫,以用于古漢語分詞及詞性標注模型的學習、及相關方法的實驗驗證。

南京師范大學的梁社會等人以《孟子》為語料基礎,采用條件隨機場(CRF)模型進行了古漢語的自動分詞方法研究,取得了F測度值94%的良好效果。

2014年復旦大學的朱曉等人以《明史》作為研究語料,驗證了基于CRF的無邊圖模型、完全圖模型及嵌套圖模型的性能,并將其用于古漢語的詞性標注工作,其構建的三種圖模型的平均F測度值超過了90%。

同年南京師范大學的王嘉靈等人以《漢書》為語料基礎,結合地名詞表及人名詞表等信息構建了古漢語的自動分詞系統,取得了83%的F測度值。

2015年南京農業大學的黃水清等人基于《春秋左氏傳》分別構建了CRF模型和最大熵模型,用于自動識別古漢語中的地域名稱,實驗結果表明其構建的CRF模型優于最大熵模型,達到了85%的F測度值。

北京語言大學的虞寧翌等人在2015年利用基于統計和規則的方法構建了面向古漢語的虛詞檢測系統,其F測度值達到了98%。

2016年廣州中醫藥大學的葉輝等人通過采用CRF模型,結合自然語言處理技術,對古代醫學名著《金匱要略》中的癥狀藥物信息進行抽取,取得了F測度值77%的良好效果。

3 面向古漢語史料的信息抽取一般方法流程

在面向古漢語史料的信息抽取方法上,盡管不同的研究者采取了不同的技術措施,但其基本思路是遵循以古漢語史料為研究對象、通過對海量古漢語史料的觀察、分析和總結,確定史料文本的關鍵句以及其與非關鍵句的關系,直接獲得用戶感興趣的史料信息。這就避免了“完全檢索”和“全文閱讀”帶來的資源浪費,提高了信息獲取速度和效率。下面謹就3篇代表性研究文獻分析歸納面向古漢語史料的信息抽取的一般方法流程。

3.1 《上古漢語分詞及詞性標注語料庫的構建——以《淮南子》為范例》的信息抽取

《上古漢語分詞及詞性標注語料庫的構建——以《淮南子》為范例》是留金騰(香港城市大學)、宋彥(香港理工大學)、夏飛(華盛頓大學)發表于《中文信息學報》2013年06期的研究論文。文章從古漢語語料庫的簡介入手,進而分析《淮南子》與上古漢語詞語的特點(包括:上古漢語復音詞構詞特點、上古漢語詞語形態特征、古漢語的詞性轉化),落實了語料庫的標注與校正。在語料庫標注與校正方面,采取動標注和人工校正交替進行的工作流程(見圖1),顯著提升了準確率。

基于語料庫信息的掌握,研究從詞匯詞性兩個角度分析整個語料庫的詞頻、詞長和詞性標注的統計分布,獲得高頻詞分布、詞語長度分布、詞性標注分布的具體數據,提出了上古漢語分詞及詞性標注語料庫構建的基本模式。

3.2 《基于先秦語料庫的古漢語地名自動識別模型構建研究》的信息抽取

《基于先秦語料庫的古漢語地名自動識別模型構建研究》是南京農業大學信息科學技術學院黃水清、王東波、何琳三位教授發表于《圖書情報工作》2015年12期的研究成果。文章通過對《春秋左氏傳》中地名的內部和外部特征進行統計分析,將條件隨機場模型和最大熵模型應用于古漢語地名自動識別模型的構建,并借助語料庫地名的內部和外部特征統計、語料的預處理、自動識別模型的構建與測評等技術環節,得出條件隨機場模型優于最大熵模型,基于人工標注的語料構建條件隨機場自動識別模型能起的較好識別效果的理性化結論

3.3 《條件隨機場圖模型在《明史》詞性標注研究中的應用效果探索》的信息抽取

《條件隨機場圖模型在《明史》詞性標注研究中的應用效果探索》發表于《復旦學報(自然科學版)》2014年03期,是復旦大學碩士研究生朱曉在其導師金力教授指導下完成的研究論文。論文選擇編年體體裁的《明史》作為研究語料,通過交叉檢驗法比較了基于條件隨機場的無邊圖模型、完全圖模型、和嵌套圖模型在古漢語詞性標注中的應用。在關于條件隨機場模型的特征設置、三種圖模型的選擇及交叉檢驗的方法上突出優選,闡述了在《明史》詞性標注中完全圖模型和嵌套圖模型優于無邊圖模型、分詞在某種意義上能夠提高古漢語詞性標注效率的重要發現。

4 結語

綜上所述,利用信息技術面向海量古漢語史料進行相關信息的抽取,從而為歷史研究人員提供相應的數據資源及佐證信息,已經成為歷史人物研究的一個重要潮流趨勢。而分析并利用古漢語特有的句法結構特征,則是面向古漢語史料進行信息抽取的一個必不可少的技術途徑。

參考文獻

[1] 留金騰,宋彥,夏飛.上古漢語分詞及詞性標注語料庫的構建——以《淮南子》為范例[J].中文信息學報,2013(06):6-15.

[2] 朱曉,金力.條件隨機場圖模型在《明史》詞性標注研究中的應用效果探索[J].復旦學報(自然科學版),2014(03):297-304.

[3] 郭喜躍,何婷婷.信息抽取研究綜述[J].計算機科學,2015(02):14-16.

[4] 黃水清,王東波,何琳.基于先秦語料庫的古漢語地名自動識別模型構建研究[J].圖書情報工作,2015(12):135-140.

[5] 虞寧翌,饒高琦,荀恩東.文言信息的自動抽取-基于統計和規則的嘗試[J].中文信息學報,2015(06):127-134.

[6] 葉輝,姬東鴻.基于多特征條件隨機場的《金匱要略》癥狀藥物信息抽取研究[J].中醫藥信息研究,2016(05):14-17.

主站蜘蛛池模板: 久久96热在精品国产高清| 在线免费观看AV| 日韩123欧美字幕| 国产成人乱码一区二区三区在线| 激情無極限的亚洲一区免费| 亚洲AⅤ无码国产精品| 97视频精品全国免费观看 | 一本一道波多野结衣一区二区| 成AV人片一区二区三区久久| 午夜视频免费一区二区在线看| 人人澡人人爽欧美一区| 国产成人亚洲精品色欲AV| 在线看片免费人成视久网下载| 欧美成人国产| 亚洲一区国色天香| A级毛片无码久久精品免费| 激情亚洲天堂| 国产成年女人特黄特色大片免费| 国产成人综合亚洲网址| 国产chinese男男gay视频网| 在线欧美日韩| 欧美日本在线| 永久成人无码激情视频免费| 精品无码国产一区二区三区AV| 人妻少妇久久久久久97人妻| 国产乱视频网站| 久久国产精品麻豆系列| 精品一區二區久久久久久久網站| 97视频在线精品国自产拍| 欧美性精品不卡在线观看| 国产一区二区色淫影院| 日韩欧美国产精品| 美女视频黄又黄又免费高清| 午夜少妇精品视频小电影| 啦啦啦网站在线观看a毛片| 日韩欧美网址| 激情视频综合网| 麻豆AV网站免费进入| 国产小视频免费观看| 国产精品永久免费嫩草研究院| 国产sm重味一区二区三区| 亚洲人成网址| 全部无卡免费的毛片在线看| 丁香婷婷激情综合激情| 国产美女免费| 国产午夜一级淫片| 中文字幕欧美日韩高清| 国产精品男人的天堂| 亚洲一区网站| 香蕉网久久| 日韩视频福利| 成年人福利视频| 国产欧美自拍视频| 久久福利网| 国产亚洲欧美日韩在线一区二区三区 | 亚洲综合九九| 特级欧美视频aaaaaa| 国产精品久线在线观看| 亚洲一区免费看| 免费啪啪网址| 国产欧美专区在线观看| 少妇高潮惨叫久久久久久| 中国毛片网| 亚洲中文字幕精品| 国产精品网曝门免费视频| 亚洲精品午夜天堂网页| 亚洲第一成年免费网站| 91热爆在线| 亚洲精品无码久久久久苍井空| 欧美一级大片在线观看| 亚洲天堂网视频| 中文字幕亚洲第一| 亚洲精品国产精品乱码不卞| 青草视频免费在线观看| 亚洲欧美另类日本| 看看一级毛片| 九色最新网址| 日韩欧美在线观看| 亚洲三级电影在线播放| 尤物视频一区| 日韩欧美中文字幕在线精品| 成人夜夜嗨|