999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向高等教育領域的命名實體標注語料庫構建方法

2022-07-10 13:45:45黃柯源張浩軍李世龍李大嶺王家慧
現代信息科技 2022年5期
關鍵詞:高等教育

黃柯源 張浩軍 李世龍 李大嶺 王家慧

摘 ?要:文章以高等教育政策文件為語料,在領域專家指導下結合高等教育政策文件文本特點,制定了一套標注體系和標注規范,開展了大規模的語料標注工作,構建了一個面向高等教育領域的標注語料庫。該語料庫共標注了137篇政策文件,包含5 102個句子和3 639個實體。同時,通過使用模型對語料庫進行實驗,探討了語料庫的可信度及預標注策略的可行性。結果表明,該語料庫的F1值達到75.31%,為進一步的高等教育領域實體識別研究提供了基礎。

關鍵詞:高等教育;命名實體;標注規范;語料庫構建

中圖分類號:TP18 ? ? 文獻標識碼:A文章編號:2096-4706(2022)05-0095-04

Construction Method of Named Entity Annotation Corpus for Higher Education Field

HUANG Keyuan, ZHANG Haojun, LI Shilong, LI Daling, WANG Jiahui

(College of Information Science and Engineering, Henan University of Technology, Zhengzhou ?450001, China)

Abstract: This paper takes higher education policy documents as the corpus, and under the guidance of experts in the field, combined with the text characteristics of higher education policy documents, formulates a set of labeling system and labeling specifications, and carries out large-scale corpus labeling work, constructs an annotation corpus for higher education field. The corpus is annotated with a total of 137 policy documents, and contains 5 102 sentences and 3 639 entities. At the same time, by using the model to conduct experiments on the corpus, the credibility of the corpus and the feasibility of the pre-labeling strategy are discussed. The results show that the F1 number of this corpus reaches 75.31%, which provides a basis for further research on entity recognition in the field of higher education.

Keywords: higher education; named entity; labeling specification corpus construction

0 ?引 ?言

近年來,黨和國家高度重視我國高等教育發展情況,高等教育領域產出成果頗豐。隨著互聯網中高等教育領域相關信息不斷增多,亟須建立高等教育領域知識圖譜,以便更準確地探析我國高等教育的發展態勢,為高等教育研究者提供理論支撐。

政策文件是由國家相關部門研究制定并下發的指導性文件,其權威性與專業性被大眾普遍認可。因此,本研究以高等教育政策文件為數據源,探究領域語料標注規范,構建高教領域實體識別標注語料庫,為高等教育領域命名實體識別、關系抽取和知識圖譜構建提供可靠的數據支撐。

1 ?相關工作

語料庫作為信息抽取的基礎,其質量直接影響實體識別和關系抽取的結果。現有的語料庫構建方法分為手動構建和自動構建兩種,在醫學[1,2]、國防[3]、公安[4]、建筑[5]等領域均已出現公開構建且廣泛應用的語料庫。李雁群等[6]以《人民日報》和ACE005中文語料為基礎,構建了中文嵌套命名實體識別語料庫。Lowe[7]等通過收集Ubuntu社區一百萬組對話內容,構建了具有人類自然對話特點與機器多次序對話特點的Ubuntu對話語料庫。Hu[8]等通過收集新浪微博的中文短文本摘要,構建了包含200余萬個真實短文本及作者所寫摘要的微博語料庫。目前,尚未發現公開發布的面向高等教育領域的命名實體標注語料庫。因此,亟須構建高等教育語料庫,以推動我國高等教育領域命名實體識別研究的發展。

2 ?面向高等教育政策文件的實體標注規范制定

2.1 ?標注體系

本文將語料庫中實體定義為以下6類:指導思想實體、出臺背景實體、目標實體、原則實體、任務實體和措施實體。本語料庫在標注過程中采用基于BIO策略的字標注方法,該語料庫中共包含13種標簽類型,標簽設置情況如表1所示。

2.2 ?標注準則

本文參照實體標注領域的“不重疊、不嵌套、不包含標點符號及連接詞”的三個基本原則的基礎上,結合高等教育政策文件的相關特點,提出了一套適用于該領域的標注準則:

(1)最大范圍標注:

例1:為深入貫徹落實“習近平總書記給全國涉農高校書記校長和專家代表重要回信精神”,以新農科建設為統領,推進高等農林教育創新發展。

例1中,引號部分為指導思想實體。其中“習近平總書記給全國涉農高校書記校長和專家代表”為“重要回信精神”的定語修飾部分,遵循最大范圍標注,凡遇到指導思想實體中含有定語修飾的,將其一并作為指導思想實體進行標注。

(2)除指導思想實體外,其余實體可包含標點符號:

例2:深入貫徹“黨的十九大和十九屆二中、三中、四中全會精神,”全面落實習近平總書記關于教育的重要論述和全國教育大會精神。

由于政策文件中需要完成的具體任務以及完成任務所需的具體措施描述的十分清晰,因此任務和措施實體往往需要包含標點符號。例2中,引號部分包含有“、”,因此不將其標注為實體。

(3)外層標注:若一句話中包含多個實體,則只標注最外層實體,其內部的實體不進行標注。

3 ?語料庫構建過程

語料庫構建的核心任務是選取一種合適的標注模式,并對語料進行標注。本文采用“領域專家+團體標注”的模式,依據第2節中所提出的標注體系及準則,對137篇高等教育政策文件進行標注,標注過程歷時3個月,共有2名高等教育專家、6名碩士生和3名本科生參與標注工作。

3.1 ?語料選取與預處理

該語料庫以教育部發布的政策文件為數據源。為保證語料質量,在人工采集時剔除回復性文件,保留正式政策文件。標注格式如圖1所示,標注文本中的{...[type]}表示該段內容為一種實體,[]之間表示該實體所屬的類別。

圖1 ?語料標注規則示例

3.2 ?標注過程

為提高語料庫質量,本文制定了多輪分組迭代標注策略。具體流程為:

(1)將9名標注人員隨機分配到三個小組中,每組的3名隊員獨立標注同一篇文章。標注完成后,由其他小組統計該組三名隊員的標注一致率,若一致率低于80%,則重復上述過程。對于不一致性標注,在征求專家的意見后對其進行修改。對于標注一致率連續3次達到80%以上的小組,停止迭代標注。

(2)在所有小組均停止迭代后,從三個小組中選取出標注質量較高的6名標注者,并隨機分配到3個小組中進行二標注。即每組的兩名成員獨立標注同一篇文章,標注結果由標注規范制定者進行審核,統一不一致性標注,并從每組中選取標注質量好的標注者組建最終標注小組。

(3)選取30篇預處理過的政策文件作為初始數據源,交由最終標注小組進行標注。對于不一致性標注,由專家和標注人員共同討論后進行統一。構建實體標注模型,并以上述30篇標注語料作為訓練數據,開發標注工具。

(4)使用標注工具對剩余語料進行預標注,再由標注者對標注結果進行修改,得到完整的高等教育政策文件實體標注語料庫。

3.3 ?語料庫統計

3.3.1 ?標注數量統計

該語料庫共標注了137篇政策文件,共計256 940個字符、5 102句話和3 639個命名實體。語料庫的標注詳情如表2所示。

3.3.2 ?標注一致性分析

在實體識別語料標注領域,通常選擇F1值來計算標注一致性。具體計算流程(1)~(3)式所示。

(1)

(2)

(3)

表3記錄了迭代標注過程中各命名實體的標注一致性,其中迭代次數為5次。

迭代標注過程中,各實體的標注一致性均逐步上升,說明標注前培訓及標注規范迭代更新策略是積極有效的。其中TAS實體和MEA實體的初始標注一致率低于其他實體,其主要原因是政策文件中的方法和措施通常擁有較長的文本長度,導致標注人員無法清晰的辨識實體邊界。隨著迭代標注的進行,最終六種實體的標注一致性均超過了80%可信賴標注驗證標準,表明該標注語料庫具有較高的標注質量且是可信的。

4 ?實驗評估

為評估本文所構建語料庫的性能,本文采取句子級的劃分方法語料按照8:1:1的比例隨機劃分為訓練集、測試集和驗證集,并搭建了三種主流的實體識別模型對標注語料進行初步的實驗驗證。采用準確率(Precision, P)、召回率(Recall, R)和F1值作為該語料庫的測評指標。其測評結果如表4所示。

由表4可知,當測評語料為前三十篇時,BERT-CRF模型的實驗結果優于BERT-BILSTM-CRF模型;當測評語料為最終語料時,BERT-BILSTM-CRF模型的實驗結果反超BERT-CRF模型的實驗結果。主要是因為:BERT是經過大量無標注語料訓練的預訓練模型,其本身具有很好的深度語言特征表達能力。當訓練語料較少時,由BERT所生成的詞向量已經具有較強的語義信息,可以直接通過CRF模型進行判別,若此時經過更為復雜的模型結構,會導致向量的部分語義信息丟失,導致實驗結果的下降。而當訓練語料增加時,復雜的模型結構更容易學習各類實體的特征,因此BERT-BILSTM-CRF的實驗結果更優。

5 ?結 ?論

本文介紹了面向高等教育領域政策文件的語料庫標注體系和標注過程。首先,依據高等教育領域專業知識選定了高教政策文件語料中的各類實體,并制定了標注規范。其次基于此規范展開大規模領域語料標注工作并開發了標注工具。目前,該語料庫已完成26萬余字的標注工作,共包含5 102句語料及3 639個命名實體。此外,本文通過對小組標注結果的一致性分析以及使用不同模型對語料庫進行實驗,探討了所構建語料庫的可信度及標注工具預標注策略的可行性。實驗結果表明,該語料庫的命名實體識別性能F1值達到75.31%。

參考文獻:

[1] 楊錦鋒,關毅,何彬,等.中文電子病歷命名實體和實體關系語料庫構建 [J].軟件學報,2016,27(11):2725-2746.

[2] 曲春燕,關毅,楊錦鋒,等.中文電子病歷命名實體標注語料庫構建 [J].高技術通訊,2015,25(2):143-150.

[3] 馮鸞鸞,李軍輝,李培峰,等.面向國防科技領域的技術和術語語料庫構建方法 [J].中文信息學報,2020,34(8):41-50.

[4] 曹若麟,杜渂.面向實體標注的公安警情領域語料庫的構建 [J].電信快報,2021(3):20-24.

[5] 莫天金,李韌,楊建喜,等.公路橋梁定期檢測領域命名實體識別語料庫構建 [J].計算機應用,2020,40(S1):103-108.

[6] 李雁群,何云琪,錢龍華,等.中文嵌套命名實體識別語料庫的構建 [J].中文信息學報,2018,32(8):19-26.

[7] LOWE R,POW N,SERBAN I V,et al. The Ubuntu dialogue corpus:A large dataset for research in unstructured multi-turn dialogue systems [EB/OL].arXiv:1506.08909 ?[cs.CL] (2016-02-04).https: //arxiv.org/pdf/1506.08909v3.pdf.

[8] HU B T,CHEN Q C,ZHU F Z. LCSTS:A large scale Chinese short text summariazation dataset [J/OL].arXiv:1506.05865 ?[cs.CL].(2016-02-19). https: //arxiv.org/pdf/1506.05865.pdf.

作者簡介:黃柯源(1997.05—),男,漢族,河南平頂山人,碩士研究生在讀,研究方向:自然語言處理、知識圖譜

猜你喜歡
高等教育
教學和管理層面的高等教育服務思考分析
科教導刊(2016年27期)2016-11-15 21:03:53
高校雙語教學現狀與創新分析
科教導刊(2016年26期)2016-11-15 20:12:30
在線性代數課程教學中引入MATLAB的簡單介紹
考試周刊(2016年86期)2016-11-11 07:44:56
法津實驗教學的思考
新形勢下加強高校師德建設的對策研究
科技視界(2016年18期)2016-11-03 22:22:25
大數據對高等教育發展的推動研究
人間(2016年26期)2016-11-03 17:51:57
各地區高等教育與經濟發展水平協調性分析
時代金融(2016年23期)2016-10-31 13:56:28
關于應用型計算機專業培養方案的研究
中國市場(2016年36期)2016-10-19 04:33:08
基于Flash+XML技術的護理技能虛擬教學平臺設計與實現
中國高等教育供給側改革研究:起源、核心、內涵、路徑
大學教育(2016年9期)2016-10-09 07:53:44
主站蜘蛛池模板: 91欧美亚洲国产五月天| 国产v精品成人免费视频71pao| 成人一区专区在线观看| 国产日韩精品欧美一区灰| 国产一区在线视频观看| 无码中文字幕加勒比高清| 特级aaaaaaaaa毛片免费视频| 亚洲黄网在线| a欧美在线| 日本午夜在线视频| 日韩激情成人| 自慰高潮喷白浆在线观看| 婷婷综合在线观看丁香| 国产成人91精品| 亚洲精品图区| 五月天久久综合| 国产在线精彩视频二区| 综合色在线| 久久99久久无码毛片一区二区| 国产精品久久久久无码网站| 全色黄大色大片免费久久老太| 欧美日韩国产在线播放| 日韩亚洲高清一区二区| 国产精品自在在线午夜| 欧美.成人.综合在线| 国产成人综合亚洲网址| 国产精品永久在线| 日本人妻丰满熟妇区| 欧美精品在线视频观看| 无码免费视频| 视频二区国产精品职场同事| 无码内射在线| 欧美色综合网站| 亚洲一区二区三区国产精品 | 日韩国产高清无码| 亚洲美女视频一区| 久久香蕉欧美精品| 亚洲男人的天堂在线观看| 欧美日本中文| 亚洲第一国产综合| 免费毛片视频| 亚洲综合狠狠| 狠狠ⅴ日韩v欧美v天堂| 麻豆AV网站免费进入| 久久精品国产精品一区二区| 久久国产高清视频| 欧美啪啪一区| 国产成人综合欧美精品久久| 免费网站成人亚洲| 全部无卡免费的毛片在线看| 69综合网| 亚洲第一av网站| 欧美www在线观看| 第一区免费在线观看| jizz国产视频| 国产成人综合日韩精品无码不卡| 东京热一区二区三区无码视频| 日韩精品高清自在线| aaa国产一级毛片| 玩两个丰满老熟女久久网| 免费在线一区| 国产精品理论片| 国产又粗又猛又爽视频| 亚洲国产高清精品线久久| 老司机aⅴ在线精品导航| 美女免费黄网站| AV色爱天堂网| 久久国产精品电影| 色悠久久综合| 91精品啪在线观看国产| 日本久久久久久免费网络| 综合色88| 久久这里只有精品23| 亚洲熟女偷拍| 国产成人精品18| 国产女人在线| 国产精品综合色区在线观看| 国产又爽又黄无遮挡免费观看 | 漂亮人妻被中出中文字幕久久| 国产精品自在拍首页视频8| 欧美精品啪啪| 久久动漫精品|