















摘要 甲骨文目標(biāo)檢測(cè)是甲骨文數(shù)字化研究中重要一環(huán),主要依靠深度學(xué)習(xí)模型實(shí)現(xiàn)對(duì)甲骨文圖像中位置信息和分類信息的識(shí)別。為了避免模型過(guò)擬合,深度學(xué)習(xí)模型的訓(xùn)練一般需要依賴大規(guī)模的數(shù)據(jù)集,而在甲骨文目標(biāo)檢測(cè)領(lǐng)域,目前可用于深度學(xué)習(xí)的大規(guī)模數(shù)據(jù)集較少,很多研究所用的數(shù)據(jù)集均依靠專家人工標(biāo)注和整理,這使得甲骨文目標(biāo)檢測(cè)數(shù)據(jù)集存在整理成本較高、數(shù)據(jù)量較小、數(shù)據(jù)質(zhì)量不高、類別間均衡性差等問(wèn)題。提出了動(dòng)態(tài)兩階段Mosaic算法及甲骨文大規(guī)模數(shù)據(jù)集生成技術(shù),解決傳統(tǒng)Mosaic算法在處理甲骨文圖像中存在的拼接圖數(shù)量有限、圖像的多樣性和差異性不足、空白背景較大、信息缺失等問(wèn)題,并設(shè)計(jì)了完整的數(shù)據(jù)集生成流程,實(shí)現(xiàn)了從甲骨文單字符圖片到大規(guī)模數(shù)據(jù)集生成的流程化、智能化處理,從根本上解決了甲骨文目標(biāo)檢測(cè)領(lǐng)域的數(shù)據(jù)困境。通過(guò)此研究方法,生成了標(biāo)注位置信息和類別信息且規(guī)模龐大的甲骨文數(shù)據(jù)集,共生成57萬(wàn)張甲骨文圖像和57萬(wàn)份對(duì)應(yīng)的標(biāo)注文件,包含甲骨文類別416類,樣本數(shù)量最少的類別包含了516個(gè)甲骨文字符,且數(shù)據(jù)集規(guī)模和各類別樣本數(shù)量可動(dòng)態(tài)調(diào)整以避免類別間樣本不均衡。采用YOLOv8模型對(duì)生成后的大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練,在經(jīng)過(guò)200批次訓(xùn)練后,模型精度(Precision)達(dá)到96.45%,mAP50值為97.75%,mAP50-95值為96.96%,從模型訓(xùn)練曲線看,訓(xùn)練過(guò)程表現(xiàn)出較好的穩(wěn)定性和高效性,模型訓(xùn)練結(jié)果表明,研究的數(shù)據(jù)集生成技術(shù)可應(yīng)用于甲骨文目標(biāo)檢測(cè)。
關(guān)鍵詞 甲骨文;深度學(xué)習(xí);目標(biāo)檢測(cè);數(shù)據(jù)集;YOLOv8算法
中圖分類號(hào):TP391.4" DOI:10.16152/j.cnki.xdxbzr.2025-01-003
Large-scale dataset generation technology for oracle object detection
YANG Fuyong1, LI Huabiao1,2, MENG Ruiwei1
(1.National Museum of China, Beijing 100006, China;
2.Key Laboratory of Collection Resources Revitalising Technology, Ministry of Culture and Tourism, Beijing 100006, China)
Abstract Oracle bone inscription object detection is an important part of oracle bone inscription digitization research. This work mainly relies on deep learning models to realize the recognition of position information and classification information in oracle bone inscription images. In order to avoid model overfitting, deep learning models need to rely on large-scale datasets. In the field of oracle bone inscription object detection, there are currently few large-scale data sets available for deep learning. Many research datasets rely on experts to manually annotate and organize, which makes oracle bone inscription object detection datasets face problems such as high cost, small data volume, low data quality, and poor balance between categories. This study proposes a dynamic two-stage Mosaic algorithm and oracle bone inscription large-scale dataset generation technology to solve the problems of limited number of mosaic images, insufficient image diversity and difference, large blank background, and missing information in the traditional Mosaic algorithm in processing oracle bone images. A complete dataset generation process is designed to realize the process-based and intelligent processing from oracle bone inscription single character images to dataset generation, which fundamentally solves the data dilemma in the field of oracle bone inscription object detection. Using the method in this study, a large-scale oracle bone inscription dataset with labeled position information and category information was generated. A total of 570 000 oracle bone inscription images and 570 000 corresponding annotation files were generated, including 416 oracle bone inscription categories, and the minimum category contained 516 oracle bone inscription characters. The dataset size and the number of samples in each category can be adjusted dynamically to avoid the problem of sample imbalance between categories. This research uses the YOLOv8 model to train the generated large-scale dataset. After 200 batches of training, the model precision reached 96.45%, the mAP50 value was 97.75%, and the mAP50-95 value was 96.96%. From the model training curve, the training process showed good stability and efficiency. The model training results show that the dataset generation technology in this paper can be applied to oracle bone inscription target detection research.
Keywords oracle; deep learning; object detection; dataset; YOLOv8 algorithm
文化遺產(chǎn)是中華五千年悠久歷史的重要載體,是傳承文化的特殊資源,也是連接過(guò)去現(xiàn)在與未來(lái)的重要途徑[1]。甲骨文作為重要的文化遺產(chǎn)之一,被認(rèn)為是已知最早的中文書(shū)寫(xiě)形式和世界上最著名的文字體系之一[2-5],蘊(yùn)含了商代人生活的豐富信息,記錄了當(dāng)時(shí)文明發(fā)展情況。開(kāi)展甲骨文研究,對(duì)于推進(jìn)漢語(yǔ)詞源學(xué)研究以及了解商代、古代中國(guó)乃至世界文化和歷史均具有重要意義[3]。甲骨文被發(fā)現(xiàn)后,專家學(xué)者一直試圖解讀甲骨文內(nèi)涵[6],隨著人工智能和深度學(xué)習(xí)在實(shí)際中的應(yīng)用,一些學(xué)者開(kāi)始利用計(jì)算機(jī)輔助技術(shù)來(lái)開(kāi)展甲骨文研究。這些研究工作中,甲骨文目標(biāo)檢測(cè)是字符破譯的基礎(chǔ),是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)重要研究方向[7]。早期甲骨文字識(shí)別方法主要通過(guò)分析甲骨文字的拓?fù)浣Y(jié)構(gòu)[8],利用支持向量機(jī)[9]和分形幾何[10]等方法進(jìn)行分類,這些方法不僅精度低,而且泛化能力較差。近年來(lái),深度學(xué)習(xí)技術(shù)在圖像分類和識(shí)別等方面取得了突出成果,許多學(xué)者嘗試將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在拓片甲骨文字的識(shí)別工作當(dāng)中。一些網(wǎng)絡(luò)模型在圖像領(lǐng)域取得了顯著效果,如AlexNet[11]、VGG[12]、ResNet[13]、ResNeSt網(wǎng)絡(luò)[14]、Inception-v4[15]、YOLO模型[7]等都被應(yīng)用到拓片甲骨文字識(shí)別任務(wù)中。
開(kāi)展甲骨文目標(biāo)檢測(cè)研究需要依賴大量的甲骨文圖像數(shù)據(jù),中國(guó)各地已出土超過(guò)15萬(wàn)塊甲骨文和龜甲碎片[16],整理這些原始材料的圖像數(shù)據(jù)一般需要具有較高專業(yè)知識(shí)的甲骨文研究專家手工輔助完成[3]。目前大約有4 500種不同甲骨文,已解讀甲骨文字只有2 200種左右,在出土的甲骨化石中尋找和整理甲骨文字需要大量的勞動(dòng)力成本[6]。現(xiàn)有可直接用于目標(biāo)檢測(cè)模型訓(xùn)練的甲骨文大規(guī)模數(shù)據(jù)集較少。有些是由現(xiàn)代人手寫(xiě)得到的,如Li等整理的數(shù)據(jù)集[17],有些只有甲骨文分類信息,而缺乏對(duì)甲骨文位置的標(biāo)注信息,如Huang等整理的數(shù)據(jù)集[3],有些只有位置信息而缺乏分類信息,如殷墟文淵整理的甲骨文字檢測(cè)數(shù)據(jù)集[18]。此外,甲骨文出現(xiàn)頻率嚴(yán)重失衡,也給數(shù)據(jù)集的整理工作帶來(lái)了難度,陳婷珠發(fā)現(xiàn),在包含1 425個(gè)單字的5.6萬(wàn)個(gè)甲骨字樣本中,常用字366個(gè),次常用字500個(gè),罕見(jiàn)字559個(gè)[19]。學(xué)者在開(kāi)展甲骨文目標(biāo)檢測(cè)研究時(shí),所用數(shù)據(jù)集多數(shù)是通過(guò)人工標(biāo)注[15,20-22],不僅數(shù)量有限,耗時(shí)耗力,而且樣本間很難做到均衡。因此,整理和構(gòu)建可應(yīng)用于深度學(xué)習(xí),從而實(shí)現(xiàn)甲骨文目標(biāo)檢測(cè)任務(wù)的甲骨文大規(guī)模數(shù)據(jù)集,可從根源上解決甲骨文目標(biāo)檢測(cè)任務(wù)中面臨的數(shù)據(jù)匱乏問(wèn)題。
本文主要做了以下工作和貢獻(xiàn)。①提出了動(dòng)態(tài)兩階段Mosaic算法,解決傳統(tǒng)Mosaic算法在處理甲骨文圖像中存在的拼接圖數(shù)量有限、圖像多樣性和差異性不足、空白背景較大、信息缺失等問(wèn)題。②構(gòu)建了甲骨文大規(guī)模數(shù)據(jù)集生成流程和技術(shù),通過(guò)本文方法,可生成同時(shí)具備甲骨文位置信息和類別信息,且數(shù)量和類別均可根據(jù)需要?jiǎng)討B(tài)調(diào)整,適用于目標(biāo)檢測(cè)領(lǐng)域模型訓(xùn)練的甲骨文大規(guī)模數(shù)據(jù)集。③運(yùn)用本文方法生成了甲骨文大規(guī)模數(shù)據(jù)集,數(shù)據(jù)量57萬(wàn)張,類別416類。④采用YOLOv8模型,驗(yàn)證了本文生成的大規(guī)模數(shù)據(jù)集的可用性。
1 相關(guān)工作
1.1 甲骨文數(shù)據(jù)集整理情況
目前甲骨文圖像數(shù)據(jù)集主要有以下幾類。
1)無(wú)標(biāo)注信息的高清圖像集或拓片圖像。高清圖片集如中國(guó)國(guó)家博物館館藏甲骨文圖像(見(jiàn)圖1),這些圖像來(lái)源于真實(shí)甲骨藏品的拍攝,但由于數(shù)據(jù)集未經(jīng)標(biāo)注,無(wú)法直接用于甲骨文深度學(xué)習(xí)和目標(biāo)檢測(cè)研究。拓片圖像數(shù)據(jù)庫(kù)如臺(tái)灣歷史語(yǔ)言研究所收集整理的甲骨文拓片,共計(jì)4萬(wàn)余件[23],均為無(wú)標(biāo)注信息的圖像。
2)標(biāo)注位置信息但未做分類的圖像集。典型的例子如殷墟文淵甲骨文檢測(cè)數(shù)據(jù)集(見(jiàn)圖2),該數(shù)據(jù)集來(lái)源于“殷契文淵”網(wǎng)站(https:∥jgw.aynu.edu.cn/home/index.html)。該數(shù)據(jù)集圖像來(lái)源于《甲骨文字合集》《甲骨文字合集補(bǔ)編》與《懷特氏等收藏甲骨文集》。通過(guò)高分辨率掃描儀轉(zhuǎn)為電子書(shū)后手工截選并標(biāo)注。該數(shù)據(jù)集共有甲骨文拓片9 823個(gè),黑白色拓片,圖片標(biāo)注有位置信息(json格式),但并未標(biāo)注分類信息。由于該數(shù)據(jù)集只標(biāo)注了甲骨文的位置信息,而未對(duì)每個(gè)甲骨文字符進(jìn)行分類,因此在目標(biāo)檢測(cè)研究時(shí),只能用于識(shí)別甲骨文位置,而無(wú)法對(duì)甲骨文進(jìn)行更詳細(xì)的分類。
3)已做分類的甲骨文單字符圖像集。殷墟文淵0BC306數(shù)據(jù)庫(kù)[3](見(jiàn)圖3),是拓片甲骨文字形類別的數(shù)據(jù)庫(kù),其數(shù)據(jù)來(lái)自于以下8種甲骨文出版物:《甲骨文合集》《小屯南地甲骨》《英國(guó)所藏甲骨集》《蘇德美日所見(jiàn)甲骨集》《甲骨文合集補(bǔ)編》《懷特士所藏甲骨文集》《東京大學(xué)東洋文化研究所藏甲骨文字》《天理大學(xué)附屬天理參考館藏甲骨文字》。該數(shù)據(jù)集共有309 551個(gè)樣本,涉及306類,每類對(duì)應(yīng)一個(gè)甲骨文文字,單字符圖片來(lái)源于真實(shí)拓片。但該數(shù)據(jù)集沒(méi)有現(xiàn)代漢字與甲骨文的對(duì)應(yīng)關(guān)系,也沒(méi)有圖片標(biāo)注的位置信息,由于缺乏位置信息,較難直接用于甲骨文目標(biāo)檢測(cè)的深度學(xué)習(xí)模型中。
4)通過(guò)計(jì)算機(jī)模擬或手工撰寫(xiě)的“甲骨文”。
這些甲骨文圖片通過(guò)計(jì)算機(jī)模擬或者是請(qǐng)當(dāng)代甲骨文專家手寫(xiě)產(chǎn)生,雖然可能與甲骨文字形上相似性較高,但并非來(lái)自真實(shí)的甲骨藏品或拓片。以殷墟文淵識(shí)別訓(xùn)練手寫(xiě)(HWOBC)數(shù)據(jù)集[17]為代表(見(jiàn)圖4),該數(shù)據(jù)集是手寫(xiě)甲骨字?jǐn)?shù)據(jù)集,由22位來(lái)自不同專業(yè)的甲骨學(xué)研究者,通過(guò)手寫(xiě)甲骨字搜集軟件比照甲骨字標(biāo)準(zhǔn)字形書(shū)寫(xiě)并整理而成。數(shù)據(jù)集共搜集83 245張樣本圖片,按照字庫(kù)編碼分為3 881類。
綜上,當(dāng)前很多甲骨文數(shù)據(jù)集有些缺少標(biāo)注信息或標(biāo)注信息不完備,有些并非來(lái)自于真實(shí)甲骨藏品、拓片或數(shù)據(jù)量不能滿足研究需要。本文提出動(dòng)態(tài)兩階段Mosaic算法和大規(guī)模數(shù)據(jù)集生成技術(shù),用單字符的甲骨文圖像集生成包含位置、分類等標(biāo)注信息的甲骨文大規(guī)模圖像集,以解決當(dāng)前甲骨文數(shù)據(jù)困境。本文生成的大規(guī)模數(shù)據(jù)集有4個(gè)特點(diǎn)。①圖像中的甲骨文文字來(lái)源于真實(shí)的甲骨藏品(甲骨文拓片或甲骨文照片)。②具備標(biāo)注信息,包括標(biāo)注框(位置信息)和分類信息。③圖像接近真實(shí)的甲骨藏品照片,即每張圖像上有多個(gè)甲骨文文字,且文字在圖像上的位置具備一定的隨機(jī)性。④圖像數(shù)量足夠龐大,且各類別中樣本可根據(jù)需要?jiǎng)討B(tài)調(diào)整。
1.2 數(shù)據(jù)增強(qiáng)方法
當(dāng)前,深度卷積神經(jīng)網(wǎng)絡(luò)已成功應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù),如圖像分類、目標(biāo)檢測(cè)和圖像分割[24],其主要目的是使用大數(shù)據(jù)學(xué)習(xí)訓(xùn)練樣本中的模式和表達(dá)。深度學(xué)習(xí)在視覺(jué)上的成功可以歸因于具有高能力的模型、計(jì)算能力增強(qiáng)以及大規(guī)模標(biāo)記數(shù)據(jù)的可用性[25],它是一種數(shù)據(jù)驅(qū)動(dòng)技術(shù),為了避免模型過(guò)擬合,這些模型在很大程度上需要依賴于大數(shù)據(jù)。2012年以來(lái),模型表示能力和GPU計(jì)算能力方面取得了重大進(jìn)展,隨著高性能計(jì)算技術(shù)的不斷發(fā)展,文化遺產(chǎn)保護(hù)也將迎來(lái)新的發(fā)展階段[26],但數(shù)據(jù)集對(duì)甲骨文等特定領(lǐng)域的模型訓(xùn)練仍是最大制約因素之一。
Sun等研究表明,深度學(xué)習(xí)模型的性能隨著訓(xùn)練數(shù)據(jù)量的增加而呈對(duì)數(shù)增長(zhǎng)[25]。這意味著訓(xùn)練樣本的數(shù)量越大,得到的模型泛化能力越好,性能也越好。普遍認(rèn)為,當(dāng)訓(xùn)練樣本相對(duì)較小時(shí),在實(shí)際應(yīng)用過(guò)程中容易出現(xiàn)過(guò)擬合[27-28],而多樣化的訓(xùn)練樣本則可以防止模型過(guò)擬合[29-30]。但訓(xùn)練樣本的收集和產(chǎn)生有時(shí)候需要很高成本,因此低成本和簡(jiǎn)單的數(shù)據(jù)增強(qiáng)方法已成為防止模型過(guò)擬合較為常見(jiàn)的選擇。圖像的數(shù)據(jù)增強(qiáng)主要基于基本圖像操作的數(shù)據(jù)增強(qiáng),常見(jiàn)圖像增強(qiáng)方法有:裁剪(cropping)、翻轉(zhuǎn)變換(flipping)、旋轉(zhuǎn)/反射變換(rotation/reflection)、顏色變換(color space)、幾何變換(geometric transformations)、噪聲注入(noise injection)、移動(dòng)(translation)、隨機(jī)擦除(random erasing)、內(nèi)核過(guò)濾器(kernel filters)、混合圖像(mix)、縮放變換(zoom)、特征空間增強(qiáng)(feature space augmentation)、對(duì)抗生成(adversarial training)、基于GAN的數(shù)據(jù)增強(qiáng)(GAN-based data augmentation)、神經(jīng)風(fēng)格轉(zhuǎn)換(neural style transfer)和元學(xué)習(xí)數(shù)據(jù)增強(qiáng)(meta learning data augmentations)等[24,27,31-34]。這些技術(shù)已被證明對(duì)特定數(shù)據(jù)集有效,例如,隨機(jī)裁剪和水平翻轉(zhuǎn)技術(shù)對(duì)CIFAR數(shù)據(jù)集的識(shí)別任務(wù)有幫助[35]。
然而,隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,更多新的網(wǎng)絡(luò)架構(gòu)被提出,如VGG-16[36]、ResNet[37]、DenseNet[38]等。這些架構(gòu)具有更深網(wǎng)絡(luò)層、更復(fù)雜結(jié)構(gòu)和更多參數(shù),因此過(guò)擬合風(fēng)險(xiǎn)也在增加[39]。僅使用傳統(tǒng)圖片轉(zhuǎn)換方法難以有效抑制過(guò)擬合的發(fā)生[40]。因此,更先進(jìn)的數(shù)據(jù)增強(qiáng)方法被提出。例如,DeVries和Taylor提出了Cutout算法[41],即隨機(jī)裁剪圖像中一個(gè)正方形補(bǔ)丁,并將其替換為“0”像素,通過(guò)掩蔽將噪聲引入圖像中,使卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)噪聲圖像更具穩(wěn)健性,然而,這類方法可能導(dǎo)致圖像像素信息丟失[42]。Zhang等提出了Mixup算法[43],通過(guò)按照一定比例對(duì)兩幅圖像執(zhí)行凸線性插值[27],然后將它們?nèi)诤系叫碌挠?xùn)練樣本中,提高了模型的泛化能力。Yun等提出了Cutmix算法[44],將另一個(gè)輸入圖像的裁剪區(qū)域疊加到補(bǔ)丁區(qū)域上,解決了裁剪算法中像素信息丟失的問(wèn)題。
Bochkovskiy等在Cutmix算法基礎(chǔ)上提出了傳統(tǒng)Mosaic算法[45],該算法與Cutmix算法在理論上有一定相似性。Cutmix算法是裁剪和拼接數(shù)據(jù)集中2個(gè)圖像,而Mosaic算法是將4個(gè)圖像拼接成一個(gè)新圖像。使用多幅圖像拼接主要有兩個(gè)目的,一是增加圖像內(nèi)容復(fù)雜度,二是增加圖像中目標(biāo)物體數(shù)量[31]。這些算法都可以提升訓(xùn)練模型檢測(cè)性能和泛化能力[42]。此外,由于傳統(tǒng)Mosaic算法將4個(gè)圖像拼接為一個(gè)圖像,因此在批量歸一化計(jì)算激活統(tǒng)計(jì)[46]操作期間,每一層都可以處理4個(gè)圖像數(shù)據(jù),從而降低對(duì)訓(xùn)練設(shè)備的性能要求。
傳統(tǒng)Mosaic算法主要包括以下5個(gè)圖像處理步驟(見(jiàn)圖5)。①?gòu)脑紙D片集中隨機(jī)選取4幅原始圖片作為拼接圖像;②對(duì)原始圖片應(yīng)用隨機(jī)變換以獲得變換后圖像,例如做圖片縮放、翻轉(zhuǎn)等處理;③使用隨機(jī)函數(shù)在創(chuàng)建的Mosaic圖像上獲得中心點(diǎn)拼接坐標(biāo)(xc, yc);④圍繞中心點(diǎn)拼接坐標(biāo),按照左上、右上、左下、右下的順序,將第二步變換后的圖像放入Mosaic圖像中;⑤裁剪Mosaic圖像的周邊,得到最終的Mosaic圖像。
然而,針對(duì)甲骨文目標(biāo)檢測(cè)領(lǐng)域,傳統(tǒng)Mosaic算法在處理甲骨文圖像中也存在一些不足,主要表現(xiàn)在以下幾個(gè)方面。
1)拼接圖數(shù)量有限。每張Mosaic圖像只包含4張拼接圖,如果用于處理單字符甲骨文圖片集,每張Mosaic圖像只包含4個(gè)甲骨文字符。
2)Mosaic圖像多樣性和差異性不足。傳統(tǒng)Mosaic算法中,確定拼接點(diǎn)坐標(biāo)后,4個(gè)拼接圖的位置也隨即固定,這在一定程度上影響了圖片的多樣性。
3)存在較大面積空白背景。空白背景是在Mosaic圖像初始化時(shí)創(chuàng)建的,傳統(tǒng)Mosaic算法處理后的圖像由4幅拼接圖組成,但受到中心點(diǎn)拼接位置和拼接圖像本身尺寸影響當(dāng)中心點(diǎn)拼接位置靠近Mosaic圖像邊界或拼接圖像本身尺寸較小時(shí),拼接圖像無(wú)法覆蓋整個(gè)區(qū)域,生成的Mosaic圖像中容易出現(xiàn)大面積的空白背景。空白背景中不存在有價(jià)值的目標(biāo)物體,當(dāng)Mosaic圖像中出現(xiàn)大面積空白背景時(shí),將減少M(fèi)osaic圖像中包含的信息量[42]。
4)很多超出邊界的圖像被裁剪掉。由于甲骨文圖像的特殊性標(biāo)注框內(nèi)的甲骨文應(yīng)盡量在Mosaic圖像中較為完整展示,而傳統(tǒng)Mosaic算法對(duì)于拼接后超出Mosaic圖像的內(nèi)容將被裁剪掉,這可能導(dǎo)致信息丟失并影響模型結(jié)果。
2 動(dòng)態(tài)兩階段Mosaic算法
本文提出了動(dòng)態(tài)兩階段Mosaic算法,重點(diǎn)針對(duì)傳統(tǒng)Mosaic算法[45]在處理甲骨文圖像中存在的不足做出以下幾點(diǎn)改進(jìn)。
1)針對(duì)“拼接圖數(shù)量有限”的不足,利用單字符甲骨文圖片,通過(guò)兩次動(dòng)態(tài)Mosaic算法處理,增加拼接圖像數(shù)量,實(shí)現(xiàn)了一張Mosaic圖像包含16個(gè)單字符甲骨文,從而增加Mosaic圖像內(nèi)容復(fù)雜性和信息量,使其更適合于甲骨文目標(biāo)檢測(cè)任務(wù)需要。
2)針對(duì)“Mosaic圖像多樣性和差異性不足”,在第一階段動(dòng)態(tài)Mosaic處理時(shí),除沿用傳統(tǒng)Mosaic算法對(duì)拼接點(diǎn)坐標(biāo)進(jìn)行隨機(jī)調(diào)整外,本文還加入了隨機(jī)變量對(duì)4張拼接圖的擺放位置進(jìn)行了隨機(jī)動(dòng)態(tài)調(diào)整,確保即便拼接點(diǎn)坐標(biāo)確定后,4個(gè)拼接圖的擺放位置仍然是隨機(jī)的,從而增加了Mosaic圖像的多樣性。
傳統(tǒng)Mosaic算法在拼接點(diǎn)坐標(biāo)確定以后,4張拼圖是在拼接點(diǎn)坐標(biāo)處進(jìn)行拼接的。而本文在第一階段動(dòng)態(tài)Mosaic處理時(shí),當(dāng)拼接點(diǎn)坐標(biāo)確定后,對(duì)4張拼接圖擺放位置不再是在拼接點(diǎn)位置,而是進(jìn)一步做了動(dòng)態(tài)調(diào)整,讓4個(gè)拼接圖在Mosaic圖像中隨機(jī)擺放,并且讓4張拼接圖均至少有3/4的區(qū)域在Mosaic圖像中顯示。
如圖6所示,要確定Mosaic圖像左上拼接圖的擺放位置,只需計(jì)算拼接圖左邊線和上邊線分別與Mosaic圖像的左邊線和上邊線的距離(dxi1和dyi1)。其中dxi1和dyi1由隨機(jī)函數(shù)計(jì)算得到,從而實(shí)現(xiàn)拼接圖的動(dòng)態(tài)隨機(jī)擺放,公式為
dxi1=rand(-14×nwi1,w×xci-34×nwi1)
dyi1=rand(-14×nhi1,h×yci-34×nhi1)(1)
其中,函數(shù)rand(a,b)是隨機(jī)函數(shù),a是隨機(jī)函數(shù)的下限(最小值),b是隨機(jī)函數(shù)的上限(最大值)。w和h分別為Mosaic圖像的寬和高,是一個(gè)確定值。(xci,yci)為第i張Mosaic圖像拼接點(diǎn)坐標(biāo)相對(duì)于Mosaic圖像寬和高的比例,這兩個(gè)數(shù)據(jù)由隨機(jī)函數(shù)產(chǎn)生,其中xci=rand(0.3,0.7),yci=rand(0.3,0.7)。nwi1和nhi1分別為第i張Mosaic圖像中第1個(gè)拼接圖(左上)的寬和高,由于拼接圖原來(lái)的寬和高是確定值,當(dāng)拼接圖縮放比例確定后,nwi1和nhi1的值也隨之確定。從式(1)可看出,dxi1和dyi1是一個(gè)動(dòng)態(tài)隨機(jī)數(shù)。
同理,右上拼接圖左邊線和上邊線分別與Mosaic圖像的左邊線和上邊線的距離(dxi2和dyi2)計(jì)算公式為
dxi2=rand(w×xci-14×nwi2,w-34×nwi2)
dyi2=rand(-14×nhi2,h×yci-34×nhi2)
左下拼接圖左邊線和上邊線分別與Mosaic圖像的左邊線和上邊線的距離(dxi3和dyi3)計(jì)算公式為
dxi3=rand(-14×nwi3,w×xci-34×nwi3)
dyi3=rand(h×yci-14×nhi3,h-34×nhi3)
右下拼接圖左邊線和上邊線分別與Mosaic圖像的左邊線和上邊線的距離(dxi4和dyi4)計(jì)算公式為
dxi4=rand(w×xci-14×nwi4,w-34×nwi4)
dyi4=rand(h×yci-14×nhi4,h-34×nhi4)
3)針對(duì)“存在較大面積空白背景”的不足,在第二階段動(dòng)態(tài)Mosaic處理時(shí),對(duì)4張拼接圖大小進(jìn)行了動(dòng)態(tài)調(diào)整,通過(guò)動(dòng)態(tài)調(diào)整拼接圖像尺寸來(lái)填補(bǔ)Mosaic圖像中空白背景,使得4個(gè)拼圖能覆蓋Mosaic圖像,避免出現(xiàn)過(guò)多空白背景,增強(qiáng)了Mosaic圖片的信息量。
動(dòng)態(tài)兩階段Mosaic算法的第二階段主要是動(dòng)態(tài)調(diào)整拼接圖的圖片大小,減少M(fèi)osaic圖像中無(wú)價(jià)值區(qū)域的比例,增加圖像內(nèi)容復(fù)雜度。經(jīng)過(guò)動(dòng)態(tài)一階段Mosaic處理后,可得到如圖7的Mosaic圖像。這些圖像已標(biāo)注了位置信息和類別信息。但一張Mosaic圖像只有4個(gè)標(biāo)注框,對(duì)于甲骨文目標(biāo)檢測(cè)任務(wù)而言,圖像的豐富度不夠,因此進(jìn)一步對(duì)傳統(tǒng)Mosaic算法進(jìn)行改進(jìn),進(jìn)行動(dòng)態(tài)兩階段Mosaic處理。
在動(dòng)態(tài)兩階段Mosaic算法的第二階段中,拼接圖縮放比例不是固定值,而是計(jì)算機(jī)通過(guò)判斷拼接點(diǎn)坐標(biāo),按照拼接點(diǎn)坐標(biāo)位置對(duì)拼接圖進(jìn)行動(dòng)態(tài)縮放處理,從而避免過(guò)多空白背景產(chǎn)生。
動(dòng)態(tài)兩階段Mosaic算法第二階段中,4張拼接圖的縮放公式如下。
左上拼接圖:
nwi1=w×xcinhi1=h×yci
左下拼接圖:
nwi2=w×xcinhi2=h×(1-yci)
右下拼接圖:
nwi3=w×(1-xci)nhi3=h×(1-yci)
右上拼接圖:
nwi4=w×(1-xci)nhi4=h×yci
其中,nwi1、nhi1分別表示左上拼接圖縮放后的寬和高(其他拼圖類推)。w、h表示Mosaic圖像的寬和高。(xci,yei)為第i張Mosaic圖像拼接點(diǎn)坐標(biāo),相對(duì)于Mosaic圖像寬和高的比例,這兩個(gè)數(shù)據(jù)由隨機(jī)函數(shù)產(chǎn)生,其中xci=rand(0.3,0.7),yci=rand(0.3,0.7)。
通過(guò)該階段處理后的Mosaic圖像如圖8所示,從圖中可以看出,經(jīng)過(guò)動(dòng)態(tài)兩階段Mosaic算法處理后,Mosaic圖像背景的空白區(qū)域較小,圖片中的甲骨文排列相對(duì)無(wú)序,單字符甲骨文大小也是隨機(jī)的,所有圖像均包含了位置和分類信息的標(biāo)注框,且標(biāo)注框至少約3/4的區(qū)域在Mosaic拼圖中展示。
4)針對(duì)“很多超出邊界的圖像被裁剪掉”的不足,對(duì)傳統(tǒng)Mosaic算法的參數(shù)進(jìn)行調(diào)整,保留了傳統(tǒng)Mosaic算法關(guān)于圖片縮放的操作,但將拼接圖的縮放比例調(diào)整為只允許縮小而不做放大(因?yàn)榉糯蠛螅赡艹霈F(xiàn)拼圖超出Mosaic圖像而被裁掉的情況),同時(shí)設(shè)置拼接圖隨意擺放位置的上下限,確保4個(gè)拼圖均至少有3/4的區(qū)域在Mosaic圖像中顯示,從而確保拼接圖大部分區(qū)域在Mosaic圖像中顯示。
3 甲骨文大規(guī)模數(shù)據(jù)集生成方法
制作甲骨文目標(biāo)檢測(cè)大規(guī)模數(shù)據(jù)集,傳統(tǒng)工作流程是搜集大量甲骨文圖像,用標(biāo)注軟件(如Labelimg軟件)逐字符進(jìn)行標(biāo)注,除標(biāo)注位置信息外,還需對(duì)每個(gè)甲骨文進(jìn)行正確分類,這需要大量工作量,并且要求一定的甲骨文專業(yè)基礎(chǔ)。而本文甲骨文大規(guī)模數(shù)據(jù)集生成方法,從單字符甲骨文圖像入手,流程化、智能化生成大規(guī)模可應(yīng)用于甲骨文目標(biāo)檢測(cè)任務(wù)的數(shù)據(jù)集。工作流程大致分為4個(gè)階段:甲骨文單字符圖片集制作;單字符圖片集處理(數(shù)據(jù)增強(qiáng)和智能標(biāo)注);大規(guī)模數(shù)據(jù)集生成(運(yùn)用動(dòng)態(tài)兩階段Mosaic算法);數(shù)據(jù)集動(dòng)態(tài)調(diào)整(見(jiàn)圖9)。
3.1 甲骨文單字符圖片集制作
本文采用的原始圖片主要來(lái)源于中國(guó)國(guó)家博物館的館藏甲骨文圖片和殷墟文淵OBC306數(shù)據(jù)集。
通過(guò)人工標(biāo)注了118張中國(guó)國(guó)家博物館館藏甲骨文圖片,截取出其中單字符甲骨文圖片,每張單字符甲骨文圖片對(duì)應(yīng)一個(gè)甲骨文字符,共計(jì)1 000余張甲骨文單字符圖片。采用傳統(tǒng)數(shù)據(jù)增強(qiáng)方法將這些圖片的數(shù)量增強(qiáng)到了近2萬(wàn)張。進(jìn)一步將這近2萬(wàn)張圖片與殷墟文淵0BC306數(shù)據(jù)集進(jìn)行融合,最終得到了416類、共計(jì)36萬(wàn)多張甲骨文單字符圖片,最后將這些圖片統(tǒng)一為同一大小,最終形成甲骨文單字符圖片集。具體流程如下。
1)對(duì)中國(guó)國(guó)家博物館館藏甲骨文圖片進(jìn)行數(shù)據(jù)標(biāo)注。選取中國(guó)國(guó)家博物館館藏118張甲骨文圖片,人工進(jìn)行標(biāo)注和分類,從而得到了118張甲骨文圖片的位置和分類信息,涉及164個(gè)字符,標(biāo)注后的圖片如圖10(b)所示。
2)對(duì)標(biāo)注后的館藏甲骨文圖片截取出單字符甲骨文。對(duì)標(biāo)注后的館藏圖片,先分割出單個(gè)字符,并對(duì)字符進(jìn)行分類存放,最終從118張圖片中截取出1 000余張共計(jì)164類甲骨文字符。
3)對(duì)單字符甲骨文圖片進(jìn)行數(shù)據(jù)增強(qiáng)。對(duì)這些單字符圖片進(jìn)行旋轉(zhuǎn)、左右翻轉(zhuǎn)、上下翻轉(zhuǎn)、增加噪聲(椒鹽噪聲、高斯噪聲)、變亮變暗、拉伸、隨機(jī)透視、顏色翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)操作,將圖片數(shù)量加到了近2萬(wàn)張。
4)將數(shù)據(jù)增強(qiáng)后的單字符圖片與殷墟文淵OBC306圖片集融合。將數(shù)據(jù)增強(qiáng)后的單字符圖片集與殷墟文淵OBC306圖片集融合,最終形成甲骨文融合圖片集,該融合圖片集包含了32萬(wàn)余張單字符圖片,共416類。但這些圖片像素不一致,圖片像素分布如圖11所示。
5)對(duì)融合圖片集進(jìn)行數(shù)據(jù)增強(qiáng)。對(duì)第4步得到的融合數(shù)據(jù)集,選擇不高于10%的比例進(jìn)行圖片翻轉(zhuǎn),翻轉(zhuǎn)的角度在(-45°~45°)之間。數(shù)據(jù)增強(qiáng)后,新增了3萬(wàn)多張單字符圖片,此時(shí)共有36萬(wàn)多張單字符的甲骨文融合圖片。
6)將融合圖片統(tǒng)一為同一大小,并進(jìn)行背景填充。為了便于后續(xù)的Mosaic處理,在不扭曲單字符圖片的情況下將圖片統(tǒng)一為同一像素(本文統(tǒng)一像素為224×224)。即制作一個(gè)像素為224×224的背景圖,將所有單字符圖片等比例縮放或放大,并放置在背景圖中間,為了圖片的多樣性,背景圖空白區(qū)域的像素采用隨機(jī)生成方式,即隨機(jī)從單字符圖片中選擇一個(gè)點(diǎn)的像素作為背景圖填充像素值。最終處理后產(chǎn)生了如圖12的甲骨文單字符圖片。
3.2 甲骨文單字符圖片集智能標(biāo)注
甲骨文單字符圖片沒(méi)有標(biāo)注信息,如果對(duì)36萬(wàn)多張圖片進(jìn)行人工標(biāo)注,工作量和難度極其巨大。本文通過(guò)計(jì)算機(jī)批量處理對(duì)單字符圖片進(jìn)行智能標(biāo)注。
首先,用Labelimg軟件人工標(biāo)注一張圖片,生成標(biāo)注文件,批量復(fù)制該文件,使標(biāo)注文件數(shù)量與單字符圖片數(shù)量相同。其次,批量修改每個(gè)標(biāo)注文件的內(nèi)容。將標(biāo)注文件的文件名修改成與圖片文件名一致,標(biāo)注文件路徑相應(yīng)修改;將標(biāo)注文件中的size參數(shù)修改為與圖片大小一致,為224×224;標(biāo)注文件的類別名(name)修改為圖片的類別名;將標(biāo)注文件的標(biāo)注框(bdbox)參數(shù)分別修改為與單字符圖片中甲骨文字符所在位置一致。通過(guò)復(fù)制和智能修改標(biāo)注文件,最終實(shí)現(xiàn)對(duì)所有單字符的圖片進(jìn)行智能標(biāo)注。
其中,標(biāo)注框的坐標(biāo)信息公式為
xmini=w2-γi2+α
xmaxi=w2-γi2-α
ymini=h2-βi2+α
ymaxi=h2-βi2-α
其中, xmini、 xmaxi、 ymini、 ymaxi分別表示第i張圖片標(biāo)注框的坐標(biāo)點(diǎn)信息, 也就是標(biāo)注文件中需要修改的標(biāo)注框坐標(biāo)信息。 w、 h分別表示Mosaic圖像的寬和高,本文分別為224和224。 γi、 βi分別表示單字符縮放后的寬和高。 α為較小的常數(shù), 是為避免邊框與單字符圖片大小完全重合而設(shè)置的, 本文設(shè)置為3。 標(biāo)注后的單字符圖片如圖13所示。
3.3 大規(guī)模數(shù)據(jù)集生成
標(biāo)注后的甲骨文單字符圖片,具備了位置信息和分類信息,但每張圖片均為一個(gè)甲骨文字符。運(yùn)用本文提出的動(dòng)態(tài)兩階段Mosaic算法對(duì)甲骨文單字符圖片集進(jìn)行處理,可生成大規(guī)模甲骨文目標(biāo)檢測(cè)數(shù)據(jù)集。
首先,進(jìn)行動(dòng)態(tài)一階段Mosaic處理。設(shè)置生成圖片的數(shù)量為50萬(wàn)張,生成圖片大小統(tǒng)一為224×224。處理后的圖片如圖7所示。
其次,進(jìn)行動(dòng)態(tài)二階段Mosaic處理。對(duì)動(dòng)態(tài)一階段Mosaic處理后的圖片,進(jìn)一步做動(dòng)態(tài)Mosaic處理,設(shè)置生成圖片的數(shù)量同樣為50萬(wàn)張,生成圖片的大小統(tǒng)一為448×448,這50萬(wàn)張甲骨文圖像中共涉及416類共計(jì)800萬(wàn)個(gè)甲骨文字符。處理后的圖片示例如圖8所示。
3.4 數(shù)據(jù)集動(dòng)態(tài)調(diào)整
由于甲骨文單字符圖片類別間分布不均衡,加上Mosaic算法是從原始圖片集中隨機(jī)抽取圖片進(jìn)行處理的,經(jīng)過(guò)兩階段Mosaic處理后的甲骨文圖像集可能存在類別間樣本分布不均衡的情況,因此需要對(duì)數(shù)據(jù)集進(jìn)行動(dòng)態(tài)調(diào)整,具體方法如下。
將各個(gè)類別(416類)的樣本量從小到大排序,選擇低于第一四分位數(shù)的類別,分別對(duì)這些類別的單字符甲骨文進(jìn)行數(shù)據(jù)增強(qiáng),并采用動(dòng)態(tài)兩階段Mosaic算法生成甲骨文圖像,生成的圖片數(shù)量設(shè)定為第二分位數(shù)的值,生成后加入之前的圖像集中。同樣的方法做第二次動(dòng)態(tài)調(diào)整,可根據(jù)需要多次做數(shù)據(jù)集動(dòng)態(tài)調(diào)整,從而解決樣本分布不均衡問(wèn)題。
經(jīng)過(guò)兩次數(shù)據(jù)集動(dòng)態(tài)調(diào)整后,共生成57萬(wàn)張甲骨文圖像和57萬(wàn)份標(biāo)注文件,每個(gè)標(biāo)注文件對(duì)應(yīng)一張圖像,并標(biāo)注了每張圖像中每個(gè)甲骨字符所在位置和甲骨文對(duì)應(yīng)的分類,數(shù)據(jù)集共涉及甲骨文字符416類,每個(gè)類別中樣本量最少的一類包含516個(gè)字符。從樣本分布情況看,多數(shù)樣本分布相對(duì)均衡(見(jiàn)圖14),Sun等[25]認(rèn)為,隨著預(yù)訓(xùn)練數(shù)據(jù)量的擴(kuò)大,性能呈對(duì)數(shù)增長(zhǎng),但發(fā)現(xiàn)類別的大小對(duì)模型的表現(xiàn)影響不大,Shahinfar等[47]認(rèn)為,在資源有限的情況下,每類150~500張圖像足以實(shí)現(xiàn)特定模型的合理分類精度,由此看出,本文生成的甲骨文大規(guī)模數(shù)據(jù)集基本符合甲骨文目標(biāo)檢測(cè)任務(wù)的需要。
4 實(shí)驗(yàn)
本文采用YOLOv8模型來(lái)檢驗(yàn)數(shù)據(jù)集的有效性。YOLO[48]系列網(wǎng)絡(luò)模型在目標(biāo)檢測(cè)領(lǐng)域具有較好表現(xiàn),其中YOLOv8網(wǎng)絡(luò)[49]是比較先進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)之一,2023年由Ultralytics公司發(fā)布。模型訓(xùn)練所用數(shù)據(jù)集為本文方法生成的57萬(wàn)張甲骨文圖像和57萬(wàn)份標(biāo)注文件,類別數(shù)為416類。本文數(shù)據(jù)集開(kāi)源地址:https:∥github.com/windbrown/Dynamic-Mosaic-Oracle-Bone-Dataset。
4.1 實(shí)驗(yàn)環(huán)境及參數(shù)配置
本文訓(xùn)練模型進(jìn)行了200次迭代,每批次輸入圖片數(shù)量大小為16,采用隨機(jī)梯度(SGD)下降優(yōu)化器,采用現(xiàn)行學(xué)習(xí)率調(diào)度策略,初始學(xué)習(xí)率為0.01,最終學(xué)習(xí)率為0.000 1。warm epochs為3.0,動(dòng)量參數(shù)為0.8,用于加速訓(xùn)練過(guò)程,權(quán)重衰減系數(shù)為0.000 5。其中,環(huán)境配置為操作系統(tǒng)為windows10,64位;CPU型號(hào)為Intel(R) Xeon(R) Platinum 8362 CPU @ 2.80 GHz;GPU型號(hào)為RTX 3090(24 GiB);運(yùn)行內(nèi)存為45 GiB;編程語(yǔ)言為Python3.8.0;采用PyTorch2.0.2深度學(xué)習(xí)框架,GPU加速庫(kù)為CUDA11.8。
4.2 模型評(píng)價(jià)指標(biāo)
精確率(Precision)計(jì)算公式如式(2)所示,精確率的分子為真正例(true positive,TP),即正確預(yù)測(cè)為正例的數(shù)量,分母則是TP加上假正例(1 positive,F(xiàn)P),即錯(cuò)誤預(yù)測(cè)為正例的數(shù)量。
Precision=TPTP+FP(2)
召回率(Recall)計(jì)算公式如式(3)所示,隨著召回率的增加,假負(fù)例(1 negative,F(xiàn)N)的數(shù)目降低,表明把正例錯(cuò)判為負(fù)例的情況變少,意味著實(shí)際正例被成功識(shí)別的比例更高。因此,較高的召回率反映了更低的漏檢率。
Recall=TPTP+FN(3)
將每個(gè)類別的準(zhǔn)確率Precision和召回率Recall繪制成P-R曲線,對(duì)該曲線進(jìn)行積分以后,就得到了平均精度(average precision,AP),如式(4)所示。
AP=∫10P(r)dr(4)
平均精度均值(mean average precision,mAP)計(jì)算公式如式(5)所示,是將所有類別的平均精度進(jìn)行匯總?cè)∑骄蟮玫降闹笜?biāo)。AP衡量的是單個(gè)類別預(yù)測(cè)準(zhǔn)確性的標(biāo)準(zhǔn),而mAP(mean average precision)綜合了所有類別的AP,從而評(píng)估模型整體的預(yù)測(cè)性能。mAP(式中用mAP表示)值的提升意味著精確率召回率(PR)曲線與坐標(biāo)軸之間的區(qū)域面積增加。
mAP=1N∑Ni=1APi(5)
其中,APi表示第i個(gè)類別的AP值,N表示類別數(shù)量。
4.3 模型訓(xùn)練結(jié)果分析
首先,從模型評(píng)價(jià)指標(biāo)看,經(jīng)過(guò)200批次訓(xùn)練后,模型精度(Precision)達(dá)到96.45%,mAP50值為97.75%,mAP50-95值為96.96%,表明模型訓(xùn)練效果較好。
其次,分析訓(xùn)練曲線的損失函數(shù)和評(píng)估指標(biāo)趨勢(shì)。損失函數(shù)是機(jī)器學(xué)習(xí)中評(píng)估模型預(yù)測(cè)準(zhǔn)確性的關(guān)鍵指標(biāo),它表明了模型預(yù)測(cè)結(jié)果與真實(shí)值之間的偏差。圖15為YOLOv8模型在訓(xùn)練過(guò)程中損失和性能指標(biāo)的變化情況,圖中可看出,訓(xùn)練集和驗(yàn)證集上的邊界框損失(box-loss)、分類損失(cls-loss)和目標(biāo)定位損失(dfl-loss)都隨著訓(xùn)練的進(jìn)行而快速降低并趨于穩(wěn)定,表明模型在學(xué)習(xí)過(guò)程中持續(xù)改進(jìn),對(duì)目標(biāo)的檢測(cè)和分類能力在持續(xù)增強(qiáng)。損失函數(shù)曲線的平滑下降和收斂表明訓(xùn)練過(guò)程是穩(wěn)定的,沒(méi)有出現(xiàn)過(guò)擬合或欠擬合的情況,這對(duì)于模型泛化能力是一個(gè)積極的信號(hào)。從精確度(Precision)和召回率(Recall)看,二者都隨訓(xùn)練進(jìn)行而逐步提高,說(shuō)明模型在識(shí)別真正的目標(biāo)方面越來(lái)越精準(zhǔn),同時(shí)減少了漏檢的情況。
最后,分析模型的平均精度(mAP)指標(biāo),特別是mAP50和mAP50-95指標(biāo)。 mAP50度量了IoU(交并比)閾值為50%時(shí)模型的平均精度,而mAP50-95則計(jì)算了在IoU從50%到95%這一范圍內(nèi)不同閾值的平均精度。從圖16可以看出,這兩個(gè)指標(biāo)穩(wěn)步上升,表明該模型在各種閾值下都表現(xiàn)出色。
整體而言,利用YOLOv8模型對(duì)本文生成的數(shù)據(jù)集進(jìn)行訓(xùn)練,模型精度較高,模型訓(xùn)練過(guò)程表現(xiàn)出較好的穩(wěn)定性和高效性。損失函數(shù)下降趨勢(shì)以及精確度和召回率的提升,都表明模型的性能在持續(xù)提高。此外,mAP指標(biāo)的提高也反映了模型在不同IoU閾值下都保持了良好的檢測(cè)精度。可見(jiàn),運(yùn)用本文技術(shù)和流程生成的甲骨文大規(guī)模數(shù)據(jù)集,在目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用相對(duì)成功。
5 結(jié)論
針對(duì)當(dāng)前甲骨文目標(biāo)檢測(cè)研究任務(wù)中用于深度學(xué)習(xí)的大規(guī)模數(shù)據(jù)集較為匱乏等問(wèn)題,本文提出了動(dòng)態(tài)兩階段Mosaic算法,綜合使用了中國(guó)國(guó)家博物館館藏甲骨文圖像和殷墟文淵0BC306數(shù)據(jù)庫(kù)數(shù)據(jù),設(shè)計(jì)了一套較為科學(xué)有效的大規(guī)模數(shù)據(jù)集生成流程,通過(guò)本文提出的大規(guī)模數(shù)據(jù)集生成方法和流程,可生成標(biāo)注了位置和分類信息的大規(guī)模甲骨文圖像集。從生成的甲骨文大規(guī)模圖像數(shù)據(jù)集來(lái)看,一是生成的圖像信息完整,每張甲骨文圖像均標(biāo)注了深度學(xué)習(xí)所需的甲骨文字符的位置信息和分類信息,并且一定程度上解決了傳統(tǒng)Mosaic算法在甲骨文圖像處理中存在的問(wèn)題。二是生成的圖像數(shù)量理論上沒(méi)有上限,從而滿足了甲骨文深度學(xué)習(xí)的數(shù)據(jù)量要求。三是在平衡類別間樣本數(shù)量時(shí),可以結(jié)合數(shù)據(jù)增強(qiáng)方法進(jìn)行動(dòng)態(tài)調(diào)整,從而解決了樣本分布不均衡問(wèn)題。運(yùn)用本文的流程和方法,生成了包含57萬(wàn)張甲骨文圖像的目標(biāo)檢測(cè)數(shù)據(jù)集,為驗(yàn)證技術(shù)的可行性,本文采用YOLOv8模型,訓(xùn)練本文生成的大規(guī)模數(shù)據(jù)集,從訓(xùn)練結(jié)果看,模型的精度較高(Precision值為96.45%,mAP50值為97.75%,mAP50-95值為96.96%)。從模型訓(xùn)練曲線看,訓(xùn)練過(guò)程表現(xiàn)出較好穩(wěn)定性和高效性。模型訓(xùn)練結(jié)果表明,本文數(shù)據(jù)集生成技術(shù)可應(yīng)用于甲骨文目標(biāo)檢測(cè)研究。
參考文獻(xiàn)
[1] 耿國(guó)華, 馮龍, 李康, 等. 秦陵文物數(shù)字化及虛擬復(fù)原研究綜述[J]. 西北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 51(5): 710-721.
GENG G H, FENG L, LI K, et al. A literature review on the digitization and virtual restoration of cultural relics in the Mausoleum of Emperor Qinshihuang [J]. Journal of Northwest University (Natural Science Edition), 2021, 51(5): 710-721.
[2] FLAD R K. Divination and power: A multiregional view of the development of oracle bone divination in early China[J]. Current Anthropology, 2008, 49(3): 403-437.
[3] HUANG S P, WANG H B, LIU Y G, et al. OBC306: A large-scale oracle bone character recognition dataset[C]∥2019 International Conference on Document Analysis and Recognition (ICDAR). September 20-25, 2019. Sydney, Australia. IEEE, 2019: 681-688.
[4] CHINASAGE. Early Chinese writing on oracle bones[R/OL]. (2021-02-10)[2024-07-07].https:∥www.chinasage.info/oracle-bones.htm.
[5] ZHANG C S, ZONG R X, CAO S, et al. AI-powered oracle bone inscriptions recognition and fragments rejoining[C]∥Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence. January 7-15, 2021. Yokohama, Japan: ACM, 2021: 5309-5311.
[6] GAO F, ZHANG J P, LIU Y G, et al. Image translation for oracle bone character interpretation[J]. Symmetry, 2022, 14(4): 743.
[7] ZHEN Q Q, WU L, LIU G Y. An oracle bone inscriptions detection algorithm based on improved YOLOv8[J]. Algorithms, 2024, 17(5): 174.
[8] 顧紹通. 基于拓?fù)渑錅?zhǔn)的甲骨文字形識(shí)別方法[J]. 計(jì)算機(jī)與數(shù)字工程, 2016, 44(10): 2001-2006.
GU S T. Identification of oracle-bone script fonts based on topological registration[J]. Computer & Digital Engineering, 2016, 44(10): 2001-2006.
[9] 劉永革, 劉國(guó)英. 基于SVM的甲骨文字識(shí)別[J].安陽(yáng)師范學(xué)院學(xué)報(bào), 2017(2): 54-56.
LIU Y G, LIU G Y. Oracle bone inscription recognition based on SVM[J].Journal of Anyang Normal University, 2017(2): 54-56.
[10]顧紹通. 基于分形幾何的甲骨文字形識(shí)別方法[J]. 中文信息學(xué)報(bào), 2018, 32(10): 138-142.
GU S T. Identification of oracle-bone script fonts based on fractal geometry[J].Journal of Chinese Information Processing, 2018, 32(10): 138-142.
[11]邢濟(jì)慈. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的甲骨文字檢測(cè)技術(shù)研究[D]. 鄭州: 鄭州大學(xué), 2020.
[12]王琦琦. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的甲骨文精確識(shí)別[D]. 南昌:江西科技師范大學(xué), 2021.
[13]高旭. 基于卷積神經(jīng)網(wǎng)絡(luò)的甲骨文識(shí)別研究與應(yīng)用[D]. 長(zhǎng)春: 吉林大學(xué), 2021.
[14]毛亞菲, 畢曉君. 改進(jìn)ResNeSt網(wǎng)絡(luò)的拓片甲骨文字識(shí)別[J]. 智能系統(tǒng)學(xué)報(bào), 2023, 18(3): 450-458.
MAO Y F, BI X J. Rubbing oracle bone character recognition based on improved ResNeSt network[J]. CAAI Transactions on Intelligent Systems, 2023, 18(3): 450-458.
[15]王浩彬. 基于深度學(xué)習(xí)的甲骨文檢測(cè)與識(shí)別研究[D]. 廣州: 華南理工大學(xué), 2019.
[16]CHEUNGC. The Chinese history that is written in bone[R/OL]. (2018-01-23)[2024-07-10].https:∥www.sapiens.org/archaeology/chinese-oracle-bones-history/.
[17] LI B, DAI Q W, GAO F, et al. HWOBC-a handwriting oracle bone character recognition database[J]. Journal of Physics: Conference Series, 2020, 1651(1): 012050.
[18]殷契文淵. 甲骨文字檢測(cè)數(shù)據(jù)集[DB/OL]. (2020-09-23)[2023-07-14].http:∥jgw.aynu.edu.cn/home/down/detail/index.html?sysid=3.
[19]陳婷珠. 殷商甲骨文字形系統(tǒng)再研究[D]. 上海: 華東師范大學(xué), 2007.
[20]劉芳, 李華飆, 馬晉, 等. 基于Mask R-CNN的甲骨文拓片的自動(dòng)檢測(cè)與識(shí)別研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2021, 5(12): 88-97.
LIU F, Li H B, MA J, et al. Automatic detection and recognition of oracle rubbings based on Mask R-CNN[J]. Data Analysis and Knowledge Discovery, 2021, 5(12): 88-97.
[21]GUO J, WANG C H, ROMAN-RANGEL E, et al. Building hierarchical representations for oracle character and sketch recognition[J]. IEEE Transactions on Image Processing, 2016, 25(1): 104-118.
[22]IZUMI T, MENG L. A combined recognition system for oracle bone inscriptions[J]. International Journal of Advanced Mechatronic Systems, 2017, 7(4): 235.
[23]臺(tái)灣歷史語(yǔ)言研究所. 甲骨文數(shù)位典藏資料庫(kù)[DB/OL]. (2020-07-22)[2023-08-22].https:∥rub.ihp.sinica.edu.tw/~oracle/main4.htm.
[24]SHORTEN C, KHOSHGOFTAAR T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1): 60.
[25]SUN C, SHRIVASTAVA A, SINGH S, et al. Revisiting unreasonable effectiveness of data in deep learning era[C]∥2017 IEEE International Conference on Computer Vision (ICCV). October 22-29, 2017. Venice, Italy: IEEE, 2017: 843-852.
[26]孟憲佳, 傅利平, 劉棟, 等. 高性能計(jì)算發(fā)展現(xiàn)狀及其在文化遺產(chǎn)保護(hù)中的應(yīng)用展望[J]. 西北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 51(5): 807-815.
MENG X J, FU L P, LIU D, et al. Development status of high performance computing and its application prospect in cultural heritage protection[J]. Journal of Northwest University (Natural Science Edition), 2021, 51(5): 80
[27]TAKAHASHI R, MATSUBARA T, UEHARA K. Data augmentation using random image cropping and patching for deep CNNs[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(9): 2917-2931.
[28]ZHANG C Y, BENGIO S, HARDT M, et al. Understanding deep learning (still) requires rethinking generalization[J]. Communications of the ACM, 2021, 64(3): 107-115.
[29]SCHMIDT L, SANTURKAR S, TSIPRAS D, et al. Adversarially robust generalization requires more data[C]∥Proceedings of the 32nd International Conference on Neural Information Processing Systems. December 3-8,2018. Montréal, Canada: ACM, 2018: 5019-5031.
[30]HESTNESS J, NARANG S R, ARDALANI N, et al. Deep learning scaling is predictable, empirically[EB/OL](2017-12-01)[2024-08-08]. http:∥arxiv.org/abs/1712.00409.
[31]SUMMERS C, DINNEEN M J. Improved mixed-example data augmentation[C]∥2019 IEEE winter conference on applications of computer vision (WACV). January 7-11,2019. Hawaii, United States: IEEE, 2019: 1262-1270.
[32]ZHONG Z, ZHENG L, KANG G L, et al. Random erasing data augmentation[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 13001-13008.
[33]NIU J S, CHEN Y F, YU X H, et al. Data augmentation on defect detection of sanitary ceramics[C]∥IECON 2020 The 46th Annual Conference of the IEEE Industrial Electronics Society. October 18-21, 2020. Singapore, Singapore: IEEE, 2020: 5317-5322.
[34]INOUE H. Data augmentation by pairing samples for images classification[EB/OL]. (2018-04-11)[2024-08-08]. http:∥arxiv.org/abs/1801.02929.
[35]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[36]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10)[2024-08-08]. http:∥arxiv.org/abs/1409.1556.
[37]HE K M, ZHANG X Y, REN S Q, et al.Deep residual learning for image recognition[EB/OL]. (2015-12-10)[2024-08-08]. http:∥arxiv.org/abs/1512.03385.
[38]HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]∥2017. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017. Honolulu, HI, USA: IEEE, 2017: 2261-2269.
[39]XIE S N, GIRSHICK R, DOLLR P, et al. Aggregated residual transformations for deep neural networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017. Honolulu, HI, USA: IEEE, 2017: 5987-5995.
[40]MORENO-BAREA F J, STRAZZERA F, JEREZ J M, et al. Forward noise adjustment scheme for data augmentation[C]∥2018 IEEE symposium series on computational intelligence (SSCI). November 18-21, 2018. Bangalore, India: IEEE, 2018: 728-734.
[41]DEVRIES T, TAYLOR G W, ASSIRI Y. Improved regularization of convolutional neural networks with cutout[EB/OL].(2017-11-29)[2024-08-08]. http:∥arxiv.org/abs/1708.04552.
[42]LI Y H, CHENG R, ZHANG C Y, et al. Dynamic Mosaic algorithm for data augmentation[J].Mathematical Biosciences and Engineering, 2023, 20(4):7193-7216.
[43]ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: Beyond empirical risk minimization[EB/OL].(2017-11-29)[2024-08-08]. http:∥arxiv.org/abs/1708.04552, 2017.
[44]YUN S, HAN D, OLF S J, et al. CutMix: Regularization strategy to train strong classifiers with localizable features[EB/OL]. (2019-08-07)[2024-08-08]. http:∥arxiv.org/abs/1905.04899.
[45]BOCHKOVSKIY A, WANG C Y, LIAO H M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL].(2020-04-23)[2024-08-08]. http:∥arxiv.org/abs/2004.10934.
[46]IOFFE S, SZEGEDY C, PARANHOS L, et al. Batch normalization: Accelerating deep network training by reducing internal covariate shift[EB/OL].(2015-03-02)[2024-08-08]. http:∥arxiv.org/abs/1502.03167.
[47]SHAHINFAR S, MEEK P, FALZON G. \"How many images do I need?\" Understanding how sample size per class affects deep learning model performance metrics for balanced designs in autonomous wildlife monitoring[J]. Ecological Informatics, 2020, 57: 101085.
[48]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016. Las Vegas, NV, USA: IEEE, 2016: 779-788.
[49]JOCKER G, CHAURASIA A, QIU J. Ultralytics YOLO (Version 8.0.0)[CP/OL].(2023-07-20)[2024-03-17]. https:∥github.com/ultralytics/ultralytics.
(編 輯 邵 煜)
基金項(xiàng)目:古文字與中華文明傳承發(fā)展工程規(guī)劃項(xiàng)目(G1811);國(guó)家語(yǔ)委科研項(xiàng)目(WT145-9)。
第一作者:楊富勇,男,博士后,工程師,從事文物大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)、圖像處理研究,yfy317@163.com。
通信作者:李華飆,男,正高級(jí)工程師,從事圖像處理、文物大數(shù)據(jù)、智慧博物館建設(shè)研究,lihuabiao@chnmuseum.cn。