基于SciBERT-BiLSTM-CRF-wordMixup的軟件實體識別研究

2024-10-08 00:00:00潘雪蓮錢雨菲王憲雨

現代情報 2024年10期

關鍵詞：軟件實體識別；命名實體識別；深度學習；數據增強；ＳｃｉＢＥＲＴ

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２４．１０．００７

〔中圖分類號〕ＴＰ３９１〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０２４）１０－００７５－１１

軟件在現代科學研究中發揮著重要作用，它被用于科學研究的諸多方面，但其學術價值一直被低估甚至忽略。近年來，隨著數據密集型科學研究范式的興起和數據價值認可度的提高，一些學者開始呼吁重視軟件的價值，因為“幾乎所有的數據都需要軟件進行某種形式的處理”［１］。一些國外組織機構也開始將軟件認定為有效科研成果［２－３］，以鼓勵科學家開發和共享軟件。在此背景下，學界開始探討如何量化評價軟件的影響力。一些學者提出使用被引次數來測度軟件的學術影響力［４］。然而研究發現，學術論文中軟件引用缺失嚴重且普遍存在［５－６］。因此，有學者提出用學術論文全文中的軟件使用頻次來評價軟件的學術影響力［７］。隨之而來的問題是，如何從學術論文全文中識別軟件。快速準確地從學術論文全文中識別出軟件實體，將使得從軟件使用視角大規模量化評估軟件學術影響力成為可能，為有關部門將軟件納入科研評價體系提供數據支撐，對深入認識軟件的學術價值、促進科學軟件可持續發展和學術生態體系均衡發展具有重要意義。此外，對學術論文中的軟件實體進行識別和量化分析，也有助于豐富和拓展信息計量學的研究對象，還可以為其他知識實體的識別和計量提供方法參考。

軟件實體在學術論文中的分布非常稀疏，邊界不清晰且形式多變，識別難度較大。早期的軟件實體的識別大多基于人工或規則。基于人工的識別方法具有可靠性高的優點，但是十分耗費時間成本和人力成本，難以滿足多領域大規模的軟件識別需求。基于規則和詞典的方法相較于人工識別能夠節省人力，但是其可擴展性并不高。首先，規則的制定與詞典的生成依賴相關領域專家意見，規則和詞典規模的擴大通常可以提高模型的識別準確率和召回率，但這給專家構建規則帶來了更大負擔；其次，不同研究領域制定的規則和詞典往往難以被其他領域利用，其可擴展性有限；最后，對于軟件實體識別領域而言，提及軟件的模式多變以及新軟件的不斷涌現使得制定普適性的軟件識別規則十分困難。鑒于此，近年來一些學者使用機器學習和深度學習方法來自動識別軟件實體。然而，需要大量人工標注數據訓練模型的有監督的機器學習方法也存在耗時長的缺點，不適合用來處理多領域大規模的軟件識別任務。深度學習方法可以自動學習詞匯語義、上下文依賴關系等，已成為識別命名實體的一種較為有效的方法［８－１０］。因此，一些學者嘗試將深度學習方法引入軟件實體識別領域。例如，ＳｃｈｉｎｄｌｅｒＤ等［１１］在自建的社會科學研究語料庫上，使用ＢｉＬＳＴＭＣＲＦ進行訓練以識別軟件名稱，孫超［１２］使用Ｇｌｏｖｅ－ＢｉＬＳＴＭ－ＣＲＦ、ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ和ＢＥＲＴ－ＢｉＬ?ＳＴＭ－ＧＣＮ－ＣＲＦ模型對軟件工程文本中的軟件實體進行識別。這些研究為基于學術論文全文的軟件實體識別任務提供了借鑒思路。

本研究以學術論文中的軟件實體為研究對象。首先，通過軟件實體定義和ＢＩＯ標注構建軟件實體識別領域語料庫；然后，在此基礎上提出改進的ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ－ｗｏｒｄＭｉｘｕｐ模型并對該模型的識別效果進行評估。此外，本研究還針對人工標注語料庫耗時耗力問題，設計一種基于小型知識庫的程序輔助標注方案。

１相關工作概述

命名實體識別（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ）是自然語言處理中的一個重要基礎任務，旨在從非結構化文本中識別出人名、地名、事件名等具有特定含義的實體并加以歸類，對句法分析、文本分類、機器翻譯等許多自然語言處理下游任務均具有重要的支撐作用［１３］。命名實體識別方法主要包括基于人工識別、基于規則和詞典提取、基于傳統機器學習和基于深度學習的抽取方法。軟件實體不是人名、地名、機構名、時間、日期、貨幣和百分比這些傳統意義上的命名實體，軟件實體形式多樣，在學術論文中邊界不清晰，提及軟件實體的模式多變，且提及軟件的模式也常被用來提及實驗儀器設備和化學試劑等，自動識別難度較大。因此，一些學者采用人工對有限數量論文中的軟件實體進行識別。例如，ＬｉＫ等［１４］為探究ＰＬＯＳＯＮＥ期刊論文中的Ｒ包引用情況，對３９１篇抽樣論文全文文本中的Ｒ包進行人工識別；ＹａｎｇＢ等［１５］采用人工對生物信息學領域期刊論文全文中的軟件實體進行識別，并據此探究科學軟件對生物信息學研究的重要性；孟文靜等［１６］采用人工方法對圖書情報學國際期刊論文中使用的Ｐｙｔｈｏｎ軟件包進行標注，并據此探究Ｐｙｔｈｏｎ軟件工具在圖書情報學領域的應用擴散過程。人工識別軟件實體具有可靠性高的優點，但十分耗費時間和人力，該方法通常僅適用于樣本數量有限的小規模研究，不太適用于針對多學科大規模文本數據的軟件識別任務。

基于規則和詞典的命名實體識別方法比人工識別方法效率高，但由于軟件種類繁多，目前尚無軟件詞典可用且新軟件不斷涌現，基于規則和詞典的方法難以很好地完成軟件實體識別任務。因此，一些學者將基于規則和詞典的方法與機器學習方法相結合來識別非結構化自由文本中的軟件、數據庫等有價值命名實體。例如，ＴｈｅｌｅｎＭ等［１７］提出了一種基于自擴展的命名實體識別方法，該方法只需要少量的種子詞和一個未標注文本語料庫作為輸入。此后，一些學者對該算法進行改進以提高算法性能。ＹａｎｇａｒｂｅｒＲ等［１８］設計出模式精度和模式信度等指標來過濾識別出來的模式和實體，以提高算法精度。然而，刪除小于一定閾值的模式會導致實體抽取的低召回率。ＧｕｐｔａＳ等［１９］通過預判未標注實體的標簽來提高基于自擴展的命名實體識別算法的性能。但是該算法需要借助外部領域詞典完成預判工作，并且該算法將高分模式抽取出的實體全部默認為正確實體，無法從中識別出錯誤實體。ＤｕｃｋＧ等［２０］于２０１３年開發了一種基于規則的命名實體識別器ｂｉｏＮｅｒＤＳ，用于從生物信息學原始文獻中抽取數據庫和軟件名稱，Ｆ１值位于６３％～９１％區間。ＤｕｃｋＧ等［２１］于２０１５年對之前提出的針對數據庫和軟件實體的識別算法進行改進，實驗結果表明，基于詞典的方法Ｆ１值為４６％，而機器學習方法在嚴格匹配和寬松匹配模式下的Ｆ１值分別達６３％和７０％。ＰａｎＸＬ等［６］借鑒ＴｈｅｌｅｎＭ等［１７］和ＧｕｐｔａＳ等［１９］的命名實體識別算法，提出一種改進的基于自擴展的軟件實體自動識別算法，該算法對ＰＬＯＳＯＮＥ期刊論文文本中的軟件實體進行識別，識別效果（Ｆ１值）為５８％。

隨著深度學習技術的不斷發展和應用的日益拓展，一些學者開始將深度學習方法應用于軟件實體識別任務，以提高識別效果。例如，ＳｃｈｉｎｄｌｅｒＤ等［１１］在自建的社會科學研究語料庫上，使用ＢｉＬＳＴＭＣＲＦ進行訓練以識別軟件名稱，該算法在測試集上的Ｆ１值達８２％。ＬｏｐｅｚＰ等［２２］使用ＣＲＦ、ＢｉＬ?ＳＴＭ－ＣＲＦ（包括未加入特征、加入特征、加入ＥＬ?ＭＯ）、ＢＥＲＴ－ＣＲＦ以及ＳＣＩＢＥＲＴ－ＣＲＴ模型對軟件實體進行識別，各模型在實驗語料上的Ｆ１值分別為６６.３％、６９.８％、６９.３％、７１.６％、６５.３％和７４.６％。孫超［１２］使用Ｇｌｏｖｅ－ＢｉＬＳＴＭ－ＣＲＦ、ＢＥＲＴ－ＢｉＬＳＴＭＣＲＦ和ＢＥＲＴ－ＢｉＬＳＴＭ－ＧＣＮ－ＣＲＦ模型對軟件工程文本中的軟件實體進行識別，３個模型對軟件實體的整體識別Ｆ１值分別為６７.３７％、７９.５１％和７９.６０％。ＺｈａｎｇＨ等［２３］基于ＳｃｉＢＥＲＴ和級聯二元標注框架構建了技術相關實體識別模型，模型對自然語言處理領域論文中方法、數據集、指標和工具４種技術相關實體的整體識別Ｆ１值為８７％，但文章并未給出模型對工具類實體的識別效果。章成志等［２４］使用ＣＲＦ、ＢｉＬＳＴＭ－ＣＲＦ、ＢＥＲＴ－ＣＲＦ、ＳｃｉＢＥＲＴ－ＣＲＦ模型對自然語言處理領域學術論文中的方法實體進行識別，４個模型對工具實體的整體識別Ｆ１值分別為２７％、３８％、５６％和５７％。深度學習方法已證實在軟件實體識別任務中的適用性，但已有研究構建的識別模型Ｆ１值大多在８０％以下，模型識別效果有待進一步提升。

２語料庫與識別模型構建

２.１語料來源

本研究主要涉及兩個語料來源，一是ＳｃｈｉｎｄｌｅｒＤ等［２５］的公開數據集ＳｏＭｅＳｃｉ（Ｖｅｒｓｉｏｎ０.２，ｈｔ?ｔｐｓ：／／ｚｅｎｏｄｏ．ｏｒｇ／ｒｅｃｏｒｄ／４９６８７３８＃．Ｙｆ９Ｄ４９ＦＢｚｂ０），二是基于ＰＬＯＳＯＮＥ期刊學術論文構建的樣本庫ＰＬｏＳＳｏ。ＳｏＭｅＳｃｉ是人工基于ＰｕｂＭｅｄＣｅｎｔｅｒ開放獲取子集收錄的生物醫學領域學術論文文本構建的語料庫，包含論文“方法部分” 文檔、“全文文本”文檔等多個原始文本及對應標注文件。ＰｕｂＭｅｄＣｅｎ?ｔｅｒ是生物醫學領域開放獲取出版物的優質來源，覆蓋率高，且已被ＤｕＣ等［２６］和ＤｕｃｋＧ等［２７］多位學者用作軟件提及黃金標準數據集構建和軟件使用研究的語料來源。相較其他軟件公開數據集，Ｓｏ?ＭｅＳｃｉ對軟件實體的標注更為細致，在對軟件實體類別進行細分的同時還對軟件使用類型進行劃分，并對軟件的版本、發布時間、開發者等相關信息加以標注。前人研究［２８］表明，大部分軟件實體出現在學術文章的方法部分，因此，本研究選擇ＳｏＭｅＳｃｉ數據集中學術論文方法部分的數據（包括４８０篇方法部分原始文本數據及其對應標注數據）作為正例補充。為擴展語料庫的適用范圍，本研究還選擇ＰＬＯＳＯＮＥ期刊刊載的學術論文作為新增語料來源，使用自編Ｐｙｔｈｏｎ程序抽取章節名包含“Ｍｅｔｈｏｄ”的段落文本構建樣本庫ＰＬｏＳＳｏ，該樣本庫包括６１１４篇論文，１２２８０個段落，６４５７７個句子。選擇ＰＬＯＳＯＮＥ作為新增語料來源，一方面是因為ＰＬＯＳＯＮＥ是開放獲取期刊且其刊載了數量可觀的生物學、醫學、計算機科學、社會科學、工程技術等多學科學術論文，另一方面是因為可以通過ＰＬＯＳＯＮＥ出版商提供的公共ＡＰＩ快速獲取適合機器處理的期刊論文全文本數據且該期刊的全文本數據已被ＰａｎＸＬ等［７］、ＳｃｈｉｎｄｌｅｒＤ等［１１］和ＬｉＫ等［１４］多位學者用作軟件識別研究以及軟件黃金標準數據集構建的語料來源。

２.２數據標注

標注好的數據才能輸入到機器學習模型和深度學習模型中，使模型理解其蘊含的語義信息［２９］。在進行數據標注前，本研究參考ＬｉＫ等［３０］、ＳｃｈｉｎｄｌｅｒＤ等［３１］的軟件類別劃分方法將軟件劃分為應用程序（Ａｐｐｌｉｃａｔｉｏｎ）、插件（ＰｌｕｇＩｎ）、操作系統（Ｏｐｅｒ?ａｔｉｎｇＳｙｓｔｅｍ）、編程環境（ＰｒｏｇｒａｍｍｉｎｇＥｎｖｉｒｏｎ?ｍｅｎｔ）四大類別。其中，應用程序指的是為終端用戶設計的獨立程序，對應用程序的使用通常會產出數據或項目文件的結果，如Ｅｘｃｅｌ、Ｓｔａｔａ等，Ｗｅｂ端的應用程序也包含在此類別中。插件指的是對于軟件的擴充，而其本身不能單獨存在使用，例如Ｇｇｐｌｏｔ２是Ｒ的一個繪圖擴展包，并不能脫離于Ｒ這個平臺單獨成為一個軟件工具。操作系統是一種特殊類型的軟件，是用來管理計算機所有硬件且執行所有軟件進程的軟件。編程環境指的是一個圍繞編程語言構建的集成環境，用于設計程序或腳本，通常包括編譯器和解釋器，如Ｃ語言環境等。

除了對軟件類型加以劃分外，本研究還參考軟件使用和提及相關研究［２５，３２］將軟件提及類型劃分為使用（Ｕｓａｇｅ）、提及（Ｍｅｎｔｉｏｎ）、沉積（Ｄｅｐｏｓｉ?ｔｉｏｎ）、創造（Ｃｒｅａｔｉｏｎ）四大類。其中，使用指的是科研人員在其研究過程中所使用的軟件，如“本研究所有分析均使用ＳＰＳＳ軟件完成”。提及指的是科研人員在學術文章中提到但實際并沒有使用到當前研究中的軟件。沉積指的是科研人員在研究過程中根據自身研究需求對軟件進行的調整、優化或更新等工作。創造指的是科研人員在研究過程中產出了新的軟件，較可能出現于提出技術創新的學術文章中。此外，本研究還對軟件的屬性特征進行定義，歸納出如下８種常見的屬性特征：開發者（Ｄｅ?ｖｅｌｏｐｅｒ）、版本（Ｖｅｒｓｉｏｎ）、ＵＲＬ、引用信息（Ｃｉｔａｔｉｏｎ）、縮寫（Ａｂｂｒｅｖｉａｔｉｏｎ）、別名（ＡｌｔｅｒｎａｔｉｖｅＮａｍｅ）、擴展信息（Ｅｘｔｅｎｓｉｏｎ）和發布（Ｒｅｌｅａｓｅ）。

合適的標注工具能夠幫助標注人員更加便捷、快速地完成相應的語料文本標注任務。因此，本研究在進行數據標注前對常用的標注工具進行比較分析，據此選擇能夠滿足本研究的標注需求、易用且操作體驗較好的Ｍａｒｋｕｐ在線標注平臺（ｈｔｔｐｓ：／／ｇｅｔ?ｍａｒｋｕｐ．ｃｏｍ／）作為標注工具。

在標注模式方面，本研究使用命名實體識別領域常用的ＢＩＯ標注法。ＢＩＯ標注法是ＣｏＮＬＬ－２００３采用的標注法，其中Ｂ表示Ｂｅｇｉｎ，Ｉ表示Ｉｎｓｉｄｅ，Ｏ表示Ｏｕｔｓｉｄｅ。以“ＴｏｍＨａｎｋｓｉｓＭｙＮａｍｅ” 為例，Ｔｏｍ的標注即為Ｂ－ＰＥＲ，Ｈａｎｋｓ的標注即為ＩＰＥＲ，其他３個詞由于與所要提取的實體無關，因此皆標注為Ｏ。將ＢＩＯ標注法與上述標注類型定義相結合共產生４１個標簽，如圖１所示。其中，應用程序和插件分別對應４種提及類型，即Ａｐｐｌｉｃａ?ｔｉｏｎ＿Ｕｓａｇｅ、Ａｐｐｌｉｃａｔｉｏｎ＿Ｍｅｎｔｉｏｎ、Ａｐｐｌｉｃａｔｉｏｎ＿Ｄｅｐｏ?ｓｉｔｉｏｎ、Ａｐｐｌｉｃａｔｉｏｎ＿Ｃｒｅａｔｉｏｎ、ＰｌｕｇＩｎ＿Ｕｓａｇｅ、ＰｌｕｇＩｎ＿Ｍｅｎｔｉｏｎ、ＰｌｕｇＩｎ＿Ｄｅｐｏｓｉｔｉｏｎ和ＰｌｕｇＩｎ＿Ｃｒｅａｔｉｏｎ，而操作系統和編程環境在實際情況中較少會出現沉積以及創造類型，因而對其設定兩種提及類型，即ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ＿Ｍｅｎｔｉｏｎ、ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ＿Ｕｓａｇｅ、ＰｒｏｇｒａｍｍｉｎｇＥｎｖｉｒｏｎｍｅｎｔ＿Ｍｅｎｔｉｏｎ、ＰｒｏｇｒａｍｍｉｎｇＥｎ?ｖｉｒｏｎｍｅｎｔ＿Ｕｓａｇｅ。

為節省標注人力和標注時間，本研究設計了一種基于小型知識庫的程序輔助標注方案，如圖２所示。需要說明的是，該標注方案中的知識庫概念并非目前學術界廣泛使用的知識庫概念，而是采用了狹義的知識庫定義，即一個知識合集［３３］，后續可隨著標注語料的不斷擴充對知識進行增補。本研究首先對軟件實體識別領域的公開數據集以及前期相關實驗產生的數據集進行收集，并編寫程序對已標注的軟件實體及其相關信息進行合并去重；其次，將相應實體與參考標注類型進行關聯，形成“詳例—類型” 列表，并對其中的軟件實體進行篩選生成“名稱—類型” 的標注知識（如ＶｉｅｗＰｏｉｎｔ—Ａｐｐｌｉｃａｔｉｏｎ＿Ｕｓａｇｅ）。對屬于多個類型的軟件實體進行標注時，優先考慮選擇標注頻次最高的類型。經過上述處理，一共獲得８６５個消歧后的軟件實體名稱，１３６４個包含開發者等信息的標注參考數據和６２１個聚焦于軟件“名稱—類型” 標注參考數據。

在標注方案的主流程部分，本研究首先使用自編Ｐｙｔｈｏｎ程序將所選的樣本庫與上述所建小型知識庫中的信息加以匹配，同時生成待標注文檔和標注參考表格供后續使用，如圖２所示。然后，將待標注文檔導入Ｍａｒｋｕｐ在線標注平臺，并依據上一步驟得到的標注參考表格對待標注文檔進行人工標注。按此標注流程對上述基于ＰＬＯＳＯＮＥ期刊學術論文自建的樣本庫ＰＬｏＳＳｏ進行標注，共得到３６３４個實體。需要指出的是，為控制標注質量，先由一名擁有軟件標注經驗的老師擬定軟件實體標注規范，再由一名情報學專業三年級碩士研究生對語料進行先后兩輪的標注，隨后由老師和碩士研究生對兩輪標注結果中不一致的地方進行討論決定一致標注結果。最后，將處理后的ＳｏＭｅＳｃｉ標注結果與ＰＬｏＳＳｏ的標注結果進行合并，形成最終實驗所用的黃金標準數據集。實驗數據集共包括６７７３個實體，各類別實體數量分布情況如表１所示，學術論文對應用程序、插件、操作系統、編程環境４種類型軟件的提及和使用存在明顯差別。應用程序在學術論文中得到了更多的提及和使用，兩個數據集共標注“Ａｐ?ｐｌｉｃａｔｉｏｎ”類型的軟件實體２４７２個（占實體總數的３６.５０％），其中“Ａｐｐｌｉｃａｔｉｏｎ＿Ｕｓａｇｅ” 類型實體個數最多（２３５９個），“Ａｐｐｌｉｃａｔｉｏｎ＿Ｍｅｎｔｉｏｎ”類型實體個數次之（９７個），而“Ａｐｐｌｉｃａｔｉｏｎ＿Ｃｒｅａｔｉｏｎ”和“Ａｐｐｌｉｃａｔｉｏｎ_Ｄｅｐｏｓｉｔｉｏｎ” 類型實體則相對較少（共１６個）。較之應用程序，學術論文對其他三類軟件的提及和使用較少。其中，編程環境類軟件實體有４６３個，插件類軟件實體有４２８個，操作系統類軟件實體有８１個。編程環境和插件類軟件實體數量相當可能是因為作者提及具體插件的同時通常也會提及其所在編程環境，例如Ｒ和“ｌｍｅ４”常在同一句話中出現。此外，作者更傾向于提及軟件的版本（１２５０個，占比３６.３０％）和開發者（８８８個，２５.７８％）信息，而較少提及其ＵＲＬ、發布等其他相關信息。

２.３基于ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ－ｗｏｒｄＭｉｘｕｐ的軟件實體識別模型

通過對已有軟件實體識別相關研究進行調研發現，現有基于深度學習的軟件實體識別研究的實驗框架主要包括ＣＲＦ、ＢｉＬＳＴＭ－ＣＲＦ、ＢＥＲＴ－ＣＲＦ、Ｓｃｉ?ＢＥＲＴ－ＣＲＦ４種組合類型［９，１１，１４，２７，３４］，涉及ＬＳＴＭ、ＣＲＦ、ＢＥＲＴ３種基礎模型。其中，ＬＳＴＭ模型，又稱長短期記憶網絡（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）模型，是一種特殊的循環神經網絡（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔ?ｗｏｒｋｓ，ＲＮＮ）模型。ＬＳＴＭ模型在ＲＮＮ模型的基礎上加入遺忘門、輸入門以及輸出門來控制信息的遺忘、保存以及輸出［３５］。然而，單向的ＬＳＴＭ模型只能考慮到先前的輸入信息對當前內容的影響，但文本序列中，一個詞語的出現可能與上下文信息都密切相關。因此，為了包含下文信息的影響，在網絡結構中再加入一層ＬＳＴＭ構成雙向長短期記憶網絡（ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙＮｅｔｗｏｒｋ，ＢｉＬＳＴＭ）。ＢｉＬＳＴＭ由負責從前往后掃描上文信息的向前ＬＳＴＭ層和負責從后往前掃描下文信息的后向ＬＳＴＭ層組成，最后以向前ＬＳＴＭ層與后向ＬＳＴＭ層的輸出結合計算得到最終的輸出結果［３６］。考慮到本研究是基于詞的軟件實體自動識別，在模型訓練中需要同時考慮當前詞的上下文信息，因此，本研究選擇ＢｉＬＳＴＭ模型而非ＬＳＴＭ模型，以提高軟件實體識別的準確性。ＣＲＦ模型，又稱條件隨機場（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）模型，是由ＬａｆｆｅｒｔｙＪＤ等［３７］于２００１年提出的一個通過建立概率模型獲取和標記序列數據的模型，其通過將所有特征進行全局歸一化來得到全局最優解，能夠較好地解決標記偏置等問題［３７－３８］。雖然ＢｉＬＳＴＭ能夠學習到當前詞的上下文信息，但不會考慮前后輸出結果之間的關系，這可能導致預測錯誤。鑒于此，一些學者在ＢｉＬＳＴＭ的輸出層后再加入一層ＣＲＦ結構（即ＢｉＬ?ＳＴＭ－ＣＲＦ模型）來獲取前后輸出結果之間的關系，以確保最終預測結果是有效的、符合邏輯的，從而提高預測序列的準確度［１０］。ＢＥＲＴ是由谷歌ＡＩ團隊于２０１８年發布的以Ｔｒａｎｓｆｏｒｍｅｒ雙向編碼器表示的一種新的語言表征模型，該模型可以獲取語境化的詞向量，在包括命名實體識別在內的多項自然語言處理任務上表現優異［３９］。近年來，一些學者將ＢＥＲＴ與ＢｉＬＳＴＭ－ＣＲＦ相結合形成混合模型ＢＥＲＴＢｉＬＳＴＭ－ＣＲＦ以提升命名實體識別性能［４０－４２］。

綜合考慮上述模型的優缺點以及相關命名實體識別的實驗結果，本研究選擇在命名實體識別任務上表現較好的ＢｉＬＳＴＭ－ＣＲＦ模型作為基線，然后引入ＢＥＲＴ預訓練語言模型。為了更好地對比模型識別效果，分別進行單獨的ＢＥＲＴ訓練以及將ＢＥＲＴ加入基線模型的ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型訓練。本文使用的ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型包括３個模塊，總體結構如圖３所示。首先，利用ＢＥＲＴ預訓練語言模型將原始輸入文本轉換為相應的詞向量；然后，將得到的詞向量輸入到ＢｉＬＳＴＭ中以進一步提取輸入文本的上下文特征；最后，使用ＣＲＦ模塊對ＢｉＬＳＴＭ模塊的輸出結果進行解碼并輸出具有最高概率的標注序列。

本研究在ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型框架基礎上進行優化，主要包括數據層面以及模型層面兩方面的優化工作，具體優化設計如圖４所示。本研究在數據層面分別使用ＢＥＲＴ和ＳｃｉＢＥＲＴ詞向量訓練模型獲取模型輸入數據的特征表示，再依據識別實驗結果擇優選擇。之所以分別嘗試ＢＥＲＴ和ＳｃｉＢ?ＥＲＴ，是因為考慮到ＳｃｉＢＥＲＴ是ＢｅｌｔａｇｙＩ等［４３］于２０１９年提出的用于尋找與新冠肺炎相關文章的算法模型，該模型是由醫學以及計算機科學領域共計１１４萬篇學術文章預訓練而來，可能更適用于本研究的自然語言處理任務。

考慮到本研究的訓練數據規模較小，神經網絡模型在此情況下可能會出現過擬合的問題，在數據層面引入Ｒ－Ｄｒｏｐ以防止模型過擬合，增強模型魯棒性和泛化性。Ｒ－Ｄｒｏｐ［４４］將Ｄｒｏｐｏｕｔ兩次的想法應用在有監督文本分類任務上，在常規交叉熵的基礎上加上一項強化模型魯棒性的正則項，用以彌補Ｄｒｏｐｏｕｔ帶來的訓練模型以及測試模型的不一致性。結合Ｒ－Ｄｒｏｐ的模型如圖５所示，每個訓練樣本會經過兩次向前傳播，從而得到兩次預測輸出。具體計算公式如式（１）～（３）所示：

此外，為解決數據匱乏的問題，在模型層面引入Ｍｉｘｕｐ［４５］進行數據增強。之所以不選擇常用的ＥＤＡ（ＥａｓｙＤａｔａＡｕｇｍｅｎｔａｔｉｏｎ）作為本研究的數據增強方法，是因為ＥＤＡ包含的同義詞替換、隨機插入、隨機交換、隨機刪除４種操作都有可能破壞命名實體的合法性，從而使得數據集出現謬誤［４６］，這導致其不適用于命名實體識別任務。而Ｍｉｘｕｐ是從計算機視覺領域引入的一種數據增強方法。ＧｕｏＨＹ等［４７］將Ｍｉｘｕｐ引入到ＮＬＰ領域，提出了將Ｍｉｘ?ｕｐ應用于句子分類任務的兩種策略，一種是基于句子的ｓｅｎＭｉｘｕｐ，一種是基于詞的ｗｏｒｄＭｉｘｕｐ。由于命名實體識別任務需要對每個單詞進行分類，本研究選擇基于詞的ｗｏｒｄＭｉｘｕｐ。

３實驗

３.１實驗設定

本研究以ＧｏｏｇｌｅＲｅｓｅａｒｃｈ團隊開發的Ｃｏｌａｂｏ?ｒａｔｏｒｙ（ｈｔｔｐｓ：／／ｃｏｌａｂ．ｒｅｓｅａｒｃｈ．ｇｏｏｇｌｅ．ｃｏｍ／，簡稱Ｃｏ?ｌａｂ）為實驗環境。Ｃｏｌａｂ是一種托管式Ｊｕｐｙｔｅｒ筆記本服務，用戶可以通過Ｃｏｌａｂ使用免費的ＧＰＵ等計算資源，減少了很多環境配置問題。本研究各項實驗均在Ｐｙｔｈｏｎ３.８.５環境下編寫運行。數據處理部分主要涉及Ｐａｎｄａｓ、Ｎｕｍｐｙ、Ｓｔａｎｚａ等軟件庫，其中，Ｓｔａｎｚａ（ｖ１.４.２，ｈｔｔｐｓ：／／ｓｔａｎｆｏｒｄｎｌｐ．ｇｉｔｈｕｂ．ｉｏ／ｓｔａｎｚａ／ｉｎｓｔａｌｌａｔｉｏｎ＿ｕｓａｇｅ．ｈｔｍｌ）是斯坦福大學自然語言處理組開發的一個純Ｐｙｔｈｏｎ版本的深度學習ＮＬＰ工具包，被用來對本研究的學術論文文本數據進行分詞處理。神經網絡模型部分采用Ｆａｃｅｂｏｏｋ人工智能研究院開發的開源軟件庫ＰｙＴｏｒｃｈ框架實現。相較于被廣泛使用的Ｔｅｎｓｏｒｆｌｏｗ框架，ＰｙＴｏｒｃｈ是更Ｐｙｔｈｏｎ化的框架，具有內置的動態ＤＡＧ，可以隨時定義、隨時更改、隨時執行節點，相當靈活且易用性好，還在代碼理解等方面表現優異。

本實驗中的ＢｉＬＳＴＭ模型和ＢＥＲＴ模型的關鍵參數設置如表２所示。其中，ＢｉＬＳＴＭ模型的關鍵參數設置如下：學習率（ｌｅａｒｎｉｎｇ＿ｒａｔｅ）設為１ｅ－４，詞向量維度（ｅｍｂｅｄｄｉｎｇ＿ｄｉｍ）設為１００，編碼層隱藏層大小（ｈｉｄｄｅｎ＿ｄｉｍ）設為２５６，單次訓練樣本數（ｂａｔｃｈ＿ｓｉｚｅ）為６４，優化器（ｏｐｔｉｍｉｚｅｒ）為Ａｄａｍ，Ｄｒｏｐｏｕｔ比例設為０. ５，訓練迭代次數（ｅｐｏｃｈｓ）設為１０００。BＥＲＴ模型的關鍵參數設置如下：學習率（ｌｅａｒｎｉｎｇ＿ｒａｔｅ）設為４ｅ－５，預熱學習率（ｗａｒｍｕｐ＿ｐｒｏｐｏｒｔｉｏｎ）設為０.１，單次訓練樣本數（ｂａｔｃｈ＿ｓｉｚｅ）為６４，Ｄｒｏｐｏｕｔ比例設為０. ５，訓練迭代次數（ｅｐ?ｏｃｈｓ）設為１００。此外，本實驗將數據集按照０.７０∶０.１５∶０.１５的比例劃分為訓練集、測試集和驗證集。進行３次實驗，最后取３次實驗結果的均值作為最終的實驗結果。

３.２實驗評估指標

本研究選擇通用的命名實體識別評價指標，即準確率Ｐ、召回率Ｒ和調和平均數Ｆ１值對模型的識別效果進行評估。準確率指標用來評估模型識別結果的準確程度，召回率指標用來評估模型將正例正確識別的能力，Ｆ１值用來評估模型的綜合性能，是對模型準確率和召回率進行綜合評價的指標。３個評價指標的計算公式如式（４）～（６）所示：

其中，Ｔ表示模型正確識別的實體數量，Ｆ表示模型識別錯誤的實體數量，Ｆ表示模型沒有檢測到的相關實體的個數。

３.３實驗結果分析

軟件命名實體識別結果如表３和表４所示。表３列出了基線模型ＢｉＬＳＴＭ－ＣＲＦ在實驗數據集上的軟件實體識別結果。從表３可以看出，ＢｉＬＳＴＭ－ＣＲＦ模型的整體Ｆ１值為７４％，略低于ＳｃｈｉｎｄｌｅｒＤ等［１１］基于ＳｏＭｅＳｃｉ數據集的Ｆ１值（７６％）。這可能與本研究的軟件類別細化程度更高有關，ＳｃｈｉｎｄｌｅｒＤ等［１１］的研究是對軟件整體進行識別，而本研究是對軟件各細分類別進行識別。從表３還可以看出，不同標簽的識別效果具有較大差別。例如， “Ｃｉｔａｔｉｏｎ” 的Ｆ１值最低，僅有５１％，而“Ｖｅｒｓｉｏｎ” 和“Ｐｒｏｇｒａｍ?ｍｉｎｇＥｎｖｉｒｏｎｍｅｎｔ＿Ｕｓａｇｅ” 的Ｆ１值高達８１％。此外，通過實驗發現，樣本量很少的類別（如“Ａｐｐｌｉｃａ?ｔｉｏｎ＿Ｃｒｅａｔｉｏｎ” 等）容易出現無法識別出實體和結果較為振蕩的問題。

表４顯示了基于多種模型的軟件實體識別結果。從表４可以看出，相較于基線模型ＢｉＬＳＴＭＣＲＦ，單純使用ＢＥＲＴ預訓練模型所得的模型準確率偏低（７４.２％），但在召回率上得到了較大幅度的提升，整體Ｆ１值提升了３.４％，這說明ＢＥＲＴ預訓練語言模型比傳統的ｗｏｒｄ２ｖｅｃ能更好地表示訓練語料詞匯的語義信息。將ＢＥＲＴ與ＢｉＬＳＴＭ－ＣＲＦ結合之后的模型ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ對軟件實體的識別效果比單獨使用ＢｉＬＳＴＭ－ＣＲＦ或ＢＥＲＴ有較大提升，準確率和召回率均達到了８０％以上，整體Ｆ１值提升超過５％。而將ＳｃｉＢＥＲＴ預訓練語言模型和Ｒ－Ｄｒｏｐ引入基線模型得到的ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭＣＲＦ模型的識別性能獲得進一步提高，各項評價指標均提升了１～２個百分點，說明在本研究的軟件實體識別任務中，ＳｃｉＢＥＲＴ和Ｒ－Ｄｒｏｐ的結合使用能夠進一步優化識別效果。ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭＣＲＦ模型引入ｗｏｒｄＭｉｘｕｐ后的改進模型的識別性能得到進一步提升，改進模型ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ－ｗｏｒｄＭｉｘｕｐ的整體Ｆ１值達到８７.５％，說明數據匱乏問題對軟件實體識別任務有較大影響，在模型訓練時有必要進行數據增強處理。

本研究將改進模型ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦｗｏｒｄＭｉｘｕｐ在測試集上的識別結果與人工標注結果進行對比分析發現，該模型在識別軟件實體方面還存在一些不足： ①召回結果存在偏差，包括召回信息不完全和召回多余信息等情況。例如，在“ＡｌｌＳｔａｔｉｓｔｉｃａｌＡｎａｌｙｓｅｓＷｅｒｅＣｏｎｄｕｃｔｅｄＵｓｉｎｇＳＰＳＳ２２. ”中，該模型將“ＳＰＳＳ２２” 識別為軟件實體，但實際上“ＳＰＳＳ” 為軟件實體， “２２” 為版本信息，由于模型將“ＳＰＳＳ２２” 整體識別為軟件實體，導致識別結果中的軟件版本信息遺漏。或者，模型將“ＦｒｅｑｕｅｎｃｉｅｓａｎｄＰｅｒｃｅｎｔａｇｅｓＷｅｒｅＣａｌｃｕｌａｔｅｄＵｓｉｎｇＭｉｃｒｏｓｏｆｔＥｘｃｅｌＶｅｒｓｉｏｎ１４.６.８” 中的“ ＭｉｃｒｏｓｏｆｔＥｘｃｅｌ” 識別為軟件實體，但實際上該句中的“Ｅｘ?ｃｅｌ” 為軟件實體， “Ｍｉｃｒｏｓｏｆｔ” 為開發商信息，模型錯誤地將軟件開發商信息也抽取進軟件實體，這會給后續的軟件實體消歧合并帶來困難； ②識別錯誤，主要涉及將硬件、操作設備、研究方法等實體錯誤識別為軟件實體。例如，模型將“ＦｏｒＭｕｌｔｉｐｌｅＧｒｏｕｐＣｏｍｐａｒｉｓｏｎｓ，ＷｅＵｓｅｄＯｎｅ－ｗａｙＡＮＯＶＡＦｏｌ?ｌｏｗｅｄｂｙｔＴｅｓｔｓｗｉｔｈＢｏｎｆｅｒｒｏｎｉＣｏｒｒｅｃｔｉｏｎｓ” 中的“Ｏｎｅ－ｗａｙＡＮＯＶＡ” 識別為軟件實體，但實際上Ｏｎｅ－ｗａｙＡＮＯＶＡ是一種統計分析方法。針對上述發現的不足，未來可以通過增加更多的標注樣本和增加負反饋機制來提升識別效果。

４結論

本研究聚焦在科學研究中發揮著重要作用的軟件實體，構建了軟件黃金標準語料庫并提出改進的軟件實體自動識別模型ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦｗｏｒｄＭｉｘｕｐ。在黃金標準語料庫構建部分，本研究先對軟件實體、軟件使用類型實體、軟件相關信息實體加以細化定義，并按照ＢＩＯ標注法生成４１個實體標簽，接著設計一種基于小型知識庫的程序輔助標注方案幫助人工快速標注語料，最終基于ＰＬＯＳＯＮＥ期刊論文文本構建出共包含６７７３個實體的軟件黃金標準語料庫。該語料庫可以為后續軟件識別實驗所使用。在軟件實體識別模型優化部分，本研究將目前廣泛應用于實體識別領域的ＢｉＬＳＴＭ－ＣＲＦ模型作為基線模型，測試其在本研究語料庫上的識別效果。接著對ＢｉＬＳＴＭ－ＣＲＦ基線模型加以優化改進，分別引入目前通用命名實體識別領域流行的ＢＥＲＴ模型和針對科學論文文本訓練出的ＳｃｉＢＥＲＴ模型來代替Ｗｏｒｄ２ｖｅｃ作為詞向量訓練模型。然后，在數據層面引入Ｒ－Ｄｒｏｐ以增強模型的魯棒性和泛化性，在模型層面引入Ｍｉｘｕｐ進行數據增強。實驗結果表明，在ＢｉＬＳＴＭ－ＣＲＦ、ＢＥＲＴ、ＢＥＲＴ－ＢｉＬ?ＳＴＭ－ＣＲＦ、ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ和ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ－ｗｏｒｄＭｉｘｕ５種模型中，ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ－ｗｏｒｄＭｉｘｕ模型在本研究語料庫上的識別表現最好，其整體Ｆ１值達到８７.５％。這說明，本研究提出的改進模型ＳｃｉＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ－ｗｏｒｄＭｉｘｕｐ能夠有效地從學術論文文本中識別出軟件及其相關信息實體。

本研究還存在一些不足之處。首先，本研究僅以ＰＬＯＳＯＮＥ期刊論文作為實驗語料數據，數據集較小，未來研究將擴大數據集并在ＰＬＯＳＯＮＥ期刊論文以外的數據集上開展軟件實體識別，以提升模型的泛化能力；其次，本研究提出的改進模型的軟件實體識別性能尚有提升空間，未來將考慮在改進模型中引入注意力機制來提高模型的軟件實體識別性能。

現代情報2024年10期

現代情報的其它文章: 基于口述歷史資源的名人歷史事件語義模型構建及實證研究; 融合GPT技術和用戶需求的文學類古籍資源關聯數據發布研究; 面向在線健康社區的生成式方面級情感分析; 在線健康信息用戶依從意愿的關鍵因素與組態路徑; 在線健康信息替代搜尋對老年人健康素養的影響研究; 基于三層數據治理的青年科技人才知識圖譜構建與應用實踐