999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大規模主題詞自動標引方法

2022-06-07 10:37:02韓紅旗張運良翁夢娟悅林東
情報學報 2022年5期

韓紅旗,桂 婕,張運良,翁夢娟,薛 陜,悅林東

(1.中國科學技術信息研究所,北京 100038;2.富媒體數字出版內容組織與知識服務重點實驗室(國家新聞出版署),北京 100038)

1 引 言

主題標引(subject indexing)是對文獻主題及其他有檢索意義的特征進行分析、表示、提煉和歸納,然后用某種檢索語言(自然語言、受控語言)標注出來,作為信息存儲與檢索依據的信息處理過程[1]。簡而言之,主題標引是對文獻內容進行主題分析、賦予主題詞標識的過程。按照使用主題標引語言的不同,主題標引可以分為受控標引和自然語言標引(或自由標引)。其中,受控標引是采用敘詞表(或主題詞表)中選用的規范詞對文獻進行標注,自然語言標引是直接選擇自然語言詞匯對文獻進行標引。主題標引是數據資源加工和分析的基礎工作,我國國家標準《科學技術報告、學位論文和學術論文的編寫格式》(GB 7713-87)明確規定論文關鍵詞應盡可能采用《漢語主題詞表》等詞表提供的規范詞。

主題標引是數字資源組織的有效手段,它的準確性是保證數字資源檢索和利用的關鍵因素。在大數據時代,文本信息的規模和增速非常大,靠人工標引不僅不可行,而且不可能,自動標引的價值凸顯。當前,雖然全文檢索技術已經非常成熟,但自動標引能實現信息精煉、提升、過濾,使檢索更有效率、檢索結果更準確,因此其重要性愈發凸顯[2]。自動標引是指利用自動化技術從文獻中抽取檢索標志的過程。相比于人工標引,自動標引具有速度快、成本低以及穩定性和一致性高的優點,更適合大數據時代的數字信息資源標注[1]。按照標引詞的來源不同,自動標引可以分為抽詞標引和賦詞標引[2-3]。其中,抽詞標引是從文獻(題名、摘要、關鍵詞或全文)中抽取關鍵詞來作為檢索標識;賦詞標引則是根據文獻的內容特征,從受控詞表中選擇敘詞或主題詞來作為檢索標識。抽詞標引法由于獲得的標引詞可能不是受控詞表中的主題詞,不利于根據主題進行文獻檢索或主題關聯,給標引結果的使用帶來不便,所以,在商業類型的文獻數據庫中,多采用賦詞標引而不采用抽詞標引。

然而在大數據時代,自動標引面臨著非常大的挑戰。挑戰主要來自三個方面:一是如何判斷一個文本與一個主題詞的語義相關性,尤其是在文本中沒有出現的主題詞;二是因為主題詞表中的主題詞數量往往非常大,一般領域的主題詞有成千上萬,綜合性的主題詞表則可達10萬以上,例如,《漢語主題詞表》共收錄19.6萬個優選詞、16.4萬條非優選詞[4],《中國分類主題詞表(2版)》正式主題詞有110837個[5],面對如此大規模的類目標簽,常規的機器學習分類算法難以發揮作用;三是如何將層出不窮的新詞快速地納入自動標引算法是一個問題,現有的算法常常不得不花費大量時間再次訓練復雜的模型。

現有的自動標引技術多是利用一些統計指標或語言學方法從文本中抽取關鍵詞,再映射到主題詞實現賦詞標引[6]。然而,這種方法一般無法抽取文本中沒有的主題詞。基于機器學習的主題標引方法稱為多標簽分類學習。該類學習算法可以分為兩類[7]:一類是傳統的多標簽分類,標簽數量一般較少,往往幾個或數十個,無法適應標簽規模成千上萬的情況,更不用說10萬以上了;另一類稱為極端多標簽文本分類(extreme multi-label text classifi‐cation,XMTC),可以處理規模龐大的多標簽分類,然而這個方法要求每一個標簽都有訓練樣本數據,可現實中有些類很難找到訓練數據或訓練數據偏少,限制了該類算法的應用。除此之外,標簽分類常常面臨著類目數據不均衡問題所帶來的分類精度低,以及難以快速響應新增標簽分類的困境。

本研究面臨的是采用數萬或10萬以上主題詞對大規模文本進行標引的情況,而且沒有帶標簽的訓練數據,無法使用XMTC方法,顯然傳統機器學習方法也無能為力。在從大規模主題詞表中選擇若干語義相關的主題詞賦予一個文本時,既要解決主題詞與文本語義上的匹配,又要適應海量數據的快速標引以及新詞的標引。采用的主題詞表由中國工程科技知識中心(下文稱“知識中心”)委托中國科學技術信息研究所建設。知識中心詞表在20余家分中心領域詞表的基礎上形成了“核心集+擴展集”的架構,其中核心集為主題詞表,共包含18.39萬條主題詞,未來將不斷補充新的主題詞。知識中心建設中需要對大量未標注關鍵詞的文獻、報告、新聞等數據標注主題詞,用于后續的檢索、主題分析等工作。

2 相關研究

2.1 自動標引技術

美國學者盧恩(H.P.Luhn)在1957年首次開展了主題標引實驗[2-3],并在IBM公司的研究刊物上發表了第一篇有關自動主題標引的論文,題名為“文獻處理機械化編碼和檢索用的統計學方法”。盧恩在該文中提出了詞頻統計加權方法和“自動抽詞標引”的基本思想,奠定了自動主題標引的基礎。

自動主題標引方法按技術可以分為四類:統計標引法、語言分析標引法、機器學習標引法和混合方法[2-3]。

統計標引法的主要思想是:詞在文檔中出現的頻率是該詞對文檔重要性的有效測量指標。通常認為,處于高頻和低頻之間的那部分詞匯才最適宜做標引詞。也有學者使用詞頻之外的其他一些顯著統計特征,如共現、逆文檔詞頻、熵、互信息等。統計標引法可細分為詞頻統計、加權統計、概率統計、分類判別統計等。例如,李素建等[8]通過建立最大熵模型的特征集合實現關鍵詞自動標引;柯平等[9]基于詞頻統計從文本中抽取高頻詞實現標引,并與關鍵詞進行匹配對比,說明統計方法的可行性。

語言分析標引法是指對被標引對象進行詞法分析(lexical analysis)、句法分析(syntactical analy‐sis)、語義分析(semantic analysis)和篇章分析(text analysis)等,從而達到自動標引的目的。詞法分析主要是分詞、詞性標注和獲得詞匯的詳細特征。句法分析標引法是通過從語法角度來確定句子中每個詞的作用(比如,是主語還是謂語),以及詞與詞之間的相互關系(比如,是修飾關系還是被修飾關系)來實現的。語義分析標引法是在分析詞和短語在特定上下文環境中的確切含義的基礎上,選擇與主題含義相同的標引詞來描述文獻的。篇章分析主要是通過找出篇章中內容相關的片段,從篇章角度提取能反映文本主題的詞語。例如,丁芹[10]提出一種利用語義格進行文獻語義表述的方法,對標引詞的語義格加權算法做了較合理的解釋和推導,并引入一種計算詞語之間相似度的方法實現自動標引;趙丹[11]利用句法分析器對文獻提取出來的主題句進行成分標注、短語結構標注、詞性標注,進一步利用統計信息、詞或短語結構的詞間的聯系實現主題標注。

基于機器學習的自動標引方法是利用計算機來理解和模擬人類特有的智能系統活動,學習人們如何運用自己所掌握的知識,去解決現實中的問題。目前基于機器學習的自動標引方法一般通過訓練集來獲得相關統計參數,通過有監督或無監督的過程進行自動標引。機器學習法可以分為分類、聚類、集成學習、深度學習等。例如,章成志[12]整合統計機器學習模型與集成學習方法的優勢,對文檔進行基于多分類模型綜合投票實現自動標引;王新[13]利用詞嵌入將文獻向量轉換為富含詞匯間語義關系的張量,再利用深層卷積神經網絡實現文獻主題國別的自動標引;陳博等[14]基于文本挖掘技術和可視化工具實現可視化主題自動標引。國外文獻近些年的此類研究集中在對MeSH(medical subject headings)主題詞標引的挑戰賽BioASQ上。其中,Mork等[15]提出MTI(medical text indexer),通過將MetaMap、PubMed相關引文與聚類排序方法結合實現近3萬條MeSH主題詞的標引,因為該方法性能較優而被作為BioASQ挑戰賽的基準[16];其他MeSH主題詞的標引 方 法 有MeSHLabeler[17]、DeepMeSH[18]、FullM‐eSH[19]、MeSHProbeNet[20]、卷 積 神 經 網 絡[21]、BERTMeSH[22]、MeSHProbeNet-P[23]等。這些機器學習方法的突出特點是將深度學習技術應用于主題詞標引,依賴于大量的人工標引數據進行模型訓練。

以上三類方法各有優缺點。統計標引法簡單,實現容易,但準確率相對較低,一般用于抽詞標引,不適合于賦詞標引。語言分析標引法相對準確率高,但容易受到語言“規則庫”的影響,通用性差;它既可用于抽詞標引,也可用于賦詞標引,但用于賦詞標引時,一般無法將受控詞中的詞與待標文檔的整體語義進行比較,獲得的標引詞可能存在與待標文檔語義關聯性不高的問題。機器學習標引法具有較好的移植性,即同一方法可以很方便地應用到不同的領域,但是該方法對于不同類型數據需要訓練多個分類器,訓練時間較長,可能存在數據稀疏問題及過擬合學習問題;該方法一般用于賦詞標引,但往往受制于算法的復雜性和受控詞類別的數量,一般不適合于大規模受控詞表的標注。

混合方法則是上述方法的綜合運用,例如,先利用統計標引法獲取初步標引結果,再利用語言分析法過濾統計分析結果以獲得更好的標引詞,或加入啟發式知識,如詞的位置、詞長、詞的排版規則、HTML標記等。例如,李綱等[24]利用詞語語義相關度算法對詞匯鏈的構建算法進行了改進,并結合詞頻和詞的位置等統計信息,實現關鍵詞的自動標引;Gil-Leiva[25]結合參考文獻、標題、摘要等的位置啟發式規則和TF-IDF實現對科學文章的自動標引。

機器學習標引法和混合方法是近年來得到廣泛采用的方法,但這些方法均未開展大規模主題詞標注的研究,或者解決的只是抽詞標引問題。例如,陳白雪等[26]以中文核心期刊論文中作者標注的關鍵詞和分類號為源數據,形成9萬多的關鍵詞詞表,然后使用TF-IDF算法和位置加權算法實現科技項目數據的標引,該研究雖然涉及較大規模的關鍵詞,但只是一種抽詞標引方法;唐曉波等[27]針對目前的標引系統僅以文檔為標引單位、無法深入到文本內容的問題,引入本體語義擴展和神經網絡模型訓練等技術,提出了基于文本知識片段標引的方法,獲得比傳統方式精度更高的結果,但實證僅對構建的一個小型糖尿病本體開展;FullMeSH[19]和BERTMeSH[22]利用全文本代替標題和摘要的MeSH詞表標注方法,實現大規模PubMed論文的標注,但這個大規模主要體現在論文的規模上,而不是詞表的規模上。

2.2 分布式詞向量

分布式詞向量是自然語言處理領域中的一類重要技術,其核心是對文本中的單詞建模,用一個較低維的向量來表征每個單詞[28-30]。詞向量的生成方法很多,目前性能最佳的是基于深度神經網絡的語言模型生成的分布式詞向量,它通過無監督的機器學習方法從海量數據中自動學習詞匯的語義特征,不需要人工標注和復雜煩瑣的特征工程。分布式詞向量不像傳統的詞向量那樣維度高且稀疏,而是一種嵌入式向量,將單詞表示為一個連續的、低維的、實值向量(通常為100~300維),每一維度代表了一定的語義。

word2vec詞向量是2013年由Mikolov等[31]從海量的Google新聞語料中訓練得到的,是目前使用最廣泛的神經網絡詞向量。word2vec利用深度學習的思想,通過訓練,將每個詞映射成維實數向量(一般為模型中的超參數),通過詞之間的距離(如co‐sine相似度、歐幾里得距離等)來判斷它們之間的語義相似度。詞向量距離越近,詞匯表示的語義就越相似。后來的研究者借鑒詞嵌入向量的思路,提出了一些新的詞向量模型,如GloVe(global vec‐tors)[32]、ELMo(embeddings from language mod‐els)[33]、BERT(bidirectional encoder representations from transformers)[34]等。分布式詞向量現在已被廣泛應用于分類、聚類、命名實體識別、詞性分析等自然語言處理任務中。

3 方法

3.1 自動標引實現的基本思路

為了實現將一個主題詞賦予一篇待標引文本,需要確定它們之間的語義相關性。從大規模語料中訓練的分布式詞向量較好地保留了詞匯的語義信息,如果能利用分布式詞向量將主題詞和待標引文本表示為同樣維度、可語義計算的向量,那么就可以使用歐幾里得距離或cosine相似度等指標計算一個主題詞和待標引文本之間的相似度,如圖1所示。在計算了所有主題詞與待標引文本的相似度指標后,就可以對所有相似性指標值進行排序,然后選擇排名靠前的主題詞輸出,作為文本主題標引的結果。

圖1 主題詞與文本之間相似性計算的基本思路

這需要解決兩個關鍵問題,一個問題是如何利用預訓練的分布式詞向量生成主題詞和待標引文本的表示向量,另一個問題是如何解決主題詞和文本向量之間的巨量計算。主題詞數量龐大,如果將其全部和待標引文本計算相似度將耗費大量的計算時間,使得標引方法實際上不可用,顯然也沒有必要這樣做,因為與文本緊密相關的主題詞數量一般不會特別多。對于第一個問題,我們借鑒doc2vec[35-36]的基本思想來解決。對于第二個問題,我們使用了一種被稱為sampling block的技術生成文本的候選主題詞[37],只需將待標引文本與數量較少的主題詞進行向量相似度計算。

3.2 自動標引實現的基本過程

本研究提出的自動化標引方法的流程如圖2所示,可以分為6個步驟:①主題詞表示向量生成;②普通詞與主題詞的映射關系表生成;③待標引文本的預處理;④待標引文本的表示向量生成;⑤待標引文本向量候選主題詞生成;⑥文本的主題標引。分別對應圖2中標注了數字1~6的虛線矩形方框。

圖2 主題標引實現流程

1)主題詞表示向量生成

獲取大規模的文本語料數據,對語料數據進行無用標簽刪除、分詞、數字文本過濾、格式轉換等處理,形成可機器批量處理的規范格式數據,基于詞向量技術(本研究使用word2vec,也可以采用其他詞向量技術),將詞表示為具有特定維數的稠密的嵌入式向量,形成詞向量庫W。經過詞向量技術處理后,可以獲得語料庫中每一個詞的向量表示,設向量的維數為k,則對于一個詞w i,其向量可以表示為[w i1,w i2,…,w ik]。

利用訓練好的詞向量庫生成主題詞的表示向量。首先獲取受控詞表中的主題詞列表,然后逐詞循環采用如下方法獲得每一個主題詞的向量表示。對一個主題詞,假設為T i,去詞向量庫W中檢索,若存在,則用詞向量庫中的向量表示[wi1,w i2,…,w ik]作為該主題詞的向量表示;若不存在,則將該主題詞切分為p個短詞,將其中無意義的連接詞去掉,假設一個主題詞T i切分后為將每一個短詞去詞向量庫W中檢索,獲得每一個短詞的向量表示,則采用這些短詞向量的平均值作為該主題詞的向量表示,計算方法為

2)普通詞與主題詞的映射關系表生成

如上文所述,一般受控詞表規模會很大,將文本與整個受控詞表的主題詞進行相似度計算將帶來很大的運算量。為了避免將待標引文本與受控詞表中的每一個主題詞進行對比,通過大規模文本語料庫建立一個主題詞與若干個普通詞的映射關系,實現文本向量與主題詞向量比對過程中的運算約減處理。建立的主題詞與普通詞的映射關系如表1所示。

建立映射關系表(表1)的具體方法為:從受控詞表中獲取主題詞的列表,對每一個主題詞The‐saurusi,在大規模文本語料中進行檢索,獲取包含該主題詞的全部文本集合,然后對文本集合中的全部文本進行分詞和停用詞處理,計算文本中全部詞的TF-IDF值,按照從大到小排序后取前n個普通詞(Wordi1,Wordi2,…,Wordin)作為該主題詞關聯度強的詞匯列表。該工作也是主題標引的準備階段,目的是生成與每一個標引的主題詞語義關聯度特別強的詞匯集合。利用主題詞與普通詞的映射關系表,對于一個普通詞來說,可以通過查表獲得與其關聯性高的主題詞列表。

表1 主題詞與普通詞的映射關系

3)待標引文本的預處理

在前兩個準備階段工作完成后,就可以正式開始文本的自動標引工作。對一個待標引的文本首先進行分詞、停用詞處理等預處理工作,獲得文本中包含的詞列表,統計每個詞出現的數量(詞頻)。該工作主要是為下一步生成待標引文本的表示向量和其可能主題詞集合做準備。

4)待標引文本的表示向量生成

對一個待標引文本做預處理后,可以獲取其包含的詞列表以及各詞在文本中出現的次數,記為[(w1,f1),(w2,f2),…,(w q,f q)],其 中,w1,w2,…,w q為 文本中包含的詞列表,f1,f2,…,f q是它們在文本中出現的次數。利用詞列表及其頻次,基于平均詞向量法(avg-w2v)獲得該待標引文本的k維向量表示,即以文本中各詞向量的加權平均值作為文本的表示,其中權重為文本中各詞的詞頻,計算方法為

其中,w j1,w j2,…,w jk是w j在詞向量庫W中的向量各分量值。獲得的待標引文本的表示向量與主題詞的表示向量的維數一致,均為k維,而且它們都是基于同一詞向量庫W生成的,為計算待標引文本與主題詞的語義相關度提供了保障。

5)待標引文本向量候選主題詞生成

待標引文本預處理后形成了詞列表,基于構建的主題詞與普通詞的映射關系表,可以獲得與待標引文本關聯強的候選主題詞列表,我們稱這項技術為sampling block,它使對文本主題標引時不需要進行大量的向量相似度計算,只需要將文本向量與數量不大的主題詞表示向量進行比對,可以有效減少比對的次數,大幅減少運算量,從而大大提高標引效率。

圖3說明了候選主題詞產生的方法。對于文本分詞預處理后形成的每一個普通詞w1,w2,…,w q,到主題詞與普通詞的映射關系表中查找,得到一個可能的候選主題詞集合,這個集合一般來說只有幾十個或數百個,具體跟文檔長度及包含的詞數量有關。

圖3 候選主題詞生成的方法示意圖

6)文本的主題標引

有了候選主題詞列表后,就可以將待標引文本的表示向量和篩選出來的受控詞表中候選主題詞的向量進行語義相似性比較。語義相似性計算采用余弦方法,對于一個文檔表示向量d→=[d1,d2,…,d k]和一個主題詞表示向量=[T1,T2,…,T k],計算公式為

也可以采用其他方法。

對待標引文本表示向量和全部候選主題詞表示向量的相似度結果進行排序,選擇排名靠前的m個主題詞對文本進行標注。m可以根據需要設定,也可以輸出全部的主題詞。

4 實 驗

4.1 數據

根據本研究提出的方法開發了自動化的主題標引工具,利用該標引工具對近億條記錄進行了標注,標注速度達到每秒60余條記錄。后期對標引工具進行了優化,標引速度達到每秒160余條記錄,能較好地滿足中國工程科技知識中心數據資源標引的需求。在信息檢索中,關鍵詞作為一個揭示文本主題的單位,標引關鍵詞的數量適合定在9個詞以內[3]。基于該認識,以及對部分樣本的人工分析結果,一篇文本的機標主題詞最多保留8個(下文稱“標引主題詞”)。我們從標注好的文獻中抽取了100萬條數據,字段包括標題、摘要、作者關鍵詞和標引主題詞。對該數據集中作者關鍵詞字段中不包含主題詞的記錄進行刪除,剩余671607條數據,下文將這個數據集稱為index-dataset,統計后發現其包含的主題詞有63053個。

為了評估提出的自動化標引方法的效果,基于抽取的100萬條數據,使用結巴關鍵詞工具生成了對比數據集jieba-dataset。首先采用結巴關鍵詞工具從100萬篇文獻的標題和摘要中抽取關鍵詞(下文稱“結巴關鍵詞”),同樣結巴關鍵詞最多保留8個,形成字段包含標題、摘要、作者關鍵詞和結巴關鍵詞的數據集合,并刪除作者關鍵詞中沒有出現在結巴關鍵詞的詞匯形成jieba-dataset。

4.2 評價指標

評價指標采用多標簽分類評估指標flat mea‐sure[18]。該評價指標包括基于實例的方法(examplebased method)和基于標簽的方法(label-based method)兩類。基于實例的方法把評價過程分解為單個實例的評價,然后求所有實例的均值。基于標簽的方法把評價過程分解為基于單個標簽的評價,然后求所有標簽的均值;其又可以進一步分為宏平均(macro average)和微平均(micro average),其中宏平均對每個類別賦予相同的權重,而微平均對每個文檔的分類結果賦予相同的權重。因為主題標引更強調對一篇篇文檔標引的效果,采用基于實例的方法或微平均相對而言更適合。這里采用基于實例的評價方法,其計算方法為:設文檔總數量為M,標簽總數量為K。對于M個文檔中的任意一實例文檔i,其真實標簽列表記為y i,預測標簽列表記為?,它們均有K個標簽元素,每個元素的取值為{0,1},即某個標簽出現時取值為1,不出現時取值為0。則對一個實例文檔i,有

其中,EBPi是該實例文檔標簽預測的準確率;EBRi是標簽預測的召回率;EBFi是標簽預測的F1-mea‐sure值。進而得出整體上的評價指標:

4.3 實驗結果及討論

為了評估本研究提出方法的效果,首先統計了index-dataset和jieba-dataset兩個數據集中不同作者關鍵詞數量下的文檔數量分布。這里的作者關鍵詞數量指一篇論文包含的作者關鍵詞數量。其中,in‐dex-dataset數據集中,作者關鍵詞中已經去除了不在主題詞表中的詞匯;jieba-dataset數據集中,作者關鍵詞中則去除了沒有出現在結巴關鍵詞中的詞匯。不同作者關鍵詞數量下的文檔數量分布如表2所示,其中文檔數量(標引)表示的是index-datas‐et數據集中不同關鍵詞數量下的文檔數量分布,文檔數量(結巴)表示的是jieba-dataset數據集中不同關鍵詞數量下的文檔數量分布。

從表2可以看出,在1個作者關鍵詞數量的情況下,結巴關鍵詞的文檔數量超過了本文自動化標引算法的文檔數量;而在其他作者關鍵詞數量下,本文自動化標引算法標引的主題詞數量均大于結巴關鍵詞的文檔數量,而且數量優勢明顯。考慮到在形成index-dataset和jieba-dataset數據集時,分別去掉了作者關鍵詞中沒有出現在標引主題詞和結巴關鍵詞的詞匯,說明作者關鍵詞數量為1的情況下結巴關鍵詞與作者關鍵詞有較高的重合數,而在多作者關鍵詞數量下,本文自動化標引算法標引的主題詞與作者關鍵詞有較高的重合數,標引算法總體上比結巴關鍵詞算法有優勢。

表2 不同作者關鍵詞數量下的文檔數量分布

分別計算了兩個數據集在不同作者關鍵詞數量下的EBP、EBR和EBF指標,如圖4所示。其中,數據點標記為正方形的線條表示index-dataset上的結果,數據點標記為圓形的線條表示jieba-dataset上的結果;EBP指標用實線(solid line)表示,EBR指標用短劃線(dashed line)表示,EBF指標用點線(dotted line)表示。相對而言,兩個數據集上的EBR指標值較EBP大,這主要是因為預測的標簽數量平均較大(最多保留了8個主題詞或結巴關鍵詞),而大多數論文中關鍵詞數量在3~5個,且去除了未出現在機器標引詞中的關鍵詞。

從圖4可以看出,不管是標引主題詞還是結巴關鍵詞方法,隨著作者關鍵詞數量的增加,準確性在提高而召回率在下降,且本文標引方法召回率下降速度更快。結巴關鍵詞在3項指標上均有優勢,尤其是EBR指標,具有明顯的優勢。這主要是因為作者關鍵詞一般按順序從標題、摘要和正文中抽取,而結巴關鍵詞是從標題和摘要文本中抽取的,自動化標引算法標注的主題詞不一定在論文中出現。因此,相對而言,結巴關鍵詞具有較好的準確率和召回率,而且召回率下降較慢。從圖3上還可以看到,在關鍵詞數量為1時,標引主題詞與結巴關鍵詞的準確率EBP基本相同,隨著作者關鍵詞數量的增多,兩者的準確率都在增加,但結巴關鍵詞的準確率稍高一點,說明結巴關鍵詞與作者關鍵詞有較高的重合率,標引主題詞與作者關鍵詞的重合率則較低,標引算法賦予待標引文本更多的非作者關鍵詞詞匯。

圖4 主題標引與結巴關鍵詞標引結果對比

為了進一步說明這個問題,統計了作者關鍵詞數量、結巴關鍵詞數量、標引主題詞數量,以及未出現在論文文本中的作者關鍵詞數量、結巴關鍵詞數量和標引主題詞數量。作者關鍵詞的數量為4576513個,其中747981個未出現在標題和摘要中,占比為16.34%,即大多數作者關鍵詞都出現在論文文本中。結巴關鍵詞數量為7925997個,全部出現在標題和摘要中。相比而言,標引主題詞總數量為6988176個,其中有3842968個未出現在標題和摘要中,占比達54.99%,主題詞未出現在標題和摘要中的文獻比例高達86.14%,即絕大多數文獻都被賦予了未在文獻文本中出現的詞匯。這也解釋了結巴關鍵詞指標更好的原因。

為了較公平地比較兩個方法,進一步去掉了標引主題詞中未出現在論文文本中的詞匯,同時去掉結巴關鍵詞中不是主題詞的詞匯,這樣結巴關鍵詞和標引主題詞均是文本中出現的主題詞。再次計算兩個方法的3項指標(圖5),其中數據點標記為正方形的線條是主題標引數據集index-dataset上的結果,數據點標記為圓形的線條是結巴關鍵詞數據集jieba-dataset上的結果。同樣,實線表示EBP指標,短劃線表示EBR指標,點線表示EBF指標。

在圖5中,本文提出的自動標引方法在每一個關鍵詞數量下的EBP指標值均超過了結巴關鍵詞方法,EBR除了在關鍵詞數量為1時超過了結巴關鍵詞方法,其他情況下均低于結巴關鍵詞方法;而且能夠明顯看到,標引主題詞方法的召回率下降速度很快,而結巴關鍵詞方法下降比較慢,只有在關鍵詞數量超過5個后才出現快速下降。這也進一步說明,從論文文本抽取的結巴關鍵詞與作者關鍵詞有較多的重合,而標引主題詞生成了更多非作者關鍵詞的詞匯,所以標引方法的召回率下降更快,但同時自動標引方法提供了更多的、可靠的語義標簽。

圖5 主題標引與結巴關鍵詞標引結果對比(去除非文本詞和非主題詞)

為了更進一步說明本文方法的效果,將本文方法和人工標引進行對比。實驗數據集由中國工程科技知識中心林業分中心提供。該數據集共包含3411條文獻及人工標注的主題詞。每一篇文獻一般有3~8個主題詞。同樣,在實驗中,我們去掉了知識中心主題詞表中不存在的人工標引詞。實驗結果如圖6所示。

圖6 主題標引與人工標引結果對比

從圖6可以看出,隨著人工標引主題詞數量的增加,本文提出的自動標引方法的EBP指標值不斷增加(圖中的實線),而EBR指標值不斷下降(圖中的短劃線),但EBF指標值基本是不斷增加的(圖中的點線),說明隨著人工標引詞數量的增加,機器標引的整體效果在不斷提升。當人工標引主題詞數量小于等于2個時,EBR指標值下降較快;而當人工標引主題詞數量多于3個時,EBR指標值下降的速度明顯變慢,這說明在人工選擇較多的主題詞時,機器標引結果與人工標引結果的一致性在增加。

5 結語

本研究提出了一種對文本進行大規模主題詞標注的混合型標引方法,它綜合了統計分析和語義分析技術實現數量達數十萬規模的主題詞在海量數據上的標注,可以應用于搜索引擎、新聞服務、電子圖書館等領域,也可在全文檢索、文本分類、信息過濾和文檔摘要等任務中發揮作用,能夠更好地應對信息資源的快速增長造成信息相對過剩的問題,提高信息組織的效率,方便人們高效地管理和檢索文檔。本研究基于大規模文本語料上訓練的分布式詞向量,生成相同維度的主題詞表示向量、待標引文本表示向量,通過兩者向量相似度計算和排序為文本賦予語義關聯強的主題詞,實現了自動的主題標引。為了減少計算量,建立主題詞和普通詞映射關系表,在標引時通過該表為文本生成語義關鍵性強的候選主題詞列表,從而實現文本向量與較少數量主題詞的相似度計算。與現有的自動標引方法相比,該方法不需要機器學習算法所需的大量帶標簽的訓練數據,不僅能實現賦詞標引,還能對數量規模超過10萬的綜合型主題詞表進行標注,而且對大規模文本的主題標注效率較高。

利用本研究提出的方法開發了自動標引工具,實現了對近億篇文獻的快速標注。為了驗證該方法的效果,提取100萬篇標注數據生成實驗數據集,以作者關鍵詞為基準,采用flat measure多標簽分類算法評價指標,與結巴關鍵詞工具抽取的關鍵詞結果進行對比,發現該方法能抽取更多的文本及作者關鍵詞中未出現的主題詞,為揭示文本信息提供了更多的語義標簽。雖然總體上結巴關鍵詞在指標上取得了較好的數值,但其抽取的關鍵詞與作者關鍵詞重合較多,且均出現在文本中。如果標引主題詞只保留出現在文本中的詞匯,而結巴關鍵詞只保留主題詞,則本研究提出的方法在準確率上更好,但召回率較低,主要原因是結巴關鍵詞大多出現在作者關鍵詞中,而標引主題詞大多不在作者關鍵詞中。將本研究提出的方法與人工標引對比時發現,在人工選擇較多的主題詞時,機器標引的結果與人工標引結果的一致性在不斷增加。

本研究雖然實現了大規模主題詞在海量文獻上的自動標注,但還存在一些需要提高或完善的地方。一方面是本研究使用word2vec技術實現分布式詞向量,該技術出現后有了一些新的詞向量技術,如BERT[34]、XLNet[38]等,它們可能會帶來更好的效果,未來將嘗試這些詞向量技術,了解并對比它們在自動標引上的效果。另一方面是本研究采用了多標簽分類算法評價指標,沒有采用人工方法來評判,無法判斷那些未在文本中出現的標引主題詞是否是合適的,主要是因為人工判別會存在主觀性大、一致性差、成本高等問題,少量的抽樣不一定能說明問題。實際上,我們抽取了少量的標注結果給領域專家,他們對該方法的結果表示了不同程度的滿意度。未來將考慮抽取多個領域的標注結果,交給多個領域專家評判該方法的效果。

主站蜘蛛池模板: 欧美一区二区自偷自拍视频| 久久精品一品道久久精品| 91探花在线观看国产最新| 国产在线视频导航| 久久精品波多野结衣| 亚洲天堂免费观看| 亚洲av片在线免费观看| 热re99久久精品国99热| 日本免费a视频| 青青操视频在线| 中文无码日韩精品| 97se亚洲综合在线韩国专区福利| 久久一本精品久久久ー99| 日本黄色不卡视频| 国产精品自在在线午夜区app| 国产96在线 | 69精品在线观看| 人妻精品久久无码区| 91最新精品视频发布页| 精品久久久久久成人AV| 国产特级毛片| 亚洲精品另类| 日韩不卡高清视频| 亚洲一区二区黄色| 国内精品小视频在线| 色综合久久88| 精品成人一区二区三区电影| 亚洲一区二区三区中文字幕5566| 国产微拍一区二区三区四区| 亚洲日韩AV无码一区二区三区人| 国产欧美日韩精品综合在线| 人妻无码中文字幕第一区| 国产69精品久久| 18禁不卡免费网站| 毛片手机在线看| 日本午夜三级| 国产成人永久免费视频| 亚洲色图在线观看| 一级毛片中文字幕| 欧美翘臀一区二区三区| 看你懂的巨臀中文字幕一区二区| 好紧好深好大乳无码中文字幕| 国产特级毛片aaaaaa| 首页亚洲国产丝袜长腿综合| 亚洲an第二区国产精品| 中文无码日韩精品| 9丨情侣偷在线精品国产| 亚洲欧美成人影院| 国产网站免费| 欧美国产日韩在线| 日韩久久精品无码aV| 久久中文电影| 国产精品密蕾丝视频| 最新国产午夜精品视频成人| 国产香蕉97碰碰视频VA碰碰看 | 国内丰满少妇猛烈精品播| 午夜少妇精品视频小电影| 91色在线观看| 男女性午夜福利网站| 四虎在线观看视频高清无码 | av天堂最新版在线| 91成人在线免费视频| 国产精品美女网站| 亚洲一区二区三区麻豆| 国产门事件在线| 谁有在线观看日韩亚洲最新视频| 久久久亚洲国产美女国产盗摄| 精品一区国产精品| 日本亚洲成高清一区二区三区| 国产高潮视频在线观看| 波多野结衣久久高清免费| 精品久久久久久中文字幕女| 亚洲欧美精品一中文字幕| 视频一本大道香蕉久在线播放| 久久青草免费91观看| 青青草欧美| 亚洲精品在线观看91| 欧美色视频在线| 无码网站免费观看| 国产第一页免费浮力影院| 国产av色站网站| 亚洲一级毛片免费观看|