999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學術文本結構功能深度學習識別方法的多學科對比分析

2019-02-25 03:14:45李楠方麗張逸飛
現代情報 2019年12期
關鍵詞:深度學習

李楠 方麗 張逸飛

摘要:[目的/意義]學術文本的結構功能識別可視為多類別文本自動分類問題,借助深度學習技術能夠獲得良好的自動識別性能,然而目前缺少其在不同學科適用性的對比研究。[方法/過程]選擇醫學、圖情、數據、出版、經濟5個學科方向5種期刊的6 452篇結構式摘要為基礎語料,設計并實現了基于Magpie深度學習組件的學術文本結構功能識別實驗,通過對比分析同一分類模型在不同學科領域實驗語料上的性能表現及其影響因素,揭示機器學習方法的學科適用性規律。[結果/結論]實驗結果顯示,學科差異性對于機器學習效果有顯著的影響,其中醫學領域學術文本的結構功能識別效率明顯高于其他學科,常見的學術文本功能結構框架中“方法”和“結果”的機器學習識別效果更佳。

關鍵詞:文本結構功能識別;深度學習;多學科;文本分類;Magpie

DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .007

[中圖分類號] G203 [文獻標識碼]A [文章編號]1008-0821( 2019) 12-0055-09

學術文本的結構功能是對學術文獻的結構和章節功能的描述與概括[1],通常研究性論文的結構可以根據IMRaD模型的定義劃分為“目的”、“方法”、“結果”和“結論”等部分[2],這種結構化的功能劃分能夠更加清晰地展示學術文獻的語義構成,便于更細粒度的知識檢索、挖掘與發現,因而在圖書情報及信息科學領域,學術文本的結構功能識別成為學術文獻知識挖掘的重要研究內容之一。而隨著機器學習技術的興起,基于傳統的條件隨機場(CRF)、支持向量機(SVM)等機器學習模型的自動識別方法獲得了良好的實驗性能,識別準確率可達到70% - 80%[ 1.3-4]。尤其是近年來,深度學習領域的技術突破使得自然語言處理能力得到極大提升,文本結構功能識別的效果獲得了更深層次地優化,基于卷積神經網絡(CNN)、長短期記憶網絡( LSTM)等深度學習模型的最優識別效果可接近或超過90%[ 5-6]。

然而,在數據的復雜性和規?;挠绊懴?,深度學習等機器學習方法的應用研究同樣面臨諸多值得深入探討的現實問題,不同應用情境下機器學習方法的適用性問題就是其中之一。基于機器學習的文本結構功能識別問題本質上是基于文本的語法及語義特征實現的自動處理過程,因此,識別性能依賴機器學習模型對于文本特征的提取和訓練學習效果。而學術文本不同于一般的開放域文本,學術研究的科學范式導致了學術文獻在科學陳述邏輯、語言表達方式、語義結構功能等方面具有規律性的同時也存在一定差異,從而使得學術文本具有鮮明的學科特征。機器學習模型能否實現對特定應用情境下文本語法及語義特征的提取則直接影響著實際的應用效果。目前,大多數研究主要集中于各類機器學習模型的運行性能與應用效果[7-8],卻少有學者從學科差異的視角探討學術語境下機器學習方法的適用性。針對上述情況,本文選取不同學科、具有不同語義結構的學術文本建立深度學習實驗環境,通過對實驗結果的對比分析,評估機器學習模型在不同學科的運行表現。本研究不僅為驗證深度學習模型在語義結構功能識別應用上的性能狀況提供第一手的實證資料,而且為深度學習方法在不同學科背景下的應用提供有價值的參考建議。

1 文本結構功能識別相關研究

學術文本的內容結構具有一定的規律性,語句、段落或章節等不同的結構單元承擔相應的語義功能,例如:特定語句陳述研究的目的或意義,特定段落描述研究方法,特定章節給出實驗結果等。因而,學術文本的結構功能識別問題從機器學習的視角可視為一種文本自動分類任務,即在學術文獻的結構框架下,對句子、段落或章節等不同層次的文本單元進行語義功能的分類預測,實現結構功能語義標簽的自動標注。目前相關研究根據結構框架的不同主要分為兩類:

一是對標題、摘要、章節、圖表、公式等邏輯結構層次的自動識別,結構功能識別的主要對象是學術文本內容中包含的顯性知識單元。例如LuongMT等采用條件隨機場(CRF)方法實現文獻中標題、作者、摘要、圖表等邏輯結構的識別[9],Tu-arob S等則是采用支持向量機(SVM)和樸素貝葉斯(NBC)模型對學術文獻的章節邊界進行劃分[10],Constantin A等提出了一種解析PDF文檔結構的技術方案,實現了從PDF格式的學術文獻中獲取邏輯機構并實現XML規范化描述的工具,實現了對標題、作者、參考文獻等結構的識別[11]。而國內相關研究也取得了進展,黃永等同樣以支持向量機為分類器引入詞匯聚類特征實現章節結構的識別[4]。

二是對文本內容的功能性結構層次的自動識別,例如IMRaD模型定義的“四項式”功能結構,并不一定與文本的語句、段落或章節等邏輯結構逐一對應,對學術文本中的語句、段落或章節等不同層次的單元根據不同的文本功能結構進行分類標識,是近年來研究的重點,也是本文關注的研究內容。目前,常用的學術文本功能結構框架除了廣泛采用的IMRaD模型,還有根據特定領域的學科特點或論文體裁需求而定義的不同結構模型,比如早期臨床類論文采用的“八項式”結構,包含目的、設計、研究單位、研究對象、處理方法、測定、主要結果和結論等要素,后經改進后稱為Haynes -Huth結構[12];根據循證醫學的臨床指南,生物醫學領域通常遵循PICO“四項式”結構,包含研究樣本、臨床干預、對照、干預的影響或結果,以便明確體現臨床醫學涉及的主要信息內容[13];在社會科學領域也有采用背景、目的、方法、結果、結論和評述等“六項式”結構;針對綜述型論文提出的包括目的、資料來源、研究選擇、資料提取、資料綜合、結論等的“六項式”結構。上述功能結構框架已在不同領域文獻的結構式摘要中得到采用,而在文本結構功能識別研究中,功能結構框架仍然以IMRaD為主。

在實現方法上,除了傳統的CRF、SVM分類模型以及多種分類模型的融合改進以外,近年來深度學習模型的應用逐漸深入,以卷積神經網絡( CNN)、遞歸神經網絡(RNN)為代表的深度學習模型,以及在此基礎上創新的長短期記憶網絡( LSTM)、LSTM - CRF、CNN -CRF等模型層出不窮,學者們圍繞不同分類模型在文本結構功能識別中的應用展開研究。筆者從調研文獻中選取了近年來發表的5種代表性方法,對其研究對象、功能結構、分類模型等進行了對比,如表1所示,現有研究主要從機器學習方法有效性的視角更多地關注不同分類模型(分類器)在單一數據集上的實驗性能,包括不同分類模型的整體和單類別識別性能、方法的執行效率、分類參數的最優設置等。其中,前3項研究采用傳統的機器學習模型,后兩項則采用深度學習模型,性能對比結果顯示深度學習模型的實驗性能整體高于傳統模型,但由于現有研究針對不同學科領域的學術文本展開,樣本的語種、規模、學科領域、功能結構都存在差異,因此無法直接對比分析其性能差異的影響因素。基于上述分析,本文重點關注特定分類模型在不同實驗條件下的性能表現,以探索機器學習模型實際應用性能的深層規律。

2 基于深度學習的學術文本語義結構功能識別實驗

2.1 數據準備

結構式摘要是近年來在部分學科領域推廣使用的摘要撰寫方式,倡導作者根據研究要素構成提供結構化的簡要內容陳述,據統計ESI高被引期刊中提供結構式摘要的期刊總體占比14.4%,而生物醫學領域采用結構式摘要的期刊占比達到29.2%[15]。盡管結構式摘要并未覆蓋所有學科領域,但這種自帶功能結構標簽的摘要文本,對于開展有監督機器學習提供了極大的便利,因而成為眾多學者選擇的理想實驗語料。

為了保證語料的選取滿足多學科對比研究的實驗需求,筆者通過對中國知網( CNKI)收錄期刊的摘要文本結構化程度、摘要語義結構、所屬學科分類、文獻量等方面進行調研,從5個不同的學科分支分別選擇一種代表性期刊,以5種期刊上提供結構式摘要的刊載論文摘要文本作為實驗數據。其中,醫藥、衛生類選取了國內最早引進結構式摘要并構建了生物醫學領域“四項式”摘要結構化模型的《新鄉醫學院學報》[16],傳統的圖情類期刊《圖書情報工作》和《數據分析與知識發現》則根據其發文所屬的中圖分類分布,將兩個期刊分別作為圖書館學、圖書館事業類( G25)和信息處理、信息加工類( TP391)的代表期刊,而針對目前提供結構式摘要的經濟類期刊較少的情況,選擇了同時被CSSCI和北大核心期刊收錄的《數量經濟技術經濟研究》作為經濟類實驗語料。實驗數據集詳情如表2所示。

考慮到實驗數據規模平衡性,除《新鄉醫學院學報》只選取了10年數據外,其他期刊數據的起始年份均是從提供結構式摘要的卷期年份開始截止至檢索日期(2019年6月)。然后,對獲取的文本數據進行預處理,包括過濾非研究論文數據、對摘要文本進行語句切分等,經過預處理共獲得符合要求的學術文本摘要6 452篇,帶語義標簽的學術文本語句32 160條記錄,數據的訓練測試比為9:1(摘要文本語料示例見圖1)。

2.2 工具選取與實驗步驟

實驗采用開源深度學習組件Magpie[17]作為基礎工具實現學術期刊摘要文本的功能結構識別實驗,解決多學科不同期刊不同功能結構框架下的多類別分類問題( Multi-class Classification)。Magpie最初用于實現高等物理領域文獻摘要的主題分類標引,后被改進并封裝后成為一種實現大規模訓練語料基礎上的文本分類通用工具。目前,Magpie采用的基礎模型參考了先后由Kim y[18]和Berger MJ[19]提出的基于CNN的文本分類模型。封裝后的Magpie在Word2Vec實現的詞向量化基礎上,通過SciKit Leam進行數據集的標準化處理,然后利用Keras神經網絡API實現深度學習完成分類任務,基本原理如圖2所示。

為科學全面地評估機器學習方法的適用性,實驗根據5種期刊所屬的中圖分類(見2.1節表2)將樣本語料分為5組,下文簡稱“醫學”、“圖情”、“數據”、“出版”、“經濟”,從學科差別、功能結構、樣本規模等多種角度,觀察5組數據的分類性能差異,分析機器學習的影響因素及變化規律。具體步驟如下:首先,將實驗數據通過分詞處理后利用Word2Vec算法構建各獨立語句文本的詞向量( Word_Vector);然后,在對數據進行標準化處理( Scaler)后調用Mapgie組件開展機器學習;最后,生成相應的機器學習模型( Model. h5),并應用于測試語料的自動分類。部分示例代碼如下:

magpie= Magpie(

keras_model='../magpie_result/20_0.1 _li/mod-e1.h5 '.

word2vec_ model='../magpie _result/20 _0.1 _li/embeddings ',

scaler='../magpie_result/20_0. l_li/scaler ',

labels=[' purpose',' method',' result',' limita-tion ', 'application',valuation])

#調用Magpie機器學習模型及語義標注集

for index in df_test_data.index:

test—sentence= df—test—data. loc[ index,”sen-tence”]

test_sentence= jieba. cut( test _sentence, cut_all=False.HMM =True)

test—sentence=””.join( test_sentence)

#測試語句切分及預處理

temp= magpie.predict_from_text( test_sentence)

#應用Magpie進行分類預測

2.3 性能評價方法

目前對于文本分類實驗的測評主要有如下指標:精確率( Precision)、召回率(Recall)以及調和均值( F-Score),可以單獨評價不同分類的局部預測性能,并通過均值計算表達整體性能。為方便對比分析,本實驗對混淆矩陣進行了P、R和F值列的擴展。具體混淆矩陣及其計算公式如下:

其中混淆矩陣中Ci表示分類,行代表真實值即摘要文本中自帶的分類標簽,列代表預測值即機器學習的分類預測結果,矩陣元素Xij表示真實值為Ci的文本被預測為Cj的類別數,各分類的準確率Pi根據預測值對應的列元素進行計算,召回率Ri根據真實值對應的行元素進行計算,整體準確率和召回率根據均值計算。計算公式如下:

3 實驗結果分析

3.1 不同學科的文本結構功能識別效果初步分析

實驗選擇Python3.6開發環境并調用Mag-piel.0,設置訓練語料中10%的數據作為機器學習效果的測試數據(即Test_ratio=0.1),文本的詞向量維度設置為300(即vec_dim= 300),學習迭代次數設置為20(即Epochs= 20)。對5個學科的語句級文本數據進行標注實驗結果如下:

通過上述同參數對比實驗可以發現:醫學類文獻摘要文本的語義結構功能自動識別效果最優,其次是圖情和經濟類摘要文本,識別效果較差的為數據類和出版類摘要文本。其中,醫學類文本較其他4個學科的語義結構識別正確率有明顯優勢。結合表5-7的混淆矩陣顯示,醫學類表征分類器整體性能的F值分布在0. 8619 -0.9105之間,各分類的性能表現都接近或優于90%;而在其他學科,比如圖情和出版類文本上整體F值分別僅有0. 683和0. 5949,表明相同的分類模型在不同學科文本中性能差異明顯。

究其原因,醫學類文本在語言形式表達上具有明顯的規律性,使得各分類都有顯著的排他性特征。例如,對醫學類文本的句式進行歸納總結可以發現其句式具有特定規律,以“目的”類樣本為例,491條分類正確的樣本中,以“探討/探尋/探索…” (286條)、 “了解/考察/觀察…” (106條)、“研究…”(37條)、“分析/比較…”(32條)、“評價/總結…”(19條)為代表句型,共計480條,占該分類樣本總數的98%。而在其他4個學科,這種句式表達的規律性相對不顯著。

除了句式特征,只出現在某一類樣本中的高頻詞往往在分類等機器處理的過程中作為基本特征具有很高的區分度,將這種具有高區分度的高頻詞(常為學科術語)其稱為類別的專有高頻詞,據此對實驗文本進行高頻詞分析,統計結果同樣呈現出規律性。如表8所示醫學和圖情類語料專有高頻詞數量分布相對突出,醫學詞頻高于60的43個高頻詞中專有高頻詞有29個,占比67%,詞頻高于50的高頻詞集合中專有高頻詞占比甚至達到75%,相較而言圖情類文本表現稍弱,詞頻高于50的高頻詞集合中專有高頻詞占比最高,達到67.6%;而出版、數據和經濟類語料整體上高頻詞相對較少,詞頻超過20的高頻詞分別僅有32、29、10個,專有高頻詞數量極少。而從詞頻均值來看,醫學類表現強勢,高頻詞的詞頻均值遠超其他類別,盡管出版類語料的詞頻均值也出現了40以上的較高數值,但高頻詞數量的限制使得出版類語料的文本特征區分度仍然較弱。從專有高頻詞與詞頻均值的分析結果來看,其特征規律也與實驗結果保持一致。雖然除醫學和圖情類外其他3類語料識別效果偏低的情況,一定程度上可能受這3類語料的樣本規模的影響,但筆者認為其數據統計結果呈現的規律一定程度上也反映出學科本身的術語專指度水平也是機器學習效果學科差異化產生的實質影響因素。

3.2 不同結構框架下學術文本結構功能識別效果深度分析

為了進一步探究學科文本特征差異產生的原因,實驗對不同功能結構框架下各分類的識別性能分別進行了對比分析。在5組樣本數據中,醫學和出版兩類文本的功能結構完全相同,但其他3類文本也都包含了目的(研究目標)、方法(過程/方法、研究方法)、結果(研究發現)等常用功能結構,根據期刊實際要求而略有不同。而對照不同功能結構的實驗結果可以發現在各個學科不同分類之間的識別性能各異,縱向比較并沒有明顯的共同規律。醫學類整體準確率都在90%左右,尤其是“目的”和“結果”類的識別準確率高于90%,而出版和圖情類文本的識別準確率最高值出現在“方法”類,經濟和數據類的識別準確率最高值分別出現在“研究價值”和“局限”類。

而從橫向比較來看,在“方法”和“結果”類的識別召回率上各個學科的表現趨勢是基本一致的,醫學類文本的“方法”類識別召回率達到全局最優的94.43%,經濟類文本的“研究發現”類召回率達到91.89%,其他學科的“方法”或“結果”類召回率均為學科內最優,這一現象說明了這兩類文本的機器學習特征分類辨識度較高,而體現在F值上也具有同樣的規律。不同功能結構的分類可辨識度具有一定差異,對于機器學習的效果有一定程度的影響。

結合詞頻分析對各分類專有高頻詞進行單獨統計也可以發現,在醫學類文本中專有高頻詞的分布相對均衡,每個分類基本都有一定數量的專有高頻詞且詞頻相對較高,而在圖情類文本中專有高頻詞分布逐步向“方法/過程”類傾斜,在出版類文本中排名前15位的專有高頻詞就只在“方法”類中出現了,這一分布特點進一步印證了不同功能結構分類的可辨識度差異的存在。綜合實驗結果證明在功能結構中“方法”和“結果”類事實描述的學術性內容具有更高的可辨識度,除了醫學領域,其他學科的“目的”、“結論”等思辨性較強的闡述性內容則在機器學習過程中呈現較低的識別效果。

4 總結

本文創新性地從多學科對比分析的視角考量深度學習方法在學術文本結構功能識別中的應用效果,在相同分類模型的基礎上對不同學科文本的整體識別效果、各分類的局部識別性能以及不同學科文本的統計特征等進行對比研究。從實驗結果來看,深度學習模型在文本結構功能識別中的應用效果毫無疑問高于傳統的機器學習模型,本文的實驗數據并未進行過多的數據篩選及模型優化,獲得的實驗結果已經超過部分調研的相關研究成果,再次證明了深度學習策略優于傳統機器學習方法中的機器學習特征建模策略,依靠神經網絡的迭代計算與自學習來實現對特征的提取與模型構建,在以自然語言處理為基礎的研究中具有很好的適用性。更重要的是,實驗研究的結果證明了學科差異性對學術文本結構功能識別效果的影響是不可忽視的,而學術文本的句式、高頻詞等規律性特征是出現這種學科差異性的重要原因。因此,在當前大數據研究不斷深入,大量研究依靠數據規?;幚硪蕴嵘龣C器學習效率的同時,我們應當充分考慮學科差異化帶來的影響,不應該盲目構建跨學科大規模應用數據集合,而需要充分融人數據的學科特征,包括文本的語言表達特點、語義結構差異、學科術語專指度等,在形成合理的跨學科數據集成框架后再考慮多學科數據的融合與集成應用。由于本次實驗選取的各學科樣本規模并不均衡,部分學科樣本量偏小,一定程度上會對實驗結果的有效性產生一定影響,因此擬在后續研究中進一步擴大數據規模及學科覆蓋面,一方面更深層次、更全面地衡量機器學習的性能和泛化能力,實現更準確地學科差異化的影響評估;另外一方面也可以從深度學習的技術視角,進一步探索在不同學科語境下深度學習方法在條件設置、參數選取等方面是否也具有學科差異化表現等一系列問題。

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 天堂岛国av无码免费无禁网站| 国产在线观看第二页| 手机在线免费毛片| 国产视频一区二区在线观看| 99re热精品视频国产免费| 国产美女主播一级成人毛片| 国产成人一区| 免费观看国产小粉嫩喷水 | 青青草国产在线视频| 国产在线一区视频| 国产日韩欧美视频| 在线播放91| 精品国产黑色丝袜高跟鞋| 六月婷婷激情综合| 日本亚洲国产一区二区三区| 久一在线视频| 日韩成人在线一区二区| 亚洲精品免费网站| 亚洲香蕉久久| 国产午夜一级淫片| 无遮挡一级毛片呦女视频| 亚洲婷婷六月| 亚洲无码高清一区| 真实国产乱子伦高清| 精品国产免费观看一区| 日日拍夜夜嗷嗷叫国产| 99精品免费在线| 91亚洲国产视频| 久久免费成人| 中文字幕av一区二区三区欲色| 亚洲无码高清免费视频亚洲| 精品视频免费在线| 精品久久综合1区2区3区激情| yy6080理论大片一级久久| 精品剧情v国产在线观看| 国产精品综合久久久| 最新亚洲人成网站在线观看| 亚洲国产清纯| 国内毛片视频| 成人午夜网址| 91成人试看福利体验区| 99热最新网址| 99精品欧美一区| 国产精品无码作爱| 精品国产免费第一区二区三区日韩| 亚洲an第二区国产精品| 91外围女在线观看| 99re视频在线| 无码又爽又刺激的高潮视频| 国产成人在线小视频| 久久黄色影院| 亚洲人成网线在线播放va| 精品亚洲国产成人AV| 18禁色诱爆乳网站| 91色爱欧美精品www| 在线观看精品国产入口| 尤物国产在线| 国产精品自拍露脸视频| 国产综合网站| 国产在线观看一区精品| 国产欧美日韩专区发布| 91麻豆精品视频| 久久久久久尹人网香蕉| 国产人成在线观看| 欧美一区二区自偷自拍视频| 国产午夜无码片在线观看网站| 五月天久久综合国产一区二区| 国产在线91在线电影| 国产欧美日韩精品第二区| 无码一区18禁| www.亚洲一区二区三区| 成人免费午夜视频| 青青热久免费精品视频6| 国产亚洲欧美日韩在线一区| 欧美成人精品在线| 日韩人妻无码制服丝袜视频| 波多野结衣一区二区三区88| 国产AV毛片| 国产尹人香蕉综合在线电影| 人妻精品全国免费视频| 99热免费在线| 欧美一级在线播放|