999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

創新視角的論文間關聯挖掘研究

2022-11-28 02:23:30曹樹金
現代情報 2022年12期
關鍵詞:關聯語義模型

曹樹金 趙 浜

(中山大學信息管理學院,廣東 廣州 510006)

科研創新是每一位學者應有的不懈追求,然而科研創新并非易事,需要在科研工作中不斷地求索與開拓。學術論文是學者們科研工作的綜合呈現,每一篇都凝結著前人的智慧、當下的成果,以及對后人的啟發。每一次真正的科研探索都會由特定基點出發,有新的發現、尚存的問題,以及對進一步研究的思考乃至推演,從而引出下一步的基點,而這些通常會被論文所承載。論文間就存在著這樣一種潛在關聯,發掘此種關聯可為學者提供開展科研創新、創作學術論文梳理可以遵從的成果基礎,需要注意的探索阻礙以及值得努力的創新方向。

學術論文通常在篇章結構上存在結論與展望部分,這里會總結研究發現與結論、研究不足與局限以及未來可開展的研究方向與思路等,謂之“啟后”;而論文的摘要部分通常也包含研究目的與意義,是學者們經過提煉前人研究后針對不足與局限,或是當前研究空白所進行更深入探索的契機,謂之“承前”。每篇論文都可能有其“承前”或“啟后”的1篇或多篇論文,而它們之間就可能存在一種“承前啟后”的關聯鏈條,甚至是關聯網絡。

然而發掘此間關聯并非易事,特別是當前面對學術論文資源爆炸性增長的態勢,傳統的“文獻檢索+人工理解分析”方式顯然會越來越困難。一般的引文分析又因缺乏被引位置的上下文語義信息導致無法判斷其具體作用,且引文分析是往前追溯,無法對未來可創新的基點進行有效預測。因此,本文嘗試綜合運用深度學習模型、語義相似算法等自然語言處理技術以及模糊邏輯,從語義角度構建學術論文起承關聯智能化挖掘方案,以期有效發掘論文間“承前啟后”的關聯,助力學者更快梳理領域內已有研究的脈絡與傳承關系,發現后續研究值得創新的方向與視角,啟發科研工作者的創新靈感與思路。

1 相關研究

論文間的關聯研究一直是圖書情報學界的重要研究內容。目前大量工作從作者、機構、期刊、基金項目、關鍵詞、引文等論文要素關聯角度展開;而基于論文內容的關聯,特別是論文內容間的語義關聯的研究相對較少。但隨著自然語言處理在文本分類、語義分析、信息檢索、閱讀理解等技術上取得的長足進步[1],相關研究也在迅速進展。已有研究包括結合科研實體與研究內容的科技文獻間語義關聯網絡[2],利用語義分析方法構建學術論文創新內容知識圖譜[3],從特定功能章節內容中的引文分布結構探討對后續文獻的影響[4]等,分別從不同視角對論文間的關聯開展了探索。

對于論文內的結構功能識別研究,秦成磊等[5]利用不同粒度的層次注意力網絡模型在特定領域中實現了較好的識別效果;王佳敏等[6]通過多層次融合模型實現了對章節標題、章節內容和章節段落的有效抽取。對于摘要結構功能的識別研究,沈思等[7]利用LSTM-CRF模型較好地識別了目的、方法、結果等摘要結構;鄭夢悅等[8]通過知識元本體模型實現了對非結構化摘要中上述3種摘要結構的有效抽取。針對論文內句子級特定類型內容的識別研究,羅卓然等[9]基于ALBERT深度學習模型有效識別了學術論文創新貢獻句;曹樹金等[10]利用BERT深度學習模型識別學術論文創新句并構建了創新點檢索入口。實際上,句子級特定類型內容的識別與摘要結構功能的識別非常類似,可以等同為同一類研究問題;而其與論文篇章結構功能識別的不同在某些模式下可理解為長短文本的差異。

語義相似度算法在自然語言處理中是一個古老卻又一直煥發著生機與活力的話題,在經歷了傳統的基于字符串匹配、基于分布統計、基于知識庫等經典算法后,隨著神經網絡的出現,各種基于深度學習的方法迅速發展。特別是2018年BERT模型[11]的出現,給NLP界帶來了巨大變化,隨后在語義相似度計算任務上不斷涌現了諸如Sentence-BERT[12]、BERT-flow[13]、SimCSE[14]、CoSENT[15]等優秀的算法模型。語義相似度計算從任務目標上可劃分為短文本間的匹配、短文本與長文本間的匹配以及長文本間的匹配,目前的算法模型普遍來講在短文本間匹配的任務上效果相對較好。

在自然語言中,絕對精確是不多的,在平時說話、寫文章、下定義時,都大量地存在著模糊現象。為了以科學的方法將模糊的事情變得精確,美國控制論專家扎德(Zadeh L A)提出了模糊集理論,目前該理論在人工智能領域有著重要且廣泛的應用。模糊計算以模糊集理論為基礎,可以表現事物本身性質的內在不確定性,能夠模擬人腦認識客觀世界的非精確、非線性的信息處理能力,在綜合評價[16]、知識發現[17]、決策支持[18]等方面都有深入的研究。

本文將充分借鑒當前相關研究的成功經驗,結合本研究欲為學者們開展更深層或更廣域科研創新提供線索與指引的目標,利用深度學習模型、語義相似度算法以及模糊邏輯在特定任務上的優勢,嘗試構建一套智能化的論文間“承前啟后”關聯挖掘方案。

2 研究設計與方法

2.1 基本思路

論文中結論、不足、展望部分都會對后續研究有一定的啟發作用,但由于其功能的不同以及作者表述上的差異,有必要將三者加以區分。一般情況下,展望部分是最直接的對后續研究基點的表述。但也經常會有因不足而引出的展望,因結論而推出的展望,這種情況下,為了語言的簡練,作者會使用諸如“針對上述不足……”“基于上述結論……”等形式,這樣在展望部分中就可能損失一定的上下文語義信息。而對于不足部分,正反兩種表達會產生字面信息的較大差別,比如“本文僅考慮了abc,未考慮其他因素……”與“本文未考慮諸如def因素……”,從語義匹配角度來講由此也會產生較大差異。對于結論部分,又通常會包含較多與其研究相關的語義信息。因此需要對3個部分綜合考量。

論文摘要中研究目的與意義部分通常包含其研究基點的描述,雖然更詳盡的研究背景介紹以及研究問題如何引入等通常出現在正文的引言部分,但考慮到針對這部分內容的識別效率以及本方案的執行效率,本研究就以論文摘要中研究目的與意義部分作為引言中所論述其研究“承前”基點的概述。那么在識別出這部分內容后就可以將如何發掘論文間“承前啟后”關聯的問題轉化為如何有效地將論文結論、不足、展望部分內容語義信息與之后發表的其他論文摘要中研究目的與意義部分內容語義信息匹配并綜合考量。

因此,本研究將學術論文間“承前啟后”關聯挖掘分為4個子任務:①截取論文結論與展望章節后對句子級結論、不足、展望部分的識別;②對論文摘要中研究目的與意義部分的識別;③結論、不足、展望部分分別和其他論文摘要中目的與意義部分的語義相似度計算;④論文間是否存在“承前啟后”關聯的推斷。子任務①、②可以同步進行,隨后逐步開展子任務③與④。

2.2 語料數據

本研究以情報學期刊論文文本為原始語料,通過CNKI選取《情報學報》2013—2022年4月發表的1 168篇文獻,經初步篩查后排除“卷首語”“編者的話”等非完整學術論文54篇后,對其余1 114篇文獻文本內容進行深入處理分析。

2.3 基于ALBERT模型的文本二分類與多分類

在進行完初步語料數據預處理后的首要任務就是對論文相關內容部分的分類識別。文本分類一直都是自然語言處理的基礎任務,按照輸出類別(標簽)不同,可分為單標簽多分類(Multi-Class Classification)和多標簽分類(Multi-Label Classification),而單標簽多分類任務中又包含二分類、三分類、多分類任務。各種分類任務都已被廣泛應用,比如廣告過濾(二分類)、情感分析(三分類:正面、負面、中性)、新聞分類(多分類或多標簽分類)等。本研究中,對于論文摘要中研究目的與意義部分的識別可視為一個二分類任務,對于結論與展望章節中結論、不足、展望部分的識別可視為一個多分類任務。BERT模型在多項文本分類任務中都有良好的效果[19],但由于二分類與多分類是不同任務,且在模型層面有些許差異,本研究將分別用兩個預訓練模型對這兩個任務進行微調。

ALBERT[20]作為BERT的一個輕量級版本,在BERT模型的基礎上加入了多種改進策略,使其在大幅減少參數量、幾乎不降低模型效果的同時,在模型訓練和模型預測的速度上有了很大的提升。本研究將調用ALBERT預訓練模型,用于后續的文本分類任務。

2.4 基于CoSENT的語義相似度算法

在文本語義相似度(Sentence Textual Similarity)任務上,BERT雖然有著優異的效果,但卻有著巨大計算開銷的代價,隨后提出的Sentence-BERT[12],在保持精度的同時大幅提升了效率。

而CoSENT(Cosine Sentence)又在InferSent[21]和Sentence-BERT的基礎上,設計了一個可排序的、優化cos值的新的損失函數,使訓練過程更貼近預測,在收斂速度和最終效果上普遍比InferSent和Sentence-BERT更好[15]。CoSENT已在開源世界中獲得了大多數的認可,其綜合性能是值得肯定的。因此,本研究將采用基于CoSENT的語義相似度算法分別計算子任務①中識別出的3個部分與子任務②中識別出的部分之間的語義相似度。

2.5 基于模糊邏輯的關聯性推斷

前3個子任務完成后,本研究將面臨的問題是,結論、不足、展望部分與目的與意義部分的語義相似度達到多少可以謂之相似?三部分分別與目的與意義部分在何種相似情況下可以推斷論文間存在“承前啟后”的關聯?實際上這些定義和判斷是相對模糊的。而模糊邏輯可用來嘗試解決上述問題,它運用模糊集理論來研究模糊性思維、語言形式及其規律。模糊邏輯善于表達界限不清晰的定性知識與經驗,它借助于隸屬度函數概念,區分模糊集合,處理模糊關系,模擬人腦實施規則型推理,解決常規方法難于對付的規則型模糊信息問題[22]。

模糊控制語言(Fuzzy Control Language,FCL)[23]是一個實現模糊邏輯,以國際電工委員會IEC 61131-7為標準規范的領域編程語言。模糊控制語言允許使用模糊邏輯定義從給定輸入到輸出的映射過程。它基于適合捕捉專家知識模糊推理方法,它的規則能以更貼近人的方式描述專家知識[24]。模糊推理過程包括以下步驟:對輸入進行模糊化處理,對模糊規則進行評估,對輸出進行聚合得到最終決策,對輸出進行解模糊處理得到一個清晰值。本研究將在子任務③完成后對所有相似度值定量分析的基礎上,結合專家經驗與判斷,通過模糊控制語言制定適當的模糊函數與模糊邏輯規則,以期較為合理地推斷論文間是否存在“承前啟后”的關聯。

3 實驗研究

3.1 數據預處理

獲取論文全文本的一般途徑是通過論文期刊數據庫下載PDF全文文件,但在批量處理全文本時由于PDF文件排版的不同或是格式版本號的不同會導致非常多的麻煩。因此,本研究選擇通過抓取CNKI期刊數據庫的論文網頁數據來獲得論文全文,隨后使用基于JAVA語言的HTML解析器Jsoup來解析并獲取不同網頁標簽下對應的各章節段落文本以及摘要,甚至是標題、作者、收稿日期等。在論文網頁數據抓取階段發現本文2.1章節所提的1 114篇文獻中有16篇只有PDF全文鏈接,沒有論文網頁鏈接,所以這16篇暫不處理,排除后對剩余1 098篇文獻進行后續分析處理。

為了增加整體方案效率,本研究將識別學術論文結論與展望章節的任務簡單化處理,即通過簡單的頁面解析與代碼邏輯獲取論文全文本數據中的最后一個章節,以此作為對結論與展望章節的初步判斷,并直接開展下一步流程。后續實驗結果表明,這樣處理在絕大多數情況下是正確的,也有少數例外,比如截取出的論文最后一章是致謝,或者是附錄。但通過下一步句子級的結論、不足、展望的識別,基本可以將這些情況鑒別出來(即在最后一章中沒有識別出三者中的任一類型),隨后再專門處理這些例外情況。通過對1 098篇文獻的最后一章文本以句號、分號或者換行為結尾的簡單分句,共獲得13 166個句子,并標記好每個句子對應的論文編號,以及他們所在章節的次序。

3.2 句子級結論、不足、展望部分的識別

首先是數據標注,本研究隨機抽取了165篇論文進行標注。標注樣本中共出現989個結論句,412個不足句,445個展望句以及23個其他句(包括致謝、附錄、圖表標題等)。隨后又選擇另外兩位標注者同時對其中的55篇再次標注,并進行交叉檢驗,得到Kappa一致性系數為0.7,即相對可靠的一致水平。

隨后是ALBERT模型的部署和訓練代碼的編寫與調試。本研究選用Bert4keras作為預訓練模型加載框架,它基于Keras開發,目前支持多種預訓練模型,并支持多種環境和后端[25],極大簡化了使用各種預訓練模型的編碼流程。本研究的實驗環境如表1所示,后續的實驗均在此環境中完成。

表1 實驗環境及配置

對albert_base_zh_additional_36k_steps預訓練模型進行微調,將batch_size設置為32,最大句長設置為256,epoch設置為5。最終模型達到了較好的水平,模型效果指標如圖1所示。

圖1 模型效果指標

但是,也可以發現其中展望部分的識別準確率相對其他部分較差。經過對訓練樣本的分析發現:①有一些論文在寫作時將不足與展望合并在一句話中表述,而在標注時的邏輯是在發現有“不足”或“局限”字眼時優先標成“不足”,但如果論文的不足與展望中僅有合并的這一句時又會標注成“展望”;②有些論文會將展望部分分成幾個小點分別表述,而表述的語言形式又與結論比較類似。這些可能都會造成模型在“學習”過程中的“迷惑”,從而影響最終的效果。

由于本研究的①、②子任務與后續任務是層層遞進的關系,每一層的結果都會對下一層任務產生影響。在模型執行完對所有結論、不足、展望部分的預測后,針對上文所述展望部分識別準確率相對較低的分析,又做了少量的干預(主要靠代碼自動處理)。處理的內容包括:①如果每一篇論文僅有結論與不足部分,自動將不足部分轉換成展望部分。這樣處理可以理解為如果論文作者只寫了不足,言下之意這就是未來需要進一步探索的地方;還有一個主要原因是子任務④中的模糊邏輯的設想是優先判斷展望部分和研究目的與意義部分間的語義相似度;②如果每一篇論文在識別出的展望部分之后(依靠數據預處理過程中記錄下的句子次序判斷),又識別出了結論部分,那么會提示進一步人工判斷是否將后面這些結論部分轉換成展望部分。因為這種情況大多數是由于論文實際的展望部分分了幾個小點分別表述,而被模型判斷成了結論,但少數例外是個別論文先寫了對未來的展望,再總結結論。

3.3 摘要中研究目的與意義部分的識別

類似地,整體沿用子任務①中的方法、模型和流程,對ALBERT模型的微調代碼進行適當改造后使其適用于二分類任務。隨機抽取200篇論文摘要進行研究目的與意義部分的標注,微調訓練好新模型后對其余論文摘要進行預測識別。由于篇幅限制,不過多論述這部分內容。

3.4 結論、不足、展望部分和其他論文摘要中目的與意義部分的語義相似度計算

將每篇論文被識別出的結論、不足、展望部分分別和其他論文摘要中目的與意義部分進行語義相似度計算。這里計算語義相似度的過程暫不考慮論文發表時間的先后次序(時序因素可待后續分析),僅排除論文自己與自己比的情況。

模型使用通過CoSENT方法,在MacBERT-base[26]預訓練模型的基礎上,利用中文STS-B(Semantic Textual Similarity Benchmark)數據集上訓練且在中文STS-B測試集評估達到SOTA(State of the Art)的text2vec-base-chinese。而MacBERT則是吸收了ALBERT的句子順序預測(Sentence Order Prediction,SOP)這一優化策略,彌補了BERT在MLM(Masked Language Model)預訓練任務中會影響其微調性能的缺陷[27],并在中文語料上進行預訓練。因此,有理由相信使用該模型可以得到較好的語義相似度計算效果。

實際計算效果示例如圖2所示,“VS”左右兩邊分別代表先前任務識別的某篇論文的展望部分以及其他論文摘要的研究目的與意義部分,SCORE代表二者的相似度分值。

同時,在所需相似度分值全部計算完成的情況下,可以通過排序算法找到相互間相似度最高的匹配,如圖3所示,可以實現一個簡單的語義相似度檢索入口。由此發現了一個疑似的“承前啟后”關聯(由后續分析可知,0.8691對于展望部分來說是一個相對較高的相似度分值,較大概率可以推斷出“承前啟后”關聯的存在)。

圖3 語義相似度檢索示例

全部相互間的語義相似度計算完成后,共得到2 669 238個相似度分值。找到每篇論文的結論、不足、展望部分和其他論文摘要的研究目的與意義間語義相似度最高的分值,統計后做成分布直方圖,如圖4~圖6所示。通過每篇論文對應部分間相似度最高值,結合實際人工判斷來為后續的模糊邏輯預測一個大致的參考空間。經初步判斷,展望部分的相似度與是否存在“承前啟后”關聯的相關性較高;在存在“承前啟后”關聯的情況下,結論部分的相似度也普遍很高,而不足部分的相似度影響不大;以展望部分相似度最高分值的前5%為前提,再找結論部分相似度較高的,有很大概率發現“承前啟后”的關聯。

圖4 結論部分最高相似度分布

圖5 不足部分最高相似度分布

3.5 論文間“承前啟后”關聯的模糊推斷

模糊計算并不模糊,反倒可以使模糊的事情變得精確。針對本文研究問題,首先需要確定論文結論、不足、展望3個部分分別與其他論文研究目的與意義部分相似度分值的模糊集合,以及對應的隸屬度函數。在模糊集合中,每個元素ei對集合A均有一定的隸屬度,隸屬度的數值取決于針對模糊集合A而定義的隸屬函數μA,其中μA(ei)表示元素ei在模糊集合A中的隸屬度,μA(ei)∈[0,1],1≤i≤n。隸屬函數可描繪為不同形狀,包括三角形、梯形和高斯形等。通常情況下,確定模糊集合與其對應隸屬度函數需要專家知識與經驗。本文研究的語料對象為情報學學術論文,是筆者熟悉的學科,加之通過對各部分語義相似度數據的統計分析,并在實驗中不斷調整函數參數與驗證,可以給出一個較為合理的設定。

參考圖4~圖6對應的各部分相似度分值的分布區間,將相似度分值分成4個模糊集合,即不相似(poor)、些許相似(median)、較相似(good)、非常相似(excellent),初步依照各項最高相似度分值的前5%、10%、20%、30%、50%等設定函數的主要節點,同時逐步調整各項節點數值,以適當地收緊或放寬對應區間,并加以驗證。最終形成以模糊控制語言(FCL)描述的模糊集合與隸屬度函數的定義,如圖7所示。

圖6 展望部分最高相似度分布

其中conclusion、shortage、future分別對應結論、不足、展望部分,每個FUZZIFY-END_FUZZIFY模塊對應了各部分的模糊集合與其隸屬度函數的定義。如圖8~圖10描繪了各部分的隸屬度函數,圖中橫坐標代表相似度分值,縱坐標代表對應模糊集合的隸屬度數值(Membership)。

圖10 展望部分隸屬函數圖像

圖11 “承前啟后”關聯的模糊邏輯規則

同時,基于模糊集合與其隸屬度函數的定義,結合語義相似度數據分析與多次實驗嘗試獲得的關聯驗證經驗,設計出如下模糊邏輯規則,如圖11所示,基本邏輯是優先判斷展望部分的相似度。用correlation代表最終是否存在“承前啟后”關聯的評價指標,依據關聯性高低分為great、fine、little,設定只有當評價為great時可以推斷出“承前啟后”關聯的存在。模糊推理的過程相當于去模糊化的過程,常用的方法包括加權平均判決法、最大值平均法、重心法等,選擇使用計算復雜度相對較高但也更精確的重心法(Center of Gravity)作為去模糊化算法。

設計好整套模糊邏輯后相當于構建了一個小型模糊推理系統,當前的系統輸入為論文“3個部分”各自對應的語義相似度分值,而輸出結果即為“承前啟后”關聯性(correlation)的評價。

隨后編寫代碼邏輯遍歷所有論文“3個部分”各自對應的語義相似度分值作為系統輸入,獲得運行結果如圖12所示,其中papername對應結論與展望部分的論文編號,abstractid對應摘要部分的論文編號,以便進一步查找相關聯的論文。

3.6 實驗結果分析

最終基于上述模糊邏輯,發現了52例“承前啟后”的關聯,經閱讀判斷,有41例較為符合,基本能夠實現論文間“承前啟后”關聯的智能化挖掘需求。語義相似度計算與模糊推理結果示例如表2所示,其中論文A[28]的展望部分與論文B[29]的目的與意義部分語義相似度相對很高,依據隸屬度函數以及模糊邏輯可以直接推斷出二者存在“承前啟后”關聯。巧合的是,A與B也存在引文關系,B在其正文研究現狀部分也有對A研究成果的引述,然而,本研究所探索的“承前啟后”關聯與其間引文關系并沒有必然聯系。另外,也可以看出,實際上A的展望與B的目的意義還是存在一定細節差異的,而這種細節差異的識別只能通過后續更加細粒度的識別算法加以區分。

表2 語義相似度計算與模糊推理結果示例

經閱讀判斷后整理出較為符合的41例“承前啟后”關聯,由于篇幅限制僅展示部分結果,如表3所示。對所有41例關聯進行分析,有如下發現:①“承前”或“啟后”的論文二者間是一種多對多的關系,即同一篇論文可能同時“承前”多篇論文,另外同一篇論文也可能同時“啟后”多篇論文;②多數關聯是兩兩關聯的二元關聯,但也存在1例兩兩關聯形成的三元關聯,且形成一種三角關系,即A→B,B→C,A→C,這在理論上也預示著該方案在更大數據集中發現四元、五元甚至更長關聯鏈條,乃至多邊關聯的可能性;③有13例關聯存在引文關系,其中有11例的引文出現在引言或研究現狀部分,而另外2例引文出現在研究設計與分析部分,這也一定程度上印證了本研究選擇論文摘要中研究目的與意義部分作為引言中所論述其研究“承前”基點概述的合理性;④本研究所挖掘的論文間“承前啟后”關聯與其間是否存在引文關系沒有必然聯系,但不存在引文關系的原因也是值得分析的。其中不存在引文關系的案例中有5例,是同一科研團隊或者交叉合作團隊在同一時期發表的系列論文,也有個別案例是因為前后兩篇論文發表時間相隔很近。其余案例的原因有待后續研究進一步分析;⑤計算所有關聯論文的發表時間間隔,平均值僅為1.945年,中位數僅為1.625年,排除上述5例同一時期發表的情況后平均間隔2.215年,中位數1.709年,這說明存在“承前啟后”關聯的論文發表間隔非常短。這也預示著如果想在已發表論文的結論、不足、展望的基礎上開展科研創新,需要敏銳的把握并付諸迅捷有力的科研行動;⑥有個別關聯包含綜述類的文章,這在語義關聯的角度是合理的,從創作論文的角度也是需要“承前”參考的,且綜述類文章可以成為“承前啟后”關聯的中介。但若要從嚴格意義上排除綜述類文章的關聯,未來可以考慮增加對論文標題的識別來控制對這類文章間關聯的輸出。

表3 關聯挖掘結果示例

有部分錯誤推斷是由于配對語句中同時包含的非關鍵概念信息過多導致的混淆,以及論文發表時間上的前后顛倒,例如一篇相對較新的文章提出未來可以“結合語義分析……”,而語義分析又是個較為傳統且寬泛的話題,這種情況就可能關聯上一篇相對較早的文章,當前數據集在這種情況下也未發現正例(即展望的具體內容在早期已有研究)。

從千余篇同一期刊10年來發表論文的集合中發現40余例關聯,這個比例不大,另外,理論上這種關聯是可能形成鏈條乃至多邊關聯來展現科研發展脈絡的,然而在當前數據集中僅發現1例短的三元關聯鏈條,主要也是由于數據集局限在單一期刊所致,因為針對展望內容的研究可能會在其他刊物發表。另外,即使兩篇論文間實際存在著“承前啟后”的關聯,但只要前后兩篇文獻首尾表述中有任一方沒使用較為直接明顯的表述,都會造成無法通過語義相似度匹配。不過,在有限的集合中仍有一定的發現,也驗證了本方案通過論文的結論、不足、展望部分與其他論文摘要的研究目的與意義部分的語義關聯與模糊邏輯來綜合推斷其間“承前啟后”關聯的有效性與可行性。

當然,正如此前實驗流程所講述那樣,模糊集合、隸屬度函數、模糊邏輯對于模糊推理系統而言都是可調節的變量,如果把它當成一個檢索系統,知道查全率和查準率不可同時滿足,因此,可以依據具體科研檢索需求,適當放寬或收緊隸屬度函數參數以及模糊邏輯判斷條件,以達到更切合實際的效果。另外,本研究嘗試了將“3個部分”的最高相似度倒排序,并制定模糊邏輯優先選擇各項最高相似度中最低的,也能發現一些潛在未被研究的方向。

同時,還可以變換思路,比如,當前本研究的目標是設法找到特定數據集上所有領域的“承前啟后”關聯,但實際情況是,作為論文作者一般只關心自己聚焦的方向或問題,因此這個需求就變成了如何在特定數據集中找到自己聚焦的方向或問題上,可以“承前”并對自己有所啟發的文獻。這時,可以設想自己在寫摘要并擬定一句研究目的與意義,以此作為檢索式,反向查找語義相似度最高的展望、不足或結論部分(類似示例見圖3),再結合模糊邏輯,更加智能化地推薦可以參考的文獻。

探索論文間“承前啟后”的關聯會有很多有趣且有意義的發現,比如論文A描述了x、y、z 3點未來可以深入研究的方向,之后在論文B與論文C中分別發現了與x、y之間的關聯,但未發現與z有關聯的文獻,那么z是否為一個值得繼續研究的方向,是否為一個不易解決的難題,甚至是否為一個偽命題,都是值得進一步思考的。這對未來的科研創新有著巨大的指導意義。另外,如果加入時序的判斷,是否存在B或者C在A之前已經發表的情況,即所述展望已有前人研究,是否存在z在多年后仍被展望等問題也是需要關注的。再者,如果加入作者的判斷,是否存在作者并未繼續深入研究其此前展望內容的情況,后續研究的作者與“前文”作者存在何種關系等也值得探討。當然,在更全量論文數據集中探索上述潛在發現,才能發揮其更大的價值。

4 結論與展望

本研究綜合運用深度學習模型、語義相似度算法以及模糊邏輯,識別并深入挖掘論文中結論、不足、展望部分和其他論文摘要中研究目的與意義部分之間潛在的“承前啟后”關聯,構建了一套較為有效的關聯智能挖掘方案,并討論了多種可以應用的科研創新場景,以及潛在可研究的問題。研究表明:①學術論文間存在語義上的“承前啟后”關聯,且該關聯存在多元關聯鏈條,以及多邊關聯的可能性;②論文結論與展望部分對后續科研選題及創新具有啟發作用;③本文構建的方案可以較好地發掘出論文間“承前啟后”的關聯,助力學者更快梳理領域內已有研究的脈絡與傳承關系,發現后續研究值得創新的方向與視角,啟發學者的創新靈感與思路,為學者們開展更深層或更廣域科研創新提供線索與指引的目標。

本研究所構建的方案僅僅是一套初步的探索,在如下幾個方面仍有局限:①僅選取了一種情報學刊物作為實驗探索的論文文本語料來源,數據來源較為單一,需要進一步在更大范圍上驗證方案的有效性;②論文引言的部分內容是更加合理完整的“承前啟后”關聯挖掘素材,目前僅使用摘要的研究目的與意義部分作為其概述可能會導致“漏判”情況;③句子級甚至段落級的語義相似度匹配存在非關鍵語義信息過多的潛在問題,無法把握語句重點,會造成一定程度的混淆;④該方案有一定的數據集依賴性,主要因為需要根據語料識別效果而做的人工干預以及制定模糊邏輯時的“經驗”,雖然在不同數據集上按照類似流程行得通,但不同數據集可能無法很好地融合兼容。

未來可以進一步開展的工作包括:①拓展論文文本語料數據集,面向更多期刊以及其他學科領域;②嘗試將方案拓展至論文其他部分間關聯的探索;③基于現有語料數據,進行更細粒度的實體與關系抽取,構建知識圖譜,進行更加精確、更多角度的論文間關聯性探索;④疏通完善方案中每個子任務間的數據處理與傳遞流程,設計用戶交互界面,構建關聯檢索系統。

猜你喜歡
關聯語義模型
一半模型
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚欧乱色视频网站大全| 5555国产在线观看| 成人午夜久久| 97精品久久久大香线焦| 色婷婷色丁香| 亚洲激情99| 亚洲,国产,日韩,综合一区 | 综1合AV在线播放| 五月天综合网亚洲综合天堂网| 午夜国产精品视频| 在线精品自拍| 国产毛片高清一级国语| 国产精品一区在线麻豆| 亚洲免费毛片| 精品国产免费观看| 精品一区二区三区波多野结衣| 亚洲天堂成人在线观看| 精品国产福利在线| 国产哺乳奶水91在线播放| 先锋资源久久| 欧美精品亚洲精品日韩专| 日韩成人在线视频| 亚洲欧洲美色一区二区三区| 波多野结衣无码中文字幕在线观看一区二区 | 黄网站欧美内射| 日韩高清成人| 国产成人在线小视频| 亚洲精品欧美日本中文字幕 | 九九这里只有精品视频| 精品超清无码视频在线观看| 激情视频综合网| 91精品国产福利| 日韩毛片在线视频| 91娇喘视频| 亚洲 成人国产| 性视频久久| 欧美一级专区免费大片| 制服无码网站| 狠狠躁天天躁夜夜躁婷婷| 亚洲精品自产拍在线观看APP| 国产最新无码专区在线| 日本国产一区在线观看| 伊人色综合久久天天| 欧美乱妇高清无乱码免费| 亚洲av无码久久无遮挡| 四虎永久在线| 白丝美女办公室高潮喷水视频| 久久中文字幕av不卡一区二区| 热re99久久精品国99热| 日本人妻一区二区三区不卡影院 | 亚亚洲乱码一二三四区| 日韩精品一区二区三区大桥未久 | 欧美无遮挡国产欧美另类| 亚洲第一网站男人都懂| 亚洲a级毛片| 黄色片中文字幕| yy6080理论大片一级久久| 亚洲无码高清免费视频亚洲| 国产成人无码综合亚洲日韩不卡| 国产成人做受免费视频| 久久综合五月| 久久亚洲天堂| 色香蕉影院| 农村乱人伦一区二区| 国产精品私拍在线爆乳| 久久动漫精品| a色毛片免费视频| 国产69精品久久| 国产性生交xxxxx免费| 午夜视频免费试看| 99精品热视频这里只有精品7| 精品国产网| 国产凹凸一区在线观看视频| 国产老女人精品免费视频| 国产麻豆福利av在线播放| 免费aa毛片| 三上悠亚精品二区在线观看| 国产第四页| 2022国产无码在线| 亚洲AV无码乱码在线观看代蜜桃 | 欧美精品成人一区二区视频一| 国产精品极品美女自在线网站|