石 磊,李 君,吳 婷
(哈爾濱工業大學 圖書館,黑龍江 哈爾濱 150000)
研究前沿識別方法通常包括主觀法、客觀法和主客觀結合法。客觀識別方法又可分為引文分析法(共被引分析、耦合分析、直接引用分析),文本內容分析法(詞頻分析、共詞分析、爆發詞檢測、概率主題模型、SAO結構)兩大類[1]。引文分析法由于時滯性的缺陷逐漸被文本內容分析法所取代,文本內容分析法中的詞頻和共詞分析不能很好地反映詞語間的語義關聯,爆發詞檢測有一定局限性,而原始的概率主題模型也未考慮主題詞在上下文中的含義,SAO結構不夠靈活、計算效率有待提高。隨著計算機硬件計算能力的提升,深度學習技術在文本分析、自然語言處理領域得到了廣泛應用。本文提出一種基于深度學習ELMo和LDA概率主題模型的學科研究前沿識別方法。
納米技術近年來一直備受關注,2016年諾貝爾化學獎授予了3位設計合成出分子納米機器的科學家。微納馬達作為納米技術的重要研究分支,是一種能夠將外部輸入能量轉化為動能的微納米裝置。因為微納馬達的尺寸很小,能夠完成一些微觀尺度的復雜功能,例如納米組裝、納米制造、靶向治療,所以微納馬達在微機電系統、生物、醫療等領域具有廣闊的應用前景。因此,如何準確地把握微納馬達領域的研究熱點,識別研究前沿顯得至關重要。
傳統的自然語言文本語義識別,主要有兩種方法:一種是預測局部上下文信息的Word2vec詞向量模型;另一種是全局主題LDA模型,從整體把握文本主題,兩者各有優缺點。2016年Moody首先提出將LDA與Word2vec相結合,以提高自然語言處理算法對文本整體和局部語義內容理解的準確度[2]。本文用ELMo模型代替Word2vec模型,以更好地解決詞向量在不同語境語義不相同的問題。
ELMo模型于2018年被首次提出,它主要是基于深度學習領域的循環卷積網絡原理,建立一個與上下文信息相關的詞向量,為多義詞提供更好的向量表示,克服了Word2vec詞向量只能表示詞語單一語義的問題[3]。原始詞向量經過前向與后向結構的多層神經網絡訓練后,得到與上下文信息有關的動態詞向量。圖1為ELMo模型框圖,輸出詞向量為輸入詞向量和各隱含層向量的加權和,這其中包含了大量上下文相關信息。
圖1中第k個單詞的ELMo輸出向量可以表示為:
(1)

圖1 ELMo模型

LDA是Blei于2003年提出的一種文檔主題生成模型,是以文檔-主題-詞語的3層貝葉斯結構來實現文檔中主題及詞匯生成的,能夠識別大規模文檔中潛藏的主題信息[4]。在模型的3層結構中,首先假設詞由主題的概率分布產生,其次假設文檔是由潛在主題的概率分布產生,再次針對每個文檔從Dirichlet分布中抽樣產生該文檔包含的主題,最后結合主題和詞的概率分布生成該文檔的每一個詞。
2.1.1 數據獲取
因為SCIE收錄的文章專業性較好、質量較高、影響力較大,本文選取該數據集,文章類型選擇Article,Review,Proceeding,Letter 4種,檢索主題詞要考慮各種英文同義詞和變形表達式。檢索時間范圍設為2006—2020年,共檢索到文章4 763篇,經過去重和數據清洗,剩余4 711篇。
2.1.2 數據預處理
檢索主題詞限定于文章的題目、摘要所包含的內容。利用英文自然語言預處理工具NLTK,對檢索后的文本內容分別進行分詞、詞干提取、詞性歸并、詞性標注、去停用詞等步驟,最后得到具有實際語義的詞匯組成的文本集合。
2.2.1 基于ELMo和LDA模型的研究熱點主題識別


圖2 學科研究前沿主題識別流程
2.2.2 前沿主題的測度指標及權重系數
目前學術界已有關于評價研究前沿的特征測度指標,本文選取主題強度、主題新穎性、主題創造性、主題交叉度作為研究前沿的測度指標。主題強度用同一主題內的篇均被引頻次表示;主題新穎性用同一主題篇均發表時間表示;主題創造性用不同主題的主題詞向量間語義相似度表示;學科交叉度用同一主題學科分布和學科距離表示[5]。再通過熵權法計算不同時間段學科研究前沿測度指標的權重系數,最終確定研究熱點主題的前沿性先后排序。另外,為了比較微納馬達領域研究前沿長期和近期變化差異,本文選取2006—2020年、2016—2020年兩個時間段進行對比分析。表1為兩個時間段研究前沿主題測度指標的權重系數。

表1 研究前沿特征測度指標權重系數
2.2.3 前沿主題的識別結果
表2和表3分別為2006—2020年和2016—2020年兩個時間段微納馬達研究熱點主題前沿性綜合測度結果。兩個表中,對4個研究前沿特征測度指標都進行了歸一化處理。從表2和表3可以得出以下結論:第一,與主題概率分布相關性最大的主題強度對前沿主題綜合測度排序并不起決定作用;第二,近5年的細胞馬達、集群微納馬達、生物相容性微納馬達這些新的具有挑戰性的研究主題替代生物應用、水環境應用、磁驅動微納馬達進入研究熱點行列;第三,作為微納馬達重要應用領域的醫學應用由于較好的經濟前景,一直位列研究最前沿。

表2 2006—2020年研究熱點主題前沿性綜合測度

表3 2016—2020年研究熱點主題前沿性綜合測度
3.1.1 醫學應用
微納馬達可以深入人體血液系統等狹小復雜的空間,能夠精確靈活地識別捕捉操控細胞或分子,在醫療領域有著非常廣闊的應用前景,靶向給藥是微納馬達最主要的醫療應用的研究方向[6]。
3.1.2 自驅微納馬達
自驅微納馬達利用自身非對稱的物理結構或化學反應進行自主運動。常見的自驅動機理有基于濃度梯度的自擴散泳、基于溫度梯度的自熱泳、基于電場梯度的自電泳、基于壓力梯度的自聲泳以及氣泡驅動。
3.1.3 Janus微納馬達
Janus微納馬達是一種重要的自驅動馬達,它利用了Janus粒子各向異性結構的特性,實現Janus粒子的自驅動行為。目前,Janus微納馬達的驅動方式包括自擴散電泳、氣泡驅動、感應電荷電泳、自熱電泳等[7]。
3.1.4 DNA納米機器
DNA 納米機器主要有 DNA walker,DNA tweezer,DNA motor 等。DNA walker可以實現信號的富集放大作用,用于構建各種生物傳感器;DNA tweezer將分子之間的相互作用轉為信號的輸出,可用于各種生物分子的檢測和邏輯的運算;DNA motor能實現對光能、機械能、化學能等的轉化和輸出,可應用于新能源的開發[8]。
3.1.5 生物應用
通過在微納馬達的表面修飾不同的生物識別分子制備馬達式生物傳感器。利用生物分子間的特異性反應,馬達式生物傳感器可進行目標分子的特異性識別、運輸、分離和富集。
3.1.6 水環境應用
由于工業化生產快速發展,水中的有害化學物質如重金屬、化合物以及有機污染物污染環境,影響水質,危害水中微生物。微納馬達具有制備簡便、成本低、靈敏度高、響應時間短等優點,在環境檢測、污染物吸附和降解等方面有著廣闊的應用前景。
3.1.7 磁驅動微納馬達
磁場驅動是目前控制微納馬達運動的常用有效手段之一。在微納馬達制備過程中,加入鎳、四氧化三鐵等磁性物質,通過外部磁場實現對微納馬達的驅動。
3.1.8 分子通信
由于單個微納馬達僅能在有限的空間范圍內執行簡單的任務,為了能夠在更大的范圍完成更復雜的任務,需要微納馬達之間通過信息共享,以合作的方式組成納米網絡。基于生物啟發的分子通信被認為是實現納米網絡最可行的通信技術之一。
3.1.9 細胞馬達
這類微納馬達可將細胞的生物運動作為動力源,還可將細胞用作貨物運輸載體。細胞獨特的性質賦予了細胞馬達良好的生物相容性及生物響應性。具有運動能力的細菌是設計細胞馬達的良好選擇。
3.1.10 集群微納馬達
為了使微納馬達承擔更多復雜的工作,使單個馬達具備群體協作能力,對微納馬達集群化的研究逐漸成為該領域的重要方向。有學者報道了AgCl微納馬達在紫外光的照射下產生聚集現象,并且能與SiO2微球組成仿生系統以模仿自然界中的捕獵集群行為。
3.1.11 生物相容性微納馬達
自驅動微納馬達早期主要靠過氧化氫等有毒化合物進行驅動,這將嚴重阻礙自驅動微納馬達在生物體內的應用程度。鎂基雙面微納馬達是目前生物相容性最好的自驅微納馬達。鎂基微納馬達通過化學反應產生氫氣作為推動力,其他元素也可以很容易被去除。
微納馬達在醫學中的應用一直是該領域關注的核心焦點。自驅動由于不需要外加控制場是微納馬達最受歡迎的驅動方式,Janus由于其結構各向異性是自驅動微納馬達的一種優選方式。但自驅馬達能量源和自身材料對生物體的毒性一直未解決,因此,近年來很多學者把更多精力投入具有良好生物相容性的微納馬達研究中,以細菌為載體的細胞馬達成為生物相容性自驅馬達的備選方式。集群微納馬達可利用協同工作克服單個微納馬達功效受限的缺點,近年來備受學者追捧,其中一項關鍵技術分子通信亟需取得實質性的突破。
本文提出一種基于深度學習ELMo模型和LDA概率主題模型的學科研究前沿主題識別方法,可以應用到包括微納馬達等其他各學科研究前沿識別中。微納馬達領域的研究經過十多年的蓬勃發展,在許多方向取得了巨大的成果,未來還應該開展以下方面工作。第一,對現有微納馬達運動的控制不夠精準,需進一步探索新型可控納米驅動原理;第二,由于生物介質的黏度相對較大且含有較多的電解質,微納馬達在其中運動的速度會減慢,需要新型高效的馬達來實現更快速地運動;最后,實際應用中微納馬達所處環境總是復雜多變的,發展能隨機應變的智能微納馬達,也是今后值得深入探索的重要方向。