999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于學術平臺的學者群體特點研究
——以Mendeley 為例

2023-09-01 07:42:22張文君
文化創新比較研究 2023年18期
關鍵詞:文本內容情感

張文君

(江蘇科技大學圖書館,江蘇鎮江 212100)

當下傳統學術評價體系的弊病顯現, 學術信息在線交流迅速發展, 交流模式也更為多樣化。 基于此,互聯網社交媒體成為學者在線交流的重要選擇。Mendeley 憑借其強大的社交功能和文獻存儲功能,得到學者們的廣泛關注, 成為Altmetrics 的主要指標。 縱觀目前國內外對其研究現狀發現, 學者對于Mendeley 的替代計量學(Altmetrics)指標的閱讀數研究已經非常成熟,但很少有學者對Mendeley 平臺的學者相關信息及學者發表的文本內容進行分析。因此,本論文選取Mendeley 社群信息,對Mendeley平臺學者信息以及社群文本內容進行細致化研究,從學者信息、 學者發表文本內容和文本內容情感傾向3 個方面對其文本內容展開研究,希望可以通過對文本內容的深入分析,查看學者的學術跡象,探究學者的研究動機和行為,從而進一步地促進學術交流和科學評價,推動Altmetrics 的深入研究。

1 研究綜述

內容分析法是針對內容開展系統、 定量和客觀的研究方法,在很多方面不同于傳統的分析方法。它將非定量的內容轉化為定量可測度的數據, 根據數據對材料內容中有意義的詞句進行定量化的事實推斷。相比其他方法,內容分析法對組成內容的結構和因素會探究得更為規范化和細致化。 2013 年黃炎寧[1]選取了國內三家傳統新聞媒體的官方微博, 采用內容分析法和深度訪談法對其信息的娛樂化進行探究,以此來闡釋社會對數據民主的困惑。 2017 年王鵬飛[2]等人借助文獻研究的方法對國內外Altmetrics相關論文進行系統梳理, 提出網絡社交媒體評價論文內容的歸類方式, 以此作為開展Altmetrics 內容分析的基礎。 2018 年劉嘉琪[3]等人將微博作為研究對象,從用戶和企業兩個角度,使用泊松回歸模型對用戶卷入情感和EGC 溝通內容等特征開展研究。研究發現用戶維度里的點贊數、 積極的評論等會推動用戶進行有效轉發;企業維度里描述服務、產品細節的內容、 有說服力的內容也可以刺激用戶進行轉發關注。2018 年甘春梅[4]等人對獲取的54 篇關于網絡用戶行為的論文,使用內容分析和兩階段綜述方法,重點分析論文涉及的研究主題、理論、自變量等。 李廣欣[5]采用內容分析、統計分析和大樣本調查等方法, 探究科技類期刊所開設的微信公眾號推送文章內容質量特色和推送服務發展現狀。進行文獻梳理,筆者發現從Altmetrics 內容分析角度分析Mendeley平臺的研究較少, 而且文獻也反映出在線學術信息交流已然成為一種學術模式, 需要對其內容進行更為系統、透徹的分析。 這為筆者開展Altmetrics 內容研究提供了一定的契機。 鑒于社交媒體學術交流的發展趨勢[6],以及對Mendeley 文本內容探究的不足,本文提出對Mendeley 平臺Altmetrics 指標文本內容進行細致化研究,推進學術在線交流發展、改善現行學術影響力評價機制、 促進Altmetrics 研究和服務的長足發展。

2 數據處理

Mendeley 是一個在線學術社交網絡平臺,它可以獲取網頁上的文獻信息, 并將其添加到個人圖書館中。利用Python 爬取網站中所有群組的外部信息和內部信息作為數據樣本,進行論文后續研究的展開。

整個數據爬取[7]的流程一共分為兩大步驟:第一步是檢索出所有能被搜索出來的group 信息和地址并在數據庫層去重, 為了提高效率使用多線程的方式來獲取數據;第二步是使用去重后的group 地址,獲取group 詳情和所有文本及評論信息。 在爬取數據過程中遇到的難點有兩個: 一個是只有當加載更多顯示在可視范圍內才能真正加載數據; 另一個是IP 被屏蔽,需要利用切換代理的方法實現爬取目標。

數據質量的好壞關乎研究的質量, 本文為了探究Mendeley 的Altmetrics 指標的文本內容情感分析,通過python[8]直接爬取Mendeley 的社群文本學術信息數據, 這在一定程度上保障了本研究的科學性、專業性和嚴謹性。 本文在數據處理階段,選擇多種工具相結合, 以期可以使筆者的數據處理過程盡量合理化。

3 社群分析

3.1 學者信息分析

對Mendeley 中106 174 個群組進行清洗,清洗后得到2 112 個群組, 每個群組都有自己討論的專題, 對人數前10 的群組成員和組名進行可視化分析,得到表1,分析發現,人數排名靠前的對生物、醫學等學科較為關注,同時論文撰寫、定性研究方法等關于學術研究方法和投稿撰寫論文的較學術的群組也備受成員關注。

表1 Top10 群組人數及群組名稱

通過對Mendeley 讀者信息進行分類,所有學科群組的讀者大多是碩士研究生、 博士研究生和博士后,但也有其他學者參加。根據平臺注冊人員的學歷進行分析,平臺用戶一般為學歷較高的高素質學者。

3.2 學者文本內容分析

我們爬取社群中每個用戶在所在的group 所發的每條文本信息, 通過統計發現, 清洗之后共得到11 561 條情感文本數據,筆者利用nltk 分詞方法對情感文本數據進行分詞處理,然后進行數據清洗,去掉冠詞、介詞、代詞等高頻卻沒有意義的詞之后共得到41 696 條分詞,對分詞進行詞云分析、主題分析和內容分析。 對所有文本內容進行詞云可視化分析得到圖1。

圖1 群組文本內容詞云圖

通過對Mendeley 群組原文信息進行人工判讀,發現Mendeley 群組原文涉及的學術內容不僅是學術論文,它已經涉及學術產生的整個流程和軌跡,并對它的各個方面加以社會化宣傳。 本文將人工判讀結果和現有文獻結合, 將其涉及的學術交流內容劃分為三大類,主要包括學術前沿、會議報告及專業求助,具體內容如表2 所示。

表2 Mendeley 群組內容分類

3.3 文本內容情感分析

情感分析是自然語言處理中常見的情況, 比如電商平臺[9]商品評價、社交平臺[10]評論評價、社會輿情[11]分析等,本論文對Mendeley 平臺社群文本信息進行情感分析, 可以幫助我們探究相關用戶對學術信息的認同和喜愛程度, 有助于分析社會大眾對于多樣化學術信息的認知是否存在社會風險。 本文采用搭建門控循環單元(GRU)網絡的深度學習方法對群組的討論內容進行情感分析。

3.3.1 詞向量

從本質上講, 機器學習和深度學習都是數字的數字。用數學向量的方式表示單詞的所有含義,用向量的數值和方向來共同表示,詞嵌入是將高維度的詞降維成多個低維度詞的過程,以期構建語言模型,每個單詞或短語都映射到實數字段中。在底層輸入中,使用詞嵌入來表示詞組的方法極大提升了NLP 中語法分析器和文本情感分析等的效果。 Word Embedding(詞嵌入)就是將單詞映射到向量空間里,并用向量來表示。 本文的初始詞向量由詞語的索引組成,比如詞組[apple,pink]在程序生成的詞典中對應的索引為1、2,那么[apple,pink]可表示為數組[1,2],為了將詞語進行更高維度的表示,需要在GRU 網絡的第一層加入Word Embedding 層。

3.3.2 搭建GRU 網絡

GRU 即Gated Recurrent Unit,時長短記憶網絡的一個最好變體。 LSTM 解決了傳統循環神經網絡無法很好處理遠距離依賴的問題,GRU 和LSTM 具有同樣出色的結果, 甚至比LSTM 效果還要明顯。GRU 比LSTM 適用范圍更廣, 精確度更高, 由于GRU 的門數少于LSTM,且參數較少,因此訓練起來也相對容易,并且可以防止過擬合(訓練樣本少的時候可以使用防止過擬合,訓練樣本多的時候則可以節省很多訓練時間)。 因此GRU 是一個非常流行的LSTM 變體, 保持了LSTM 的效果同時又使結構更加簡單,本文使用python 的keras 模塊搭建GRU 網絡。

網絡結構中最上層是嵌入層, 達到將低維度的詞向量轉為高維度的詞向量表示的效果,GRU 層即GRU 網絡的主體部分,主要應用于自然語言和時間序列領域, 第三層的Dropout 層在緩解過擬合問題方面有突出貢獻,Dense 層即全連接層,最后網絡的輸出層輸出該內容的情感分類評分, 分數區間為[0,1],與0 越遠,內容更傾向消極;與1 越近,內容更傾向積極,本文設置閾值0.3,即[0,0.3]區間內容被判斷為消極,在[0.3,0.7]區間內容被判斷為中性,在[0.7,1]區間中內容被判斷為積極。

3.3.3 訓練GRU 網絡

本文使用的訓練數據是50 000 條被標注的tweeter 評論,評論被標注為積極和消極,沒有中性評論,為了使用這些數據,同樣需要進行分詞、去停用詞等數據清洗操作,如表3 所示。

將50 000 條數據分為訓練集和測試集,本文隨機抽取了5 000 條數據進行測試不參與訓練, 使用訓練集對網絡迭代40 次后,得到的網絡損失值折線圖如圖2,在經過40 次訓練后,網絡的正確率已經達到90%以上,但由于只要有足夠參數,神經網絡理論上可以擬合任何函數, 所以使用測試集即進行測試,最后得到網絡的精確度為80.04%,證明了網絡的有效性。

圖2 網絡訓練損失

3.4 情感分類

情感分類是情感分析的核心, 情感分類方法包括二分法、三分法和多元情感分類法。 其中,二分法包括積極和消極兩種,三分法包括積極、消極和中性3 種, 多元情感分類法是根據文本內容和作者分類意圖,可以對情感進行更加多層次細致的劃分,更加清晰的分析文本或者評論的態度, 使文本的主觀性態度可以利用定量的方式表達出來, 最終的結果可以對特定文本中觀點信息進行提取, 分析其是支持還是批評。 本文筆者在對聊天數據進行數據清洗和詞向量轉換后, 可以輸入GRU 網絡中進行情感分類,最后得到的分類如圖3 所示。

圖3 情感傾向分類

從圖3 可見他們的絕大多數推文內容 (中性內容占87%)都對文章所涉及的問題進行了一般性討論,其中一部分人(6%)根據文章提供了與之相關的建議。 這些因素表明了與非學術受眾互動的真實案例。 但是,將近7%的帖子對所討論的問題提出了一些批評。而在學術文章中很少有明確的批評,因此表明Mendeley 是表達感情更明確的重要科學活動的平臺。

4 結束語和展望

4.1 研究結論

本文在對學術影響力評價方式尋求改變的背景下,選擇了Mendeley 平臺所有的社群數據,本文共得到有效個人組建社群信息106 174 組, 有效機構社群信息209 組。 構成本研究的基礎數據集。 將Mendeley 社群內容劃分為3 個維度,分別是社群群組維度、 社群群組原文文本維度和社群群組原文文本情感維度。其中:(1)社群群組維度主要探究“誰在使用Mendeley 增加學術成果社會影響力價值并積極參與公共事務談論”;(2) 社群群組原文文本維度主要分析“群組談論什么內容”;(3)社群群組原文文本情感維度則探討了“個人學術者,學術組織以及游離于學術組織之外的學術參與大眾對于這些學術成果的情感傾向度是怎樣的”。 研究發現:Mendeley 平臺社群群組關注學術信息; 學術信息發布者呈多元性和專業化;學術信息內容多樣化和差異化;學術信息網絡輿論導向良好。因此Mendeley 平臺傳遞學術信息有質量保障,具有可用性,促進了網絡學術共同體的成立, 有效提升學術成果的社會價值和學術價值,在一定程度上降低了知識鴻溝現象,有利于知識信息的民主化。

4.2 研究不足

本文的不足主要有以下4 點:(1)本文的研究雖然選取了較全面的Mendeley 社群群組學術信息數據,但是因為網站數據爬取受限制,涉及的指標群組外部信息維度較少,只有群組名稱,群組介紹、群組成員,如果技術突破,爬取到更多的外部信息的話,分析得會更加客觀全面。 (2)筆者在對Mendeley 用戶原文涉及的內容進行分類時采用了人工閱讀的方法。人工判讀的方式對內容進行分析,不可避免地會造成一定程度上的誤差。 雖然本論文采用了兩人同時判讀的方式來預防和遏制這些可能存在的誤差,但還是會有小概率的歧義問題。未來的研究中,我們需要尋求更為客觀科學的方法來應對可能產生的歧義問題。(3)社群文本內容采用計算機語言和軟件對情感色彩進行判斷, 軟件只能分析出研究主體情感的積極性、消極性、中性,文本內容對主體的作用和意義暫時都沒有辦法進行探究。 對情感傾向更為細粒度的研究和分析,也是之后研究的方向,借助其他學科實現文本內容的細粒度劃分。 (4)Mendeley 雖然是學者在線學術交流的良好平臺, 但是其自身的易控性,也可能帶來影響力造假,還可以進行商業性的水軍閱讀和轉發, 這些都是人為操作而出現的社會關注度, 這里面不涉及學術信息的交流和理性思考,這不是學術影響力而僅是相關信息的推廣力度。本文的研究并未能深入到此, 這也將是筆者之后研究的重點。

4.3 研究展望

本文緊跟計量學發展新趨勢和學術交流在線化步伐, 以Mendeley 平臺的官方數據為研究出發點,利用Python、Selenium、分詞模塊等工具,采用文獻分析法、 內容分析法和情感傾向分析法等,對Mendeley 的社群群組展開內容研究,探究其研究內涵和價值。本論文的研究水平和研究時間有限,內容會存在某些局限性, 之后對Mendeley 的Altmetrics指標的文本研究可以從以下3 個方面開展: (1)Mendeley 的Altmetrics 指標傳遞出的學術信息評價標準。 既然希望通過學術成果的社會影響力改善現有的學術評價機制, 那我們就有必要對網絡化的學術信息的評價主體與評價標準進行標準化。 國外高校或者研究機構對于研究人員的網絡化學術成果的評定是由“學術委員會”進行的,他們對網絡化學術成果的評定標準更多的是強調影響力和原創化,而不僅是閱讀量。 但是不管是國外學術圈還是國內學術圈對于其評定的標準都難以規范化, 這也是影響學術成果發展的原因。因此,之后的研究筆者應當有意識地致力于網絡化學術信息質量評判標準研究。(2)在情感傾向分析方面。 未來的研究中,筆者希望可以通過更為廣泛的文本探究, 結合工具從中提取出反映學術信息對學者、機構和大眾影響的特征,快速自動辨別各種態度和觀點, 以此來推動學術信息傳播的專業依據。在今后的研究中,可以嘗試將情感維度細分化, 從而可以從更微觀的角度探究學者和公眾對學術信息的認知。 (3)Altmetrics 中文數據源擴充。 我們希望可以對外文學術網站更加深層次的探討可以應用到中文學術信息數據中,比如,微信、科學網、小木蟲和知乎等,而且現在Altmetric 公司搜集的學術信息以英文為主, 這就會對其他語言的學術成果信息造成一定的影響。因此,為了能夠積極促進學術數據服務科研工作, 改變國內Altmetrics研究與國際研究的差距, 推動學者的在線交流和學術信息傳播, 筆者在之后的研究中需要推動構建適用于中文的Altmetrics 指標數據庫, 同時鼓勵國內科研工作者積極使用多元化的科學協作和交流工具,以此來激發研究新思路、提高研究效率。

猜你喜歡
文本內容情感
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 天天色天天综合网| 自偷自拍三级全三级视频| 国产精品hd在线播放| 亚洲AV一二三区无码AV蜜桃| 久久精品无码一区二区日韩免费| 欧美一道本| 91精品综合| 久久性视频| 国产日韩精品欧美一区灰| 亚洲综合激情另类专区| 国产日韩精品欧美一区灰| 久久99国产综合精品女同| www.亚洲天堂| 欧美精品伊人久久| 欧美在线导航| 欧美精品啪啪| 在线免费无码视频| 精品久久人人爽人人玩人人妻| 中文字幕 日韩 欧美| 国产69精品久久| 高清不卡毛片| 97人妻精品专区久久久久| 亚洲高清中文字幕在线看不卡| 久久午夜夜伦鲁鲁片无码免费| 麻豆国产在线观看一区二区| 米奇精品一区二区三区| 成人国产精品网站在线看| 国产日韩av在线播放| 亚洲欧美一区二区三区蜜芽| 超清人妻系列无码专区| 亚洲第一黄色网址| 成人国产一区二区三区| 国产电话自拍伊人| 久久久久国产精品免费免费不卡| 国产福利影院在线观看| 久久精品aⅴ无码中文字幕| 国产在线拍偷自揄观看视频网站| 色欲不卡无码一区二区| 亚洲午夜福利精品无码| 四虎永久免费地址| 91亚瑟视频| 国产成人精品午夜视频'| 亚洲欧洲日韩综合| 国产噜噜噜| 最新国产网站| a毛片在线播放| 午夜视频日本| 日韩黄色精品| 美女黄网十八禁免费看| 日韩不卡免费视频| 亚洲综合色婷婷中文字幕| 在线观看网站国产| 另类欧美日韩| 久久99精品久久久大学生| 亚洲人成人无码www| 97成人在线观看| 欧美精品一区在线看| 精品福利国产| 在线播放国产一区| 91国语视频| 日韩视频福利| 第一页亚洲| 精品亚洲国产成人AV| 国产精品 欧美激情 在线播放| 久久综合成人| 香蕉eeww99国产在线观看| 青青久视频| 一级黄色网站在线免费看| 国产黄在线免费观看| 日本国产精品| 99热最新在线| 国产成人1024精品| 欧美a级完整在线观看| 青青草国产免费国产| 欧美日韩中文国产| 国产毛片高清一级国语| 国产精品无码久久久久久| 亚洲Av综合日韩精品久久久| 国产在线观看一区精品| 亚洲天堂啪啪| 亚洲午夜片| 国产区在线看|