999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于“反事實”思想測度學術期刊對知識系統信息熵變化的貢獻

2022-07-30 01:20:04
情報學報 2022年7期
關鍵詞:學科評價系統

馬 崢

(1. 中國科學技術信息研究所,北京 100038;2. 南京大學信息管理學院,南京 210023)

1 引 言

學術期刊是記錄科學研究人員創新性科研成果的主要載體,針對學術期刊設計合理、科學和準確的評價方法具有非常重要的研究意義和實踐意義[1]。在早期,對學術期刊的評價主要還是依靠同行評議的方式。目前,學術期刊的評價方法越來越偏重于定量方法,主要分為基于傳統計量學和替代計量學兩種方式。

在早期學術期刊品種總體數量比較少,在各個學科中分布的數量也不多,因此對學術期刊評價的需求和必要性相對較弱。各個領域科學家對相關期刊的情況比較了解,且期刊出版活動和發展變化的節奏相對較慢,期刊所發表的文獻數量也相對較少,所以當科學家評價和擇優選擇適合發表論文的期刊時,有可能實現對同學科或同類型期刊的遍歷,因而采取同行評議的方式,就是可以實現最高效率、最準確結果的最優選擇。目前,同行評議仍是很多期刊評價活動中不可缺失的組成部分[2-3]。隨著全球社會經濟的發展,工業革命引領下出版行業和傳播行業的繁榮,以及以信息科學技術為代表的科技研究活動日新月異的進步,學術期刊種類以及所承載的文獻量急劇增長,同行評議制度的適用性受到了不斷的沖擊,任何科學家都難以對學科領域的所有期刊情況和所有發表論文有全面和深入的了解,也難以完全客觀地對眾多學術期刊的學術質量和影響力水平都有準確認知[4],以及從中篩選出學術影響力大、知識傳播效率高的高質量期刊。同行評議評價方式所暴露的方方面面的問題在學科評價領域也都逐漸有所體現[5]。例如,同行評議專家的主觀性問題、隨意性問題、意見過于分散的問題、出于個人及小團體利益的考慮而產生的學術道德與誠信問題,等等[6]。

隨著文獻數量的累計和文獻學研究的發展,對學術期刊評價方法的研究主要繼承了文獻學[7]研究思路。錢榮貴[8]、邱均平等[9]和賴茂生等[10]對期刊評價活動源起的時間分別進行了研究,普遍認為20世紀30 年代開始,隨著工業技術發展和學術傳播活動的快速興起,學術文獻的體量和總品種數量快速提升,需要通過評價從中篩選出應當優先使用的重要期刊,于是歐洲開始出現了對期刊的評價活動和方法探索。1934 年,布拉德福歸納了“文獻離散定律”,發現各學科都存在“核心區”期刊刊載本學科絕大部分主要文獻的現象。學術期刊評價理論起源于布拉德福定律對學術期刊分層的定義。20 世紀60 年代,美國著名的情報學家尤金·加菲爾德探究建立引文分析體系,逐步構建了系列引文數據庫,并在實踐中不斷擴展應用范圍,衍生新的分析體系和方法,形成了廣泛的影響。經過長期以來的研究和實踐,國內外圍繞科技學術期刊評價逐漸形成了應用廣泛的、基于科學計量學指標的評價方法和指標體系[11]。典型的研究成果包括1955 年加菲爾德發明的“影響因子”[12],2005 年美國物理學家喬治·赫施發明的“h 指數”[13]等。應用基于引文分析的傳統計量學指標也存在顯著問題[14]。例如,基于引文分析理論的傳統科學計量指標評價所需后置時間較長,通常需要數年才能相對完整地評價期刊學術影響力,不能及時體現期刊學術影響力的變化;傳統科學計量指標的評價數據來源主要偏重期刊論文等文獻形式,沒有統籌考慮被評價期刊在學術交流、產業發展、學科建設、人才培養等方面所發揮的作用和取得的影響;引文分析的基礎假設是:引用反映出學術成果產生了積極效果,但是現實中引文動機比較多樣化[15],引用某篇論文未必就說明引用者認可那篇論文[16]。

2010 年10 月,J. Priem 和D.Taraborelli 等學者共同發表了Altmetrics:A manifesto宣言,提出替代計量學(Altmetrics)的概念[17]。其主要進步在于跳出了以文獻統計為中心的傳統科學計量學1.0 時代,跨入以社交媒體內容分析所產生的數據和網絡資源標簽化結構等Web 2.0 技術為中心的2.0 時代[18],能夠更快、更全面、更有效地反映被評價對象的影響力。基于社交媒體數據統計出評價對象的網絡活動數據(下載量[19],自媒體發表學術內容的引用行為、瀏覽行為、點擊次數、評論內容、推薦數、點贊數、轉發次數等[20]),可以研制形成新型的計量指標[21-22]。普遍認為,科學有效地應用替代計量學能夠實現更加全面的影響力評價[23-25]。在評價導向上,替代計量學指標方法在評價方面的應用將會促進在互聯網上開展更豐富多彩、更高效快捷的科學交流[26],并能推動衍生出一系列完善和優化現有信息組織與信息發現的新方法、新工具、新機制[27-28]。替代計量學目前很難完全取代傳統科學計量學評價方法[29],但是科學界和出版傳播界普遍看好未來替代計量學指標在學術成果評價和期刊影響力評價方面的潛在重要作用[30]。但是,替代計量指標應用于科技期刊評價存在一個顯著的挑戰,就是如何避免人為干擾指標[31]。與之相關的問題還包括替代計量指標的數據嚴謹性和數據一致性問題[32]。另一個受到關注的問題是如何認定廣域分散的動態數據源是科學可靠的,統計分析結果是科學可重復的[33]。

學術期刊的核心功能是分享科學家的研究認知和創新技術突破[34],是學術信息的有序和有效傳播途徑[35]。從情報學角度看,學術期刊的識別、監測、評價和管理等問題可以歸結為學術信息集合的靜態和動態的定量測度問題[36]。信息熵方法正是解決信息度量問題的經典理論方法。深入信息熵理論層面對期刊學術傳播規律展開研究,是從本質上認識學術期刊,探索學術期刊在科學發展和知識傳播中發揮的作用和實現機理,對于情報學、信息傳播研究、學術出版研究和科技成果研究具有重要理論意義。

本研究假設,科技學術期刊的作用之一是減少科學認識中的不確定因素。科學認識中的不確定因素減少的過程是知識系統的熵減的過程。學術期刊出版過程的根本目的是通過對科學發現和技術創新成果的傳播推廣,使人們更加準確地認知科學問題和規律。通過定量方法,測度學術出版前后知識系統的信息熵變化量,研制測度科技學術期刊貢獻的評價方法。

在經典信息論中,對信息量的測度不考慮消息的內容重要性或內在意義。信息量的多少和信息的重要性沒有必然的聯系,經典信息熵只是在數量層面計算出一個數值,并非直接表示該信息的重要性。某期刊為知識系統的信息熵引入了多少負熵,反映了該期刊為學科發展做出多少貢獻。在本研究中,擬基于“反事實”思想,通過對計算信息熵的“事實量”和“反事實量”之間的差距,解決對信息效用的測度問題。

“反事實”研究思想是提出反事實的假定,設定與事實相反的條件,根據反事實推理形成的結果,判斷反事實條件變化與結果之間的因果關系。在面對繁雜評價相關因素的情況下,傳統因果分析是往往假定研究者已經控制了解釋因變量的重要因素,并且沒有遺漏重要自變項;但是研究所處的情況和變量經常無法滿足這一假定,或者所觀察的對象并非隨機發生的,因而經常會產生內生性或樣本選擇偏誤的問題,造成因果分析的不準確和偏差,甚至是錯誤。反事實分析的優點是能明確地找出傳統回歸分析無法充分掌握的不同樣本群在基準線上的差異或因果效果的異質性,進而進行準確的因果分析[37]。

2 數 據

2.1 樣 本

本研究采用萬方數據資源系統期刊數據庫2016—2019 年所收錄的全部期刊論文和引文數據作為主要統計數據來源。考慮到我國開展學術期刊評價的需求,被評價期刊大都是中文期刊,因此,采用國內中文文獻為主的數據庫更能保證評價結果的可靠性。該數據庫系統覆蓋了我國出版的絕大多數學術期刊,其中包括原國家新聞出版廣電總局2014 年認定的3713 種科技類學術期刊。

原國家新聞出版廣電總局采用各主管單位初審上報、總局審定的方式,認定了第一批學術期刊名單。本研究用于實證的樣本采用其中歸屬于科技類的3713 種學術期刊。

2.2 學科分類體系

參照《中國科技期刊引證報告(核心版)》《中華人民共和國國家標準學科分類與代碼(GB/T 13745—2009)》《中國圖書資料分類法(第四版)》,設定112 個學科類別。學科類別的劃分考慮到各個學科的隸屬關系和出版物的規模,分為自然科學綜合、理學、農學、醫學、工程技術、管理等6 大部分。其中第1 部分“自然科學綜合”類是指報道綜合性內容(發表多學科的研究論文)的期刊。由于這部分期刊品種很多,其中大學學報數量尤其多,為此再細分為3 個類別。其余5 大部分按照學科屬性進行劃分。

2.3 各學科高頻詞統計

布拉德福定律指出,大部分學術成果文獻向少量重要期刊聚集。在各個學科中,少量核心區期刊就能集中刊載本學科主要科研成就。為了提高工作效率,同時也為了減少一般性期刊中大量低水平論文的干擾,本研究采用中國科學技術信息研究所研制的中國科技論文與引文數據庫(China Scientific and Technical Papers and Citations Database, CST‐PCD)2016 年收錄的論文統計高頻詞。

CSTPCD 2016 收錄中國科技核心期刊2008 種,大約占我國科技期刊總數的1/3。核心期刊所報道的研究活動是各個學科的主流研究領域,覆蓋的作者群體和研究選題能比較集中地反映各個學科的核心科研活動,因而避免了被統計中的噪音數據過度干擾。

CSTPCD 2016 收錄56.49 萬篇論文,使用關鍵詞149.40 萬個、414.83 萬次,平均每篇論文使用7.3個關鍵詞,中文詞和英文詞計為2 個不同關鍵詞,以此為基礎計算各個學科使用頻次列在前1%的高頻關鍵詞。

3 由期刊論文構成的知識系統的概念

3.1 學術傳播的系統屬性

對學術期刊傳播的特點和屬性進行系統思考和重新梳理,可以認為科技學術期刊具備如下特征,且符合一個系統的特性。

(1)總體大于部分之和[38]。我國科技期刊作為一個整體,不是幾千種科技期刊的簡單加和。這些科技期刊和對科技期刊的管理機制、評價、投入等諸多相關內容以及它們之間的聯系,共同構成了科技期刊這一總體系統。對科技期刊的研究和管理,有必要從總體上進行考慮[39]。

(2)多重目標,多重發展路徑。科技期刊的發展目標不僅是記載、傳播和積累科技信息、科技理念、科技知識,成為展示科技進步的窗口,同時也應成為科技人員進行科技成果傳播和學術交流的平臺。科技期刊反映了一國科技發展的現狀和水平,承擔著促進科學創新的公共社會責任[40]。科技期刊是科學活動中的紐帶和橋梁,因此,科技活動中的科學研究、科技管理政策、科技出版管理體制等多方面的相關因素都會對科技期刊發展和變化產生影響;而這些因素在不同時期的不同組合,也意味著多種發展道路和結果。選擇最優方案正是系統思考支持決策的最終目的。

(3)因果互動和內部反饋。從內部而言,科技期刊的政策法規、體制、人員、產業、評價等子系統和更多相關因素之間,還有單個期刊之間,并不是簡單的單向因果關系,而是相互影響,互為因果。貝塔朗菲是現代系統研究的開創者,他對系統的定義就是相互作用的多元素的復合體[41]。科技期刊正是這樣的一個復雜系統。

(4)封閉和開放的統一。科技期刊在科學事業發展的大環境中,是一個相對獨立的系統。但是這個獨立系統并非一個完全孤立的封閉體。科技期刊系統與外界環境之間的物質、能量和信息的交換是其自身發展和發揮功能的機理,而且這種交換在一定的條件下會形成相對穩定的狀態,即科技期刊系統兼備封閉性和開放性。

3.2 知識系統不確定性的構成

本研究定義的知識系統是,在確定的邊界內,基于一定的知識載體,匯集人類對客觀世界的顯性認知,同時存在相同和不同的研究觀點,并且隨著時間轉移會出現觀點的變化、增加和消失。這種觀點的構成和變化看作知識系統的不確定性。知識系統的不確定性可以分解為靜態層面的不確定性和動態層面的不確定性(圖1)。

圖1 期刊論文構建的知識系統的不確定性分解

1)分布狀態不確定性(靜態層面)

分布狀態不確定性主要從靜態層面反映一個知識系統對學術知識內容的結論、研究關注點的趨向性等絕對指標量分布是否顯著呈現出集中或分散的態勢。在一個系統內,經過一段時間后,對知識觀點、研究熱點、主流發展方向的判斷越一致、越集中,則這個知識系統對學術問題的認識越清晰一致,即人類對客觀世界的認識越趨于完整正確。反之,一個系統內對知識的探索和理解更加多樣,且不同方向和結論的正確可能性(正確概率)彼此差別不大,則說明人類對相關問題的認識還處于不確定、不清晰、不一致的狀態。

針對學術期刊論文所構建的知識系統之靜態不確定性的表述可以繼續分解成3 個子系統。

A1. 規模度:指學術期刊傳播文獻的容量。學術期刊作為發布和交流平臺,在保證質量和效率的前提下,應該盡量多地發表體現科學發現和技術創新成果的論文。

A2. 廣泛性:指期刊學術影響的擴張能力。學術期刊所發表傳播的內容是科研論文,需要有足夠的讀者群空間,才能實現高效率的成果傳播功能和活躍的學術交流功能。

A3. 可持續性:主要指基金支持論文的數量和比例,以此來體現期刊論文與科技投入的匹配程度。

2)關系狀態不確定性(動態層面)

關系狀態不確定性主要從動態層面反映一個知識系統關于學術知識節點結構、節點之間的相互作用、不同節點之間的關系類指標是否顯著呈現集中還是分散的狀態[42-43]。在一個系統內,不同的節點層次上(如作者、期刊、關鍵詞、單篇論文),知識之間的聯系形成了節點網絡。基于節點網絡所表達的知識節點與相關節點之間的聯系,可以反映整個知識系統的相對集中性。與絕對集中性的含義相同的是,人們對知識觀點、研究熱點、主流發展方向的判斷越一致、越集中,說明這個知識系統中對學術問題的認識越清晰一致,即人類對客觀世界的認識越趨于完整正確。反之,一個系統對知識的探索和理解更加多樣,且不同方向和結論的正確可能性(正確概率)彼此差別不大,則說明人類對該問題的認識還處于不確定、不清晰、不一致的狀態。

針對學術期刊論文所構建的知識系統之相對集中性層面對系統不確定性的表述可以繼續分解成4個子系統。

B1. 開放度:指期刊論文稿源組織的合理性和開放程度。稿源渠道建設是學術期刊建設的重要組成部分。廣泛充分的高水平稿源是期刊發揮自身功能的基本保障。如果稿源范圍過于有限,或者過于集中,會降低學術期刊的交流活力。

B2. 合作性:指期刊發表合著論文(包括國家層面、機構層面合作研究所形成論文)的能力[44]。合作研究往往能實現優勢互補,產出高水平研究成果。特別是近年來逐漸增多的大規模多邊合作產出的“大科學”論文成果,往往是全世界均可受益的關鍵成果[45]。

B3. 競爭力:指給定期刊與同學科或同類型的其他期刊競爭取得比較優勢的能力。學術期刊大都具有顯著的公益性色彩,但學術出版活動同時也是一種商業行為。在競爭中發展壯大是每個學術期刊不能逃避的任務。

B4. 影響力:指期刊發表的論文成果對其他相關學術研究活動的借鑒價值或爭鳴價值,主要通過引文來測度。期刊論文被引用可以看作論文產生學術影響的典型表現。

3.3 知識系統信息熵的定義

正是因為學科發展和傳播具有顯著的系統屬性,所以可以把一個學科領域發表在學術期刊上的論文集合作為一個相對獨立的系統進行研究。在本研究中,知識系統信息熵定義如下:在期刊研究論文所構成的封閉和孤立的知識系統中,將對特定科學問題的認識和判斷的不確定性狀態的測度量,定義為該知識系統的信息熵。

對于信息熵的測度,可操作性較強的方法是通過構建數學模型來組織和描述反映知識熵的各項指標[46]。

4 用關鍵詞集合測度知識系統的信息熵

4.1 以高頻關鍵詞集合作為各個期刊所在學科領域的學科發展選項集合

本研究使用各個學科的高頻關鍵詞集合來定義各個學科發展的可能選項。本研究構建的模型在應用于各個學科領域的期刊評價實踐時,每一個學科領域可能包含的研究方向的數量是不同的,即根據每個學科的規模和特點不同,存在不同的學科發展可能選項(變量)數量。

關鍵詞是表述論文所涉及的選題、解題、技術方法、研究對象、創新觀點、應用價值等內容的若干詞語。按照期刊出版相關標準,學術論文都會著錄關鍵詞。關鍵詞具備規范性和通用性的特征[47]。通常關鍵詞會優先選用敘詞,也就是從自然語言詞匯中優先選出來語義相關、族性相關的科學術語。自由詞也可當作關鍵詞,但需要優先使用出自詞表或廣泛應用的參考書、工具書的詞匯[48]。

論文的關鍵詞可以體現選題方向、研究方法或主要發現。在大數據技術基礎上,對關鍵詞的研究能夠實現對知識結構和領域發展的直觀理解。通過分析關鍵詞的數量關系之演化情況,還能發現和監測學科熱點[49]。

在同一時間窗口內,將某學科全部期刊論文的關鍵詞按詞頻從大到小排序,處于前1%的關鍵詞組成高頻關鍵詞集合。該集合所反映的研究主題代表了特定時段內該學科的研究熱點。實踐中,不宜用過長的時間范圍統計高頻詞,以免研究熱點轉移造成統計誤差。研究熱點的轉移速度與各個學科演進發展的節奏相對應,但是考慮到可操作性,時間窗口也不宜過窄(比如,按季度或月份獲取數據)[50]。本研究采用高頻關鍵詞作為變量,而沒有使用全部關鍵詞作為變量,主要原因是高頻詞具備代表性,其范圍和結構的變化情況可以比較充分地反映學科發展變化的整體情況,使用全部關鍵詞反而有可能造成過多噪音數據的混入。因此,從可行性角度,經過測試比較,1%高頻詞的標準兼備科學性和可操作性。

本研究采用CSTPCD 2016 收錄的論文統計高頻詞。

4.2 構造指標矩陣

對于一個學科領域的發展來說,隨著時間的推移,通過學術傳播發揮知識積累和交流功能,人類對科學規律和發展方向的認知會逐步清晰。如果假設一個學科領域中某一個未知知識點存在n個預設可能選項,那么在早期,n個預設選項的不確定性會相對較顯著,即人們的知識認知較混亂;在后期,n個預設選項的不確定性會相對減弱,即人們的知識認知逐漸清晰。這一過程,就是有效信息加入學科知識系統(引入負熵)的過程。

在信息熵理論框架下,我們可以把n個預設可能選項看作隨機選項,用m個指標來描述每一個預設選項的明確性,即表達每一個選項的概率Pi。

根據本研究提出的假設來推斷,在這個學科系統中,隨著知識信息的注入,不同預設選項成為主流研究方向的可能性的概率在變化。由于這個領域的未來方向會逐漸清晰,不確定性會降低,所以這個學科知識系統的信息熵狀態數值應該有所下降。

由此,可以構建指標矩陣:

其中,n表示n個學科方向;m表示m個測度指標。設i=1,2,…,n,j=1,2,…,m,則fij為第i個學科方向上的第j個指標的數值。

4.3 計算知識系統信息熵指標選擇

根據俞立平等[51]研究歸納,一般常用的指標篩選方法包括基于粗糙集理論的遴選、領域內專家調研評議法、應用相關系數法和變異系數法等;盡管在指標篩選方面尚未形成統一通用的方法,但是專家評議在指標篩選中所起到的作用仍然是不可替代的。劉麗莉[52]研究提出選取指標的原則是目的明確、覆蓋全面、切實可行。因此在本研究中,采用專家評議方法選擇指標。

指標選擇過程中,主要考慮本研究需要表現不同發展方向的研究體量、廣泛性、活躍度、增長能力等方面的因素,結合指標的科學性、可獲取性,經過多次調整和實驗,結合同行專家的調研咨詢意見,最終確定選取了7 項指標作為期刊評價準則與計算知識系統信息熵的指標,如表1 所示。

表1 期刊評價準則與計算知識系統信息熵指標對應表

(1)發表論文數量:5 年時間窗口發表論文數量。選用5 年是為了減少數據跳躍所造成的誤差。

(2)文獻分布廣泛性:文獻計量學發現,出版物的秩頻分布存在負冪函數關系[53-54]。在本研究中,我們交換頻率與份額,二者關系表達公式為

其中,在某領域中,y表示各個國家發表論文的數量;x表示各個國家論文數量的排名。對于一個領域,a通常是恒定的。如果a的數值在一個學科方向中較低,則意味著這個學科方向中,很少的國家集中發表了較高比例的論文,文獻分布廣泛性較弱;反之,則可認為這個學科文獻分布廣泛性較強。

(3)基金論文數量:1 年時間窗口有基金項目資助的論文數。一些文獻計量學家發現,科技投入與科技產出之間是存在一定關聯性的[55];然而由于科技成果的滯后性,二者又不是簡單的線性相關關系。通常來說,如果某一地區發表論文數量比另一地區多,那就意味著該地區投入的資源和設施比其他地區更多[56]。

(4)篇均機構數:1 年時間窗口內論文作者所屬機構數的平均值。

(5)國際合著論文比:1 年時間窗口內國際合著論文所占的百分比。

(6)論文份額增長率:論文數量份額相對前一年度增長的百分比。

(7)篇均論文被引用次數:5 年時間窗口內論文篇均被引用次數。篇均被引用指標是分年度統計和計算的,即各年度發表論文篇均被引用次數雖然存在累計性差異,但是經過分年度標準化后,得到的數值是具有可比性的。

4.4 標準化處理

由于不同指標的量綱、極值等存在顯著差異,必須要對指標矩陣進行標準化轉化,形成標準化矩陣A:

其中,設i=1,2,…,n,j=1,2,…,m,則aij∈[0,1]。標準化公式為

其中,min{f1j,…,fij,…,fnj}表示j指標項上,n個選項的fij的最小值;max{f1j,…,fij,…,fnj}表示j指標項上,n個選項的fij的最大值。

4.5 知識系統信息熵數值的計算

本研究對于孤立系統各個單項指標的信息熵計算公式為

其中,i= 1,2,…,n;j= 1,2,…,m。

通過計算,可以得出m個預設可能選項各自的信息熵狀態值,則整個知識系統的信息熵就是m個子系統的信息熵之和:

由于Hi的數值分布范圍是[0,1],所以H的數值分布范圍是[0,n]。H= 0,表示系統絕對有序,即所有子系統都是只有一個選項,且同一個選項的實現概率是100%,其他為0;H=n,表示系統絕對無序,即所有子系統的所有選項概率都完全相同。

H的數值大小可以看作一個孤立系統的信息量和不確定性的體現。例如,在某個研究領域中,當人類對客觀世界的認識存在兩種或更多種不同觀點,或者尚不知道某學科未來發展走向,只是可以預判幾種可能選項時,可以認為,初期各個選項實現的可能性比較接近,不確定性較強。隨著科學研究活動的積累,發展趨向必然是可能選項越來越少,不確定性越來越小;還可以認為,其中某一部分可能選項的實現概率持續增加,另一部分可能選項的實現概率持續減少,即不確定性也在減少。不確定性減少意味著知識系統所表達的信息在減少,也可以看作不確定性大的事物逐漸得到了確定,即通過科學研究成果的傳播,人類實現了對客觀世界的更多認知。

5 基于反事實思路測度被評價期刊貢獻的負熵

5.1 計算每個學科領域所對應知識信息的信息熵的事實量H(X)

本研究以各學科高頻關鍵詞(出現頻次排名在前1%)作為相應學科的發展方向。

按照本研究設計的計算模型,各個學科的潛在發展方向就是學科高頻詞集合所反映的方向。統計得到學科內n個高頻關鍵詞就是n個潛在學科方向。

每個學科方向的數據子集的產生方式是,用關鍵詞作為檢索詞在萬方數據中檢索,檢索策略為單詞檢索(各關鍵詞之間是“或”的關系)。

信息熵的計算指標仍為發表論文數量、文獻分布廣泛性、基金論文數量、篇均機構數、國際合著論文比、論文份額增長率、篇均論文被引用次數等7 個指標。利用從萬方數據中檢索得到的子數據集合,對上述指標進行統計計算。

這樣,每個學科可以構建形成n×m的指標矩陣。其中n是潛在學科方向數量,即高頻關鍵詞數量;m= 7,即計算指標數量。參照矩陣A構建指標矩陣F。

根據本研究提出的假設推斷,在這個學科系統中,隨著知識信息的注入,不同預設選項成為主流研究方向的概率在變化。由于未來研究方向會逐漸清晰,不確定性會降低,所以在這個學科知識系統中,知識系統的信息熵數值應該有所下降。

5.2 計算每個學科領域所對應知識信息的信息熵的反事實量H(X)′

對于特定的被評價期刊,計算在其對應的學科體系中,被評價期刊缺位情況下知識系統信息熵的反事實量H(X)′。

在期刊評價活動中,假設該期刊不在對應的學科中,即將被評價期刊從相應的期刊論文構成的真實知識系統中移除,其論文量、參考文獻(即引文)都不列入統計范圍。在這個新的虛擬的知識系統中,重新計算7 個指標:發表論文數量、文獻分布廣泛性、基金論文數量、篇均機構數、國際合著論文比、論文份額增長率、篇均論文被引用次數;并根據計算結果,計算被評價期刊缺位情況下知識系統的信息熵反事實量H(X)′。

5.3 計算事實量與反事實量的差距

對于特定的被評價期刊,通過對比該刊所屬學科的知識系統信息熵的事實量H(X)與被評價期刊缺位情況下的知識系統的信息熵反事實量H(X)′之間的數值變化,反映被評價期刊對知識系統信息熵降低的貢獻,也就是被評價學術期刊對知識系統所貢獻的負熵,如圖2 所示。

圖2 基于信息熵的學術期刊評價思路

采用知識系統信息熵的事實量H(X)與被評價期刊缺位情況下知識系統信息熵的反事實量H(X)′之間的差值ΔH,即學術期刊為系統所提供的負熵,測度該期刊的學術貢獻:

其中,p代表第p個學科,數值范圍是[1, 112];q代表p學科全部期刊中的第q種。

6 實證結果

6.1 2016年各學科高頻詞統計

CSTPCD 2016 收錄56.49 萬篇論文,使用了關鍵詞149.40 萬個、414.83 萬次,平均每篇論文使用7.3 個關鍵詞。考慮到兼容中文期刊和英文期刊,將關鍵詞的中文寫法和英文寫法計為2個不同關鍵詞。

計算各個學科使用頻次列在前1%的高頻關鍵詞。以感染性疾病學、傳染病學為例,2016 年CSTPCD 收錄了8 種期刊,發表了1093 篇論文,共使用4349 個關鍵詞,使用7876 次。將這4349 個關鍵詞按出現頻次排序,排在前1%的關鍵詞有44 個(4349 個的1%),組成了該學科的高頻關鍵詞集合。各個學科高頻詞數量如表2 所示。

6.2 2016年各知識系統信息熵的測度

計算各學科領域由期刊論文所構成的知識系統的信息熵事實量。經過構造指標矩陣、標準化處理,112 個學科中的每一個都可以看作孤立知識系統。完成各個學科知識系統信息熵的計算,結果如表2 所示。

表2 2016年期刊學科分類及相關指標

續表

續表

從圖3 所示的112 個學科的核心期刊數量和知識系統信息熵的分布情況可以看出,學科內期刊數量的多少與該知識系統信息熵數值的相關性不是非常明顯。計算二者之間的線性相關系數可以得到R2= 0.7312,也可以看出其不具備顯著相關性。

圖3 112個學科的核心期刊數量和知識系統信息熵的分布情況

6.3 2016年被評價期刊對知識系統的貢獻

以天文學為例,該學科6 種被評價期刊對知識系統的貢獻的計算結果如表3 所示。

表3 2016年天文學學科(k)期刊對知識系統的信息熵的影響

6.4 2016—2019年各知識系統信息熵的變化

采用與6.3 節相同的方法,并且采用2016 年遴選得到的高頻關鍵詞列表,在其后的2017—2018 年數據庫中進行知識系統信息熵數值的運算,可以得到各個知識系統信息熵數值變化的量,如表4 所示。

從表4 所示的2016—2019 年各個學科知識系統信息熵的變化情況來看,大部分學科的信息熵數值呈現明顯的減少趨勢。比較2016 年和2019 年數值的變化幅度,如圖4 所示,可以發現在全部112 個學科類別中,4 年之間信息熵變化方向為增加的只有11 個,占比約為9.8%;其余超過90%的學科都是向信息熵減少的方向變化。由于各個學科之間知識系統信息熵的數值比較無明顯意義,因此,盡管圖4 所示分布狀態有類似于正態分布的形式,但本研究數據并不支持知識系統信息熵符合隨機分布。

圖4 112個學科的知識系統信息熵2016—2019年變化幅度的分布情況

表4 2016—2019年各學科(知識系統)信息熵變化

續表

續表

7 結 論

(1)通過計算知識系統信息熵的事實量和被評價期刊缺位時知識系統信息熵的反事實量的差值ΔH,能夠體現被評價期刊對知識系統信息熵變化的貢獻。但是由于本研究中,以每個學科高頻詞為檢索詞得到的論文集合構成的知識系統是相互獨立的系統,所以不同系統的H狀態值之間不具備直接可比性,狀態值變化量ΔH之間也不具備直接可比性,不過每個系統ΔH的方向是可以比較的,它反映期刊對系統做出的是正貢獻還是負貢獻。從統計數據看,在3713 種期刊中有3578 種期刊(96.4%)的ΔH為正值,這表明絕大部分學術期刊對降低其所屬知識系統的混亂程度是有所貢獻的,也就是說,期刊學術出版活動發揮了其必要功能。按照信息熵理論,一個孤立系統中引入的信息量應是非負的,即最極端現象是期刊為系統貢獻的信息量為零,期刊為系統的貢獻不應出現負值。但是在本研究中,部分期刊對所屬知識系統的貢獻ΔH為負值,這也許說明,這部分期刊發表了一些對學科發展和凝聚共識有負面作用的文章,增加了系統的混亂程度。

(2)幾乎所有的學科中,都可以發現少數幾個期刊對系統的貢獻程度ΔH相比于其他期刊來說要顯著高出許多,而絕大多數期刊的ΔH數值處于非常接近0 的水平。也就是說,在學科內,眾多期刊對知識系統的信息熵的貢獻數值分布呈現出貢獻較大的期刊數量較少、分布曲線長尾明顯的分布規律。這表明在學科當中,只有很少一部分期刊能夠充分發揮學術期刊的核心功能,為減少科學認識中的不確定因素做出相對顯著的貢獻;同時,較多期刊對減少本學科認識不確定性的作用十分有限。這一規律與布拉德福定律非常吻合,即各個學科都存在少數重要的核心區期刊。本研究發現,能為本學科知識系統做出較大貢獻的期刊也是數量較少的,它們是另一種含義上的“核心期刊”,但是尚未定量描述高貢獻期刊與低貢獻期刊之間的數量關系。

(3)就學科間的差異來看,期刊數量規模和所對應知識系統的信息熵變化沒有明顯的相關性。也就是說,一個學科的期刊品種的數量與該學科的個體期刊對知識系統信息熵變化貢獻的大小沒有直接關系。一個期刊對學科發展的貢獻,主要取決于自身建設水平、發掘組織優質稿源的能力和精準高效的傳播能力,與其他競爭對手期刊的數量多寡關系不大。與此同時,可以觀察到綜合性期刊的類別,包括自然科學綜合類、自然科學綜合大學學報類、自然科學師范大學學報類等,相對于其他專業類別,其2016—2019 年知識系統信息熵的變化幅度整體比較小,分別是-2.86、-1.41、1.58;其原因可能是綜合性期刊中發表的論文幾乎覆蓋全部學科領域,因此其體現學科發展變化的功能性較弱。

(4)大部分樣本期刊ΔH為正值,但還有41 種(1.1%)期刊ΔH為負數,94 種(2.5%)期刊ΔH為0。當ΔH為0 或接近于0 的時候,可以看作這一部分期刊對學科發展的貢獻極小。由于本研究計算方法是基于關鍵詞統計,一些關注內容與學科主題關系較遠的期刊,關鍵詞與學科高頻詞無疊加,因此出現了貢獻值為0 的情況。當ΔH為負數的時候,還有可能是期刊的學科分類屬性不夠明確,如果將該刊分到A 類,也許ΔH為正,若分到B 類,ΔH就是負數。另一種可能是,期刊刊載內容過于廣泛,分布在多個學科當中。這樣,它對任何一個學科的貢獻都不會大。從統計數據來看,綜合性較顯著的學科分類中,期刊的ΔH都比較低。

(5)從2016—2019 年各個學科知識系統信息熵的變化情況來看,在采用與2016 年同一組高頻關鍵詞的情況下,在時序系列的概念上是前后可比的。也就是說,都采用2016 年出現的高頻關鍵詞集合作為變量,測算同一知識領域的系統信息熵變化。從圖4 的數值關系可以看到,大部分學科的信息熵數值呈現明顯的減少趨勢。特別是對比2016 年和2019 年的各個知識領域的信息熵,可以發現在全部112 個學科類別中,4 年之間信息熵變化方向為增加的只有11 個,占比為9.8%;其余90%以上的學科都是向信息熵減少的方向變化。這意味著絕大多數學科的知識不確定性在逐步減小,也就是固定范圍學科發展主題方向逐漸聚焦和清晰,這符合對一般學科發展規律的認知。這一變化過程中,各個期刊所發揮的作用有所差別,也就是各個期刊貢獻大小有所差別。

8 討 論

科學領域的學術活動發展過程中,學術成果的傳播可以增加人類的知識積累,科研人員在擴充知識儲備的同時,進一步明晰知識點之間的邏輯、結構,從而實現對客觀世界更明確的認知。這一過程是信息熵減少的過程,是認知中的不確定性、復雜性減少的過程,也是人類知識系統性、全面性、邏輯性發展的過程。在這個過程中,學術期刊發揮著重要的作用。對大部分學科領域,特別是基礎研究領域,絕大多數的研究成果和認識是通過學術期刊來實現評價、加工、記載、傳播和交流的。學術期刊的評價應該首先是對學術期刊應具備的核心功能的評價,也就是對學術期刊在學科發展中的價值的評價。

在本研究中,從信息熵的視角進行學術期刊的評價,就是觀察學術期刊是否通過自身組稿、審稿、編稿、發稿、傳播等環節的高效率工作,甄選和供給有學術意義的研究成果,能否對學科的發展提供支撐,逐漸凝聚科學問題。換句話說,就是評價一個期刊能否通過學術傳播工作,減少一點學科體系的信息熵。

本研究假設被評價期刊不在系統內進而觀察系統變化的思路可以歸為“反事實”分析方法,即提出反事實的假定,設定與事實相反的條件,再去確定因果關系。

通過建立數學模型的方式,實現對學科系統信息熵的測定,這是一個宏觀層面的研究探索;如果將這一方法體系應用到中觀層面,就是對學術期刊出版能力和學科貢獻的評價;如果將這一方法體系應用到微觀層面,就是對單篇學術論文的評價。通過測度相關指標,發現哪些單篇論文對科學進步產生了重要影響。這些成果顯著地提高了人類認識自然的水平,顯著地降低了學科系統的信息熵。

對于期刊評價來說,識別、發現這樣的關鍵性成果既是對期刊優秀稿件組稿能力的認定,也為期刊擴展組稿工作渠道提供了有效工具[57]。在信息熵視角下,將學術期刊的評價管理建設工作與單篇論文的評價、優秀作者和團隊的識別工作結合起來,有助于扭轉當前較為嚴重的“以刊評文”的不當評價導向,也可以在一定程度上對當前廣泛存在的“濫用影響因子”的情況進行糾偏[58]。

猜你喜歡
學科評價系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
【學科新書導覽】
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
土木工程學科簡介
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
“超學科”來啦
論新形勢下統一戰線學學科在統戰工作實踐中的創新
基于Moodle的學習評價
主站蜘蛛池模板: 91小视频在线播放| 人妻精品全国免费视频| 97视频精品全国在线观看| 亚洲日韩Av中文字幕无码| P尤物久久99国产综合精品| 中文字幕av一区二区三区欲色| 在线观看免费黄色网址| a国产精品| 日韩a在线观看免费观看| 精品欧美视频| 伊人久久婷婷| 91精品国产情侣高潮露脸| 日本欧美中文字幕精品亚洲| 成人福利免费在线观看| 国产人成在线观看| 成人综合网址| 久久精品人人做人人爽| 国产无套粉嫩白浆| 女同国产精品一区二区| 全部无卡免费的毛片在线看| 99re免费视频| 久久精品这里只有精99品| 国产第一页亚洲| 久久精品人人做人人爽电影蜜月| 亚欧美国产综合| 国内精品一区二区在线观看 | 国产主播一区二区三区| 精品亚洲国产成人AV| 在线观看精品国产入口| 激情视频综合网| 午夜福利网址| 亚洲精品另类| 国产成人精品亚洲日本对白优播| 日韩av无码精品专区| 日本在线视频免费| 国产91精品最新在线播放| 欧美色视频网站| 无码一区二区三区视频在线播放| 国产日韩久久久久无码精品 | 亚洲性色永久网址| 在线人成精品免费视频| 色网站免费在线观看| av色爱 天堂网| 狂欢视频在线观看不卡| 亚洲精品老司机| 狂欢视频在线观看不卡| 国产人成午夜免费看| 五月婷婷中文字幕| 中文字幕乱码中文乱码51精品| 欧美高清日韩| 亚洲综合香蕉| 日韩国产综合精选| 久久香蕉国产线看观| 大学生久久香蕉国产线观看| 色妞www精品视频一级下载| 视频在线观看一区二区| 福利姬国产精品一区在线| 免费又爽又刺激高潮网址| 亚洲欧美人成电影在线观看| 激情综合婷婷丁香五月尤物| 久久婷婷国产综合尤物精品| 在线看AV天堂| 久久永久免费人妻精品| 国产区网址| 91偷拍一区| 日韩毛片在线播放| 日本国产在线| 欧美一区福利| 国产精品内射视频| 亚洲最新在线| 日韩一区二区在线电影| 婷婷激情五月网| 91免费观看视频| 亚洲一区二区视频在线观看| 99热在线只有精品| 欧美综合区自拍亚洲综合绿色 | 99热这里只有精品免费| 久久精品嫩草研究院| 国产欧美自拍视频| 国产熟女一级毛片| 国产玖玖视频| 亚洲日韩国产精品无码专区|