999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx

機器學習在外文電子資源評價中的應用

2025-08-27 00:00:00高利
圖書館研究與工作 2025年8期
關鍵詞:外文文摘數據庫

The Application of Machine Learning in the Evaluation of Foreign Electronic Resources

Abstract Establishing ascientificand efficient method for evaluating electronic resources isa crucial task in the development of university library resourcesand theenhancement of service quality.This paper focuses on foreign electronicresourcesandestablishestwodistincttypesofevaluation indexsystems:onefor foreign journal ful-text databases,the other for foreign abstract databases.Using machine learning models,the study builds feature engineering forthe indicator data,performs normalization,dimensionalityreduction,and featureselection,followed bymodel construction,training,andthetuningandevaluationof different models.TheKNNalgorithm isultimatelyidentifiedas theoptimalmodel,which isthenusedforobjectiveevaluationofforeignelectronicresources.Theresults indicatethat machine learning models,compared with traditional evaluation methods,provide more accurate and eficient predictions, guiding electronic resource optimization inamore objective manner,thereby enabling libraries to make data-driven decisions.

Key Words machine learning; university libraries; electronic resources; evaluation indicators

1引言

電子資源是高校圖書館文獻資源建設不可或缺的組成部分,其中外文電子資源對于提升高校教學和科研的國際化水平具有重要意義。然而,外文電子資源采購價格較高且逐年上漲,給圖書館資源建設帶來一系列問題:一方面,外文電子資源采購經費占比過高導致其他資源采購受到限制,影響高校資源保障的整體平衡和多樣性;另一方面,過度投入外文電子資源采購,使圖書館在資源建設中缺乏靈活性,難以應對不斷變化的教學和科研需求。因此,研究和建立準確、高效、智能的電子資源評價方法,能夠為合理分配經費、及時調整采購策略提供可靠的依據,對圖書館文獻資源建設可持續發展及服務質量的提升具有重要意義。

電子資源評價是對電子資源內容、價格、系統功能、數據庫商服務等方面進行系統化評價,旨在為圖書館電子資源采選、續訂等決策提供依據[1],是高校圖書館文獻資源建設工作中的重點和難點。目前電子資源評價研究主要集中在建立評價指標體系和探索評價方法方面,存在評價結果不客觀等問題。隨著大數據分析和人工智能技術的落地應用,電子資源評價工作更加注重評價指標數據收集和處理。機器學習通過對樣本數據的學習去除人為干擾,發現數據內部的規律和表示層次,能夠自動識別和分析輸入的數據并得出評價結果。

2電子資源評價指標體系設計

當前我國各高校圖書館數據庫資源的利用存在差異,陳英2、劉爽[3]、肖瓏等人4都提出了評價指標體系來指導電子資源建設。機器學習不同于傳統回歸建模方法,它能夠自動識別和分析輸入數據并得出結論,因此本研究在其他學者研究的基礎上,選取外文期刊全文數據庫和外文文摘數據庫兩種類型數據庫分別構建評價指標體系,旨在提高模型的客觀性、泛化性、準確性。

2.1外文期刊全文數據庫評價指標體系構建

外文期刊全文數據庫評價指標體系分為4個一級指標,17個二級指標,如表1所示。一級指標分為“資源質量\"\"資源利用\"\"資源成本\"\"資源評價\"四個維度,前三個均為客觀數據,其中“資源利用\"與“資源成本”是建立評價指標最重要的維度,但各高校并不統一。因此,針對“資源利用”,本研究除了選取最常用的“全文下載量\"指標外,增加了“本校發文數量\"“本校發文引用量”“本校發文期刊種數”三個評價指標;針對“資源成本”,除了選取最常用的“年度單篇成本\"\"數據庫采購費用\"“年度漲幅\"指標外,增加了“集團平均成本”和“集團內排名\"兩個關鍵指標?!百Y源評價”指標選取DRAA(DigitalResourceAcquisitionAllianceofChineseAcademicLibraries,高校圖書館數字資源采購聯盟)網站評價中心數據。采購數據庫牽頭館及成員館共同維護評價中心數據,實時開展數據庫滿意度調查,并由各高校圖書館電子資源采購資深采訪館員或者主管館長提交相關數據。因此,雖然該指標類型是主觀數據,但也能保證主觀數據的權威性。

表1外文期刊全文數據庫評價指標體系

2.2外文文摘數據庫評價指標體系構建

外文文摘數據庫評價指標體系分為4個一級指標,13個二級指標,如表2所示。外文文摘數據庫評價指標建立的原則與外文期刊全文數據庫一致,其主要目的是為了提高模型的泛化能力。泛化能力是機器學習模型真正實用性的重要指標,如果模型無法適應新數據集,那么它在實際應用中的效果也將是不可靠的。因此,本研究設置外文文摘數據庫的評價指標整理數據為測試集。

表2外文文摘數據庫評價指標體系
續表2

2.3 數據源確定

數據質量是機器學習模型獲得較好訓練效果和準確結果的關鍵。電子資源評價指標數據質量主要體現在客觀數據的準確性、主觀數據的權威性以及數據的易獲性三個方面。

本研究數據來源于DRAA網站單館統計報告和評價中心數據庫多項指標評分。作為中國高校圖書館數字資源采購聯盟,DRAA在規范化建設方面卓有成效[5]。2013年,DRAA啟動電子資源利用與統計數據獲取協議(Standardized Usage Statistics HarvestingInitiative,SUSHI),自動收割在線電子資源使用統計(Counting Online Usage of Networked ElectronicResources,COUNTER)格式的電子資源使用統計數據,為成員館提供準確的數據庫使用統計報告[]。由于2021年DRAA采購數據庫統計報告由COUNTER-4升級為COUNTER-5,導致2022年之前部分數據統計不全。

本研究選取2018—2023年外文期刊全文數據庫 ScienceDirect、Wiley、Springer、ACS、Nature、Science、AESC、PBSC單館統計數據作為數據集,從指標體系中選取資源評價中“數據庫內容與質量評價\"指標作為模型的Y值。將2018—2022年數據作為訓練集,2023年數據作為測試集。為保證模型在新數據集上的泛化能力,選取外文文摘庫SCIE、SSCI、EI、Scopus以及科研工具類數據庫ESI、JCR、Incites構建指標體系。

3基于機器學習的電子資源評價模型構建

3.1指標變量重要性分析

在機器學習模型構建任務中,指標變量重要性分析是一個至關重要的預處理步驟,有助于提升模型的解釋性。在電子資源評價模型應用當中,本研究不僅需要模型做出準確的預測,還需要能夠解釋模型是如何做出決策的。通過變量重要性排序與目標變量相關性較高的特征,可以使模型更加專注于學習那些真正對預測結果有影響的因素,這不僅可以提高預測的準確率,還可以使模型更加穩健和可靠。

為了尋找與電子資源評價結果關系密切的特征,同時減少數據冗余,本研究采用基于隨機森林(RandomForests,RF)的機器學習方法完成指標重要性分析。其過程如下:(1)對每一顆決策樹,選擇相應的袋外數據(outofbag,OOB)計算袋外數據誤差,記為EOB1(袋外數據即每次建模時未利用的數據,類似于測試數據);(2)隨機對袋外數據所有樣本的特征加入噪聲干擾,再次計算袋外數據誤差,記為EOB2。假設隨機森林中有N棵樹,則該特征的重要性 :=Σ (EOB2-EOB1)/N。如果加入隨機噪聲后,袋外數據準確率大幅度下降(即EOB2上升),說明這個特征對于樣本的預測結果有很大影響,該特征的重要程度很高。值得注意的是,在上述特征重要性分析的基礎上,RF模型可以進一步根據重要性排序進行指標選擇[7]。

3.2機器學習模型分析與設計

本研究構建模型旨在評價、預測高校電子資源績效。準備好經過特征重要性分析的數據集后,就需要選擇適合的算法和訓練模型。本研究分別對支持向量機(SupportVetorMachine,SVM)K-最近鄰(K-NearestNeighbo,KNN)、Bagging(RF)、Boosting(XGBoost)、1D-CNN等多種模型進行訓練、優化和調參,并根據綜合表現選擇最優模型。模型評價指標包括決定系數 (R2) 、平均絕對值誤差(MeanAbsoluteError,MAE)均方誤差(Mean-SquareError,MSE)。

決定系數 R2 是量化模型擬合優度的關鍵指標[8,用于衡量模型能夠解釋的變異占總體變異的比例,計算公式為:

MAE是回歸模型評估中常用的一種誤差度量方式。它用于衡量預測模型在連續性數據上的預測精度,具體計算方式是預測值與真實值之間差的絕對值的平均數,計算公式為:

MSE是預測值與真實值之間差的平方的平均數,計算公式為:

R2 越接近1,表示模型擬合度越高,模型可解釋性越強。MAE在預測連續值時能較好地評估回歸模型性能。MSE對異常值敏感,如果模型在少數幾個點上預測得很差,那么MSE的值會顯著增大。

如前所述,電子資源評價是一個多層次復雜的問題,數據也是非線性關系數據。通過模型評估,本研究采用KNN算法。KNN算法是一種簡單但有效的監督學習算法。它使用一組預測特征變量X將每個目標變量與已知響應變量Y值的若干個最相似的最近鄰參考變量K進行匹配。KNN算法中距離公式為:

其中, 為 F1,F2 的歐氏距離, F1=(f11,f12) …,fln) 和 F2=(f21,f22,…,f2n) 為兩個 Πn 維特征向量, fij 表示樣本 Fi 的第j個特征值。KNN算法分類評分可解釋性不強,因此本文引入貝葉斯預處理方法,通過結合先驗信息和似然函數求解各類出現的概率進行重新分類[10]。設 X=(x1,x2,…,xn) 為樣本特征向量,則后驗概率公式為:

其中, P(X) 對應樣本數據所有分類特征概率, 為條件概率, 為先驗概率。假定各個指標類型分類取值彼此獨立,則有:

那么特征變量 Xn 屬于 Ci 的概率公式為:

式中 和 P(xk|Ci) 可從原始數據集中得到。據此方法對未知樣本X通過計算選出其中概率最大的分類作為其所屬類別,再通過KNN網格參數尋優,計算距離最小的 k 個距離,參數尋優方法為:

'n_neighbors':[3,5,7,9],#近鄰個數

'weights':['uniform','distance'],#權重:等權重或 距離權重

'metric':['euclidean'],#距離度量:歐氏

文摘庫尋優最佳參數設置:{'metric':'manhattan', 'n_neighbors':5,'weights':'uniform'}

全文庫尋優最佳參數設置:{'metric':'euclidean','n_neighbors':5,'weights':'uniform'}

基于貝葉斯預處理和KNN算法,本研究極大提高了預測的準確性和魯棒性,具體建模概述為:分別整理外文期刊全文數據庫及外文文摘數據庫特征指標數據集,對數據進行清洗和歸一化處理,確保距離計算中具有相同的尺度。將 80% 的數據作為訓練集,20% 的數據作為測試集。確定Y值,按區間[0,0.40)、[0.40,0.65)、[0.65,0.90)、[0.90,1.00]分為“差、中、良、優\"四類[1]。N維特征X對應的目標數值Y。用訓練集數據訓練模型,使模型學會特征變量與目標變量間的關系,再用測試集數據計算預測值并評估模型性能,最后輸出回歸預測值。

4結果與分析

4.1特征變量重要性分析結果

特征變量重要性分析有助于理解機器學習模型在決策過程中,哪些指標起到關鍵作用并對評價結果產生重要的影響。利用隨機森林通過訓練模型來評估特征變量的重要性],發現在沒有人為干預下,對外文期刊全文數據庫評價結果起到關鍵作用的一級指標依次為資源成本、資源評價、資源質量、資源利用。二級指標重要性排序依次為檢索系統評價得分(0.1528)集團內排名(0.1472)、年度單篇成本(0.1346)集團平均成本(0.0856)ESI核心期刊保障占比(0.0794)全國用戶數(0.0790)、全文下載量(0.0728)數據商服務評價(0.0596、數據庫采購費用(0.0416)、年度漲幅(0.0396)、購買價格及方式評價(0.0352)JCR核心期刊保障占比(0.0256)本校發文引用量(0.0218)本校發文數量(0.0128)、本校發文期刊種數(0.0111)、期刊數量(0.0104)。

對外文文摘數據庫模型特征變量重要性進行分析,發現對外文文摘數據庫評價結果起到關鍵作用的一級特征指標依次為資源評價、資源質量、資源利用、資源成本。二級指標重要性排序依次為數據商服務評價(0.2052)、檢索系統評價得分(0.1989)、購買價格及方式評價(0.1542)集團平均成本(0.1031)、檢索量(0.0557)、全國用戶數(0.0521)、訪問量(0.0510)本館集團內排名(0.0427)、本校檢索成本(0.0396)本校訪問成本(0.0365)、年度漲幅(0.0338)、數據庫采購費用(0.0229)。

總體而言,高校圖書館采購電子資源時較為關注的就是資源成本,外文期刊全文數據庫的指標重要性排序與高校圖書館數據庫采購決策邏輯較為一致。但外文文摘數據庫的指標重要性排序中,資源成本排在指標最末,資源評價居于首位。究其原因,本研究選取的外文文摘數據庫均為高校常用的引文數據庫,能夠為研究人員、科研機構、學校發展政策制定提供多種研究工具,而各高校資源成本差異與其圖書館學科服務模式、服務定位等多因素相關,在采購決策中,要著重考慮該數據庫定位、集體利用情況和取得的成效,不能單純地考慮本校使用成本。因此,機器學習模型篩選得到的特征指標重要性排序更加客觀、合理。

4.2 模型比較

為了使電子資源評價、預測工作能夠更清晰、更準確地作出數據驅動的決策,對不同算法(包括單分類器、集成學習模型和深度學習模型)進行了比較,模型比較結果如表3所示。

表3不同模型算法的評價結果

通過比較 SVM、KNN、Bagging(RF)、Boosting(XGBoost)、1D-CNN五種算法在相同數據集上的綜合表現,發現單分類器KNN算法模型在 R2 、MAE、MSE上表現更加出色。本研究存在樣本量小、特征維度低、數據無明確結構的問題,可用的訓練數據十分有限。SVM、RF、XGBoost、1D-CNN需要大量訓練數據,其性能可能因為缺乏足夠的數據支持而大幅下降。KNN算法利用其“懶惰學習”的特性,在預測階段才進行模型的“學習”,有效地解決了小樣本機器學習問題,可以直接通過訓練數據集來判斷新樣本的類別并利用所有訓練數據進行決策。

4.3新數據集回歸預測

KNN以一個數據點的最鄰近鄰居進行預測,不需要對數據進行顯式建模,也不會得到一個方程,但基于數據本身就能很好地作出預測,非常適合于復雜的非線性數據。在對數據集進行平衡處理的基礎上,調整參數后的KNN模型對外文期刊全文數據庫回歸預測具有較高的準確率。為保證模型泛化性和可應用性,用外文文摘數據庫數據集作為新數據。為保證特征變量數量相同,將外文期刊全文數據庫特征重要性排序后四項作為補充數據進行平滑處理。外文文摘數據庫預測評價結果如表4所示。

表4外文文摘數據庫預測評價結果

通過表4可以看出,預測值與目標值之間存在一定的誤差,但誤差率大多保持在較低水平,除ESI誤差率達到 13.6% 外,其余數據庫的誤差率均低于10% 。其中4項預測值高于目標值,3項低于目標值。SCIE、SSCI、EI、Scopus文摘索引庫預測誤差率小于ESI、JCR、InCites科研工具類數據庫。預測結果的評價等級與實際評價等級保持一致。上述數據分析表明訓練調參后的KNN算法機器學習模型具有較高的準確性和良好的泛化性。

5結語

基于上述外文電子資源評價模型的實證研究,探索應用機器學習算法構建模型方法,對外文電子資源進行學習、評估和預測,得到的預測結果與傳統回歸建模或者統計分析方法相比更加準確和高效。首先,運用定量和定性研究方法全面評估電子資源績效非常困難,因為收集數據與調查評價數據相互之間存在非線性關系,傳統回歸分析很難實現。而機器學習是基于數據本身訓練學習發現數據之間的規律,不需要建立復雜的顯式數學模型就能得到準確的預測結果。其次,在電子資源評價實際工作中,需收集各類指標數據,但要識別哪些指標對評價結果產生顯著影響卻很難。機器學習中的特征篩選可以對所有指標類型進行重要性排序,從而幫助我們選擇對評價結果有顯著影響的特征。最后,電子資源評價各類指標數據均有不同的量綱和取值范圍,這些指標之間的尺度差異會對評價結果計算造成困擾。機器學習數據歸一化處理可以使數據在統一的尺度上進行比較和計算,算法可以公平地對待每個特征,從而避免某些特征因尺度過大而占據主導地位。

機器學習KNN算法模型在圖書館電子資源評價這類小樣本數據集評估工作中表現優異,但本研究也存在不足之處。不同高校圖書館在服務保障定位、讀者需求等方面可能存在較大的差異,數據集僅選取一所高校圖書館的外文電子資源作為調查對象,沒有涉及其他高校圖書館數據,這可能會影響模型的廣泛適用性。在未來的研究中,可以收集更多高校圖書館相關數據以提高機器學習模型在電子資源評價中的普適性,為圖書館優化資源配置和提升讀者服務水平提供科學依據。

參考文獻:

[1]圖書館·情報與文獻學名詞審定委員會.圖書館·情報與文獻學名詞[M].北京:科學出版社,2023:95.

[2]陳英.基于組合賦權-TOPSIS法的高校圖書館數字資源服務績效評價[J].圖書情報工作,2020,64(2):59-67.DOI:10.13266/j.issn.0252-3116.2020.02.007.

[3]劉爽.高校圖書館電子資源績效評價指標體系構建研究[J].情報探索,2017(4):6-10.

[4]肖瓏,章琳.引進數據庫的發展趨勢與價格成本策略[J].大學圖書館學報,2015,33(1):5-13,20.

[5]趙艷,王超,王譯晗,等.后疫情時代的學術圖書館數字資源引進:現狀、措施與策略[J].圖書館學研究,2022(1):49-57.DOI:10.15941/j.cnki.issn1001-0424.2022.01.006.

[6]姚曉霞,劉娟娟.DRAA集團采購規范化建設及其成效[J].大學圖書館學報,2023,41(5):33-40,48.DOI:10.16603/j.issn1002-1027.2023.05.005.

[7]馬野.基于深度學習的多尺度森林地上生物量估測及不確定性分析[D].:東北林業大學,2024.DOI:10.27009/d.cnki.gdblu.2024.000127.

[8]孫道宗,張振宇,陳俊聰,等.一種基于深度學習的端到端生菜無損鮮重估測模型的建立[J].南京農業大學學報,2024,47(6):1212-1220.

[9]MOUNTRAKISG,IMJ,OGOLE C.Support vector machinesinremote sensing:A review[J].ISPRSJournalofPhotogrammetryandRemoteSensing,2011,66(3):247-259.

[10]朱虹,李千目,戚.一種基于改進最近鄰算法的忠誠度預測方法[J].南京理工大學學報,2017,41(4):448-453.DOI:10.14177/j.cnki.32-1397n.2017.41.04.008.

[11]李琳琳.基于模糊層次分析法的高校圖書館數字資源質量評價實證研究[J].圖書館學刊,2013,35(1):28-30.DOI:10.14037/j.cnki.tsgxk.2013.01.015.

[12]CHENT,GUESTRINC.XGBoost:A scalable treeboostingsystemC/KDD'16:Proceedingsofthe22ndACMSIGKDDInternational Conferenceon Knowledge DiscoveryandData Mining.SanFrancisco,CA,USA:Asociation for ComputingMachinery,2016:785-794.

猜你喜歡
外文文摘數據庫
用戶視角下高校圖書館外文文獻利用與保障需求研究
《吉林大學學報(理學版)》征稿簡則
《成都大學學報(社會科學版)》版權聲明
毛澤東著作翻譯工作回憶
百年潮(2025年7期)2025-08-01 00:00:00
藏在《青年文摘》里的高考作文密碼
青年文摘(2025年14期)2025-08-01 00:00:00
隨手拍
青年文摘(2025年13期)2025-07-24 00:00:00
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
主站蜘蛛池模板: 亚洲国产精品日韩欧美一区| 国产小视频在线高清播放| 在线永久免费观看的毛片| 全裸无码专区| 国产午夜精品一区二区三区软件| 日本黄色a视频| 国产18页| 久久久久无码精品| 国产成人综合亚洲欧美在| 亚洲最猛黑人xxxx黑人猛交| 欧美区一区| 丰满的熟女一区二区三区l| 国产一二三区视频| 欧美日韩精品综合在线一区| 欧美成人第一页| 一本一道波多野结衣一区二区 | 中文字幕免费在线视频| 国产青榴视频| 亚洲精品色AV无码看| 2018日日摸夜夜添狠狠躁| 国产呦视频免费视频在线观看| A级毛片无码久久精品免费| 人人妻人人澡人人爽欧美一区| 老汉色老汉首页a亚洲| 99久久精品无码专区免费| 久久精品国产999大香线焦| 久久综合国产乱子免费| 久久亚洲美女精品国产精品| 99久久免费精品特色大片| 亚洲综合婷婷激情| 91精品伊人久久大香线蕉| 国产又色又爽又黄| 亚洲男女在线| 精品一区二区三区自慰喷水| 国产一区二区三区视频| 欧美激情视频一区二区三区免费| 国产日韩精品一区在线不卡| 国产农村妇女精品一二区| 欧美另类图片视频无弹跳第一页| 国产激爽大片高清在线观看| 亚洲另类色| 精品人妻AV区| 在线国产91| 波多野结衣视频网站| 欧美不卡视频一区发布| 久久人搡人人玩人妻精品 | 久久婷婷综合色一区二区| 欧美亚洲国产精品第一页| 伊人色天堂| 黄色网页在线观看| 亚洲男人天堂久久| 国产在线视频自拍| 五月婷婷激情四射| 正在播放久久| 国产一区二区网站| 高清码无在线看| 精品国产91爱| 蜜桃臀无码内射一区二区三区 | 69免费在线视频| 99手机在线视频| 26uuu国产精品视频| 欧美成人精品欧美一级乱黄| 欧美国产另类| 中文字幕亚洲电影| 国产美女一级毛片| 国产99欧美精品久久精品久久| 欧美一道本| 欧美精品色视频| 尤物特级无码毛片免费| 重口调教一区二区视频| 国产精品亚洲片在线va| 亚洲男人的天堂久久香蕉网| 亚洲国产日韩视频观看| 国产精品欧美在线观看| 久草视频福利在线观看| 久久动漫精品| 91po国产在线精品免费观看| 狠狠色丁香婷婷| 91丝袜美腿高跟国产极品老师| 国产91视频观看| 久青草国产高清在线视频| 免费jizz在线播放|