李 卉
(上海電力大學圖書館,上海 201306)
近年來,科學技術呈現信息化、網絡化的發展趨勢。國家對科技創新的發展越來越重視,并投入大量的經費,我國科研成果的數量增長迅速,科研成果數據已經成為重要的戰略資源。高校是重要的科研基地,每年都會產生大量的科研成果。據統計,全國發表的科技論文主要集中在高校,占全國的66.0%[1]。在高校教學和科研管理工作中,無論是職稱評審、科研獎勵、項目申報等,都需要填報科研成果數據??蒲谐晒漠a出是衡量高??蒲袆撔履芰Φ闹匾笜酥?,也是學校綜合實力的重要體現。及時、準確地對科研成果數據進行統計分析,對于掌握學??蒲邪l展態勢、制定發展規劃、推動科研工作發展有著重要意義[2]。隨著信息技術的快速發展,科研成果的管理逐步脫離手工管理,轉而依托各類系統平臺來實現,這為高校的科研成果管理工作帶來了極大的便利性,規范了高校科研成果的統一管理,也提高了科研成果管理各環節的效率??蒲谐晒麛祿膬r值愈發受到人們重視的同時,多元、全面、精細的科研評價和統計工作也對科研成果數據提出了更高的要求,為科研成果的管理工作帶來了更大的難度。
科研活動中會產生很多信息,包括項目信息(如申報書、審批書、中期報告、結項報告等)、論文、著作、演示文稿、研究報告、實驗數據、軟件代碼、多媒體資料,以及用數字形式表達的想法、觀點、經驗及訣竅的總結等各種科研成果和其他類型信息資源。另外,一些和科研有關的活動,如學術會議、學術報告、知識比賽、成果評選、學術獲獎等,也是高??蒲泄芾硇枰闹匾畔ⅰMǔ#咝C構知識庫采集的成果類型除了正式出版和非正式出版/未出版的文獻以外,一些科研活動信息也經常被收錄其中,作為一類成果類型。
在機構知識庫中,正式出版的成果主要來自外部數據庫,一般通過特定的接口等技術手段自動獲取入庫,少量由作者提交;非正式出版物和科研活動類成果則必須由作者提交。
科研成果管理和服務過程中除了科研成果本身外,還涉及科研人員、院系部門與研究機構信息,這些信息主要來自以下幾個業務系統:①人事信息系統,提供人員在崗及歷史信息;②科研項目系統,提供科研項目申請、立項信息;③財務信息,提供項目相關的經費入賬與支出信息;④研究生信息管理系統,提供研究生、導師等培養相關信息,其他信息系統視需列入。
職能部門的業務系統信息與機構知識庫的科研成果信息關聯后,可適用于各類場景,滿足不同部門、各種層次的信息需求。這些數據的互通共享也十分重要。因此,科研成果數據的來源主要包括:①科研人員和研究團隊。主要是指教師和學生,他們既是科研成果的生產者,也是科研成果數據的用戶。②職能部門。職能部門負責管理與維護科研成果相關的信息,是科研成果數據的主要用戶,主要部門有圖書館、科研管理部門、組織人事部門、研究生院等。
高校師生和科研人員對科研成果數據需求包括以下幾個方面:
(1)科研成果數據的存取。對于學生,科研成果關乎學生的學業評價和獎勵;科研成果也關乎研究生院等管理部門對學生培養質量的評價。對于教師,在聘期考核、年度考核、職稱評審等各類評價和考核時需要科研成果信息。他們對成果數據的復用性和質量有較高的要求,希望一次存取,多次使用,避免成果數據的重復錄入。
(2)科研成果評價數據的獲取。在眾多應用場景中,用戶所需的數據往往不僅是科研成果本身,還包括成果評價數據。如科研人員年度績效考核中,經常需要統計個人發表成果的期刊分區信息、核心期刊表收錄信息、國內外數據庫的收錄信息等。這些評價數據是進行水平與質量評估的常用指標,且要求準確性高,更新及時。
(3)了解科研動態??蒲腥藛T既有了解自己科研成果動態的需求,如論文的被下載引用次數、被收錄情況等,也有了解校內科研進展的需求。如自己關注的領域內是否有新的科研成果,或是跟蹤相關人員科研進展等,這一過程可以促進學者之間的學術交流,從而提高個人學術影響力。
院系和職能部門對科研成果數據保持著一種經常的、持續性的強烈需求。一般情況下,學院需定期統計員工的科研成果、考核其科研表現。在接受學校的考核與評價、科研項目申報、獎項申請、學科發展與規劃等活動時,學院也需要科研成果數據的支持。如院系管理員需要對所有教師和學生的科研成果進行統計匯總和分析工作,并據此進行績效獎勵,制定學科發展規劃等。職能部門對科研成果數據的需求也是多樣化的,他們的信息需求面更廣,許多運用場景既獨立于學院等二級部門,又需要二級部門和師生的參與。如學校發展規劃部門需要進行全校高水平人才評價、全校KPI考核等,人事部門在人才引進、職工考核、職稱評定時需要對科研人員的科研成果進行統計分析和評價等。
綜上所述,高??蒲谐晒麛祿碜杂诓煌恼撐臄祿?、高校內部不同的信息管理系統、不同院系或部門、師生或研究人員等多源的渠道,在存儲方式、載體、格式、形式方面也各不相同。如何處理這些復雜的多源異構數據,滿足用戶提出的便捷、安全、相互關聯、更新及時、準確性高等要求,解決各部門之間的信息孤島,對科研成果進行有效組織和深度挖掘,是高??蒲谐晒麛祿M織和管理中需要重點關注的問題。
機構知識庫是高校科研成果數據組織的重要載體,在全球范圍內受到廣泛關注,各大高校和研究機構紛紛建立起自己的機構知識庫。機構知識庫不僅能夠對科研成果數據進行存儲和管理,而且能夠對科研成果數據進行深入挖掘和分析。依托于機構知識庫實現高校科研數據的組織和利用,是目前較為高效的方式。面對當前高校機構知識庫存在的短板和高??蒲谐晒麛祿脩舻男枨?,保證高??蒲谐晒麛祿馁|量尤為重要。在實踐中,高校科研數據知識組織過程中必須確??蒲谐晒獢祿娜嫘院蜏蚀_性、科研成果數據的揭示深度和關聯廣度、科研成果評價指標的匹配,才能提高機構知識庫的服務能力。
科研成果元數據的全面性是指成果的類型全、成果數量全、元數據信息全。
(1)科研成果類型全。機構知識庫應該根據機構的需求設定收集的成果類型。目前,國內機構知識庫收集的成果類型以正式出版的成果為主,非正式出版的成果為輔。如大連理工大學機構知識庫的成果類型主要包括期刊論文、學位論文、會議論文、專利、科研項目、著作、獲獎成果、標準、報紙、軟件著作權等[3]。另外,中國科學院還收錄了研究報告和演示報告[4]。從科研管理的角度來看,一個成熟的高校機構知識庫,應該包含教師和學生的智力成果以及機構自身活動和持續進行的知識生產活動的記錄[5],不僅要包括正式或非正式出版的成果,還要收集科研成果相關活動,如參賽、獲獎等。這就要求機構知識庫不僅要支持常見資源類型的定義、抓取和提交,如公開發表和出版的期刊論文、會議論文、學位論文、圖書、專利等,還能夠根據機構的需要,自定義元數據類型,并支持提交或自動獲取功能。
(2)科研成果數量全。屬于本機構的成果要做到應收盡收。如中文期刊論文的采集,可從中國知網、萬方數據和維普中文科技期刊等主要學術數據庫中獲?。粚τ谕粋€數據庫中的成果,應編制合理的檢索式保證查全率;而一個友好的成果提交頁面,可供作者自行補充遺漏的論文。
(3)元數據信息全。成果元數據要盡量完整。自動采集的成果元數據的完整性依賴于來源數據庫的元數據開放程度以及標注信息的詳細程度。當一項成果有多個來源數據庫時,應能夠優先選擇信息更全面的數據來源,再根據不同來源的數據補足缺失信息,形成一個完整的成果元數據記錄;手工提交的成果要求對必備字段應填盡填,利用技術手段對提交者進行引導與制約,保證所提交的信息準確完整。
科研成果元數據的準確性主要包括成果唯一性、成果產權歸屬標注的準確性和本機構成果的去“偽”三方面。成果唯一性是開展科研管理與評估的基本保證。機構知識庫常常需要從不同的來源庫中抓取成果,而來源庫收錄范圍的交叉重合會導致部分成果被不同數據庫同時收錄。機構知識庫的過濾與去重機制是保證唯一性的主要環節,需要在這一環節不斷完善,盡量減少重復。但程序性的去重設置并不能完全保證成果重復率為零,這時就需要通過人工干預加以保證。科研成果產權歸屬標注必須準確。機構知識庫中,成果的原始署名作者與原始署名單位應形成一一對應關系,以方便作者單位的區分;機構成果應該可以根據原始署名作者被認領或指認給研究人員;機構成果的原始署名單位應被正確識別并與現有機構的二級單位關聯。本機構成果的去“偽”指由于檢索策略的限制,來源數據庫成果信息著錄的不完整甚至錯誤,以及機構名稱拼寫等原因,機構知識庫中難免會混入一些其他機構的成果。這些成果成為“偽”成果,需要加以剔除。機構知識庫應該提供相應的功能幫助消除這種“偽”成果。
傳統的機構知識庫旨在實現學術成果的存儲和傳播,因此對成果屬性的揭示要求并不高,使用DC等元數據標準基本上已經足夠描述學術成果的特征。但是科研管理要實現人員的考核和對科研成果的評價統計等多項功能,這就對成果屬性的揭示程度提出了更高的要求,機構知識庫中的成果屬性應得到全面、更深層次的揭示。例如:①在對院系、實驗室等二級部門學術產出進行統計分析時,需要根據作者的二級部門數據,來判斷成果的二級部門歸屬。這就要求機構知識庫在標注成果的二級部門歸屬時,以原始署名單位為主要依據,避免因作者部門與署名單位中的部門不同而造成混亂與錯誤。②國際合作已經成為高校學科發展的一種重要方式,也是上級部門考察學校科研能力的一個指標。不少機構知識庫并未對署名單位中的國別信息作標注,因此無法方便統計國際合作論文。③產業合作、省內外合作則需要對署名機構的屬地、行業屬性進行區分。④在考察科研績效時,投入產出比是一個重要角度,而作為投入的基金論文,其基金信息也需要進一步分析與著錄,以便統計。以上例子說明,科研管理的需求越來越精細,需要對成果的重要屬性進行深入揭示才能滿足服務要求,具備服務能力。
在進行高校科研成果數據組織時,一定要注意機構知識庫是一個獨立運行的系統,要發揮其在科研管理中的作用,充分挖掘科研成果數據的價值,機構知識庫就不能完全獨立,應與校內的其他業務系統進行有序關聯與互動,消除信息孤島。例如,人事部門要進行人才考核,確定考核名單后,可通過接口機構知識庫獲取相關人員認領的科研成果數據后使用;機構知識庫的用戶信息數據庫應與學校的人事信息數據數據庫同步,機構設置信息也應能定期更新,才能正確匹配人員狀態、職稱、所屬部門等,為每項科研成果的部門歸屬提供準確的信息。機構知識庫與業務系統的關聯應是雙向的,這種雙向的聯動,能創造豐富的數據關聯視圖,滿足復雜的應用場景。
評價指標的配置是機構知識庫服務科研管理的基礎,是科研成果、人才評估等應用中進行統計的重要維度。應在機構知識庫中配置針對成果的評價指標和針對出版物、出版社的評價指標。針對論文的評價指標包括評價數據庫的收錄信息、論文轉載信息、引用文獻等;針對期刊的評價指標包括影響因子、分區、核心期刊等信息;針對出版社的評價指標包括著名出版社、核心出版社等信息。對成果進行指標標注時,應準確、完整;評價指標字典、引文信息應定期更新。
通過規劃基于機構知識庫的科研成果數據組織與管理的流程,從科研成果數據的智能采集、科研成果數據的清洗、科研成果數據屬性深度揭示和科研成果數據的關聯與共享4個方面,詳細闡述高校科研成果數據組織與管理的方案。
科研成果原始采集數據的完整準確是保證整個機構知識庫成果數據建設質量的基礎,也是高校科研成果知識組織的第一環節。根據科研成果數據的來源,將科研成果數據的收集方式分為3類:自動獲取、作者提交和后臺導入。
(1)自動獲取科研成果數據。自動獲取是指機構知識庫系統根據設定的搜索策略,定期到特定數據源抓取機構成果,這是科研成果采集的最主要方式。自動獲取的科研成果類型主要是期刊論文、會議論文、學位論文、專利文獻等正式出版物。在獲取文獻前,需事先配置抓取策略,通過網絡爬蟲或數據庫的接口等方式從來源數據庫獲取成果。在自動獲取的過程中,要注意以下幾個方面:①科研成果的全面性。檢查本機構的成果是否收集全面。從單庫中獲取科研成果時,是否有遺漏。同一類科研成果是否將主要數據庫都納入采集范圍,如中文期刊論文主要分布在中國知網、萬方數據和維普中文期刊數據庫,這3個數據庫都有其獨家期刊,只有將三庫都納入采集范圍才能保證數據的全面性。②科研成果元數據信息獲取是否完整。當一項成果有多個來源數據庫時,應能優先選擇信息更全面的數據來源,從不同來源補足缺失信息,形成一個完整的、不重復的成果元數據記錄。③成果獲取周期。系統應可設定自動抓取成果的周期,盡量少進行人工干預。由于各數據庫、期刊的更新周期有所不同,機構知識庫需要根據來源數據庫的更新周期和機構的工作需要設定周期,這一周期既要保證及時獲取到最新的科研成果數據,又不能給圖書館帶來沉重的工作負擔。④成果是否抓取準確。誤爬率也是測試機構知識庫系統的一個重要指標。需要定期導出成果,統計誤爬率,分析產生的原因并尋求解決辦法。檢查誤爬率的另一辦法是人工手段來操作。一些有入藏號的數據庫,通過人工檢索獲取特定年限的本機構成果,與機構知識庫中的成果入藏號進行比對,補充漏抓記錄。
(2)作者提交科研成果數據是機構知識庫收集成果的重要手段。對于系統可以自動獲取的科研成果類型,作者提交的科研成果數據是一個重要補充,可以解決來源數據庫未收錄的和抓取遺漏的成果。對于系統無法自動獲取的成果,只能通過作者提交的方式收集,如圖書、研究報告、藝術作品、音視頻作品等。
從技術層面看,要保證元數據的完整與準確性,必須有人性化的提交界面,對必備字段作出技術上的要求和限制,簡明易理解的提交說明、清晰的提交流程等。從政策層面來看,機構成員對提交個人科研成果數據的積極性不高,需要相應的成果存繳政策和激勵政策加以約束與保證。最重要的是學校層面對提交科研成果數據的政策性要求,或考核要求,如果能從政策上規定將機構知識庫作為考核成果數據源,作者提交的積極性才能得到保證。
(3)從后臺批量或單篇導入科研成果數據是補充科研成果數據的一個重要手段,一般由系統管理員操作。這些數據的導入視需要進行,如補充遺漏數據,批量上傳無法抓取的歷史數據等。
科研成果數據清洗主要是開展去重和去“偽”科研成果數據記錄的過程。去重是為了保持科研成果數據的唯一性。去“偽”目的是清除誤爬數據和用戶提交的非本機構數據。
(1)科研成果數據去重。多個來源必然會帶來重復,雖然各數據庫收錄的期刊種類、數量均有所不同,但是會存在一定程度上的交叉。另外,即使是同一個數據庫中也有可能出現重復數據記錄的情況,同時也有可能出現成果被多次收錄,或是一稿多投等現象。再加上各數據庫的元數據標準和格式、數據質量均有所差別,因此,需要對不同來源的數據進行去重和整合。數據去重包括單庫去重和跨庫去重兩種情況。
單庫來源的記錄產生重復的原因比較復雜,主要有人工提交科研成果數據和系統抓取科研成果數據造成的重復,有些數據庫對同一個成果在不同階段發布的內容不同、系統將更正記錄、撤回論文當作科研成果抓取等原因。單庫去重的辦法主要有:完善機構知識庫的重復論文識別機制,增加重復論文檢索功能、重復提示功能和重復合并功能;增加識別優先發表、網絡出版和Inpress、Ear9 lyAccess等論文在正式發表的記錄是否為同一篇論文,及時更新記錄信息;論文更正記錄、撤稿成果等需要區別對待;將DOI、入藏號等代表文獻唯一標識碼作為去重的重要依據等。
從多個數據庫抓取的同一成果,也會造成重復,原因諸如:因同一成果的一些關鍵字段信息在不同來源中不一致產生重復,如標題、作者、發表期刊、年份等;因收錄數據庫的語種導致系統無法識別而產生重復。多庫去重的辦法中DOI代表文獻唯一標識碼可以作為去重的重要依據,但要注意WebofScience數據庫中,有時會議論文會用同一個DOI;通過一些字段的組合作為去重的依據,如,ISSN+年+卷+期+頁碼,或標題+刊名+作者+年[+卷][+期]+頁碼等??梢栽O置幾組相同文獻的判斷標準。
(2)科研成果數據去“偽”。去“偽”是刪除那些誤爬的或作者提交的非本機構的科研成果。判斷依據是作者署名機構。對于系統自動抓取的成果,本應在成果過濾階段就設立規則予以排除,但因各種原因還是混入庫中,如來源數據庫機構署名拼寫錯誤;作者提交成果未填署名單位或填寫的現單位而非署名單位;署名機構名稱與本機構名稱相似,通過檢索式無法區分,系統過濾失敗等。
檢查“偽”成果的一個辦法是通過人工操作。一些有入藏號的數據庫,通過人工檢索獲取特定年限的本機構成果,與機構知識庫中的成果入藏號進行比對,對機構知識庫中有而人工檢索結果中無的成果進行分析,確認是否為本機構成果。另外,應該將成果提交規定以恰當的形式讓提交者知曉,改善成果提交功能,對未填寫署名單位的成果不入庫。
機構知識庫不僅要做到全面、準確地收集機構產出的科研成果,還需要深入揭示科研成果的屬性,才能為高校科研成果相關的各項統計和評價提供數據基礎。成果屬性的深度揭示主要是對比機構知識庫的元數據要求進行規則處理,使得數據更為規范,通過對收集到的原始數據的拆分來實現??蒲谐晒麛祿脑獢祿幚硇枰獏^分的重要屬性是署名地址、署名作者、資助基金等。
(1)署名地址相關屬性的揭示。署名地址中有不少信息對于科研管理與成果評價有特定的意義,可以根據需要進行揭示。署名地址中的信息包括:機構名稱、二級部門名稱、所在地(省/州/城市等)、國家,以及地址排序和是否通信單位等,見表1。

表1 署名地址相關的屬性
(2)署名作者相關屬性的揭示。作者署名相關的信息可用于幫助確認作者的貢獻,是成果作者歸屬的重要判斷依據,相關屬性見表2。

表2 署名作者相關的屬性
(3)資助基金相關屬性的揭示。資助基金信息是考察研究團隊、機構和作者的研究投入的一項指標,可視需要進行揭示,相關屬性見表3。

表3 資助基金相關的屬性
(4)評價指標屬性的揭示??蒲谐晒u價指標與成果息息相關,機構知識庫應建立考核指標字典,通過評價指標與成果的結合,實現對科研決策的支撐。關于論文、專著、報紙等成果的考核指標,如表4所示。

表4 評價指標相關的屬性
機構知識庫需要打破信息孤島狀態,與其他業務部門的數據進行多維度關聯,才能發揮其在科研管理、績效評估、學科建設等方面的作用。如,學校、院系的投入產出評估中,通過項目數據與成果數據關聯了解產出績效;人才引進、國際合作、行業合作、研究生培養、學科建設、科研團隊等評估工作,也可通過人與成果的關聯產生翔實的數據,支持管理決策和上級主管部門對學校的評估。
科研成果數據的關聯與共享一般是通過科研成果共享平臺來實現的??蒲谐晒蚕砥脚_由兩部分構成:
(1)科研成果關聯機制或關聯功能構件??蒲谐晒P聯功能構件是一種底層開發的接口集成,連接機構知識庫和眾多職能部門的業務子系統,其作用是在底層數據間建立關聯,每一個系統中哪些數據可以共享,向誰共享,如何調用,權限控制等技術細節,使業務系統之間的科研成果數據共享成為可能。
(2)應用子系統。這是根據學校、師生、職能部門的應用需求,以滿足特定的成果使用目標專門設計的應用模塊。其中有常規的應用需求,也有個性化的、突發的需求,這些需求往往有一個共同特點,即涉及的數據信息可能來自不同的部門,呈現方式也不一樣,需要建設專門系統/功能模塊才能滿足。常規的應用子系統有:師生的聘期考核、全校KPI考核、初中級職稱評定、人才考核、年度單項獎、團隊成果跟蹤,院系成果跟蹤、ESI學科貢獻度、ESI高被引論文、學科發展態勢分析、學位論文管理、研究生獎學金評定、高水平論文監測、三大檢索論文跟蹤統計、教育部統計、市教委成果統計、國際合作成效監測、教師學術主頁等。
應用子系統在成果關聯功能構件的支持下,調用跨業務系統的數據提供服務。如學者個人主頁子系統展示的科研成果情況主要包括其所屬部門、科研成果總數、科研成果類型、科研成果收錄情況、合作者、論文發表期刊、項目等,這些信息可能來自機構知識庫、人事部門業務系統的人事信息庫、科技管理部門的項目信息庫等。
在實踐中,機構知識庫建設者與服務提供者首先要了解各部門對成果數據的需求,分析各部門的評估統計中涉及到的成果數據,制定出針對不同要求的個性化數據方案,將各成果數據屬性進行關聯,形成數據視圖,這些視圖可以直接導出數據,供圖書館完成職能部門或其他用戶委托;或將視圖設計成數據接口,供校內業務系統調用;或篩選出常用、可共享數據視圖,開發Web查詢功能,為全校或特定的用戶開放查詢服務。
除了機構知識庫內部數據關聯外,還會經常用到各職能部門的數據,將其與機構知識庫的成果數據關聯,共同解決一些特定的需求。例如,分析特殊人才的科研產出時,就需要用到人事部門的人事數據。如果要在底層進行關聯,一種做法是在人事系統中,調用機構知識庫的視圖,然后在人事系統進行分析與考核;另一種方式是依托科研成果共享平臺的支持,開發特定的應用子系統(如特殊人才科研成果監測系統),開放給有關部門與人員使用。機構知識庫與職能部門的業務系統之間的關聯是雙向的,共享是相互的,只有這樣,才能創造一個校內科研成果信息資源建設與利用的良性循環。
高??蒲谐晒麛祿遮呏匾?,對科研成果數據的組織與管理也在不斷完善和發展。機構知識庫是實現科學成果數據必不可少的工具。基于機構知識庫的科研成果數據的智能采集、科研成果數據的清洗、科研成果數據屬性深度揭示和科研成果數據的關聯與共享是高??蒲谐晒麛祿M織和管理的具體實施方案。在筆者的實習和實踐過程中,還發現機構知識庫重儲存與開放獲取,科研管理服務意識與功能不足;成果數據的質量無法滿足當前學校對科研成果的精細化要求;學校主管部門、師生缺乏對機構知識庫的了解,對機構知識庫認可度低;師生參與機構知識庫建設的積極性不高,成果認領率低等問題有待解決。期望相關研究能夠推動實踐的發展,促進高校科研成果數據服務與機構知識庫的更好融合。