


摘 要:科技期刊發布平臺遷移過程中所涉及的數據,可根據數據類型劃分為期刊的基礎數據、期刊的擴展數據、期刊的用戶數據及行為數據、期刊網站與上下游系統連通數據等不同的數據層級,并據此構建相關的層次模型。層次模型可應用在實際的數據遷移實踐中,本文根據不同層級數據的特點,探討各層數據在數據遷移過程中的遷移思路、遷移方法和注意事項,并提出相應的遷移案例,以期對促進科技期刊數字化建設的健康發展提供參考。
關鍵詞:學術期刊;發布平臺;數據遷移;層次模型
DOI: 10.3969/j.issn.2097-1869.2024.02.009文獻標識碼:A
著錄格式:郭軍強.科技期刊發布平臺數據遷移層次模型的構建與實踐應用[J].數字出版研究,2024,3(2):72-76.
科技期刊發布平臺是科技期刊數字化建設的重要組成部分,國內外已有多個廠商提供相應服務,如國內的瑪格泰克、仁和匯智、中圖科信、方正、勤云、科學出版社SciEngine平臺、清華大學出版社SciOpen平臺及國外的ATYPON Literatum平臺等。期刊作為連續性出版物,根據其自身發展的需要,會不可避免地經歷發布平臺的變更和遷移,在此過程中,數據的遷移尤為重要。當前,部分期刊對哪些數據需要遷移、如何進行遷移等缺乏較深的理解,其實際的遷移過程就如“摸著石頭過河”,容易造成不同類型的數據或多或少地被丟失。同時,也有部分發布平臺未向遷走的期刊提供相應支持。針對上述問題,本文試圖通過對科技期刊遷移數據類型進行劃分,并針對不同數據類型提出相應解決思路和方法。
1 背景及既有研究
在期刊平臺建設方面,目前大部分期刊都采用第三方技術公司提供系統或服務的方式構建自身系統平臺。科技期刊是連續性出版物,優秀的期刊往往為能向讀者、專家用戶提供更好的服務而進行系統的迭代和升級,在此過程中都需要進行數據遷移,即將舊系統中的數據遷移到新系統中,使其在新系統中得以正確應用,保證期刊系統平臺的可持續服務。
通過在文獻數據庫中進行檢索,發現相關的既有研究較少,其中,許山山等[1]從數據質量對數據遷移的影響、數據遷移基本架構、數據遷移方法3個方面進行梳理,分析當前熱點的架構和方法,并對常用架構模型和方法進行了綜合評價;張斯龍等[2]則以《中華急診醫學雜志》主建網站“中華急診網”的升級為案例,對期刊網站系統升級歷程中各階段的實施過程和收效進行了經驗總結。但許山山等的研究偏向理論探索;張斯龍等的研究則側重于定制化開發的期刊數字化系統平臺,與大部分期刊的情況并不相同。同時,科技期刊在實際的遷移過程中,往往只注意期刊、論文數據的遷移,且容易忽略論文析出或加工出的數據、用戶數據及用戶行為數據、上下游系統連通數據等數據的遷移。因此構建相對完整的數據遷移層次模型并開展實踐應用是一個重要的研究課題。
2 平臺數據遷移的層次模型與實踐應用
2.1 數據遷移層次模型
本文以科技期刊發布平臺的數據遷移層次模型與實踐應用為研究對象,探討數據遷移過程中所涉及數據的層次劃分、遷移要點和注意事項等。
基于筆者對科技期刊發布平臺的多年研發經驗,在數據遷移過程中可以按照如下方式進行遷移數據的層次劃分(見圖1)。
不同層次的數據在遷移時具有不同特點,其遷移方式也隨層次的不同而具有完全不同的遷移思路和方法,層次越高對數據的要求越高。各期刊可以根據自身實際情況向遷移前后的技術提供商提出不同的數據導出和導入需求,并要求雙方配合完成完整的數據遷移工作。
2.2 數據遷移層次模型的實踐應用
2.2.1 L1層期刊的基礎數據的遷移
L1層的數據為期刊的基礎數據,主要包括期刊的核心信息展示數據和期刊文獻數據兩部分。
期刊的核心信息展示數據主要指期刊網站上呈現給用戶的靜態介紹類數據,此類數據更新頻率一般較低,如期刊簡介、編委信息、期刊榮譽、投稿指南、審稿流程、版權聲明、數據共享說明、道德聲明、倫理政策等。由于各期刊的核心信息展示數據內容、標準不一,且往往長期固定,更新頻率低,對該類數據的遷移思路是直接將原系統中的相關數據拷貝到新平臺,同時結合新網站的展示需求、內容更新需求等進行調整。
期刊的基礎文獻數據一般包括論文的元數據、PDF及XML全文數據等,是期刊網站上最重要的內容數據。通過分析國內期刊的數據加工情況,可以將期刊為讀者提供論文閱讀的方式分為論文摘要閱讀、論文摘要+PDF下載閱讀、論文在線全文閱讀、論文在線全文+PDF下載閱讀等。針對論文摘要閱讀和PDF下載閱讀方式,文獻數據的遷移策略和思路是通過批量導出、導入方式進行數據的遷移操作,如果原系統不支持導出,則可以通過數據采集的方式進行數據的遷移。論文題錄數據的遷移,是目前國內主流科技期刊平臺遷移過程中的基礎部分,如勤云、瑪格泰克、仁和、方正等網站平臺提供論文所有題錄數據的Excel表格,只要新系統支持批量導入,即可完成論文數據的遷移。但這種遷移方式需要考慮導出的PDF文件與元數據的關聯,可以通過對將PDF文件的文件名稱與元數據中的某字段(如唯一標識)相對應的方式進行遷移。
以某期刊網站的論文數據遷移為例,原網站上的論文只支持摘要閱讀,PDF及全文閱讀數據需要從數據庫平臺獲取。在該期刊的數據遷移過程中,以從原網站導出的論文題錄excel數據為基礎,對其所有文獻數據進行XML全文數據加工并完善題錄數據,從而完成論文數據遷移,實現全刊論文在新網站的全文在線閱讀和PDF下載閱讀。
對于與國外合作期刊的基礎論文數據,可以使用大數據采集工具采集論文的題錄數據并進行新網站入庫與發布,這就要求數據采集工具需具有實時更新與監控能力,以確保所有期刊文獻數據同步更新。數據遷移后的期刊網站平臺樣例(見圖2)。
2.2.2 L2層期刊的擴展數據的遷移
L2層的數據為期刊的擴展數據,首先需要處理的是以論文XML數據為基礎并通過解析XML的內容或通過更進一步的數據加工而形成的實體數據,包括能夠獨立存儲的作者、機構、基金、關鍵詞、圖表、參考文獻等數據,其未來可以作為科技期刊的數字資產進行重復利用,因此遷移該部分數據時需要確保數據的連續性。此類數據進行遷移的策略和思路為,如果其僅是從全文XML數據解析出來的數據,則可以通過重新解析和治理技術完成遷移,在新的系統中實現結構化數據的獨立存儲與管理;如果在解析的基礎上還進行了更多加工,則需要進一步處理加工后的結構化數據及各實體之間的關聯。
擴展數據還包括期刊網站的資訊數據,以期刊編輯部公告或微信公眾號等新媒體平臺的內容居多,針對該類數據可以通過技術采集的方式進行遷移,如對于編輯部公告資訊數據可采用一次性遷移方式,微信公眾號等新媒體平臺的數據則需要通過持續監控進行采集并更新。
此外,部分科技期刊網站中還存在音視頻數據,包括論文的增強出版數據或發布網址運營過程中積累的音視頻數據,一般分為兩種存儲方式,一種存儲于原網站,可直接進行播放展示(見圖3);另一種則存儲于B站、視頻號等第三方平臺(見圖4)。針對第一種存儲方式的數據遷移需要通過整理原網站的音視頻資源,根據導入的元數據模板批量導入新網站。其中,尤其需要注意音視頻資源與論文等其他內容的關聯,需要在新網站中進行重建。而對于存儲在第三方平臺上的音視頻數據可以采取兩種處理方式,其一是繼續將數據保留在第三方平臺,直接在新網站中拷貝相關鏈接即可;其二是從保證數據完整性的角度出發,將相關數據收回科技期刊網站自行管理,可以通過分析第三方平臺的數據規則,利用技術采集工具實現音視頻數據的持續采集與入庫,確保新網站和第三方平臺的數據實現周期性更新。
2.2.3 L3層期刊的用戶數據及行為數據的遷移
L3層的數據為期刊的用戶數據及行為數據,包括用戶信息數據、用戶行為數據或資源利用數據及系統訪問數據(如網站訪問量、訪問時長)等。
期刊的用戶信息數據主要指網站前臺的讀者數據,通過導出已經注冊、登錄的用戶賬號信息,在新系統中實現賬號的批量初始化,保證用戶的連續訪問。在遷移的過程中,需要特別注意保護用戶密碼等敏感數據的安全,確保用戶的隱私及保密數據不被泄露。同時,對于訂閱制期刊,其用戶的訂閱信息也需要和用戶數據一起遷移。
用戶行為數據或資源利用數據指前臺網站的所有內容資源,用戶在使用資源時的行為數據,包括論文的瀏覽量、下載量及音視頻的瀏覽量、播放量、下載量等數據,可以通過系統日志導出,不同的資源在導出時可以將系統的統計數據包含在內。
2.2.4 L4層期刊網站與上下游系統連通數據的遷移
L4層的數據為期刊網站與上下游系統的連通數據,主要遷移的是DOI注冊信息。一些期刊在發布論文時會對其進行DOI注冊,遷移網站數據時也需要將DOI解析后的目標地址遷移到新網站,否則一旦舊網站下線,DOI解析就會無法被訪問。可以通過更新DOI注冊的相關信息來維護DOI注冊信息的持久性及DOI元數據的準確性。
針對DOI注冊信息,本文提出遷移策略和思路:將所有注冊過DOI的數字對象列表進行導出和遷移,數字對象一般包括論文、部分論文部件(如圖片、表格等)、增強出版數據(如音頻、視頻等)及其他類型的數據,根據列表分門別類地在新網站系統中使用新的URL進行解析地址更新。如果舊網站系統中沒有記錄相關數據或不支持導出,則可以根據Crossref平臺提供的期刊DOI和URL列表獲取相關信息,科技期刊可以要求新網站平臺的技術商根據列表形成包含論文在內的各種數字對象的DOI和URL信息的新格式文件,其格式體例可參見Crossref平臺制定的包含制表符分隔列表的文本文件具體規則[3]。之后即可聯系Crossref的管理員進行批量DOI重新解析操作,或通過Crossref的管理工具批量上傳提交。
2.3 平臺遷移與數據的相關事項
為了實現新科技期刊平臺與上下游系統的連通,除完成上述數據的遷移外,還需注意與平臺遷移相關的搜索引擎收錄更新及各數據庫收錄更新等相關事項。此類事項與遷移平臺的技術功能、第三方對接平臺接口有關,雖不屬于數據遷移范疇,未列入數據遷移層次模型,但與遷入的新平臺中相關的數據關系密切。
搜索引擎收錄更新以百度和谷歌收錄更新為例。對于百度收錄更新,可參考百度的網站收錄工具說明[4],當科技期刊進行第一次網站收錄時,技術服務商可首先進行百度網站收錄開放平臺的注冊,然后進行網站的域名驗證,之后即可通過百度提供的API接口進行網站URL的批量收錄提交;當科技期刊進行新舊網站或域名切換時,則需要通過百度提供的網站改版工具[5]提交當前網站的所有URL鏈接。對于谷歌收錄更新,則需要通過谷歌開發者賬號按收錄要求[6]生成并重新提交網頁地圖(Sitemap)文件。
在各數據庫收錄更新方面,科技期刊收錄數據庫的數據在新舊平臺進行切換時,需要對原始數據庫——如中國科學引文數據庫(CSCD)、Pubmed、Scopus數據庫中的論文元數據及論文可觸達的URL地址進行更新。主流的數據更新方式為,數據庫平臺向期刊提供文件傳輸協議(File Transfer Protocol,FTP)服務,科技期刊按照數據庫的要求準備并提交數據,并通過FTP服務器進行原始數據的更新,確保科技期刊新舊平臺切換后依然可以保證論文的原文獲取鏈接準確無誤。以Pubmed數據庫收錄更新為例,若期刊被Pubmed數據庫收錄,在進行科技期刊網站的新舊切換時需要對原始提交給Pubmed數據庫的論文原文鏈接進行批量更新,按照Pubmed數據庫的數據提交更新機制制作XML文件(見圖5),并通過Pubmed數據庫提供的FTP服務器上傳、更新該XML文件,以保證Pubmed數據庫的論文能夠準確鏈接到新的網站平臺。
3 結語
科技期刊發布平臺的數據遷移過程較為繁瑣,本文通過對發布平臺中需要遷移的數據進行分析,構建了科技期刊發布平臺數據遷移的層次模型,將需要遷移的數據分為期刊的基礎數據、擴展數據、用戶數據及行為數據、網站與上下游系統的連通數據四個層次,對該層次模型進行實踐應用,針對每一層數據分別提出數據遷移的策略、思路和方法,對期刊數據遷移事項的開展提供建議,拓展其執行思路,以期促進科技期刊數字化建設的健康發展。
目前,期刊平臺技術提供商對于期刊數據遷移的認識還比較有限,實施時往往比較被動。未來若其能夠提供更好的技術支持,期刊的數據遷移將更加順暢,如可以在多平臺間通過提供接口或遷移協議的方式實現數據遷移,甚至更進一步,新舊平臺間可以“一鍵”實現所有數據的遷移,真正實現期刊網站系統的平滑過渡,屆時,科技期刊平臺的產品競爭力將得到飛躍式發展。
作者簡介
郭軍強,男,中圖科信數智技術(北京)有限公司產品經理。研究方向:互聯網及數字出版產品與平臺設計。
參考文獻
[1]許山山,史涯晴,韓敬利,等.數據遷移研究綜述[J].軟件導刊,2023,22(7):234-246.
[2]張斯龍,鄭辛甜,馬岳峰.學術期刊網站的升級[J].科技期刊發展與導向,2018:118-123.
[3]Crossref.How to update your resolution URLs[EB/OL].(2022-05-20)[2023-12-27].https://www.crossref.org/documentation/register-maintain-records/maintaining-your-metadata/updating-your-metadata/#00172.
[4]百度搜索資源平臺.平臺工具使用手冊:如何使用API推送功能[EB/OL].(2020-08-14)[2023-12-27].https://ziyuan.baidu.com/college/courseinfo?id=267&page=3#h2_article_title14.
[5]百度搜索資源平臺.平臺工具使用手冊:網站改版工具如何使用[EB/OL].(2020-08-14)[2023-12-27].https://ziyuan.baidu.com/college/courseinfo?id=267&page=6#h2_article_title19.
[6]Google搜索中心.請求Google重新抓取您的網址[EB/OL].[2023-12-27].https://www.google.com/addurl.
Construction and Practical Application of Data Migration Hierarchical Model for Sci-Tech Journal Publishing Platforms
GUO Junqiang
Zhongtu Kexin Technology (Beijing) Co., Ltd., 100020, Beijing, China
Abstract: Data involved in the migration process of sci-tech journal publishing platforms can be divided into different layers according to types, such as basic data, extended data, user data and behavior data, and website and up-down-stream-connected data. Related hierarchical model can be constructed accordingly, and it can be applied in the actual data migration practice. According to the characteristics of data at different layers, this study analyzed in-depth the migration ideas, methods and precautions of data at each layer in the process of data migration, and put forward corresponding migration cases, with a view to providing references to promote the healthy development of the digitization of sci-tech journals.
Keywords: Academic journals; Publishing platform; Data migration; Hierarchical model