覃周亞
知識服務是基于知識資源或知識產品,根據用戶的需求和使用場景,在用戶解決問題的過程中,提供能夠有效支持知識應用和創新的行為。[1]學術出版知識服務是針對用戶的學術性和知識性需求,借助數字信息技術實現知識內容的搜尋、組織、分析、重組,以融入具體知識使用場景,并最終實現知識增值和創新的服務。[2]2017年《關于深化新聞出版業數字化轉型升級工作的通知》提出“要積極創新知識服務模式,面向不同終端、采取不同方式,實現精準的多形態知識服務供應”。[3]學術出版知識服務是提高國家學術發展水平和學術影響力的重要基礎,而精準化的學術出版知識服務則是回應現實關切,落實“把論文寫在祖國大地上”的迫切要求,為學者提供精準化的知識服務是學術出版發展的目標和必然趨勢。
面對科學研究和學術出版的現實需求,以及大數據、云計算、物聯網、區塊鏈、人工智能等新一代信息技術發展帶來的新機遇,數據作為一個重要的生產要素進入學術出版知識服務領域。本文所說的“數據”并不僅指大數據或大數據技術,而是新一代信息技術背后的算法和數據基礎。數據賦能是通過創新數據的運用場景、技能和方法來獲得或提升整體能力,實現數據賦能價值的過程。[4]從學術出版知識服務實踐來看,盡管出版機構掌握了大量的數據資源,但是對數據賦能的認知不足,導致利用數據和算法提升學術出版知識服務精準性的實踐操作存在問題,數據資源的價值未能得到充分發揮,數據賦能的效果有限。
以往研究多以學術出版流程為研究視角,遵循“現狀—問題—策略”的研究邏輯。比如,研究技術對學術出版知識服務的影響:提出人工智能技術推進智能化知識服務,從而為科研提供精準化的服務;[5]提出借助語義技術實現學術知識抽取和內容深度聚合,進行學術資源的個性化智能推薦,實現個性化、定制化的精準學術知識服務。[6]研究學術期刊知識服務:提出學術出版內容與學科領域發展相呼應是建立以學術出版服務為導向的精準推送機制的重要基礎;[7]通過分析讀者的搜索數據了解讀者關注的話題,以實現精準推送,形成良性供需循環。[8]這些研究缺乏從數據賦能視角深入探討學術出版知識服務精準化。本文從學術出版知識服務精準化需要解決的問題入手,結合學術出版知識服務的特性,揭示數據賦能學術出版知識服務精準化的內在機理,并提出實現學術出版知識服務精準化的路徑,助推學術出版發展和學術強國建設。
學術出版知識服務精準化的本質是知識服務供給方與需求方能夠實現供需匹配。具體來說,學術出版知識服務供給方要解決好“為用戶提供什么樣的學術知識服務”和“如何提供用戶需要的學術知識服務”這兩個問題。差異化需求是學術出版知識服務精準化要破解的問題,這一差異不僅體現在異質性用戶的個性化需求,還體現在同一用戶在學術研究生涯不同階段的需求變化。因此,本文從供給方和需求方的視角分析學術出版知識服務精準化面臨的主要困境。
學術期刊是學術研究成果的重要載體,也是學術出版知識服務的重要內容資源,學術期刊發表學術論文,本身就是學術出版知識服務的一種模式。近年來,學術期刊積極探索內容精準推送服務,雖然在一定程度上提升了學術期刊的傳播范圍和服務能力,但普遍存在精準度不高、服務模式單一、讀者地位不夠突出、媒體融合度有待提升等問題。[9]包括期刊、圖書、數據庫等在內的學術出版產品,基本都實現了以數字化形式面向讀者,但大多還處于對紙質內容“搬運”的階段,沒有做到學術出版內容整合,沒有建立起完整的知識關聯體系,在數字內容的細粒化標引方面也存在不足,難以滿足用戶細化的內容需求,學術出版知識服務還處于淺層階段。由于知識服務模式不夠成熟,出版機構在學術出版知識服務內容建設方面找不準重點,在內容加工與組織上不必要的消耗過多,為用戶提供了很多不相關的內容,用戶真正的需求卻沒有得到滿足,供需不匹配。
目前學術出版知識服務主要提供的是科研輔助工具服務和科研寫作服務,服務類型較為單一,而用戶的學術研究需求還包括科研數據服務、科研成果發表服務、科研成果傳播服務以及尤為缺乏的科研學術交流服務,[10]單一的服務類型無法滿足用戶多樣化的學術研究需求。學術出版知識服務不能精準對焦用戶的細化需求,不利于知識內容資源的生產,以致無法實現學術出版知識服務生態的良性循環。
首先,用戶群體細分不到位。目前學術出版知識服務把服務對象統稱為用戶,對用戶沒有進行精確細分,難以掌握不同類型用戶的確切需求,對學術出版知識服務發展造成一定困擾。學術出版知識服務主要為各類科研機構提供基于專業學術研究需求的服務,用戶主要是高校師生和科研院所的科研人員。將用戶劃分到高校師生和科研院所的科研人員這一層次還很難實現精準化知識服務,因為不同層次、不同學科背景的教師、學生及其他科研人員的具體知識需求存在很大差異,因此還要根據不同群體用戶的特點和學術成果樣態進行細分,建立精準用戶畫像,并實時追蹤其所處的科研環節,及時為其提供科研項目申報、立項、開展和結項,學術資料搜集,學術論文寫作等環節所需的學術信息和科研工具。其次,隱性知識需求甄別困難。如果用戶能夠直接精準地表明自己的需求,往往有助于實現精準的知識服務,但實際情況是用戶很多時候難以準確表述自己的需求,有時甚至不知道自己存在某一知識需求,即無法判斷自己的隱性知識需求。學術出版知識服務主體雖然已從過去的被動服務轉向主動服務,但目前所開展的服務大多是單向模式[11],對用戶潛在和動態需求把握有困難,加之溝通渠道不完善和反饋機制不健全等,使得原本就難以識別的隱性需求甄別難度更大。
數據是智能化的基礎,算法則賦予數據新的生命力,在數智化時代,數據和算法成為學術出版知識服務精準化的重要影響因素。數據賦能學術出版知識服務的本質在于通過新一代信息技術進行數據獲取、集成、挖掘、分析、利用和反饋,并在此基礎上對知識服務工作進行診斷、評價、預測與決策,使學術出版知識服務更精準、更科學、更高效。數據賦能正形成一套以數據思維為基礎的知識服務邏輯,為學術出版知識服務提供新的管理模式、生產動力和推廣路徑,并切實提高學術出版知識服務的資源管理效率、服務供給質量和營銷傳播能力。(見圖1)

圖1 數據賦能學術出版知識服務精準化的內在機理示意圖
人是生產力中最活躍的要素,科學技術推動生產力發展,首先影響的是人。數據賦能學術出版知識服務,首先影響的是知識服務人員,使人與人之間信息趨于互聯共享,決策方式也從過去的經驗決策轉向數據決策。數據賦能不僅影響了人的工作方式,更影響了人的認知。在數智化時代,信息獲取更便捷、數據更龐大繁雜、跨學科知識需求激增,為適應這些變化,知識服務人員越來越意識到要轉變傳統業務理念,首先要統一知識服務認知問題,深刻了解知識服務前沿理論和應用現狀,并以此為前提做好學術出版知識服務業務發展的遠景規劃。
面對海量知識信息,由于渠道限制和個人信息獲取能力限制,用戶在科研各環節的資源獲取難免存在滯后性、粗糙性和狹隘性等局限性。這就要求出版機構從服務理念、組織架構、制度設計等方面建構學術出版知識服務新的服務理念和行動邏輯,主動、準確、及時、完整地契合用戶的學術知識需求。學術出版知識服務人員要逐步建立起數據思維,更新的服務思維會促使出版機構重新思考管理模式,使組織結構從科層制組織結構向扁平化、去中介化、網絡化的組織結構調整,因為在數智化背景下,堅持高溝通成本和低信息效率的傳統組織形式將會出局[12]。扁平化的組織結構賦予一線編輯、營銷宣傳和技術專員更多的權利,打破了部門與部門間的數據孤島和上級與下級間的隔閡,突破了傳統學術出版知識服務聚焦于科研輔助工具服務和科研寫作服務的局限性,使市場響應能力顯著提升,而市場感知能力和動態監測能力的提升使出版機構能夠及時把握用戶需求,從單一業務類型向更豐富的業務擴展,增強了決策的前瞻性和精準性,使學術出版知識服務決策從經驗主導向數據支撐方向升級。
數字化知識資源是學術出版知識服務的基礎,對數字化知識資源進行管理是提高學術出版知識服務效率和質量的必然要求。目前主要有存量資源、在制資源和增量資源這三種知識資源。[13]出版機構普遍存在對紙質存量資源轉化不充分、不注重在制資源存儲和管理以及對增量資源挖掘不足等問題。技術賦能改變了出版機構在學術知識資源管理上的尷尬境地。首先,在存量資源轉化和在制資源建設方面,出版機構依托計算機應用技術、計算機網絡技術和信息存儲技術等將紙質學術出版產品轉化為數字化形式保留下來,并對學術出版過程中產生的碎片化和體系化的知識內容進行標引、加工,奠定了學術出版知識服務的資源基礎。隨著資源量的增大,原有技術難以滿足學術出版資源轉化和建設的需求,云計算的應用解決了學術知識資源存儲的問題,人工智能技術實現了對學術知識資源的自動化整理和批量處理,極大地提高了知識資源管理效率。其次,在增量資源挖掘方面,通過新一代信息技術進行網絡抓取,可不斷豐富學術知識資源庫,技術應用越成熟的出版機構在學術出版知識服務市場競爭中越具有競爭力。最后,在資源安全方面,區塊鏈技術憑借“去中心化、信息公開透明、安全可靠、追根溯源、開放共識”等特點,在數字資源管理和流通方面表現出極高的優越性,對學術出版知識服務資源的版權管理和使用安全具有重要意義。總之,技術賦能使資源覆蓋廣度不斷提高,資源覆蓋深度不斷擴展,資源更新效率不斷提高,同時也增強了資源間的互聯互通,提高了學術出版知識服務資源管理效率。
由于數據收集工具和技術的限制,過去只能獲取有限的數據,這些數據在知識服務決策中發揮的作用也非常有限,信息不對稱導致學術出版知識服務供需之間難以達到平衡。而新一代信息技術的發展能夠實現多維數據采集,極大地提升決策的科學性和及時性,破解供需之間的屏障。
數據作為新一代信息技術的底層基礎,能夠不斷提升技術的智力內涵,技術作用于學術出版知識服務實踐,進一步提升了知識服務的智能化程度。學術出版知識服務用戶數據主要遍布在其科研歷程中,而科研足跡往往在互聯網和終端設備中有跡可循,這些數據反映了用戶在科研中的具體需求,通過采集這些與科研過程相關的可計算、多維度數據,可以對用戶進行精準畫像,并進一步對用戶屬性進行數據化表征,從而獲得結構化的數據,再基于這些數據進行建模,以精準探析用戶當下需求并預測潛在需求。數據挖掘和關系挖掘是確保學術出版知識服務精準化的重要手段,利用技術追蹤用戶科研足跡,對其在科研過程中于平臺留下的數據進行挖掘和分析,尤其是關注科研行為與行為之間的關系,能夠準確聚焦科研過程中不易被發現的隱性需求,使用戶的隱性需求顯性化,從而減少無效供給,實現供需平衡。
算法在學術出版知識服務各環節都扮演著重要角色,算法本質上是尋找數據規律并進行預測的過程。在學術出版知識服務營銷推廣方面,算法能夠幫助營銷人員進行科學判斷,使營銷宣傳“智能增強”,使營銷人員能夠突破自身能力限制,達到最佳的營銷效果。基于自然語言處理與機器學習算法,采用文本分析技術可以對用戶在知識服務平臺和虛擬學術社區的反饋文本內容進行分析,以了解他們的確切需求。人工神經網絡算法可以將用戶分成不同的類別,并預測用戶在不同科研環節的需求,為進一步提供學術出版知識服務提供決策支持。而在營銷推廣中最常用的協同過濾推薦算法,對同一學術研究領域的用戶推薦相似用戶曾使用過的知識服務內容,可促進其對同一學術領域研究現狀的感知。大數據時代,算法處理數據的數量級越來越大,為了增強算法解決問題的能力,技術人員對算法的有關性能不斷進行優化,以提升服務性能和用戶體驗。算法優化提高了學術出版知識服務營銷的精準性,不僅能夠定位用戶群體屬性,判斷用戶需求,還能根據用戶需求精準挖掘知識服務的賣點,挖掘不同類型知識服務產品的市場潛力并進一步推動學術出版知識服務的精準營銷。
值得注意的是,算法在提供高效的決策支撐時,本身也存在一些隱蔽風險,如采集用戶數據導致的侵犯隱私權問題;使用算法產生的相關倫理問題;算法的結果是基于數據統計的相關關系,難以獲得理論性解釋;等等。因此,學術出版知識服務不僅需要正確處理好算法使用的倫理問題,還要不斷優化算法,以提高算法的有效性、透明性和可控性。
學術出版進行精準化知識服務的目標是聚焦科研用戶,主動契合用戶學術知識需求,在擴大用戶數量的同時增強用戶對知識服務品牌的黏性。基于對數據賦能學術出版知識服務精準化所處的困境和內在機理的研究,筆者認為實現學術出版知識服務精準化要解決“數據從哪里來、怎么來”“數據如何使用”“算法如何應用”這三個問題。內容數據庫與用戶數據庫建設是學術出版知識服務精準化的基礎,學術出版知識服務全要素是精準化知識服務的驅動資源,對其整合應用是實現精準化知識服務的核心所在,算法參與學術出版知識服務全過程是知識服務精準性落地的關鍵。(見圖2)

圖2 數據賦能學術出版知識服務精準化的實現路徑示意圖
數據賦能的前提是要有數據,學術出版知識服務的數據主要分為內容數據和用戶數據兩類,來源于學術出版活動和用戶個人的科研過程。實現學術出版知識服務精準化是一個雙向的過程,一方面是將可能有價值的學術知識資源和知識服務業務推送給用戶,另一方面是用戶主動表明需求,出版機構盡力去匹配和滿足用戶需求。因此,要加強對內容數據和用戶數據的管理,建設好內容數據庫和用戶數據庫是實現精準化知識服務的第一步。內容數據庫的內容來源于傳統學術出版和數字化的學術出版。傳統學術出版包含學術著作和學術專著、學術期刊、學術論文匯編、學術會議錄以及大學及以上程度的教材和參考書、學科工具書、學術隨筆等。[14]數字化的學術出版包括各類電子學術期刊、電子學術圖書及專業數據庫平臺等。按照系統的方法對學術內容資源進行分類組織,構建起學科內容體系,體系分層越多,粒度越精確,越有利于后續為用戶提供精準化的學術出版知識服務。
用戶數據庫包含用戶的基本屬性、行為日志、發表文獻和社交活動四種類型數據。[15]具體來說,基本屬性包括用戶年齡、性別、學歷、專業背景、職稱等基本信息,其中尤以專業背景和職稱等與科研學術關系最為密切的信息為重;用戶行為日志是對用戶碎片化的科研相關瀏覽行為進行爬取,分析用戶關注的學術領域、興趣偏好和潛在學術需求;發表文獻是對用戶已有學術和科研成果進行分析,從而掌握其研究領域、研究動向、研究能力以及與他人的合作關系等;社交活動是用戶在社交媒體發表言論、轉發、點贊等行為數據,這些信息具有較強的即時性。
學術出版知識服務全要素指的是供給側和需求側的各個要素,具體來說,供給側的要素包括出版機構所具備的軟硬件設施、資金、人才、技術、知識服務平臺以及內容資源等。需求側的要素指的是與用戶學術科研需求相關的、動態變化的要素。如何應用相對靜態供給側要素匹配動態變化的需求側要素,以精準對接用戶的科研學術需求,是學術出版知識服務的難點與重點。
學術出版知識服務要素是精準化知識服務的驅動資源,將要素數據化是應用要素的第一步。數據賦能的核心過程在于通過新一代信息技術對數據化的全要素進行整合應用以實現精準的學術出版知識服務。一方面,要通過數據進行全局決策。學術出版知識服務是一張很大的網,參與主體眾多,用戶群體也各有特點,因此,出版機構要明確自身的市場定位,通過分析已有用戶數據,整合自身資源條件,形成涵蓋產品研發、技術應用和市場運營等內容的完備的學術出版知識服務戰略規劃。另一方面,要基于要素變化動態調整業務。實時監測需求側要素變化,對不同時段、不同來源的需求側要素進行分類整合,根據需求側要素的變化及時調整學術出版知識服務業務內容,精準對接不同用戶、同一用戶不同時段的學術科研需求。
算法參與學術出版知識服務全過程是數據賦能的重點,也是實現知識服務精準化落地的關鍵。一是算法參與學術知識資源管理。學術知識資源是出版機構開展知識服務的基礎,從學術知識資源獲取、學術知識資源組織到學術知識資源應用,算法的參與使學術出版知識服務過程更高效。為實現資源價值最大化,要利用算法對學術知識資源進行篩選、關聯、加工和整合,以達成具有增值價值的學術知識資源,更好地對接用戶的需求。二是將算法應用于學術出版知識服務成效評估,推進知識產品和服務優化。以大數據、人工智能等為核心的新一代信息技術可以對學術出版知識服務的全過程進行追蹤,因此能夠對知識服務質量和知識服務效果進行評估。例如,通過算法抓取與用戶滿意度相關的數據,包括用戶在知識服務平臺反饋區的留言、知識服務使用頻次、知識服務使用時長、用戶規模等,以初步判定用戶對其體驗的知識服務的情感偏向。通過進一步分析用戶具體的科研足跡數據,則能精準定位到知識服務哪個具體的環節有待改進,從而推進學術出版知識服務產品和服務升級。
在以大數據、云計算、物聯網、區塊鏈、人工智能等新一代信息技術為核心支撐的數智化時代,數據賦能對于學術出版知識服務精準化具有重要意義。分析數智化時代學術出版知識服務精準化的困境,以及數據賦能學術出版知識服務精準化的內在機理,是對數智化時代出版業轉型升級的有效探索。未來,出版學界和業界需要共同關注的是如何將數據賦能的價值最大化,這不僅需要理論研究,更需要在學術出版知識服務的實踐中慢慢摸索,走出一條具有中國特色的學術出版知識服務道路,助推學術繁榮、文化繁榮。