劉 姝 范蘭蘭
(社會科學文獻出版社,北京 100029)
黨的十八大以來,以習近平同志為核心的黨中央高度重視、有力推動媒體融合發展。出版融合,事關知識傳播、文化傳承,助力文化強國的重要著力點,事關行業轉型升級、做大做強,是出版業實現高質量發展的迫切需要。[1]
數據庫產品建設作為出版融合發展的重點業務模式,需要主動對標出版深度融合發展的新任務、新要求,積極步入推動出版深度融合發展的新賽道。在強化內容建設方面,堅持內容為王,擴大優質內容供給;積極貼近讀者,創新內容呈現方式和傳播方式;圍繞服務黨和國家工作大局、滿足人民群眾精神文化生活新期待,打造重點領域內容精品。在發揮技術支撐方面,更加強調內容、技術、場景、用戶之間的適配性[2],以及對前沿技術探索應用、出版新型業態和融合技術等領域的標準研制。在打造重點工程方面,推動出版單位實施品牌提升計劃,立足優勢領域精耕細作,充分發揮內容資源、作者資源、品牌資源優勢,積極布局重點產品、服務和平臺。[3]這些具體要求都是出版機構提升數據庫產品建設質量、強化數據庫產品知識服務能力的具體方向和抓手。
社會科學文獻出版社是出版界最早開啟數字化轉型的出版社之一,并一直緊跟融合發展的政策導向,順應知識傳播形態變革、學術研究范式轉型、讀者閱讀習慣變革,面向學術研究和智庫建設需求,開展學術數據庫產品建設。鄉村研究數據庫便是出版社將建設智庫產品服務國家社會與推進學術出版數字化轉型相結合的典型嘗試和重要成果。
鄉村研究數據庫秉承出版社聚焦中國發展與中國經驗的出版傳統,旨在打造真實記錄中國鄉村發展、深度解析“三農”問題、全面推進鄉村振興的學術成果庫和決策支持庫。數據庫于2020 年9 月上線,以特色資源、產品優質等得到業界與用戶認可,被近150 家國內外機構使用。
在數據庫建設過程中,始終堅持精品導向,以內容為體、技術為翼,不斷創新運營模式,打通內容整合、學術生產和知識服務等生產服務鏈條,助推學術成果的價值最大化和學術服務的平臺化。
鄉村研究數據庫的內容建設以“擴大優質內容供給”“創新內容呈現方式”為重點。在資源整合和產品內容設計上,遵循學術傳統,緊跟國家戰略政策,打造內容精品。
2.1.1 因循鄉村研究學術傳統,發現數字資源藍海
鄉村研究學術傳統深厚,以問題研究為導向,主題性強,注重典型村落調研和實證研究。2012 年,社科文獻出版社在與復旦大學社會學系張樂天教授的溝通中,了解到張樂天教授從1988 年開始堅持收集浙江省海寧市聯民村的“民間生活史料”,包括村干部工作筆記、村民生活紀實以及大規模實地調查資料。這些來自民間的一手檔案資料和實地社會調查數據具有很高的研究價值,對理解當代中國現實具有重要作用,但并沒有得到出版和很好地利用。當時,社科文獻出版社正在大力推進數字化轉型,便決定用數字化手段,將這批典型村落調研的未出版資源,包括調查問卷、個案訪談資料、各種研究素材和原始文獻進行資源整合和學術呈現,打造張樂天聯民村數據庫(鄉村研究數據庫的前身)。這是跳出出版社數據庫建設的資源整合困境和依托已出版資源的路徑依賴的成功嘗試。
2.1.2 以服務學術研究和助力智庫建設兩條線為抓手,全面聚合優質內容
2018 年,為應對張樂天聯民村數據庫的發展瓶頸,即單個村落調研產品的資源規模難以長期持續、在市場上銷售困難,項目組開啟了從典型村落的資源型數據庫產品,完善升級為鄉村研究主題的學術數據庫的建設之路。
一方面,從服務學術研究出發,整合主題學術資源。基于出版社已出版的調查研究成果,整合貴州屯堡村落,滿鐵調查村落,魁閣調研村落的內容資源,再到中國社會科學院組織的“百縣市經濟社會調查”“中國百村調查”“精準扶貧精準脫貧百村調研”等項目成果,進而到鄉村研究主題資源,如“三農”問題、縣域發展、城鄉關系、海外鄉村研究等。
另一方面,從助力智庫建設出發,圍繞政策聚合資源。緊跟國家“三農”政策、精準扶貧精準脫貧基本方略、鄉村振興戰略,整合出版社“三農”問題、脫貧攻堅和鄉村振興,以及城鄉關系的研究成果;全面采集政策文本并做好匯總分類;發揮學科編輯特長,做好數字資源的再生產,自主策劃政策演變和邏輯關系的學術導讀、緊跟政策熱點策劃專家訪談等。
2.1.3 搭建鄉村研究知識體系,實現產品內容專業呈現
鄉村研究以問題為導向,涉及多個學科領域,現有的中圖分類、學科分類標準很難直接用于鄉村研究內容資源的呈現。項目組基于對1980 年代以來的鄉村研究主題文獻、1991 年以來的國家重大項目立項數據的分析,以及對中國社會科學院、中國人民大學等高校專家的調研,自主設計了包含研究成果、實地調查、史料檔案、典型學術案例、政策資訊和學術共同體等不同維度、完整系統的鄉村研究知識體系,實現了產品內容的專業呈現。
2.1.4 產品建設專題化,服務學術研究與智庫建設
鄉村研究數據庫充分挖掘凸顯鄉村研究特點和庫內資源特色,進而搭建產品架構。下設“三農”研究數據庫、鄉村振興研究數據庫、村落調查研究數據庫和縣市調查研究數據庫,并緊跟政策熱點、學術前沿持續推出熱點專題。服務學術研究方面,打造學術名村系列專題,重點呈現縣域發展典型模式等學術研究典型,為科研教學提供研究范式和學習范式。助力智庫建設方面,2021 年2 月《關于全面推進鄉村振興加快農業農村現代化的意見》發布,項目組依據鄉村振興戰略制度框架和政策體系,快速推出鄉村振興研究子庫,甫一上線,便受到多家黨政機構關注;2022 年數字經濟上升至國家戰略層面,《數字鄉村發展行動計劃(2022—2025 年)》發布,鄉村研究數據庫上線數字鄉村專題,多視角呈現數字賦能鄉村振興的實踐和經驗,探討數字鄉村建設各領域縱深推進的模式和路徑。
鄉村研究數據庫的技術運用堅持以需求為導向,以安全為底線,積極嘗試新技術運用。借力自然語言處理、語義分析、機器學習等技術,實現規模資源的機器標引和按需重組,為快速重組資源打造專題產品奠定基礎,強化數據庫面向用戶個性化需求的知識服務能力。運用并持續優化新詞發現、智能分詞等技術,不斷提升數據庫智能檢索、智能推薦等功能體驗。
2.2.1 構建網絡安全綜合防御體系,筑牢網絡安全與數據安全屏障
鄉村研究數據庫從四方面構建網絡安全綜合防御體系。一是嚴格遵守國家網絡安全等級保護制度2.0標準。二是采用https 協議加密傳輸,利用SSL/TLS建立全信道,加密數據包,有效保障數據的隱私與完整性。三是運用阿里云云防火墻,對于DDOS 攻擊、XXS 跨站攻擊、SQL 注入等惡意攻擊都能有效防護。四是借力第三方成熟漏洞掃描和安全監測服務,堅持每月漏洞掃描,每周安全監測,同時建立數據庫運行監控系統,實時監控數據庫運行情況,確保數據庫產品的安全與穩定性。此外,還建設內容智能審核工具,對涉敏感主題、涉敏感人物等進行識別,助力保障內容安全。
2.2.2 開發基于深度學習技術的機器標引,助力數字資源標引效率提升
標引是對數字資源進行組織的有效手段,標引效率和質量直接影響數字資源的開發利用。鄉村研究數據庫的資源類型豐富、資源規模較大,單純依靠人工標引,無論是在標引效率還是質量控制上都存在困難。
為解決這一業務痛點,數據庫建設初期,利用自動抽詞標引實現了邁向機器標引的第一步,在由專業編輯審核的標引信息積累到一定規模時,建立了標引語料庫,運用深度學習算法和機器學習技術,構建機器標引模型,并反復訓練不斷提高標引準確率和速度。訓練過程中,機器標引模型通過模擬人類的思維方式,對標引數據進行學習和識別,不斷調整自己的模型參數和策略,以適應不同的標引場景和數據,從而實現快速、準確地對大量的文本數據進行分類和標注,大大提升標引工作效率。目前,機器標引已作為一種工具,應用到社科文獻出版社的各個數據庫。今后還將持續調優語料質量和模型參數,不斷提升標引質量。
2.2.3 實現基于知識分類計算的資源動態重組,提升面向個性化需求的服務能力
為更好地滿足不同行業、不同學科領域用戶的需求,鄉村研究數據庫在產品設計時特別注重資源的快速重組能力。在社會科學領域分類和領域專業詞表的基礎上,結合鄉村研究所涉學科和行業特點,基于鄉村研究知識體系,通過對中圖分類、行業分類、學科分類、地區分類、時代分類、主題詞、關鍵詞、作者等20 余個條件的邏輯“與”“或”“非”的知識分類的計算,準確全面地表達資源應用的各個維度和范圍。再結合系統的定時任務,將經過碎片化、格式化、結構化的內容資源進行自動地重新組合,實現動態資源的精準提取和自動聚合。以此實現個性化產品內容的快速生成,大大縮短數字產品建設周期。
2.2.4 運用智能檢索技術,提升檢索準確度和效率
檢索是數據庫基礎且重要的功能。智能檢索是一種利用自然語言處理和機器學習技術,對大規模的資源進行信息檢索和處理的技術。與傳統信息檢索相比,智能檢索解決了傳統信息檢索準確率低、效率低和漏檢的問題。智能檢索通過分析用戶輸入的文本,實現自然語言的語法分析和語義分析,使系統能夠更好地理解用戶的意圖和需求,從而快速準確找到相關信息,大大提升用戶的檢索效率。鄉村研究數據庫運用智能檢索技術,輔以自動補全、檢索糾錯、拼音檢索等功能來提升用戶檢索的使用體驗。
鄉村研究數據庫面向從事鄉村研究的高等院校、研究機構、黨政智庫,以及關注鄉村發展、致力鄉村振興的社會公眾,提供文獻服務、資訊服務、數據服務和定制服務等。
“作者即用戶”是學術型產品的重要特點,在鄉村研究數據庫建設運營全過程中,項目組長期與學界保持密切聯系,以需求調研、專家咨詢、專家訪談、學術會議等多種方式,實現了用戶需求追蹤、用戶生產內容、專業力量借力、學術營銷推廣等圍繞學術整體聯動的產品建設運營模式。
鄉村研究數據庫積極打造線上線下一體化傳播體系,助力學術成果縱深傳播。一是充分借力傳統線下營銷方式,與圖書發布會、學術會議等聯動推廣,推動圖書用戶和數據庫用戶池互通共享。二是結合政策時事熱點推出專家訪談、專家講座、學術研討等多樣化的學術營銷活動,以學術營銷推動用戶生產內容,反哺數據庫內容建設。以專家訪談為例,項目組以作者資源為基礎,圍繞中央一號文件、鄉村振興促進法,針對鄉村振興、現代農業、城鄉關系、農村基層黨建等議題,采訪了社會學領域權威專家,包括中國社會科學院王春光研究員、中國人民大學陸益龍教授等,形成了訪談稿和短視頻等形式的原創內容,通過數據庫專欄、微信公眾號、學術社群、核心學術期刊等多渠道傳播。
出版深度融合從根本上說是以數字技術為內驅力的介質、形式、組織、戰略的整合。[4]當前,新一輪科技革命和產業變革加速演進,以大數據、云計算、人工智能等為代表的數字技術賦能出版業,驅動出版業智能化、數據化發展,應用場景不斷拓展。[5]學術數據庫產品建設也將迎來更多的機遇和挑戰。
一是人工智能給學術內容生產帶來變革。2023 年,ChatGPT 殺入學術界寫論文,由此AIGC(人工智能生成內容)引發廣泛關注。對于學術數據庫產品而言,要將智能技術與學者的研究成果、研創場景、編輯的內容生產場景深度結合,進一步釋放內容生產力。例如,面向學者研究成果研創場景,提供學術趨勢分析、智能選題、智能寫作等科研輔助工具;面向編輯的內容生產場景,提供智能審校等內容生產輔助工具。
二是大數據技術為深化學術知識服務帶來更多可能。當前數據資源已經成為關鍵生產要素。學術數據庫產品建設中,要真正把數據作為生產要素,運用大數據技術,對內容數據、用戶數據進行深入分析和挖掘,強化數據整合、管理及運用能力。例如,在產品建設中,深度挖掘、關聯分析內容數據,為產品選題、專業領域知識體系構建提供支撐,探索發展數據出版新業態;在產品運營中,加大用戶數據采集和分析力度,不斷完善用戶畫像,助力精準營銷和知識服務。