胡曉丹 劉硯哲
摘 要:出版行業數字化轉型升級是大勢所趨。科技期刊數字化工作起步較早,但業內關注較多的是編印發環節數字化及內容排版、傳播的數字化。這樣僅僅構成一個閉合環甚至單方面發散而未回收的單向線,未形成立體化服務網。本文基于構建科技期刊數字化服務生態的目的,從建設知識網、用戶網、服務網三個層層遞進又互有交叉的網絡等方面展開構想,以期為相關從業人員提供參考。
關鍵詞:科技期刊 數字化轉型升級 服務生態 知識網 用戶網 服務網
2011—2020年,政府主管部門出臺了系列數字出版相關文件,如《關于推動新聞出版業數字化轉型升級的指導意見》[1]《關于深化新聞出版業數字化轉型升級工作的通知》[2]等,出版業數字化轉型升級工作迅速展開。
而期刊特別是科技期刊,在數字化方面起步極早,不少期刊進行了數據庫化和互聯網化。其中有數據庫如知網、萬方、維普等,但基本上是從紙質轉為數字媒介等展現形式的轉化,以及標題、作者、摘要、正文、參考文獻等大塊內容的數字化;又如編、印、發環節的數字化,包括北京瑪格泰克科技發展有限公司的期刊稿件采編系統,北京北大方正電子有限公司的“方正學術出版云服務平臺”等;再如群刊雜志社的數字化工作,包括《中國科學》雜志社的科技期刊全流程出版平臺(SciEngine平臺),中華醫學會雜志社的遠程稿件管理系統,方正電子的數據中臺、亞馬遜云服務等。但以上基本是出版流程的升級改造和將新技術應用于內容傳播,是對期刊社業務的數字化服務,而非對期刊內容的數字化利用。知網開發了“知網節”技術,包括各種知識網絡節點,但其節點是文獻,粒度不夠細,其展現形式也是文獻網絡。
由上可知,期刊領域數字化大多實現了出版環節的閉合環,或傳播上發散卻并不追求用戶反饋的單向線。在社會化閱讀已進入數字時代的背景下[3],科技期刊也有必要關注相關數字技術的發展,探討其應用于出版領域的可能性,繼續深化科技期刊領域的數字化轉型升級。
一、科技期刊知識服務生態構建具有可行性
科技期刊的本源是促進科學研究交流的工具,在“研究成果”認定方面的權威性,逐漸形成各自的地位。隨著信息傳播速度越來越快,研究人群不斷擴大,且研究成果層出不窮,科技期刊亦應該發揮自己堅持追隨知識領域最新成果的特點,積極嘗試、應用數字技術領域的新技術、新方法。作者個人觀點,科技期刊的初心是傳播知識,出版領域常說“內容為王”,科技期刊最核心最根本的,應該是做好知識內容的服務。
在知識服務方面,科技期刊有著獨特的優勢:科技期刊有著極為明確的用戶定位,以及極易錨定的用戶群體,同時也掌握最前沿的知識。科技期刊應該把握好、服務好自己的“生產者”——作者,才能以內部驅動,繼續升級。在知識爆炸的年代,僅論細分專業領域,也有著上萬研究者及數倍的成果產出,即使僅用文摘、摘要、關鍵詞,來閱讀判斷依然極耗費精力。隨著技術進步,大數據分析、推薦算法等已可用于服務用戶。例如,在融媒體發展模式的思考中,有基于畫像模型建設、用戶標簽建立的受眾聚合和精準推送,也有基于關系技術、新媒體社交平臺的關系出版模式。[4]雖然“大數據”的關鍵在于“大”,而推薦算法要統計用戶的各種操作以從中分析習慣,但科技期刊卻因為極為明確的用戶對象和較為精準的內容領域,可以適當取巧。
二、科技期刊數字化服務生態圈層建設
為了更精確地服務作者及讀者,更廣泛、細致地進行本領域知識服務,更恰當應用相關數字技術,科技期刊應該從以前的環狀數字化,轉化為網狀數字化;應該把編、印、發數字化,深化至服務數字化。科技期刊可以搭建一個數字化的服務生態體系,該體系由三層網組成——知識網、用戶網、服務網,層層遞進而互有交叉。同時,所有技術應用的前提,是基于期刊本身所在領域的知識,是“期刊/知識+互聯網/數字”,而不是“互聯網/數字+期刊/知識”。因此,知識網,是作者構想的科技期刊知識服務生態的核心;知識網、用戶網、服務網,是以知識網為基礎的層層遞進又互有交叉的網絡。有了基于內容的知識網,才能形成有內驅力、可自行擴展運行的整體科技期刊數字化服務網絡;同時用戶網的擴展,也會反哺使得知識網不斷擴展。目前基于大數據技術分析閱讀喜好,情景感知計算,分析消費者的環境、行為和偏好等的用戶畫像、個性化閱讀等服務,如能從本領域的知識本體體系出發,將更有益于深度發展。
1.知識網——知識服務的地基
(1)什么是“知識網”。要向讀者推送知識,首先要把“這段知識到底是什么知識”標注清楚,其次要把“跟這個知識相關的是什么知識”整理清楚。這就是知識網。從某個知識為節點看起,各個知識點之間是網狀的;從整體來看,其連接關系遠超三維,現實中即使有,也會像線團一樣錯綜復雜。只有借助數字技術,才能在數字空間中形成互相連接、相互激發的體系。
以上的“知識”是廣泛意義上的“知識”,可以再從各個維度進行細化,大體區分不同領域,如數學、物理、化學、生物、化工、醫藥等,又如理論、應用、儀器、方法等。每擴大一個范疇,復雜程度都會按照幾何甚至指數級增長。但反之,所涵蓋的領域足夠專,其復雜程度也會相應下降。這也是科技期刊需要先建立各自領域內知識體系的原因所在,越細分領域的科技期刊越有可能巧妙應用。
(2)如何搭建“知識網”。知識網搭建的基本做法是先進行顆粒化,將領域內文獻打碎到可接受的最小單元,即知識元。在不同領域,其結果可能有所不同。比如在數學領域,單獨“法則”有可能成為最小單元,但在物理、化學領域必須是某種具體法則。打碎之后再進行分類,例如前文提到的“理論、應用、儀器、方法”,或者本領域通行分類。但分類只是為了前期整理和后期展示方便,真正的知識網成型之后已經超越了“分類”。分類之后再根據知識元之間關系,將其編織成網。分類有利于加速編織,一門大分類技術下的小類,其知識網關系大部分可以復制,少部分則是該小類的特質。編織手段無非人工智能及真正人工,只是比例多少的區別;在人工智能大發展的現在,人工分類被大幅度壓縮,但仍不可或缺。在科技期刊領域,資料雖多卻條理性極強,使用人工智能使其效率大大加強,而人工糾偏的準確率更高、工作量更小,這又是科技期刊可以取巧的點。
知識網的實現基于XML技術。方正電子的學術出版平臺,應用的就是國際公認的JATS XML數據標準[5],中國醫學會雜志社亦曾制定發布過自己的XML標準。[6]但據統計,2019年,僅有17家百強中文期刊網站推出了HTML全文閱讀。[7]近年來,我國期刊數字化進程加快,這個數據應有所提高。不過目前XML技術還停留在結構化排版、一體化平臺等應用,相應XML標準中的元素主要與排版相關,如文題、作者、刊名、卷期等,而非與文章本身的知識屬性相關。本文所說的知識網,即在搭建期刊所屬領域知識本體的基礎上,將本體關鍵詞作為XML元素進行標注,才可以搭建成形。但實際應用中,應視技術成熟度選擇不同的顆粒度。
(3)如何應用“知識網”。搭建成功的知識網,存在于數字空間。人工無法看到其整體,只能“窺一斑而知全豹”。這個“斑”就是某個具體的知識元,我們可以看到它所關聯的其他知識元,而順著關聯看過去,又是一張新的網狀結構。例如,化工領域,查看“精餾”,可看到其相關的原理、計算、設備、儀器;看某設備如精餾塔,又能看到各種塔器,如篩板塔、填料塔;看填料塔,會看到各種填料,或該塔的應用場景;看應用場景,又能發現其他化工單元操作。化學工業出版社在前期的文產項目中,曾經建設過“化工領域專業知識體系”,可備參考。再例如合成生物學領域,知識元“基因”可能關聯到各種基因操作技術,某技術可能關聯到具體成果或疾病防治,某疾病又關聯到臟器、營養成分等等。
知識網實際的應用,與前面說的“看”類似,只是不用人眼,而是用程序、用平臺、用“機器”去看。這里先說科技期刊領域內的應用——首先由“機器”標注,本期主題對應什么知識元、包含什么知識元,本欄目對應、包含什么,本篇對應、包含什么,本章本段本句……只要是用戶可能用到的層次,都要標注。其次統計,實際中是用戶閱讀了本刊、本文獻,“機器”中是用戶看了哪些知識元,怎么看的(一掠而過,還是慢慢看,還是看過之后又掉過頭再看),然后進行分析。根據所統計的知識元使用數據,輔以本期刊領域的專業知識體系的分類,為用戶畫像,展開針對性的推薦。
2.用戶網——知識服務的初級目的和下級開端
需要注意的是,上節末尾“首先……其次……然后……”并沒有跟著“最后”。原因很明顯,在統計步驟時已出現“用戶”,更不用說分析步驟。知識網確實是基礎,用戶網是在知識網之上搭建的,但不可避免地出現交叉。
(1)什么是“用戶網”。以往數據庫化的期刊服務產品,都對“用戶”特別是“作者”有字段標注,研究領域、個人簡介、已發表文章等。但這些標注往往是“死數據”,這樣不足以被稱為“用戶網”。
那么,什么是“用戶網”?這要先說什么是“用戶”。筆者認為,科技期刊的用戶可分為以下幾類:首先是作者,其次是潛在作者即學生,再次是政府人員,最后是廣告商。此分類是按照對行業、專業領域的發展貢獻來說的,作者和學生是研究者、產出者、直接推動者,是自然人;政府人員(或者擴展相關領域內不做研究但做決策的人)是輔助者、間接推動者、約束者,這類里可能是自然人也可能是法人。
明確了“用戶”,就可以明確什么是“用戶網”。就像“知識元”編織成“知識網”一樣,把“用戶”當成一種知識,將其相關聯的研究領域、成果、單位也包括“用戶”本身當成知識元,所編織成的“知識”網,就是“用戶網”。
(2)如何搭建“用戶網”。一本科技期刊最初級的用戶網,就是其所有文章的通訊作者所構成的網,這樣的網可以人工搭建,但其更像一個表格、一個簡單的數據庫,還沒有復雜成網狀。再進一步將第一作者、其他作者容納進來,到這一步,努努力,或者加上“完善資料有獎”這樣的互聯網營銷手段,也有可能通過人工達成。
再進一步,將所有參考文獻涉及的作者都容納進來,就不是人工所能做到。此時必須應用爬蟲技術,將所有文獻、所有作者信息搜集到,再將其單位信息網入其中,在“知識網”基礎上,進行語義拆分、語義分析,把該文獻全文或者摘要走一遍“知識網”流程,在豐富“知識網”的同時,將“用戶”的“研究領域”等“知識”相關屬性補充完整。
(3)如何應用“用戶網”。用戶網最基礎的應用就是向“用戶”推送信息——推送其研究方向相關的信息,推送其感興趣/歷史閱讀最多的信息,推送其研究領域內的“用戶”的最新文章,推送其單位其他“用戶”的研究動向……當然,以上信息要全經過“知識網”的分析、整理。或者像任何社交平臺一樣,關注“用戶”,或者基于用戶網本身進行推薦:你的老師、你的學生、你所在領域的研究者都在做什么。
以上是從“用戶”的字段屬性出發,也可以從“知識”出發:最近有了一項成果,哪些“用戶”可能對此感興趣,第一時間推送給他,不必等他去主動閱讀、檢索——不必非做“期”刊。
期刊內部也可以應用用戶網,最直接的就是外審專家,相關領域內、排除同單位、同門信息,系統自動匹配,而不需要編輯人工搜索。
3.服務網——整個服務生態連接的橋梁及不斷拓展的推動力
(1)什么是“服務網”。有了基于知識網標注好的文獻資源,就相當于有了產品;有了用戶網絡,就相當于有了渠道——服務網自然而然就出現了。前文中所述及的應用,就是最直接、最基礎的服務網。為行文方便,此處進行定義:服務網,就是基于知識網及知識網支撐的知識庫,通過用戶網,所產生的除了“直接的知識增值”之外的一切有益于“知識增值”的活動及其組合。
(2)如何搭建“服務網”。正如前文提到的,知識網、用戶網、服務網是層層遞進但又互有交叉的網絡,知識網、用戶網搭建成形之后,服務網隨之自動出現。但這并不代表服務網的搭建是完全自動的,從本質上說,服務是用戶需求的體現,而有些需求迫切、有些需求潛在,甚至有些需求需要人們去發掘。
又如前文提到,科技期刊的本源是為了促進知識交流,如何更好地達到這一目的,就是期刊編輯甚至科研人士所要努力的方向。這個過程會發現、產生各種的服務,交織、融合形成更大、更完善的服務網。這樣的網絡不是作者可以獨自一探究竟的,下文將提供一些思考,以拋磚引玉。
(3)如何應用“服務網”。除了前文提到的直接基于用戶、知識的服務,之前也曾提及廣告商。廣告商是科技期刊的特殊用戶,其產品可以作為一類特殊知識,也許是儀器、設備,也許是算法、技術。這些可以作為“廣告商”用戶的屬性字段,在作為知識存在時也可以加注“廣告”標簽。基于以上標注,采集數據并分析,便可以向研究者推送同類更先進、更質優價廉的儀器,也可以向廠家提供廣告觀看、購買轉化數據。
又或者基于知識網集成相關文獻,甚至在人工智能發展的情況下[8],直接生成某專題內綜述,幫助研究者建立該專題基本認識,掌握最新動態。再如基于知識網分析,某個新技術可能對某些領域產生推動作用,則直接推送給領域內研究者應用——甚至在他們之間以技術中介身份出現。對于政府部門,某個領域發展如何,是否需要推動、支持?政府部門如果支持,相關領域研究者又是否能夠第一時間得知?諸如此類。
三、科技期刊數字化服務生態構建總結及應用展望
出版業數字化轉型升級中,期刊特別是科技期刊曾經領先出發,取得了優異的成果。科技期刊擁有最先進、最準確的知識來源,又擁有極明確、極精準的用戶團體,只要合理運用人工智能、大數據、語義分析等先進工具,必能繼續引領出版領域的數字化轉型升級。而要做到這一點,需依次認真研究并搭建各自領域內的知識網、用戶網、服務網,并不斷更新迭代;用戶網、服務網作為特殊的“知識”網,其擴展會反哺知識網的擴大及完善,形成該領域內的小型知識服務生態。各領域網絡建設成熟時,再相互打通形成更廣泛的知識網、用戶網、服務網,構成更大的知識服務生態。要做到這樣,并非一時一日之功,也不止一人一刊之力,但如能建成,則令真正形成科技期刊數字化服務的生態。
(作者單位系化學工業出版社)