任娟
從2012年開始,“大數據”這一概念逐漸在國內學術界被廣泛地討論和引用。2012年7月,信息管理學者、阿里巴巴集團副總裁徐子沛的著作《大數據:正在到來的數據革命》引領了中國社會對大數據領域的關注,展開了業界對大數據戰略、數據治國和開放數據的討論[1]。近年來,大數據對各行各業正產生著巨大的影響,出版業也不例外,出版業的編輯、銷售、市場、組織設計等諸多環節和流程正受到大數據產生的直接或間接影響[2]。而從學科角度來看,大數據時代的出版學科研究也同樣面臨著更多的挑戰與機遇。在數據密集型科學研究范式這一新范式的產生背景下,出版學科的研究對象、研究內容、研究方法由于本身學科的發展和外部環境變化的共同推動也處在不斷演化的過程中。我國出版學近五十年的發展歷史,形成了自己獨特的學科結構。近幾年來,大數據的產生為出版學科的研究提供了創新的可能,有學者開始從理論上不同層面地對以數據驅動為典型特征的時代背景下出版領域的學科結構、研究體系與新技術、新方法相結合進行研究[3,4],但使用文獻計量學、知識圖譜等方法對出版領域的研究熱點、主題分布及其歷史演進方面的研究還比較缺乏。
因此,建構國內出版領域的研究知識圖譜,探討其主要研究問題,幫助我國出版領域的研究者從宏觀層面對整體研究態勢進行明晰的把握,具有一定的理論價值與現實意義。本文擬借助文獻計量學的工具和方法對近十年的出版領域和大數據領域的研究狀況進行分析,并在此基礎上將出版領域與大數據主題進行結合分析,探析大數據時代出版領域的研究趨向。
本文以中國知網(CNKI)的CSSCI來源(含擴展版)期刊為數據源,選擇的時間范圍為2008年1 月1 日至2017年12 月31日。按照分類檢索策略,選擇“信息科技”類下的“出版”進行檢索以獲取該類下的文獻;按照主題檢索策略,以“大數據”為關鍵詞獲取大數據研究領域近十年的文獻;按照分類與主題組合檢索策略,在“出版”類中以“大數據”為關鍵詞以獲取該方向近十年的文獻。
圖1—圖5分別顯示了2008年至2017年中國知網中“出版”類別、“出版”類別中的三個分支“編、印、發工作”(即“編輯工作”“印刷工作”“發行工作”)、“大數據”主題、“出版”類別下的“大數據”主題(后文簡稱為“出版中的大數據”)以及“編、印、發工作”類別下的“大數據”主題研究論文發表的時間趨勢分布。

圖1 “出版”類論文發表年度趨勢

圖2 “編、印、發工作”論文發表年度趨勢

圖3 “大數據”主題的論文發表年度趨勢

圖4 “出版中的大數據”論文發表年度趨勢

圖5 “編、印、發工作”類下的“大數據”主題論文發表年度趨勢
在“出版”類別下,2008—2017年這十年間總共發表論文33 234篇,年均學術論文發表數量為3 323.4篇,呈現出一種年發文量相對穩定的態勢。 “編、印、發工作”三個分支,在過去十年間共發文12 568篇,占到“出版”類論文發表量的37.8%左右?!按髷祿笔菑?012年在學術領域迅速發展起來的一個研究熱點,通過在中國知網中CSSCI來源(含擴展版)期刊中對“大數據”進行主題檢索發現,過去十年共發表6 584篇論文。第一篇論文發表在2010年《現代圖書情報技術》期刊上,題為《搭建基于云計算的開源海量數據挖掘平臺》。2013年至今,大數據研究的論文數量呈急劇增長態勢,2017年的發文量已經接近2 000篇?!俺霭嬷械拇髷祿毖芯渴加?013 年。2013年共發表了21 篇相關論文。2013—2017年這五年中,相關研究成果增長快速,截至2017年12月31日,共發表403篇論文?!熬?、印、發工作”類別下的“大數據”主題研究也始于2013 年。2013年共發表5 篇相關論文。這5篇論文均出現“大數據時代”關鍵詞,分別發表在《出版發行研究》和《編輯學刊》期刊上,體現了編輯出版學科領域的研究者開始對大數據研究的關注。2013—2017年這五年中,該類別下對“大數據”主題的研究逐步發展,截止到2017年12月31日共發表103篇論文。
科學基金資助的水平和強度,在某種程度上反映了現有研究水平和未來研究發展的方向。國家社會科學基金、國家自然科學基金和國家科技支撐計劃資助均屬于國家級別且有著不同的研究目標。其中,國家社會科學基金和國家自然科學基金主要是以某一領域科學發展的基礎問題,探索客觀世界的普遍規律為研究目標;而國家科技支撐計劃是以解決某一重大的技術問題,并能夠產生較大的社會經濟效益為目標。考慮到中國知網中論文的基金資助級別和來源的影響力,本文在“出版”“編、印、發工作”“大數據”“出版中的大數據”這四類研究中分別篩選出受國家社會科學基金、國家自然科學基金和國家科技支撐計劃資助的發文量進行分析(見表1)。分析結果顯示:國家社會科學基金是資助這四類研究成果發表的主要機構,對應類別的發文量占比分別為3.44%、2.20%、16.19%和6.95%;國家自然科學基金和國家科技支撐計劃對“出版”“編、印、發工作”和“出版中的大數據”這三類研究的資助比例均低于1%;“大數據”研究成果受上述三類國家級基金資助的比例最高。

表1 “出版”“編、印、發工作”“大數據”“出版中的大數據”四類研究的基金資助分布
為進一步對有代表性的文獻進行分析,本文在“出版”類別下2008—2017年間發表的33 234篇論文基礎上,選取“2017—2018年度CSSCI來源期刊目錄”中“新聞與傳播”類15種期刊(即《編輯學報》《編輯之友》《出版發行研究》《出版科學》《當代傳播》《國際新聞界》《科技與出版》《現代傳播(中國傳媒大學學報)》《現代出版》《新聞大學》《新聞記者》《新聞界》《新聞與傳播研究》《中國出版》《中國科技期刊研究》,以下簡稱“15種核心期刊”)為被引文獻來源進行高被引文獻的檢索。15種核心期刊2008—2017年總發文量為21 660篇(見表2)。

表2 “出版”類別下15種核心期刊2008—2017年發文量分布情況
首先,根據普賴斯定律確定高被引文獻的方法[5],被引頻次以上的文獻為高被引文獻,其中,ηmax為最高被引頻次。根據所分析的文獻計算得出N=11.31,即被引頻次≥12次的文獻為高被引文獻。然后根據檢索策略,結果得出中國知網中15種核心期刊中高被引文獻共有1 748篇,占“出版”類總發文量的5.26%。表3分別列出了“出版”“編、印、發工作”“大數據”“出版中的大數據”四類研究的高被引論文中發文量排名top20的來源期刊。其中,“出版”“編、印、發工作”和“出版中的大數據”三類研究的高被引論文的來源分布比較一致,主要集中在《編輯學報》《中國科技期刊研究》《出版發行研究》《科技與出版》《中國出版》《編輯之友》《出版科學》《中國編輯》《現代出版》等出版類期刊上。而“大數據”研究的高被引論文的來源分布相對分散,主要分布在圖書情報類、新聞與傳播類、經濟管理類等期刊上。

表3 “出版”“編、印、發工作”“大數據”“出版中的大數據”高被引論文中發文量top20的來源期刊
本文利用CiteSpace軟件對“出版”研究的關鍵詞進行詞頻統計、共現分析和聚類分析,初步歸納出近十年來“出版”科學研究中的熱點和研究現狀。其中,“出版”研究的關鍵詞共現聚類網絡如圖6所示,被引次數top200論文與被下載次數top200論文的關鍵詞共現聚類網絡如圖7、圖8所示。“出版”研究的高頻關鍵詞如表4所示。通過分析發現,目前我國出版領域的研究方向主要集中在數字出版、科技期刊和學術期刊、出版業、著作權與版權、編輯工作、選題策劃等。

圖6 “出版”研究的關鍵詞共現聚類網絡圖

圖7 “出版”研究的被引次數top200論文關鍵詞共現聚類網絡圖

圖8 “出版”研究的被下載次數top200論文關鍵詞共現聚類網絡圖
其中,針對科技期刊和學術期刊以及數字出版的研究在“出版”類研究中所占比重較高,研究內容主要包括科技期刊和學術期刊從傳統出版向數字出版轉型發展的對策、影響力提升路徑及評價體系等,以及不同類型的期刊在移動互聯網時代如何利用新媒體平臺創新編輯加工流程、出版傳播方式及運營和服務模式等。表4所列的高頻關鍵詞中,排在前三位的“科技期刊”“數字出版”“學術期刊”的詞頻分別為1 780、1 044、959,占“出版”類研究的5.36%、3.14%、2.89%;接下來只有“編輯”和“出版”的詞頻占比超過1%。關鍵詞詞頻占比較高,表明這些領域或方向是“出版”類研究的重點,研究成果較多。由于“出版”類研究的理論性、思辨性特色明顯,規范研究多于實證研究,目前,結合大數據等方法層面的應用研究相對較少。

表4 “出版”研究的高頻關鍵詞
從整體而言,“出版”類研究的主題呈多元化趨勢。數字出版、電子書、內容資源管理、自媒體出版、媒介融合、著作權及版權保護等都與大數據有著緊密的聯系,伴隨著大數據技術和應用的快速發展,大數據對出版業產生的影響將日益凸顯,會逐漸形成一些研究熱點方向。
“編、印、發工作”研究的關鍵詞共現聚類網絡如圖9所示,被引次數top200論文與被下載次數top200論文的關鍵詞共現聚類網絡如圖10、圖11所示?!熬?、印、發工作”研究的高頻關鍵詞如表5所示。通過分析發現,目前我國“編、印、發工作”類研究的主要方向與“出版”類研究基本一致,仍然集中在科技期刊和學術期刊及數字出版,此類研究側重編輯方面的研究。表5的高頻關鍵詞中,排在前三位的“科技期刊”“學術期刊”“編輯”的詞頻分別為1 286、688、430。 從“編輯工作”“印刷工作”“發行工作”三個分支來看,“編、印、發工作”研究的核心“編輯工作”,特別是與編輯工作緊密相關的選題策劃及創新等是研究熱點問題,針對“發行工作”也有所研究,“印刷工作”則幾乎沒有涉及。此外,高校學報是此類研究中相對獨立的熱點研究方向之一。

圖9 “編、印、發工作”研究的關鍵詞共現聚類網絡

圖10 “編、印、發工作”研究的被引次數top200論文關鍵詞共現聚類網絡

圖11 “編、印、發工作”研究的被下載次數top200論文關鍵詞共現聚類網絡

表5 “編、印、發工作”研究的高頻關鍵詞
“大數據”研究的關鍵詞共現聚類網絡如圖12所示,被引次數top200論文與被下載次數top200論文的關鍵詞共現聚類網絡如圖13、圖14所示?!按髷祿毖芯康母哳l關鍵詞如表6所示。通過分析發現, 目前我國研究“大數據”的幾個主要方面是:與大數據相關的互聯網經濟、智慧城市、電子政務、圖書館知識服務研究;數據挖掘、云計算、學習分析、可視化等大數據技術研究;大數據信任研究;大數據崗位研究;等等。新聞傳播領域的學者將大數據與新聞生產有機結合進行研究,使得社交網絡、數據新聞等新的傳播學領域研究方向迅速發展。在高被引top200論文中,側重對數據挖掘、數據技術等方法的研究,以及結合用戶需求的互聯網經濟下的服務模式創新等研究;在高下載top200論文中,研究熱點在關注大數據技術的同時,也突出了大數據與傳播學領域的交叉研究,如大數據背景下的新聞生產、社交網絡等。表6的高頻關鍵詞中,排在前三位的“大數據”“大數據審計”“大數據崗位”的詞頻分別為2 502、279、160。其他高頻詞體現了大數據與政務、圖書館、傳播、教育等不同領域和機構的融合研究特色,反映了大數據對各行各業正在產生著巨大的影響。

圖12 “大數據”研究的關鍵詞共現聚類網絡

圖13 “大數據”研究的被引次數top200論文關鍵詞共現聚類網絡

圖14 “大數據”研究的下載次數top200論文關鍵詞共現聚類網絡

表6 “大數據”研究的高頻關鍵詞
“出版中的大數據”研究的關鍵詞共現聚類網絡如圖15所示,被引次數top200論文與被下載次數top200論文的關鍵詞共現聚類網絡如圖16、圖17所示?!俺霭嬷械拇髷祿毖芯康母哳l關鍵詞如表7所示。通過分析發現,目前我國研究“出版中的大數據”的幾個主要方面是:與大數據相關的出版業融合發展、知識服務、選題策劃、轉型升級研究;出版社結合大數據進行的按需出版研究;與大數據相關的數字出版、編輯活動研究;互聯網與大數據的融合研究;大數據素養研究;等等。在高被引和高下載論文中,側重研究大數據時代下的傳統出版業如何利用大數據、新媒體、物聯網等新興技術進行精準營銷、出版發行,以及大數據時代下的出版模式、出版內容、版權保護等熱點問題。表7“出版中的大數據”研究的高頻關鍵詞中,排在前三位的“大數據”“數字出版”“大數據素養”的詞頻分別為149、35、24。整體上而言,“出版中的大數據”研究形成了多個分支和熱點,如與大數據關系緊密的知識服務、按需出版、精準營銷、人工智能等都是近幾年和未來研究的重點。

圖15 “出版中的大數據”研究的關鍵詞共現聚類網絡

圖16 “出版中的大數據”研究的被引次數top200論文關鍵詞共現聚類網絡

圖17 “出版中的大數據”研究的下載次數top200論文關鍵詞共現聚類網絡

表7 “出版中的大數據”研究的高頻關鍵詞
通過對2008—2017年這十年來“出版”“編、印、發工作”“大數據”以及“出版中的大數據”等四類研究的總體研究狀況和研究熱點進行分析,發現隨著大數據的發展,出版領域的研究與大數據的結合日益緊密,運用大數據技術解決出版領域的應用問題,將是未來該領域研究的創新發展方向。
[1]徐子沛.大數據:正在到來的數據革命[M].桂林:廣西師范大學出版社,2012.
[2]馬克· J.H.弗雷茨,柏雯,曹子郁,等.大數據出版[J].出版科學,2017(1):1-5.
[3]王鵬濤.讀者學研究重啟的必要與可能[J].現代出版,2013(1):11-15.
[4]楊曉新.數據科學視域下的出版學研究方法[J].出版科學,2017(6):46-50.
[5]馬費成,胡翠華,陳亮.信息管理學基礎[M].武漢:武漢大學出版社,2002:83-90.