學術圖書選題知識圖譜研究

2020-01-14 01:03:26吳娜達李彩珊哈爽

中國傳媒科技 2019年12期

文/吳娜達李彩珊哈爽

引言

在出版領域，選題是指經過多方面分析、考量而選中主題后擬實施的出版項目。[1]傳統的選題策劃多憑借編輯的經驗，數據的處理多采用孤立的方式，一般對每一項內容進行單獨分析，數據存儲方式簡單，保存時期短，無法實現信息的精細化管理和多元化、多角度的延伸，沒有充分挖掘采集數據的價值。在當下移動互聯網快速發展和迅速普及的時代，必須通過一定的手段對數據進行重構和應用，才能在數據內容呈爆炸式增長的態勢下快速地獲得有價值的信息。

本文對學術圖書選題知識圖譜的表示、構建等進行研究，以期通過構建的學術圖書選題知識圖譜對編輯策劃學術圖書選題提供有效的輔助決策。

1.學術圖書選題現狀分析

一般來說，選題來源于編輯在信息采集過程中產生的某種意向或愿望，通過周密分析、研究主客觀條件、多方論證等逐步形成方案。選題信息的采集是選題策劃中重要的步驟，是選題發現、策劃、驗證、論證的基礎。

1.1 學術圖書選題策劃采集的信息類型

學術圖書選題策劃采集的信息一般包含：社會信息、學科信息、出版信息、市場（讀者）信息、讀者信息5部分。[2]

（1）社會信息包含學科所涉及的中央和地方政府的法規、政策、白皮書、公開信息等。

（2）學科信息包含學科的范圍和主要內容、國內外發展情況、前沿發展方向和重點方向、重點科研項目、研究課題、學科領軍人物、學術成果及褒獎。

（3）出版信息包含兩個方面：一方面指本出版社同類選題圖書的品種、數量、作者、銷售狀況等信息；另一方面指同行，即其他出版社出版該類選題圖書的品種、數量、作者、銷售狀況等信息。

（4）作者信息包含作者的學科背景、職務職稱、研究方向、主要工作、已申請課題、著作情況等。

（5）讀者具有個性化特征，主要信息包含讀者基本信息（年齡、職業等）、購買力、讀者實際需求、潛在需求、圖書市場分布、圖書市場反饋等。

1.2 采集信息存在的問題

目前，學術圖書選題策劃過程中獲取的信息多以文檔、表格及少量數據庫的形式存儲，存在一些問題，主要如下。

1.2.1 信息異構

在圖書選題信息采集過程中，獲取的信息的來源廣泛，數據結構不全相同，這給數據的融合、存儲帶來了巨大的困難。

1.2.2 信息冗余

不同來源的信息組合難度高、優勢互補性差，信息的完整性不高。

信息存在大量的冗余與噪聲，信息的準確度有待考究。

1.2.3 信息孤立

空間上不連續：關注的信息內容不能在數據上體現事件與事件之間的聯系。

時間上不連續：關注的信息內容時間持續性短。

1.2.4 信息靜止

不能有效利用已有信息進行發現與預測。

1.2.5 信息可視化困難

數據不能以多種形態表現，使其更直觀、更易于理解。

以上問題導致圖書選題信息存儲難、檢索難、重復利用與共享難。

在傳統的圖書選題的信息采集過程中，多是通過編輯的搜集，進行簡單存儲（多以文檔、表格及少量數據庫的形式存儲），依賴人力主觀對讀者、作者、內容、營銷等方面的信息進行思考和分析，形成選題策劃方案。傳統的學術圖書選題方式主觀性因素大，信息分析不夠精確，可靠性和科學性不高，且信息檢索、重復利用及共享困難。因此，本文對學術圖書選題知識圖譜知識表示和構建方法進行研究，通過對信息數據進行重構，使對信息的認識更加清晰、立體，并以期通過推理等算法實現模擬大腦綜合分析信息的能力，輔助圖書選題進行有效決策。

2.學術圖書選題知識圖譜的定義

學術圖書選題知識圖譜旨在構建一張巨大的語義網絡圖，用以描述學術圖書選題策劃過程中存在的各類實體及其關系。圖的節點表示實體，圖的邊表示關系。也可以認為學術圖書選題知識圖譜是一個大規模的知識庫，為學術圖書選題中涉及的復雜數據提供有效的存儲、檢索及可視化，為學術圖書選題策劃提供可靠、清晰的信息及脈絡。

目前，學術圖書選題知識圖譜的數據來源主要基于第2節所述的社會信息、學科信息、出版信息、市場（讀者）信息、讀者信息5個方面相關信息，并可根據實際需求進行擴展。5個方面信息涉及的數據類型主要有3類。

2.1 結構化數據

主要指關系數據庫中表、excel表以及其他具有結構的數據。在學術圖書選題知識圖譜的構建中，其主要來源于出版社各級系統數據庫及合作商可提供的數據庫等。

2.2 無結構化數據

在學術圖書選題知識圖譜構建中，主要指純文本資料，例如碩博論文、報紙、會議的圖像和聲音等數據。

2.3 半結構化數據

主要指介于結構化數據和無結構化數據之間，通常的XML、HTML等相關網頁均屬于半結構化數據。半結構化數據在學術圖書選題構建中，主要來源于各類網站獲取的信息，例如從電商網站（圖書商城）的XML中獲取的圖書信息（圖書名稱、編輯推薦、作者簡介等）和圖書市場信息（評價星級、評價時間、評價人地理位置等）、從工業和信息化部網站的XML中獲取的公開信息等。

學術圖書選題知識圖譜的表示與構建參考一般知識圖譜的構建過程，通過三元組對學術圖書選題知識圖譜進行表示，通過圖形數據庫Neo4j的規范設計存儲模式及構建學術選題知識圖譜。

3.學術圖書選題知識圖譜的表示

學術圖書選題知識圖譜的結構由節點集合和邊集合構成，形式化表示如式（1）：

其中，表示學術圖書選題的節點集合，節點是學術圖書選題信息中的各種實體，例如作者、書籍；表示學術圖書選題的邊集合，可表達為如式（2）：

其中，表示關系的類型集合，例如“作者—書籍關系”“書籍—出版社關系”；表示關系的方向集合，例如“作者—>書籍”“書籍<—出版社”；表示三元組集合，通過三元組表達語義關系，每一個三元組表示一個事實，可表示為如式（3）：

其中，式（3）的含義是，ATS_N1與ATS_N2分別表示不同的節點（實體），ATS_T1表示ATS_N1與ATS_N2之間的語義關系，方向是由ATS_N1指向ATS_N2。例如存在事實：作者李杰，著作《工業大數據》，可用三元組（李杰，作者—書籍關系，《工業大數據》）進行表示。

4.學術圖書選題知識圖譜的構建

學術圖書選題知識圖譜的構建主要有2個步驟,包括學術圖書選題數據庫存儲模式設計、利用圖形數據庫構建知識圖譜。如圖1所示。

4.1 數據庫存儲模式設計

梳理學術圖書選題相關信息，對實體及其之間的關系進行規范的建模，并給出明確的定義。結合第3節中學術圖書選題信息涉及的3種數據類型和學術圖書選題知識圖譜的表示，對學術圖書選題知識圖譜數據庫存儲模式進行設計。對3種數據類型分別進行介紹。

（1）結構化的數據主要來自關系型數據庫（例如MySql、SQL Server）、Excel等，主要方法是通過分析表的信息和字段信息，抽取出關系模式，設計轉化規則，建立學術圖書選題知識圖譜圖數據庫的表結構。

圖1 學術圖書選題知識圖譜的構建

關系型數據庫MySql中存在表名為“作者信息”的表，見表1。

表1 作者信息

結合學術圖書選題知識圖譜的表示可抽象得到點集合和關系集合。

點集合

姓名={劉某，張某，郭某，…}；

年齡 ={34，56，48，…}；

單位={高校1，研究所1，高校2，…}；

職務={教授，研究院，…}；

研究方向={無人駕駛，強化學習，機器視覺，圖像處理，無線通信，…}；

出版書籍={《A》，《B》，《C》，…}等。

邊集合

作者-單位關系={<作者-單位關系，作者—>單位，（劉某，作者-單位關系，高校1）>，<作者-單位關系，作者—>單位，（張某，作者-單位關系，研究所1）>，<作者-單位關系，作者—>單位，（郭某，作者-單位關系，高校2）>…}；

作者-研究方向關系={<作者-研究方向關系，作者—>研究方向，（劉某，作者-研究方向關，無人駕駛）>，<作者-研究方向關系，作者—>研究方向，（劉某，作者-研究方向關，強化學習）>，<作者-研究方向關系，作者—>研究方向，（張某，作者-研究方向關，機器視覺）>，<作者-研究方向關系，作者—>研究方向，（郭某，作者-研究方向關，無線通信）>，…}等。

由于篇幅限制，此處不一一列舉存在的點集合和邊集合。

通過節點集合和關系集合進行學術圖書選題知識圖譜存儲模式的設計。節點集合映射為學術圖書選題知識圖譜圖數據庫存儲模式中的點表組，邊集合映射為圖數據庫存儲模式中的關系表組。學術圖書選題知識圖譜的圖數據庫存儲模式表示為實際存儲的點表組和關系表組。點表組可以很好地保留層級結構，同時，可以有效擴展實體數據。關系表組由三元組表示，存放事實，關系表組可以很好地保留語義關系的層級關系，同時，可以對實體之間的其他語義關系進行有效存儲與拓展。

以作者-研究方向關系涉及的節點集合和邊集合為例，映射為相應的點表組和關系表組，作者點表見表2，研究方向點表見表3，作者-研究關系表見4。

表2 作者點表

表3 研究方向點表

表4 作者-研究關系表

（2）無結構化數據根據語義關系的層級和結構進行自定義。

獲取一段文本信息“2016的政策熱點關鍵詞有大數據、物聯網、云計算、人工智能、5G技術等，大數據的學科方向可分為大數據采集與預處理、大數據存儲與管理、大數據計算模式、大數據分析與挖掘、大數據可視化、大數據安全、大數據系統與內存、大數據處理平臺、大數據網絡等，其中，工業大數據方向的圖書市場上有《工業大數據》，作者是李杰，出版單位是機械工業出版社。”

結合學術圖書選題知識圖譜的表示可抽象得到點集合和關系集合。

點集合

政策熱點點集合={大數據，物聯網，云計算，人工智能，5G技術，…}；

大數據學科方向點集合={大數據采集與預處理，大數據存儲與管理，大數據計算模式，大數據分析與挖掘，大數據可視化，大數據安全，大數據系統與內存，大數據處理平臺，大數據網絡，數據算法基礎，工業大數據，…}等。

邊集合

熱點-學科邊集合={<熱點學科關系，熱點—>學科，（大數據，熱點學科關系，工業大數據）>，<熱點學科關系，熱點—>學科，（大數據，熱點學科關系，大數據存儲與管理）>，…}。

各類關系通過邏輯及實際應用進行解析定義，此處不一一列舉。

通過節點集合和關系集合進行學術圖書選題知識圖譜圖數據庫存儲模式的設計方法與結構化數據，此處不再列舉。

（3）半結構化數據介于結構化數據和非結構數據之間，一般在XML文件中得到相關的數據層級關系，根據實際情況，結合結構化數據和非結構化數據的處理方法即可設計得到學術圖書選題知識圖譜圖數據庫模式。

4.2 利用圖數據庫構建知識圖譜

基于設計的圖數據庫存儲模式，利用圖形數據庫進行學術圖書選題知識圖譜的構建。從最近幾年的發展情況可以看到基于圖的存儲方式在整個數據庫存儲領域的飛速發展，其中，Neo4j在整個圖存儲領域中占據NO.1的地位。Neo4j是一個高性能的圖數據庫，可以在Java和Python等平臺上使用。本文通過Java API將圖數據存儲模式中的點表組與關系表組中的學術圖書選題數據寫入Neo4j圖數據庫中，構建學術圖書選題知識圖譜。利用Neo4j圖數據庫構建知識圖譜可參考The Neo4j Graph Platform，主要方法是將設計的點表組和關系表組，利用Cypher語句寫入Neo4j圖形數據庫，得到知識圖譜。

以人民郵電出版社國之重器系列圖書為例給出部分知識圖譜展示示意圖，如圖2所示。圖2中對人民郵電出版社國之重器系列圖書的相關信息進行了部分示意。

圖2 學術圖書選題部分知識圖譜示意

結語

本文通過對學術圖書選題策劃中存在的問題進行分析，對學術圖書選題知識圖譜的表示和構建方法進行研究，以期通過構建知識圖譜解決目前學術圖書選題策劃中存在的問題，并為學術圖書選題策劃提供有效的輔助決策支撐。目前，因數據量的限制，本文的知識圖譜規模較小，后續將繼續豐富學術圖書選題知識圖譜，并以期通過知識推理等方法推薦輔助學術圖書選題策劃。