李貞貞,鐘永恒,王 輝
(1.中國科學院武漢文獻情報中心;2.科技大數據湖北省重點實驗室,湖北武漢 430071)
青海省柴達木盆地富集了鹽湖各類礦產資源,基本形成以鹽湖化工為龍頭、以柴達木地區為核心的循環經濟產業體系,成為全國重要的循環經濟示范區[1]。隨著我國鹽湖產業技術水平、產業特色和管理水平的快速攀升,產業發展水平近年不斷提高,正在逐步由資源依賴型產業向資本密集型、高技術產業積極轉變[2]。在產業轉型升級發展的過程中,企業與人才是主導力量和重要依托,研究如何實現科學的招商引智,通過資本運作優化資源配置,吸引國內外戰略投資者和優勢企業參與產業建設,加快高新技術產品的發展速度,共同做大做強鹽湖產業,帶動鹽湖產業更健康、更生態的發展,將我國鹽湖產業建設成為世界級“大鹽湖產業”[3-4],對提升我國鹽湖產業領域的影響力具有重要的現實意義。
科學決策的基石是科學有效的數據。信息技術的飛速發展使得鹽湖產業已存在海量的數據基礎,但已有成果數據分散化、多元化、異構化,難以全面揭示不同類型數據資源之間復雜的相互關系,導致尚未形成一套完整的數據共享與分析決策體系[5-6]。為此,我國鹽湖產業亟需構建一個產業大數據平臺,從產業生態鏈閉環角度整合數據資源,輔助科學決策,一方面及時全面地反應鹽湖產業發展狀態,另一方面準確了解我國鹽湖產業在全球的發展態勢,確定發展方向。中國科學院武漢文獻情報中心于2019 年3 月正式啟動中國鹽湖產業大數據平臺(China Salt Lake Industry Big Data Platform)的建設工作,平臺以鹽湖產業創新發展需求為核心目標,整理全球、全國、全省以及本地區鹽湖產業發展的基礎數據資源,著力構建鹽湖產業政策、鹽湖企業、鹽湖產業新產品、鹽湖產業知識產權、鹽湖產業人才、鹽湖產業項目成果、鹽湖產業研究報告、鹽湖產業動態商訊九類數據資源池,為鹽湖產業企事業相關管理人員和科研人員提供數據智能檢索、數據統計分析、專題報告、知識產權導航等服務,建成特色化的產業大數據平臺,實現鹽湖產業數據鏈全覆蓋,服務科學決策。
在大數據時代的背景下,建立中國鹽湖產業大數據平臺,實現鹽湖產業多維度數據資源管控與數字化建模分析,是指導鹽湖產業科學決策的必經之路[7]。本文基于大數據理念及其相關技術,結合鹽湖產業特點,依據產業政策、產業經濟、企業、知識產權、專家人才等數據規范庫,對匯聚的復雜多源異構數據進行規范化,采用大數據分布式存儲模式,建立鹽湖產業數據共享機制。以中國鹽湖產業數據資源池為基礎,利用Elastic Search 分布式集群技術實現數據的多維索引[8]9,實現對多類別鹽湖產業信息的綜合查詢。構建中國鹽湖產業大數據平臺,提供9 類數據資源快速、實時地分析和處理,挖掘鹽湖大數據的潛在價值,以期提升鹽湖領域相關人員科學決策的時效性和準確性,為鹽湖產業的研究開發與創新創業提供信息和服務支撐,實現鹽湖產業發展的戰略性、跨越式增長。
中國鹽湖產業大數據平臺以分布式大數據基礎平臺作為支撐,利用大數據采集與分析挖掘工具,實現鹽湖產業數據聚集、清洗、關聯、挖掘支持產業決策服務一體化。平臺采用多層結構設計,總體架構分為基礎設施層、數據中心層和平臺應用層。基礎設施層主要包括平臺建設所需的服務器、存儲設備、網絡、操作系統等基礎設施。數據中心層主要實現數據資源的收集、處理與組織,包括數據集成、數據處理、數據存儲和數據分析4 項內容。平臺應用層主要實現面向用戶的系統建設與功能呈現,為用戶提供豐富有用的應用服務。具體架構如圖1 所示。

圖1 中國鹽湖產業大數據平臺總體架構
根據上述總體架構,平臺數據中心層建設過程主要包含4 項重點內容:數據資源集成、數據處理與整合、數據存儲和數據分析與挖掘。通過集成豐富的鹽湖產業數據資源,進行多源異構數據的清洗與整合,實現集中、統一、規范的存儲管理,分析探索數據的深入利用方法,形成鹽湖產業知識,構建科學有效的中國鹽湖產業大數據平臺。
產業數據資源的全面性、準確性、有效性是平臺構建的基礎,而數據采集策略的制定是數據資源快速、準確集成的關鍵影響因素[9]。鹽湖產業數據集成基于中國科學院武漢文獻情報中心海量的產業科技數據,以及強大的數據采集工具和技術,對收集的權威信息源建立全范圍的網絡輿情監測,實時從互聯網的相關網頁中采集預設的內容,實現數據資源的多維知識集成,并對抽取出來的網頁數據進行內容和格式上的處理,為政府部門、科研院所、科技企業、金融機構等聚焦產業前沿科技、進行科學決策的用戶提供有效的數據基礎,通過全面化、規范化的數據采集實現鹽湖產業從發展態勢、最新科技動向、熱點研究方向、資源協同到服務創新過程的互聯互通。根據產業技術分析理論,鹽湖產業數據平臺由9 個數據子庫構成,即產業政策數據庫、產業經濟數據庫、科技企業數據庫、新產品數據庫、知識產權數據庫、人才專家數據庫、項目成果數據庫、研究報告數據庫、商業資訊數據庫。九大類數據資源及具體內容如圖2 所示。

圖2 中國鹽湖產業數據資源池
匯集的鹽湖產業數據資源呈現多元化展現,不同信息源數據類型各異、數據質量參差不齊,存在一定的冗余、錯誤及粗糙數據,因此,對采集獲取的多源異構數據進行預處理操作,將良莠不齊的原始數據有效轉化成高品質的干凈數據尤為重要。數據處理與整合主要是將不正確、不完整和不一致的數據進行過濾和規范,并根據待分析數據的特點對規范后的數據進行歸約,將臨時數據區的數據經過數據處理后存放到數據資源池,從而確保數據分析與決策過程中的準確性和可靠性[10]。
鹽湖產業數據處理與整合圍繞9 大類數據主題,每個數據主題對應一個分析領域。核心功能主要包括:(1)數據轉換。使用ETL(Extraction-Transformation-Loading,提取-變換-裝載)技術對原始數據進行解析與轉換,通過編程語言對含有HTML 標簽的字符進行解析,快速提取有效數據。(2)數據清洗。實現結構化數據中字段的查缺補漏,相同數據記錄的去重與合并,日期、地區等屬性的規范化展示,以及復雜屬性的拆分與轉換。(3)數據標引。采用情報學理論構建鹽湖產業知識圖譜,自動標引9 類數據資源,實現將采集到的源數據轉化為統一標準的情報檢索分類格式,客觀、正確、合理的揭示數據的主題內容。(4)數據關聯融合。將分散在不同主題數據庫中的數據資源進行相互關聯,生成上下文關聯的資源組織體系,實現不同類型數據之間的有效關聯。
為實現多源異構數據的高效存儲管理,需要搭建具有強大容錯能力和擴展性的數據存儲架構。Hadoop 分布式文件系統、基于分布式文件系統的No SQL 數據庫、分布式數據庫H Base、Good Data、對象存儲系統等都是目前常用的大數據存儲平臺,適合捕捉和存儲海量數據[11]。針對鹽湖產業經濟、項目成果、人才專家、企業、新產品等結構化數據,以及政策、知識產權、商業資訊、報告等非結構化文本數據,平臺采用分布式并行下大型關系型數據庫與非關系型數據庫相結合的方式對數據資源進行組織與存儲,以滿足鹽湖產業大數據特征的應用需求。
(1)應用分布式關系型數據庫存儲結構化數據。采用基于My SQL 的分布式關系型數據庫,利用服務器進行容量與性能的橫向擴展,構建支持鹽湖產業結構化數據存儲和訪問的數據庫系統,滿足服務場景對大容量、高并發、高可靠的需求。
(2)應用Hadoop 分布式文件系統存儲文本數據。Hadoop 是Apache 提供的一個便于編寫和運行處理大規模數據應用的軟件平臺,Hadoop 分布式文件系統(Hadoop Distributed File System,HDFS)為分布式計算存儲提供底層支持[12]。針對傳統關系型數據庫較難處理的數據和場景,實施基于Hadoop的技術擴展與封裝,實現對海量鹽湖產業文本數據的存儲和計算。
(3)應用非關系型數據庫存儲數據。非關系型數據庫(Not Only SQL,No SQL)具有高效的開發效率、強大的擴展能力、低廉的開發成本和靈活的數據模型[12]。平臺在網絡數據采集過程中,采用基于分布式文件存儲的數據庫Mongo DB 來存儲采集獲取的大字符集文本數據,提升數據存儲效率。
(4)應用Elastic Search 開源搜索工具構建索引。Elastic Search 是一個支持分布式、多租戶、Restful設計的開源搜索工具,提供了一個支持高并發、高可用、易擴展的分布式搜索解決方案,能夠提供易用的查詢與共享接口[8]35。文本利用Elastic Search對數據資源池中的9 類數據構建索引,加速不同數據資源之間的連接,極大提升查詢響應速度。
(5)應用緩存機制存儲熱數據。平臺通常存在小部分需要被頻繁訪問的熱數據,如類型、年份、總量等。為了減輕數據庫的訪問壓力,采用Memcache 緩存加速機制,將熱點數據提前緩存在內存中,而不用每次都去數據庫中讀取,從而提高整個平臺的訪問速度。
數據分析與挖掘是大數據應用的核心內容,涉及統計預測分析、自然語言處理、基于神經網絡的深度學習、人工智能等前沿技術[13]。平臺數據分析與挖掘分為統計分析模型和數據挖掘。統計分析模型可通過統計模型、分類模型、關聯模型等對數據進行多維度的統計和預測,發現鹽湖產業的發展態勢、全球競爭力等。數據挖掘可利用復雜的算法對數據進行訓練學習,根據數據特征構建學習模型,使隱藏在數據中的規律和知識顯現出來,從而實現對數據潛在應用價值的深入挖掘。數據分析與挖掘應用主要包括產業計量分析、文本信息抽取、人才精準推薦、個性化服務和可視化呈現,具體內容描述如下。
(1)產業計量分析。通過產業分析方法和數據計算,多維度進行產業經濟分析、企業分析、關鍵技術分析、政策分析等,解釋鹽湖產業所處發展階段及其在國民經濟中的地位,預測并引導行業的未來發展趨勢,判斷投資價值,揭示投資風險,為政府部門、投資者及企業提供決策依據。
(2)文本信息抽取。文本信息抽取是利用自然語言處理和深度學習技術,自動識別出中文文本關鍵詞和關鍵句。采用深度學習技術,對經過數據預處理的文本數據進行Word2Vec 詞向量模型訓練[14],得到文本詞匯和句子的向量化表示,并利用機器學習算法自動抽取出文本關鍵詞和關鍵句,實現產業政策、專利、商業資訊的智能化關鍵詞提取,以及智能化文摘等功能。
(3)人才精準推薦。圍繞鹽湖產業發展定位,整合產業、企業和專家人才數據信息,分析關鍵技術在全國的分布與趨勢,并結合區域產業基礎與優勢,分析亟待解決的關鍵技術瓶頸,從而勾勒出有價值的人才和企業畫像,全方面、多維度分析企業與人才的關聯信息,最終實現潛在目標人才的精準推薦,決策支撐招才引智服務。
(4)個性化服務。個性化服務是根據平臺訪問用戶的瀏覽記錄和個性操作,對用戶進行有針對性的資源推送服務。平臺實時記錄用戶的行為足記,使用標簽高度精煉每位用戶的特征標識,通過標簽的整合準確勾畫用戶的立體畫像,并采用聚類算法聚合同類型的用戶群體,根據同類型的其他用戶畫像發現其潛在感興趣的數據內容,為用戶進行個性化推送服務。
(5)可視化呈現。數據可視化呈現利用可視化技術,將數據表轉換成圖形展示出來,使用戶能夠直觀地觀察到數據本身以及數據之間的關聯關系[15]。平臺采用由百度開發的E Charts可視化圖表庫,直觀、生動的呈現鹽湖產業數據,使用折線圖、柱狀圖、餅圖等展示發展趨勢、組織模式等,使用熱力圖、關系網絡圖、矩形樹圖等展示復雜的相互關系,幫助用戶對數據進行深入的觀察和分析。
根據鹽湖產業數據資源的具體服務需求,中國鹽湖產業大數據平臺分為數據智能檢索模塊、數據統計與分析模塊、產業專題報告模塊和產業知識產權導航模塊,具體功能如圖3 所示。

圖3 中國鹽湖產業大數據平臺功能模塊
(1)數據智能檢索。平臺提供鹽湖產業數據資源池中數據的智能檢索功能,檢索結果即席顯示。數據智能檢索功能模塊針對不用用戶群體的知識能力差別和行為習慣,提供了簡單檢索、高級檢索和專業檢索3 種檢索方式,檢索形式與關鍵字按照數據庫建設規范設置,檢索結果提供針對搜索內容的復雜關聯和統計信息。同時,能夠根據用戶經常檢索的關鍵詞進行聯想形成詞庫,通過文本相似度計算將相似度較高的數據資源精準推薦給目標用戶。為實現海量數據的快速搜索,選用Elastic Search 進行大規模數據集的存儲和索引工作,構建了一個穩定可靠的分布式多用戶能力的全文搜索引擎。
(2)數據統計與分析。鹽湖產業數據統計與分析功能模塊包括數據統計分析、產業鏈分析、產業經濟分析、關鍵技術分析、產業政策分析和鹽湖產業分析六項內容。數據統計分析是指數據不同維度的基本統計,包括各類數據資源的總體數量、專利年度發展態勢、企業地理位置分布、經濟發展趨勢等。產業鏈分析是指繪制鹽湖產業當前的產業鏈布局,從產業鏈各個節點的發展合作情況分析鹽湖產業格局。產業經濟分析通過匯聚鹽湖領域企業的經濟收入情況,分析展示鹽湖產業的經濟發展趨勢。關鍵技術分析通過對獲取的鹽湖產業相關前沿技術進行分析,了解企業對前沿技術的適用度。產業政策分析實現對鹽湖相關政策內容進行標簽定義和關鍵詞抽取。鹽湖產業分析通過產業分析模型,研判鹽湖行業所處的發展階段,洞悉影響行業發展的關鍵因素和行業影響力度,預測鹽湖產業的未來發展趨勢。
(3)產業專題報告。專題報告功能模塊為不同的服務對象提供定制報告。首先,為政府部門提供鹽湖產業發展報告,通過大量的一手調研和產業基礎數據資源,對鹽湖產業當前基本狀況進行詳細分析,主要包括產業概述、產業發展歷程、產業政策、產業鏈、產業現狀與格局、行業發展趨勢以及市場容量、銷售增長率現狀及趨勢預測等;其次,為科研機構人員提供鹽湖產業科研報告,包括鹽湖領域有關科研項目調查、研究成果與進展、知識產權概況相關報告,將知識服務貫穿于科研活動的整個流程;最后,為企業提供鹽湖產業新產品市場分析報告,通過鹽湖產業市場調查和供求關系預測,分析市場規模、市場競爭、區域市場及市場走勢,根據鹽湖產業新產品的市場環境、競爭力和競爭者,科學研判產品在限定時間內是否有市場,為新產品進入市場的營銷戰略和投資策略提供科學依據。
(4)產業知識產權導航。知識產權導航功能模塊圍繞中國鹽湖產業高端發展目標和知識產權分析需求,構建知識產權分析框架,從產業鏈、供應鏈及價值鏈方向上,充分了解競爭者框架、市場信號變化趨勢和產業內主流技術的演變。該模塊基于鹽湖領域知識產權情報構建鹽湖產業知識產權圖譜,清晰展示鹽湖領域技術構成及各分支技術點;通過實時監測國內外企業的知識產權動態,對企業最新知識產權動態進行預警;解析企業在鹽湖產業知識產權保護的技術空白點和技術熱點,揭示企業的技術發展軌跡以及技術研發的熱點演變軌跡。最終,形成圍繞鹽湖產業的知識產權分析報告,為支撐中國鹽湖產業技術創新發展提供知識產權情報服務。
新經濟、新業態、新動能的蓬勃發展,推動中國鹽湖產業升級和轉型,中國鹽湖產業大數據平臺的構建對提升鹽湖產業發展效率起到了基礎性戰略性作用。本文描述了中國鹽湖產業大數據平臺的建設總體架構與主要功能模塊,重點圍繞數據中心和平臺功能建設中的關鍵問題,給出具體的解決思路和方案。在數據中心建設階段,基于海量鹽湖產業數據,構建產業政策、產業經濟、科技企業、新產品、知識產權、人才專家、項目成果、研究報告、商業資訊9 大類數據資源,對不同類型的數據進行嚴格的數據質量控制,并實現對大量多源異構分散的數據進行分析,挖掘數據的應用價值。在平臺功能建設階段,突破過去數據領域單一性視角進行基本的檢索、統計與分析,深度挖掘鹽湖產業不同數據之間的關聯性,實現了多維度的產業技術分析。
面向未來,平臺將依據鹽湖產業需求,持續進行數據資源建設與數據規范化建設,在解決鹽湖產業數據收集、更新和分析挖掘中關鍵問題的同時保障數據質量,為知識發現服務和科學決策提供有效支撐。同時,進一步探索和完善鹽湖產業學術知識圖譜的構建,以及基于語義級別的深度挖掘,實現知識層面的數據集成與融合,為各類信息機構提供全方位的情報決策服務,助力我國鹽湖產業的快速發展。