于 陽(yáng)
(江蘇省科學(xué)技術(shù)情報(bào)研究所,江蘇南京 210042)
科技創(chuàng)新驅(qū)動(dòng)發(fā)展,深入挖掘和利用科技資源信息,能夠高效地分析和利用信息數(shù)據(jù)對(duì)國(guó)民經(jīng)濟(jì)發(fā)展和社會(huì)發(fā)展的意義特別重大。本文結(jié)合大數(shù)據(jù)背景下的科技資源信息挖掘與利用,通過(guò)建立高效的科技大數(shù)據(jù)之分析和利用的應(yīng)用技術(shù)模型,為相關(guān)數(shù)據(jù)收集整理,滿足市場(chǎng)化需求將作廣泛深入研究,以此為大數(shù)據(jù)背景下的科技資源信息得到有效挖掘和利用提供必要的技術(shù)支撐。
科技大數(shù)據(jù)既與科學(xué)數(shù)據(jù)不同,也不是一般的網(wǎng)絡(luò)大數(shù)據(jù)[1]??萍即髷?shù)據(jù)從分類上看既有科技知識(shí)數(shù)據(jù),也有科技活動(dòng)數(shù)據(jù);從內(nèi)容上看,既有圍繞科技產(chǎn)出的核心科技數(shù)據(jù),也有伴隨科技活動(dòng)而形成的擴(kuò)展科技大數(shù)據(jù);從表現(xiàn)形式上看既有以傳統(tǒng)科技文獻(xiàn)為代表的結(jié)構(gòu)化規(guī)范文檔,也有網(wǎng)絡(luò)環(huán)境下所產(chǎn)生的只言片語(yǔ)、轉(zhuǎn)發(fā)點(diǎn)贊。科技大數(shù)據(jù)與科學(xué)大數(shù)據(jù)、網(wǎng)絡(luò)大數(shù)據(jù)等有著顯著的不同,是大數(shù)據(jù)時(shí)代眾多大數(shù)據(jù)類型中獨(dú)特的一種數(shù)據(jù)形式。它既是政府決策和企業(yè)創(chuàng)新的重要基礎(chǔ)數(shù)據(jù),也是各種科研機(jī)構(gòu)進(jìn)行科學(xué)研究的重要產(chǎn)物和成果??萍即髷?shù)據(jù)除了一般大數(shù)據(jù)具有的4V特征(Variety、Volume、Velocity、Value,即多樣化、大量化、快速化、價(jià)值密度低)外,還具有一般科學(xué)數(shù)據(jù)客觀性、分離性、長(zhǎng)效性、不對(duì)稱性、非排他性、可傳遞性、增值性等特征內(nèi)容。另外,科技大數(shù)據(jù)還具有一些特性:高維度性、高度計(jì)算復(fù)雜性、高度不確定性和時(shí)空尺度大、分散多源異構(gòu)等[2]??萍即髷?shù)據(jù)的上述特征和屬性,決定了科技大數(shù)據(jù)集成共享的復(fù)雜性、困難性和長(zhǎng)期性。
圍繞科技大數(shù)據(jù)開(kāi)展的研究分析工作,可在科技工作的不同階段提供內(nèi)容資源和信息分析、評(píng)價(jià)、預(yù)測(cè)、對(duì)比等多種科研和管理增值服務(wù)。例如可以在科學(xué)研究階段為研究人員提供選題思路、路線圖制定、提供競(jìng)爭(zhēng)情報(bào),并進(jìn)行成果交流;實(shí)現(xiàn)項(xiàng)目管理階段的立項(xiàng)、資助、團(tuán)隊(duì)遴選、項(xiàng)目驗(yàn)收;在產(chǎn)業(yè)化階段為資金投向、市場(chǎng)分析、技術(shù)趨勢(shì)預(yù)測(cè)提供支持。對(duì)科技創(chuàng)新工作和創(chuàng)新型國(guó)家建設(shè)有著重要的輔助作用,同時(shí)也代表著科技信息與情報(bào)服務(wù)向知識(shí)服務(wù)轉(zhuǎn)變的行業(yè)發(fā)展方向。
2002 年科技部提出開(kāi)放科學(xué)數(shù)據(jù),實(shí)現(xiàn)共同發(fā)展。經(jīng)過(guò)了近18 年來(lái)的發(fā)展與建設(shè),我國(guó)科技資源平臺(tái)的建設(shè)工作取得了一定的成果,基本完成了適應(yīng)科技創(chuàng)新和科技發(fā)展需要的科技基礎(chǔ)條件支撐體系。國(guó)家科技資源共享網(wǎng),通過(guò)整合國(guó)內(nèi)主流科技資源站點(diǎn),在國(guó)家層面上構(gòu)建了全國(guó)范圍內(nèi)邏輯統(tǒng)一、高度集成、高效共享的科研共享信息平臺(tái)。平臺(tái)整合資源類別多達(dá)28類,參與建設(shè)的單位上千家,種類繁多,備受國(guó)內(nèi)外科技人員的廣泛關(guān)注[3]。與此同時(shí),國(guó)內(nèi)科技資源管理共享系統(tǒng)、科技資源省市平臺(tái)網(wǎng)站、科技資源建設(shè)項(xiàng)目網(wǎng)站相應(yīng)地可以做到在一定條件下達(dá)到科技資源共享的目的,為大眾使用科技資源提供了前所未有的便利[4]。
然而,現(xiàn)有共享網(wǎng)站或系統(tǒng)主要采用傳統(tǒng)集中式IOE(IBM 服務(wù)器+Oracle 數(shù)據(jù)庫(kù)+EMC 存儲(chǔ))模式,而隨著科技資源數(shù)據(jù)爆炸式增長(zhǎng),該模式下服務(wù)器存儲(chǔ)量的不斷擴(kuò)展不僅給財(cái)政支出和日常運(yùn)維帶來(lái)壓力,技術(shù)上也存在以下4 個(gè)方面的問(wèn)題與不足。一是存儲(chǔ)橫向線性擴(kuò)展有限,傳統(tǒng)系統(tǒng)都屬于TB級(jí),而支持PB級(jí)能力有限;二是硬件平臺(tái)兼容性差,致使異構(gòu)平臺(tái)整合困難;三是非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)處理能力不足,關(guān)系型數(shù)據(jù)庫(kù)僅對(duì)結(jié)構(gòu)化數(shù)據(jù)處理高效;四是數(shù)據(jù)處理與檢索性能瓶頸,數(shù)據(jù)量大、讀寫頻繁導(dǎo)致傳統(tǒng)數(shù)據(jù)庫(kù)I/O 性能下降。
3.1.1 整合方式
構(gòu)建科技大數(shù)據(jù)中心需要整合的資源包括一切可以直接或經(jīng)過(guò)開(kāi)發(fā)后間接為科學(xué)研究和技術(shù)創(chuàng)新活動(dòng)提供價(jià)值的資源。按照科技人力、科技財(cái)力、科技物力資源以及科技信息資源的劃分[5],需要整合出國(guó)內(nèi)外已有的知網(wǎng)、萬(wàn)方、維普及其他海量的數(shù)據(jù)庫(kù)資源,這些資源分支包括自然科技資源、科技人才資源、科技數(shù)據(jù)資源、大型儀器等數(shù)據(jù)庫(kù),并且還需要集成包括科技服務(wù)產(chǎn)品與科技服務(wù)對(duì)象在內(nèi)的科技服務(wù)資源。同時(shí)將海量的科技資源信息進(jìn)行剖析重組,挖掘與用戶需求相適應(yīng)的知識(shí)內(nèi)容并提供專業(yè)的情報(bào)服務(wù),完成對(duì)科技數(shù)據(jù)的深層次挖掘,最終達(dá)到情報(bào)服務(wù)升級(jí)的目的。
目前有大量的科技大數(shù)據(jù)中心用于解決日益增長(zhǎng)的多樣化業(yè)務(wù)服務(wù),包括海量數(shù)據(jù)存儲(chǔ)、高性能的計(jì)算服務(wù),還包括整合現(xiàn)有資源、保護(hù)現(xiàn)有資產(chǎn)、總線服務(wù)手段,以期實(shí)現(xiàn)業(yè)務(wù)流程的重組和再造,甚至將舊有的科技系統(tǒng)數(shù)據(jù)和服務(wù)順利接入云平臺(tái)??萍即髷?shù)據(jù)中心要整合的科技資源在數(shù)量上也是不斷增加的,以往以Web 界面為基礎(chǔ)的整合方式雖然技術(shù)上很簡(jiǎn)單,然而各個(gè)資源之間是相互獨(dú)立的,沒(méi)有必要的數(shù)據(jù)交換,更談不上對(duì)所有的資源進(jìn)行有效的分析利用,最明顯的缺點(diǎn)是用戶使用每個(gè)資源時(shí)仍然要按照對(duì)應(yīng)的身份驗(yàn)證,實(shí)用商業(yè)會(huì)存在很大的麻煩和不便。隨著各種類型資源的增多,對(duì)這些資源的管理難度也會(huì)大大增加,整個(gè)大數(shù)據(jù)中心的安全性也得不到保障,所以在整合時(shí)要開(kāi)發(fā)設(shè)計(jì)統(tǒng)一登錄的身份認(rèn)證系統(tǒng),以此來(lái)保證系統(tǒng)的安全性,也便于對(duì)中心平臺(tái)的資源管理、用戶管理。
以江蘇省的所有科技資源為例,將所有資源分為三大類:服務(wù)類、數(shù)據(jù)類、管理類。其中服務(wù)類的科技大數(shù)據(jù)包括成果交易產(chǎn)權(quán)一站式服務(wù)、物聯(lián)網(wǎng)智能化技術(shù)服務(wù)、經(jīng)濟(jì)社會(huì)信息服務(wù)、科技中介服務(wù)、眾創(chuàng)空間;數(shù)據(jù)類的科技大數(shù)據(jù)含有包括所有科技資源的一站式檢索以及創(chuàng)新能力數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù);管理類的科技大數(shù)據(jù)包括創(chuàng)新政策、項(xiàng)目管理、政務(wù)公開(kāi)、開(kāi)放合作、知識(shí)產(chǎn)權(quán)、科技前沿的相應(yīng)數(shù)據(jù)。
按照以上的整合方式建設(shè)科技大數(shù)據(jù)中心,科技資源最大程度共享的同時(shí),還提供了豐富的科技服務(wù)??萍挤?wù)涵蓋了全類別的科技服務(wù)機(jī)構(gòu)的主要業(yè)務(wù),建設(shè)成為一個(gè)資源與服務(wù)并重的科技大數(shù)據(jù)中心,構(gòu)建了本地區(qū)的科技資源與服務(wù)為一體的門戶網(wǎng)站。為本區(qū)域提供全方位的科技資源共享和服務(wù)的同時(shí),減少區(qū)域內(nèi)不必要的資源重復(fù)采購(gòu),平臺(tái)也成為政府決策和企業(yè)創(chuàng)新的信息資源支撐平臺(tái)。
3.1.2 平臺(tái)架構(gòu)
科技大數(shù)據(jù)中心平臺(tái)采用可靠性高、擴(kuò)展性強(qiáng)、容錯(cuò)性好的Hadoop 大數(shù)據(jù)平臺(tái),Hadoop 硬件需求不高,相應(yīng)的系統(tǒng)解決方案囊括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、系統(tǒng)管理,海量數(shù)據(jù)存儲(chǔ)由HDFS,MapReduce,HDFS提供,海量數(shù)據(jù)處理編程接口由MapReduce提供[6]。
該平臺(tái)選用內(nèi)存1GB以上的CPU,保證任務(wù)的分發(fā),服務(wù)器盡量選擇磁盤容量和性能比較接近的,交換設(shè)備選擇千兆及以上的以太網(wǎng),這樣可以提高系統(tǒng)的整體性能。
由于科技大數(shù)據(jù)資源的數(shù)據(jù)類型多種多樣,既有結(jié)構(gòu)化的數(shù)據(jù)又有非結(jié)構(gòu)夠化的數(shù)據(jù),因此更適用HBase型數(shù)據(jù)庫(kù)存儲(chǔ)方式,所有其他的類型都可以由用戶自己設(shè)置。對(duì)于科技大數(shù)據(jù)資源,整合上需要頻繁地更新,用戶使用上需要大量的查詢、分析,因此對(duì)數(shù)據(jù)的操作會(huì)很頻繁,使用MapReduce程序可以方便地實(shí)現(xiàn)上述功能操作。目前科技發(fā)展迅速,對(duì)科技大數(shù)據(jù)的更新和維護(hù)有著極高的要求,采用HBase列式數(shù)據(jù)庫(kù)更適合數(shù)據(jù)的快速查詢與數(shù)據(jù)維護(hù)。構(gòu)建成大數(shù)據(jù)中心后,隨著時(shí)間的推移,仍然需要對(duì)其進(jìn)行擴(kuò)展更新,然而對(duì)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行擴(kuò)容很復(fù)雜,需要中間件才能實(shí)現(xiàn)。HBase數(shù)據(jù)庫(kù)的可伸縮性很強(qiáng),當(dāng)HBase 集群需要擴(kuò)容時(shí),通過(guò)增加服務(wù)器的數(shù)量就可以簡(jiǎn)便實(shí)現(xiàn)。
復(fù)旦劇社除了有洪深先生的大力扶持外,還有曹禺劇作的支撐。曹禺劇作《雷雨》《日出》都是由復(fù)旦劇社排練演出并第一次與中國(guó)觀眾見(jiàn)面的。曹禺的《雷雨》《日出》《北京人》等劇作曾多次搬上復(fù)旦劇社的舞臺(tái)。(圖 3、圖 4)
因此,從數(shù)據(jù)存儲(chǔ)模式、操作、維護(hù)、擴(kuò)展方面而言,HBase數(shù)據(jù)庫(kù)更適合科技大數(shù)據(jù)中心平臺(tái)。為實(shí)現(xiàn)科技資源的集成與共享,克服傳統(tǒng)的科技資源共享平臺(tái)存在的缺陷,構(gòu)建了科技大數(shù)據(jù)中心,其總體架構(gòu)如圖1所示。
圖1 中科技大數(shù)據(jù)中心支撐平臺(tái)分為數(shù)據(jù)平臺(tái)和分析平臺(tái)兩部分。數(shù)據(jù)平臺(tái)采用MongoDB 進(jìn)行存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)和使用HDFS 進(jìn)行存儲(chǔ)無(wú)結(jié)構(gòu)數(shù)據(jù),并采用Lucene和Elasticsearch 彈性搜索技術(shù)來(lái)索引數(shù)據(jù)。分析平臺(tái)的智能分析功能依托于運(yùn)用Deeplearning和通用圖形處理器技術(shù)。

圖1 科技大數(shù)據(jù)中心平臺(tái)模型
科技大數(shù)據(jù)中心還提供情報(bào)服務(wù),主要完成面向情報(bào)數(shù)據(jù)的情報(bào)服務(wù)功能,包括情報(bào)數(shù)據(jù)的搜索和標(biāo)注。分析服務(wù)則提供預(yù)測(cè)、規(guī)劃及博弈等功能。
科技大數(shù)據(jù)中心的目標(biāo)之一是挖掘用戶價(jià)值,除了實(shí)現(xiàn)初級(jí)的情報(bào)獲取和情報(bào)提煉,還致力于完成技術(shù)趨勢(shì)預(yù)測(cè)的高級(jí)目標(biāo)。
科技大數(shù)據(jù)中心構(gòu)建技術(shù)與大數(shù)據(jù)技術(shù)的5 個(gè)核心部分類似,分為數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)挖掘、數(shù)據(jù)可視化[7]。針對(duì)科技大數(shù)據(jù)中心的構(gòu)建技術(shù)方法本文從4個(gè)方面進(jìn)行闡述。
3.2.1 數(shù)據(jù)采集
科技大數(shù)據(jù)的采集就是采集各種來(lái)源(如科技文獻(xiàn)資源、網(wǎng)絡(luò)科技新聞資源、科技政策資源等)的結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)。數(shù)據(jù)采集過(guò)程,為了將分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為后期的決策提供分析依據(jù),通過(guò)ETL 工具來(lái)進(jìn)行數(shù)據(jù)抽取、清洗轉(zhuǎn)換和加載到數(shù)據(jù)倉(cāng)庫(kù)。
針對(duì)網(wǎng)絡(luò)上需要采集的科技數(shù)據(jù),借助網(wǎng)絡(luò)爬蟲(chóng)或公開(kāi)的網(wǎng)站數(shù)據(jù)接口,從網(wǎng)頁(yè)采集而得的結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),并將其統(tǒng)一處理為本地的結(jié)構(gòu)化數(shù)據(jù)。同時(shí)科技大數(shù)據(jù)還涉及相當(dāng)數(shù)量的文件采集,本文利用flume 進(jìn)行實(shí)時(shí)文件采集和處理,運(yùn)用這些技術(shù)共同保障科技大數(shù)據(jù)的實(shí)時(shí)完整。
3.2.2 科技大數(shù)據(jù)預(yù)處理
科技大數(shù)據(jù)預(yù)處理是在進(jìn)行數(shù)據(jù)分析之前,對(duì)采集及集成的原始數(shù)據(jù)進(jìn)行“清洗、填補(bǔ)、平滑、合并、規(guī)格化、一致性檢驗(yàn)”等一系列操作,目的是要提高科技大數(shù)據(jù)質(zhì)量,為后續(xù)的分析工作做基礎(chǔ),科技大數(shù)據(jù)預(yù)處理包括科技數(shù)據(jù)的清理、集成、轉(zhuǎn)換、規(guī)約4個(gè)部分。
科技數(shù)據(jù)清理的清洗工具有ETL 和Potter's Wheel,它主要是對(duì)缺少感興趣屬性的有遺漏數(shù)據(jù)、數(shù)據(jù)中存在著錯(cuò)誤或偏離期望值的噪音數(shù)據(jù)、不一致的數(shù)據(jù)進(jìn)行處理。用全局常量、屬性均值、可能值填充或直接忽略該數(shù)據(jù)進(jìn)行遺漏數(shù)據(jù)處理。用分組原始數(shù)據(jù),并分別對(duì)各組數(shù)據(jù)采用平滑處理方式來(lái)進(jìn)行噪音數(shù)據(jù)處理,還有聚類、計(jì)算機(jī)人工檢查、回歸等去除噪音處理方法。
科技數(shù)據(jù)集成,旨在把來(lái)源不同的科技數(shù)據(jù)合并存放到統(tǒng)一的數(shù)據(jù)庫(kù)。該過(guò)程著重解決3個(gè)問(wèn)題:模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測(cè)與處理。數(shù)據(jù)轉(zhuǎn)換,指對(duì)所抽取出來(lái)的數(shù)據(jù)中存在的不一致進(jìn)行處理的過(guò)程。它同時(shí)包含了數(shù)據(jù)清洗的工作,即根據(jù)業(yè)務(wù)規(guī)則對(duì)異常數(shù)據(jù)進(jìn)行清洗,以保證后續(xù)分析結(jié)果的準(zhǔn)確性。數(shù)據(jù)歸約能最大限度地保持?jǐn)?shù)據(jù)原貌,相當(dāng)于盡可能地保持?jǐn)?shù)據(jù)完整性,通過(guò)概念分層、數(shù)值規(guī)約、數(shù)據(jù)壓縮、數(shù)據(jù)方聚集、維規(guī)約等來(lái)最大限度精簡(jiǎn)數(shù)據(jù)量,減少數(shù)據(jù)集的操作。
3.2.3 大數(shù)據(jù)存儲(chǔ)
由于科技大數(shù)據(jù)結(jié)構(gòu)復(fù)雜,而Hadoop擁有開(kāi)源,善于處理半結(jié)構(gòu)、非結(jié)構(gòu)化的數(shù)據(jù),復(fù)雜的抽取、交互轉(zhuǎn)換、加載至目的端流程,多種挖掘分析以及豐富的計(jì)算模型等優(yōu)勢(shì),因此中心平臺(tái)通過(guò)擴(kuò)展和封裝Hadoop 來(lái)實(shí)現(xiàn)對(duì)科技大數(shù)據(jù)的存儲(chǔ)和分析的支撐,并采用云存儲(chǔ)與分布式文件存儲(chǔ)等基礎(chǔ)架構(gòu)來(lái)適應(yīng)科技大數(shù)據(jù)的增量變化,獲得較高的存儲(chǔ)效率,具有靈活的擴(kuò)展性,并能適應(yīng)多種規(guī)模,同時(shí)能夠降低數(shù)據(jù)存儲(chǔ)的花費(fèi),減少不必要的資源浪費(fèi),保證數(shù)據(jù)安全。
3.2.4 科技資源信息的再挖掘分析
由上述分析不難發(fā)現(xiàn),通過(guò)可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)性分析、語(yǔ)義引擎、數(shù)據(jù)質(zhì)量管理等方面,對(duì)雜亂無(wú)章的數(shù)據(jù)進(jìn)行萃取、提煉和分析,可進(jìn)行科技資源信息的挖掘和利用[8]。圖形化工具解決了分散異構(gòu)的科技數(shù)據(jù),可進(jìn)行關(guān)聯(lián)、分析并做出完整的圖表,直接呈現(xiàn)給中心用戶以簡(jiǎn)單明了、清晰直觀且易于接受的各種分析結(jié)果。數(shù)據(jù)挖掘算法解決了各種不同的科技數(shù)據(jù)類型和格式,使用能夠與之相適應(yīng)的查找,進(jìn)而確定適合挖掘的最佳參數(shù)模型,讓統(tǒng)計(jì)結(jié)果分析到位。還有一些像特別統(tǒng)計(jì)分析、趨勢(shì)預(yù)測(cè)、用戶畫像、建模、優(yōu)化、機(jī)器學(xué)習(xí)等高級(jí)分析功能,可以做到用科技大數(shù)據(jù)進(jìn)行預(yù)測(cè)性分析,讓事件的不確定性能夠提前預(yù)測(cè),主要可用來(lái)預(yù)測(cè)科技研究熱點(diǎn)、主題熱度趨勢(shì)等各種將來(lái)事件,為政府和企業(yè)調(diào)整戰(zhàn)略提供依據(jù)。在科技大數(shù)據(jù)檢索時(shí)還需要采用語(yǔ)義引擎技術(shù),為已有的科技數(shù)據(jù)添加語(yǔ)義,提高用戶的檢索體驗(yàn)。
通過(guò)上述科技大數(shù)據(jù)的特點(diǎn)與價(jià)值的分析研究,結(jié)合現(xiàn)階段科技大數(shù)據(jù)共享平臺(tái)的現(xiàn)狀和存在的問(wèn)題,以及江蘇省科學(xué)技術(shù)情報(bào)所現(xiàn)有各類數(shù)據(jù)資源種類、數(shù)據(jù)內(nèi)容、表現(xiàn)形式、服務(wù)模式、運(yùn)用技術(shù)及網(wǎng)絡(luò)應(yīng)用平臺(tái)現(xiàn)狀,通過(guò)利用互聯(lián)網(wǎng)及大數(shù)據(jù)技術(shù)的發(fā)展特點(diǎn),運(yùn)用多源數(shù)據(jù)融合技術(shù)、自然語(yǔ)言處理、深度學(xué)習(xí)等先進(jìn)的信息技術(shù),以務(wù)實(shí)、嚴(yán)謹(jǐn)、科學(xué)的態(tài)度做好科技大數(shù)據(jù)中心的頂層設(shè)計(jì),探討了其建設(shè)內(nèi)涵、組織架構(gòu)、任務(wù)內(nèi)容和實(shí)現(xiàn)路徑,實(shí)現(xiàn)數(shù)據(jù)共享與集成應(yīng)用,加強(qiáng)特色資源和服務(wù)能力建設(shè),從而打造江蘇科技大數(shù)據(jù)建設(shè)與服務(wù)品牌。