張 璐
(內蒙古農業大學圖書館,內蒙古 呼和浩特 010018)
近年來,大數據的關注度不斷提升,已成為每年的熱門搜索關鍵詞,在學術領域尤為明顯。中國知網數據庫中對“大數據”相關關鍵詞的搜索頻率很高,通過檢索可以得到 5 000 余篇論文;以“大數據+影響”為主題進行檢索,可得到上千的研究成果……由此可見,近年來學術界對大數據科學價值方面的研究較多。國內各高校為適應時代發展,先后成立了大數據研究中心、大數據學科專業等,致力于建立專門的專業化教學和研究隊伍。眾所周知,情報工作自古存在,但是,將其作為學科進行專門研究的發展時間較短,加之其本身具備高度機密的特點,使得情報學的研究起步較晚。近些年來,隨著國家總體安全觀的發展,推動了情報學的研究發展。在科學視角下,大數據與情報學存在密切聯系,但是在概念、側重點和教育領域等層面存在顯著區別。考慮到大數據的發展對情報學的深入研究有著重要影響,因此,本文就大數據對情報學的影響及相關策略展開研究分析。
學科建立之初,需要構建完善涵蓋該學科研究內容、目的、方法等基本內容的概念,以此實現學科的體系設置。由于大數據發展時間尚短,以其為研究對象的數據科學概念在國際上尚未達成一致。追溯到20世紀60年代,數據科學這一詞組最早是以計算機科學的替代術語身份被提及,當時并沒有給出完整的定義,直至15年后,在《計算機方法的簡明調查》中,第一次對其概念作出了初步界定,認為數據科學是一門以數據處理為研究內容的科學,這一概念非常宏觀和簡潔,內容也不是很完整。21世紀伊始,數據科學首次被Cleveland以獨立學科的概念提出,其將數據科學在原有概念的基礎上融入了計算機的應用內容,此時,數據科學不再是一個單一的統計學應用,而是融合了計算機、信息統計等學科的綜合科學,具有交叉性特點。而后英國數字保管中心的教授提出數據科學是建立在Web環境下,以數據驅動為特征的學科;紐約大學數據科學中心學者VASANT D則認為數據科學涉及數據采集、傳播、存儲、分析、應用的全過程,其核心目標是從大量數據中獲取知識。在數據科學漫長的發展歷史中,對其的定義經歷了從粗略到逐漸翔實的過程,無論何種研究角度,目前數據科學在國外達成了一致共識,即這一學科是以數據為基礎,可以用于解決多樣化的問題,在各領域存在的價值都較高。我國關于數據科學的研究起步相對國外較晚,但我國的學者立足于國外研究成果的基礎之上,結合我國大數據的發展情況,經過長期研究提出了較為全面的觀點。其中,朝樂門在《數據科學》中的研究較為全面,其對數據科學的定義涵蓋了多方面內容,認為數據科學的研究目的是實現數據與其他物質之間的轉換,以數據的研究處理形式來提高其他工作的效率,因此,數據科學具有影響、深化、促進其他學科發展的價值。楊旭則認為數據科學是建立在有效、有價值的數據信息積累的基礎之上,數據的價值提高是實現數據科學發展的關鍵所在,積極有效地利用數據科學對社會的發展有著促進作用。我國復旦大學成立的數據科學研究中心則更為宏觀地提出了數據科學的概念,認為數據科學是專門研究數據的學科,通過數據信息處理來提取有效價值,將其轉化為其他產出,與數學、統計、計算機等學科密切相連,是一門復合型學科。
綜上分析,雖然國內外學者在不同歷史發展階段對數據科學的概念持有不同的定義,但對比分析可知,這些持有不同定義的概念存在著較多的相同點。因此,本文遵循“提煉共同點、發展不同點”的原則,對數據科學的概念進行界定:數據科學是一門交叉復合型學科,其以大數據為基礎,綜合運用統計、計算機及各學科專業知識的復雜科學體系,對得出行業結論、理順行業措施、做出行業預測、優化發展措施等都有著重要的價值和意義。
數據科學的概念闡述是一個錯綜復雜的過程,為了全面對比數據科學與情報學的異同,本文對情報學的內涵與外延進行闡述。與數據科學發展歷史較為短暫不同,情報學雖然成為學科體系的時間不長,但有著較長的實際運用歷史,綜合了自然科學和社會科學的特點。現階段我國對情報學的研究主要集中在智慧情報領域,即關注先進的技術科技對情報工作的影響。因此,本文重點分析科技情報與數據科學的關系。馬費成認為情報學是一門復雜的學科,其研究目的是在信息爆炸的情況下對情報進行甄別、分析與應用,以科學的研究體系將掌握的信息數據轉化為可以被利用的內容,處理成最能有效運用的內容,促進各行業的發展,甚至是國家的安全穩定。可以說,這一概念十分詳細地闡述了情報學的內容,明確了情報學是一種研究情報產生、傳遞、利用規律和現代化信息的技術手段,使情報流通過程、情報系統保持最佳效能狀態的一門科學,它幫助人們充分利用信息技術和手段,提高情報產生、加工、貯存、流通和利用的效率。同時,這一概念也與世界通用的情報學概念相吻合,明確了情報學的內容、手段和作用。
通過對數據科學與情報學定義的研究,本文發現二者在概念上既有聯系也有區別。在學科性質和研究內容上二者重合度較高,即二者均為數據復合型學科,在研究工作中交叉運用統計和計算機等多種科學手段,并且在各行業的應用中還需要結合具體使用的行業科學,如醫學、法學、教育學等專業知識,以此發揮數據科學、情報學的價值,因此,二者均不是單一的科學體系,而是與其他科學存在著密切聯系。除此之外,二者的研究對象有著較大的重合度,數據科學以大數據為基礎,情報學以大量數據信息為基礎,二者在大數據時代均依賴信息數據的積累,有時被交替使用,在這種情況下沒必要對數據和信息的意義進行區分價值。數據科學與情報學雖然在概念上有一定的相似度,但也呈現出明顯差異,主要歸納為兩點:第一,數據科學的研究以數據積累、分析和處理為側重點,建立在數據信息層面得出結論;情報學的研究則更加側重數據處理后對服務對象衍生的價值,即基于大數據來分析某一行業的發展趨勢、側重點、社會需求等內容,后者更具有使用價值。第二,數據科學的研究方法更側重實證,以統計分析的具體方式加以研究,在方式方法上更加專業可靠;而情報學的研究方法呈現多樣化,不僅有理科學科的統計分析,還有文科的定性界定,通過對比分析、調查研究等獲得結論。總體而言,數據科學和情報學雖然不能完全重合,但是二者在研究中對大數據的依賴程度都很高,通過對已掌握的數據信息進行分析,得出某一行業或者某一熱點現象的原因和發展趨勢,對分析的效率和要求都較高。相對來說,情報學更加注重穩定性和規律性,可以建立在長期數據的基礎上,總結行業規律。所以,二者僅從概念視角就存在典型的異同性。
本研究在中國知網上,以“大數據”為關鍵詞檢索出 45 681 條相關研究,以“數據科學”為關鍵詞檢索出405條研究成果,以“情報學”為關鍵詞檢索出 8 238 條信息,檢索數據截止日期為2019年7月16日,檢索的結論關聯度較高。
我們以研究成果發表的時間進行劃分,發現不同的研究內容從起步至今日臻豐富,研究內容趨于完善,研究結論發表時間數據統計情況如表1所示。

表1 各關鍵詞各年度發表研究成果數(單位:條)
上述關鍵詞在各年度發表的研究成果基本圍繞數據科學、情報學的發展速度以及相關研究展開。其中,“大數據”是數據科學的研究對象,“數據分析”“機器學習”“數據挖掘”“可視化”等則是學習數據科學過程中的重點及熱點。
數據科學是一門集多領域學科的綜合性科學,不能局限于某一領域或單獨存在。在大數據時代,越來越多的學科和領域發生交叉,與不同環節的運行有著千絲萬縷的聯系,例如,大數據在物流、購物、選址等方面的分析判斷已經成為商業領域中重要的判斷資源,大數據的數據基礎與數據分析、計算機技術緊密聯系,可以說,數據科學已經逐漸貫穿各個領域,針對其展開的研究和分析也越來越多,表2展示了著作分析基礎上數據科學緊密度聯系分類結果。

表2 數據科學緊密度聯系分類
通過對數據科學及與之相關聯的信息加以分析,基于不同聯系點獲取相關知識點或熱點關注問題。根據聯系一的分類可以看出,數據科學不僅與生活緊密聯系,而且有多個學科的理論基礎,例如,數據科學包含數學、統計學、情報學等學科理論,在金融、醫療、生物等領域都有廣泛應用。從聯系二的分類可以看到,數據科學的應用主要是通過分析社交軟件數據,從而說明一些社會熱點問題,預測氣象、經濟等,以及數據科學范式的變化和人才培養。根據聯系三的分類可以看到,與科技發展密切相關的包括與數據科學有關的工具、平臺對數據科學發展的影響,如Hadoop、MapReduce、Spark等工具,Aprior算法、模糊規則等方法在云計算、物聯網、人工智能等新技術中的應用,此外,還有數據科學在智慧城市、智慧交通等領域的智慧類應用。聯系四的分類主要是數據科學與社會問題有關的如數據科學對社會經濟、政治、文化等方面的影響以及數據隱私等方面的問題。
隨著社會需求與信息技術的發展,任何一門學科都在不斷地發展演變。大數據時代背景下,數據科學得到了全面發展,情報學在其影響下研究對象和內容不斷優化發展,隨著各類型數據信息的急劇增長、對大數據的搜集、組織、存儲、整合、分析及展示儼然已成為社會需要關注的重點。從目前研究來看,情報學基本理論主要包括情報的傳播、交流與利用理論、文獻分布理論和分類檢索理論等,而基于新的數據科學環境,這些基本理論在不斷地深化擴展。隨著情報處理和情報分析方法與技術不斷提髙,情報學研究對象的范疇也在不斷向縱深演進,大數據環境下情報學的研究對象更加注重大數據的加工、清洗、規范整合與分析計算。情報學研究內容與其他學科的交叉融合日益明顯,形成了生物信息學、化學信息學、地理信息學等多個研究領域,為各個學科領域提供了學科情報信息分析的技術方法,對學科發展趨勢監測、科研方向發展及科研決策提供了有效支撐。
新時代下,大數據的快速發展對學科建設和體系構建提出了迫切的要求,數據科學教育專業性已成為各高校和研究機構關注的核心。2007年,美國的北卡羅來納州立大學率先設立數據分析碩士學位,這是最早與數據科學緊密相連的學科,后來眾多國際知名高校也相繼設立了數據科學相關專業。香港中文大學作為我國最早設立數據科學專業的知名學府,在理工科類學院設立了“數據科學商業統計”碩士學位,這實現了我國數據科學領域專業零的突破。自2010年起,內地在復旦大學、北京航空航天大學等高校分別設立了數據科學工程專業的碩士、博士學位授予點;2014年起清華大學制訂了大數據專業人才培養計劃;至2016年,教育部正式批準高校開設國家一級學科“數據科學與大數據技術”專業,至此,數據科學的專業名稱得到規范,各個高校掀起設立熱潮;目前,全國設立該專業的本科院校已經超過200所。2017年底,習近平總書記明確指出在國家安全建設方面,我國迫切需要專業化、高水準的大數據人才隊伍,數據已成為國家創新驅動的關鍵因素。由此可見,對數據科學學科的長久發展而言,人才是核心動力,并且國內的需求呈現日益增長的發展趨勢,要培養專業化的數據人才需要抓住數據科學與不同學科之間的聯系,構建符合其研究特色的創新型人才培養理念、方式和標準。
數據科學是一門復合型科學,綜合了多層次、多領域的專業知識,因此,對數據科學人才的培養不僅要建立“本—碩—博”階梯培養模式,還需要融入經濟學、管理學、社會學等多學科知識,打破學科界限,形成跨學科的專業思維和知識維度。簡言之,需要具備三點能力:第一,豐富的理論知識。擁有扎實的數據處理、分析和應用能力,是后期研究的重要基礎。第二,踏實的實踐精神。將學科知識投入到實踐中運用,在實踐案例的反復錘煉中獲取結論,提高自己運用和處理數據的能力。第三,靈活的運用能力。在掌握扎實基本功和實踐數據積累的基礎上,將知識靈活運用于各類數據問題的分析中,實際解決各領域的問題,達到數據科學人才培養的最終目的。以上面三個主要能力為基準進行劃分,設置數據科學專業的教學課程體系,具體如圖1所示。

圖1 數據科學專業教學課程體系
我國于1984年開設情報學專業,歷經40余年的發展,已經擁有了較為完備的教學體系。但目前情報學專業教育僅在研究生階段開展,形成了以碩士研究生和博士研究生相結合的教育體系。情報學屬于國家二級學科,授予管理學碩士學位。雖然高校之間課程設置略有差別,但是主干課程大致相同,可以分為四類:1)包含情報學理論方法、競爭情報、信息經濟學等的基礎理論類;2)包含數據挖掘、數據庫技術、云計算技術、軟件工程、Web新技術及其應用等的技術方法類;3)包含信息資源管理、知識管理、信息檢索、信息組織、電子商務等的管理類;4)包含信息安全、信息法等的信息人文類。
從數據科學與情報科學的課程設置來看,不難發現兩者之間的差異性。首先,情報學發展至今已經形成較為完整的理論知識體系和研究方法,但是,數據科學由于起步較晚,還依賴于統計學、計算機科學等領域的研究方法和學習內容;其次,在課程設置層面,情報學的課程設置專業化較強,以情報信息研究為所有教學的核心,但是,數據科學及其涉及的領域非常廣泛,對基礎電子數據掌握的要求較高,因此,對教學課程涉及的內容就會更加關注;最后,情報學專業課程雖然開設時間較長,但在數量上遠遠少于開設數據科學專業課程的院校,這與情報學的專業性存在密切關聯,而且,開設數據科學專業的院校通常會根據這一學科的需要,細分二級學科來輔助其專業化發展,然而這種課程設置模式在情報學領域沒有得到具體體現。
前文就數據科學和情報學在課程設置和教育模式上進行了對比分析,可以看出新時代下,數據科學的發展需求旺盛,催生了大量的教育供給,反哺數據科學的發展。數據科學的建設對我國情報學的教育發展有著促進作用,本文主要歸納為三點趨勢影響:
第一,強化技術專業與本專業的關聯度,提升情報學人員的數據應用能力。雖然我國情報學開設的專業與數據科學有一定的聯系,但是并不能滿足現階段大數據發展速度的需求。很多情況下,對數據的處理和應用已經成為情報學專業學生的短板,計算模型和前沿工程技術更是亟須被情報學科納入的教育內容,數據科學專業的教學和培養模式可以成為情報學專業的教學參考,將計算機科學和統計學領域的數據挖掘、數據分析、可視化技術等進行深度教學,以此匹配和完善新時代對情報學專業人才培養的實際需求,以豐富多樣的教學催生情報學專業課程教學的實用性和針對性,提高知識的可實踐率。
第二,加強學科理論知識的實踐應用,通過實踐提高教學質量。情報學專業課程設置既包括基礎理論課程,也包括具體的實踐課程。但是,很多高校存在理論課程明顯多于實踐課程、課程比例設置嚴重失衡的問題。目前,我國僅對圖書情報類專業型碩士有外出實習6個月的硬性要求,對其學術型碩士則沒有相應要求,這樣容易造成學生對實踐能力培養的忽視,導致其學生在學校學到的理論知識不能較好地應用于實踐,最終在實際工作中容易出現理論和實踐相脫節的問題。為了更好地用數據解決現實世界中存在的問題,需要全面連接數據、人與技術,這不僅與情報學的研究傳統相契合,還為情報學研究帶來了新對象、新視角。因此,以數據為切入點取得理論和經驗研究的創新突破,將有助于情報學更好地融入數據時代,并實現數據、人與技術的連接,契合時代發展需求。
第三,教學方法和應對措施多樣化,促進情報學教學質量改善。由于情報學的專業性和相對秘密性,情報學的教學通常由高校單獨完成,對應用層面關注度較低,很少采取像數據科學那樣到各企業中通過實踐教學來檢驗教學成果的培養方式,但在大數據發展背景下,對情報學專業學生的培養已經不能局限于簡單的理論學習,更需要從傳統教學中走出來。融意識、技術、產品、應用于一體的情報服務時代即將到來,在大數據環境下,情報服務逐漸向普適化與針對化服務思維模式轉變,在大數據開放與共享鼓勵政策以及社會計算應用推廣的背景下,開展跨領域、跨產業、跨系統的協同化情報服務模式逐漸強化,情報學的學科教學目標也不例外,因此,情報學的教學應該更注重應用性。
雖然情報學是借鑒數據科學來豐富和完善自身學科教學體系,但這并不意味著數據科學學科設置沒有短板。數據科學的學科教學內容也需要在基礎理論知識和專業應用上隨時代的發展逐漸優化,更需要融入新時代的隱私權、倫理學需求,在不斷改進中完善學科建設,在不斷豐富中促進二者的共同發展,從而培養更加全面的應用型人才。
本文從內涵、側重點和教育三方面對數據科學與情報學展開對比分析,闡述二者的異同,為大數據時代下的數據科學和情報學發展與教育的進步提出設想。內涵上,數據科學與情報學的研究對象有一定的共通之處,但在研究目的、方法和結果上存在一定的差異,情報學的研究更偏向理論,而數據科學的研究則更加注重實用,這點在實際運用中也有所體現。在研究側重點上,情報學的服務效用明顯低于數據科學。在教育發展中,雖然情報學基礎理論課程較為完善,但對實踐課程重視不足;數據科學則相反,發展起步較晚,但實踐課程較為完善。因此,在大數據不斷發展的情況下,情報學需要汲取數據科學學科建設的經驗,更多地“讓數據說話”,這不僅能使傳統工作更加自動化和智能化,還有助于突破學科壁壘,使研究者能夠進入之前無法研究的領域。但如何科學地“讓數據說話”不僅僅是單純的技術問題,還涉及如何更好地實現數據、人與技術的連接等問題,其間仍存在大量的研究空白,而這恰好與情報學的研究傳統和研究問題高度契合,為情報學提供了新的機遇,也為情報學的學科建設提供了新的可能性。