999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

當下中國“數字人文”研究狀況及意義

2018-01-29 05:32:49
山東社會科學 2018年7期
關鍵詞:數據庫研究

陳 靜

(南京大學 高研院數字人文創研中心,江蘇 南京 210093)

一、中國“數字人文”研究的緣起

作為一個舶來概念,“數字人文”真正進入中國學界,受到廣泛關注,是近十年間。2009年,武漢大學的王曉光教授在“2009年教育部人文社會科學研究方法創新論壇”上發表了名為《“數字人文”的產生、發展與前沿》的論文。此文隨后發表在“科學網”(2009年12月3日),獲得了上萬的在線點擊及多次學術引用。同一年,臺灣大學舉辦了第一屆“數位典藏和數位人文”會議,提出將數字人文與數位典藏放在同樣重要的地位。2011年以后,越來越多的以“數字人文”為主題的論文出現在學術期刊上。但這并不意味著,在2009年之前中國就沒有數字人文。我們將“數字人文”定義為一套提出、重新定義和回答學術問題的辦法,即人文學者可以利用數字技術(尤其是電腦數據庫)作為外在的工具,來回答他們過去已經提出的學術問題,或者是受到數字技術和思維的影響而提出的新課題,甚至產生新的研究范式。*徐力恒、陳靜:《“數字人文”浪潮來襲,倡導之余仍要警惕過分樂觀》,《社會科學報》2017年8月26日。實際上,在“數字人文”概念被翻譯到中國之前,中國早已有了數字人文實踐。那么,我們在當下強調“數字人文”的意義在哪里?中國的數字人文在已有的學術圖景中又遭遇了什么樣的挑戰?本文以2009年作為中國數字人文的一個分水嶺,稱此前為前史,此后為當下,展開關于中國數字人文當代意義的討論。

中國第一篇有據可查且被廣泛接受的介紹數字人文的文章是由武漢大學的王曉光教授在2009年發表的。在臺灣地區,2009年同樣是一個起點。據臺灣數字人文博士邱偉云觀察,“臺灣的數字人文學則應以2009年臺灣大學所舉辦的第一屆數字典藏與數字人文國際研討會為起點。觀察第一屆及其之后歷屆的會議主旨、征稿議題、發表篇目等,可以看見2009—2012這四年乃是臺灣數字人文學發展的奠基期,這一時期最大的特色,即是有一從數字典藏到數字人文學發展的轉向”*邱偉云:《臺灣數字人文研究綜述(2009—2017)》,即將發表。。海峽兩岸學者在2009年的不謀而合,看似偶然,但實則順勢而為。*2007年6月,臺灣中正大學人文研究中心協同臺灣“中研院”人文中心GIS專題組和中正大學歷史學系舉辦了地理資訊系統與人文研究研討會。2009年1月,臺灣政治大學文學院身體與文明研究中心、歷史學系和地政學系聯合召開了2009人文地理資訊系統研討會。王曉光教授就提到“中國的與西方的人文研究相比,大陸的人文學者對計算機技術的應用研究并不算落后”,但存在不足,研究方法和教學手段較為陳舊,“面對人文社會科學研究方法創新的需要,將國外數字人文研究的內容、方向和前沿集中介紹給國內的人文社會學者以加快我國人文學科研究范式的升級和轉型已經顯得十分必要”。*王曉光:《“數字人文”的產生、發展與前沿》,載《方法創新與哲學社會科學發展》,武漢大學出版社2010年版。王曉光教授將“數字人文”介紹到中國學界,是出于基于內在需求的自覺和一種對國外數字人文的借鑒意愿,類似的想法也被臺灣數字人文先驅、臺灣大學資訊工程系特聘教授項潔描述過:

1995年我開始規劃并執行臺灣大學的臺灣史料與藏品的數位典藏工作,這也是在技術上,將新的科技媒體與傳統類型史料結合的開始。這項工作進行十年后,我們累積了相當數量的高品質的數位史料,但是我的不安也越來越深。我開始思考,到底如何才能運用資訊科技,在龐大的數位史料基礎上從事歷史學的學術研究。閉門造車一年多后,才發現在國際已經隱隱約約有一個類似的學問浮現,這就是“數位人文”。近十多年來,我找到了越來越多志同道合的朋友,大家均是被數位人文所隱含的可能性深深吸引,也做了不少相關的研究工作。*項潔:《一個臺灣數位人文學者的賀詞》,“零壹Lab”,最后登錄時間:2016-10-10。

可見,“數字人文”被翻譯、介紹到中國,并不能證明數字人文是一個由西方發展起來、被引進到中國的學科;相反,是在一個歷史趨勢下,從自身的研究需求出發,意識到在數字時代必然而為的一種學術研究轉型,而這場轉型恰恰呼應了西方語境中“數字人文”浪潮的興起。過去幾年間,數字人文浪潮在中國發展迅猛,臺灣連續幾年舉辦“數字典藏和數字人文”會議,大陸有關數字人文的會議越來越多,更有小型研討會和工作坊,相關論文也在學術期刊和大眾媒體上頻頻發表。數字人文研究在非西方語境中發展的特殊意義、學術價值和面臨的挑戰也成為學者們越來越關注的問題。如果要展開討論當下語境中的數字人文,有必要進行一個回顧性說明,以探討作為一種知識生產轉型的數字人文并非僅僅是名稱上的創新,更是一種在新的數字語境中的自覺選擇。

二、前期中國“數字人文”實踐

在“數字人文”這個概念進入中國之前,國家機構、高校、圖書館、研究者及商業公司已經在關注數字轉向過程中所帶來的知識生產問題。 但在學術研究中,數字化資料和數據庫依然被認為是一種資料的提供方式而非知識生產本身。

最早以數字方式來處理中文文本的,是計算語言學。中國在20世紀下半期開展了相關的研究,例如1976年武漢大學語言自動處理研究組利用計算機統計老舍《駱駝祥子》的字頻。從1979年到1983年,有4個大型的現代漢語語料庫項目在中國大陸發展成型:武漢大學的漢語現代文學作品語料庫(1979年,527萬字)、北京航空航天大學的現代漢語語料庫(1983年,2000萬字)、北京師范大學的中學語文教材語料庫(1983年,106.8萬字)和北京語言學院的現代漢語詞頻統計語料庫(1983年,182萬字)。這些項目以高校為依托,以現代漢語語料為對象。1991年,國家語言文字工作委員會啟動了國家語料庫,推動包括語法、句法、語義和語用在內的現代漢語語法的研究。2003年,由國家973項目經費資助,中國中文信息學會語言資源建設和管理工作委員會發起了“中文語言資源聯盟”(Chinese Linguistic Data Consortium,CLDC),推動中文信息處理。*“中文語言資源聯盟”,http://www.chineseldc.org/cldcTest.html,最后登錄時間:2018-06-04,22:55。

除計算語言學外,另一個常常與人文研究結合、被認為是“數字人文”的技術和領域是地理信息系統與歷史地理信息系統 (Historical/ Geographical Information System)。其中可以作為例子的是臺灣“中研院”的“中華文明之時空基礎架構”(Chinese Civilization in Time and Space,CCTS) 和臺灣文化歷史地圖 (Taiwan History and Culture in Time and Space,THCTS)*中華文明之時空基礎架構”(Chinese Civilization in Time and Space,CCTS),http://ccts.sinica.edu.tw/ ;臺灣文化歷史地圖 (Taiwan History and Culture in Time and Space,THCTS),http://thcts.sinica.edu.tw/;最后登錄時間2018-06-04, 22:58。,復旦大學與哈佛大學合作的“禹貢”(CHGIS)*禹貢,http://yugong.fudan.edu.cn/views/chgis_index.php?list=Y&tpid=700,最后登錄時間:2018-06-04, 22:59。,中南民族大學文學與新聞傳播學院王兆鵬與“搜韻網”合作的“唐宋文學編年地圖平臺”*唐宋文學編年地圖平臺,http://sou-yun.com/poetlifemap.html,最后登錄時間:2018-06-04, 23:11。。這些項目以地理系統為依托,人文學家參與其中,試圖以地理框架來落實歷史文本信息,從而以新的時空觀來審視中國歷史與文化。

此外,還有一些研究型的學術數據庫,提供全文數據庫和基本的搜索功能,以便學者能開展相關的研究。比如:北京大學中文系開發的全唐(宋)詩分析系統(the TangSong Poem Project)、先在香港中文大學后遷至臺灣政治大學的“中國近現代思想史研究專業數據庫(1830—1930)”。它們的出現體現了學者在研究中的需求,也隱含著對當時已有的數據庫的一種補充性批判。這種自覺性可以從金觀濤、劉青峰兩位老師自1997年以來在香港中文大學建立的“中國近現代思想史研究專業數據庫(1830—1930)”*中國近現代思想史研究專業數據庫(1830—1930),http://www.cuhk.edu.hk/ics/rcccc/database/,最后登錄時間:2018-06-04, 23:15。及基于該數據庫開展的研究中略見一斑。1997年,金、劉尚未接觸到數字人文概念, 就啟動了一個名為“特定現代中文政治概念形式的量化研究”的項目,意圖對新文化運動期間最具代表性的12個中文期刊雜志中的文章進行量化統計和分析。在這個過程中,金、劉兩位老師意識到現代重要政治觀念的研究開展是可以通過對更大范圍內的文本進行檢索和分析來進行的,由此開展了持續20年的數據庫開發和研究工作,在2008年出版了《觀念史研究:中國現代重要政治術語的形成》。他們在臺灣政治大學開始使用數字人文方法,開展以關鍵詞列句為中心的觀念史研究,明確地與“量化歷史”劃清了關系。*金觀濤、劉青峰:《就觀念史研究再答張仲民先生》,《南方都市報》,http://news.gd.sina.com.cn/news/2010/09/19/1002985.html , 發布時間:2010年9月19日,最后登錄時間:2018-06-04, 23:17。

從1990年代開始,國家各大圖書館,以及一些商業公司開展了大量以數字化為基礎的檔案庫/數據庫建設。比如,上海圖書館的晚清期刊全文數據庫(1833—1911)和民國時期期刊全文數據庫(1911—1949,1—10輯)。它們利用上海圖書館的民國文獻資料,建立了兩個具有影響力的數據庫。資料庫建設更多是從圖書館的角度出發,建立數據庫,遵循檔案原真性原則,呈現給讀者的還是以編目為框架的結構化數據呈現。在這個數字化和編目的過程中,文字識別并沒有做到全文檢索,只是有限地從數字圖像中提取了文獻信息數據。對于該數據庫的用戶而言,數據庫本身提供的檢索能力有限,其最重要的意義在于作為一種可在線瀏覽的文獻呈現方式,使用戶得以看到作為證據的文獻的存在,而非深入地利用文本進行數據挖掘。這造成了早期圖書館數據庫與研究導向的數據庫之間的差別。

商業數據庫在近20年的發展豐富了數據庫的數量和種類。其中堪舉為例的是兩項中國古籍數字化工程:“四庫全書”和“中國基本古籍庫”。文淵閣四庫全書的電子版由香港迪志文化出版公司推出。在傳統中國的大型叢書中,《四庫全書》是第一套被數字化的,但就研究者而言,其編輯過程經過審查,內容有刪除或者修改的現象發生,這造成了研究者在使用上的障礙。自2001年開始,由北京大學等高校與北京愛如生公司合作建立的“中國基本古籍庫”,號稱囊括上萬本中國古籍、超過17億字的全文。這些大型商業數據庫在數字化方面起到了基礎性的作用,但因為各自商業利益的需求和數字版權的缺陷,使得商業型數據庫存在著發展無規劃、內容重復、數據不規范、數據質量參差不齊、文本數據挖掘不夠、用戶使用體驗差的問題。就中國近現代報紙而言,廣告基本數字資源的獲取并不便利。這一方面是因為中國近現代報紙的數量非常龐大,其保存地也相對比較分散,這就造成了學者在研究的時候獲取相應的資源不方便;另一方面是因為,盡管中國及國外很多機構,比如圖書館和一些商業公司對報紙進行了商業化,但這些數據庫大部分是收費的。這些數據庫的建設主要針對的是報刊上的新聞及評論文章,對廣告的內容加工和信息提煉不很充分,大部分都只有廣告中的一行字,沒有對具有研究價值的圖像等作進一步的分析。

三、中國“數字人文”機構建設及研究進展

2011年,武漢大學成立了中國第一家數字人文研究中心。*“武漢大學數字人文研究中心”,http://dh.whu.edu.cn/dh/web/index.html,最后登錄時間:2018-06-04,23: 19。2012年,在臺灣大學前圖書館館長項潔教授的帶領下,臺灣大學正式成立“數位人文研究中心”,并陸續建立了11個數據庫,包含超過600萬筆元數據、近3000萬張影像、近4億字全文,及數百小時影音資料。*“臺灣大學數位人文研究中心”,http://digital.ntu.edu.tw/introduction.jsp,最后登錄時間:2018-06-04,23: 21。臺灣大學發起的“數位典藏與數位人文”會議召集亞洲地區乃至全世界對中文數字人文研究感興趣的學者,每年在臺灣相聚,成為亞洲地區最大的數字人文國際會議。此后武漢大學、臺灣政治大學文學院、香港公開大學、南京大學等也紛紛成立相關的數字人文研究機構。盡管各個機構有大有小,有實有虛,但從體制上予以數字人文以認可,確是推廣數字人文最切實的舉措。

相應地,在近十年間,有關中文文本的數字人文研究項目紛紛凸顯出來。比如由哈佛大學、臺灣“中研院”和北京大學共同開發的“中國歷代人物傳記資料庫”(CBDB)。這是一個已經運作超過十年的國際合作項目,它的目標在于系統地收錄中國歷史上所有重要的傳記資料,并將數據開放供學術研究之用。截至 2016年,它共收錄超過37萬人的自7至19世紀的傳記資料。它的數據既可在線查詢,又可以下載,供用戶離線使用。研究者可以利用其中提供的大數據,進行相對復雜的查詢和分析。除了用作研究歷史人物的參考資料之外,還可作統計分析、地理空間分析與社會網絡分析之用,為中國史研究引入新視角。從2016年起,這個數據庫項目在中國連續舉辦了不少推廣活動,向學界介紹其資料特點和用法。

此外,還有為數不少的研究和電子化項目,許多國家社科基金項目資助學者建設各種專題數據庫。然而,不少學者還是覺得無從入手學習數字人文的最新動態,認為各個學術機構還可以投放更多資源,讓研究者學會如何在研究中利用新的數字化工具。比如,一般人文學者通常都熟悉在全文數據庫進行關鍵詞檢索,但對于其他可以用于研究的計算機工具還是很陌生。例如,要把自己搜集到的數據以GIS 方法畫一張電子地圖,就不是很多人能夠做到的。所以,推動數字人文的發展,與其停留在討論數字人文的理念,或介紹眾多數據庫和電子資源,不如注重實踐更有意義,例如培養制作可視化的技能,或傳授對數據進行分析、操作、解讀等技能。

數據的獲取和開放程度也是中國數字人文面臨的另一大挑戰。以中國古代典籍為例,數學化材料的獲得遠遠不足。各類古籍數據庫有許多,但數據共享的做法仍然非常罕見。許多數據庫都以商業模式運營,必須得到學術機構和研究者訂購,才能生存。這樣,它們的數據肯定不會完全開放。這對不同數字資源之間的協作造成一定障礙。對于費用高昂的數據庫,不少學校不能負擔,也是另一大難題。雖然如此,還是有一些機構希望推動開放數據的做法。例如上海圖書館建立了開放數據平臺,以關聯數據(linked data)的方式發布一些各個機構、項目都可調用的數據。同時,又創辦了應用開發競賽,開放了其館藏家譜文獻信息和內容信息,鼓勵參加者有創意地利用數據,從而發揮資源的最大價值。*“上海圖書館開放數據平臺”,http://data.library.sh.cn/,最后登錄時間:2018-06-04,23: 23。類似活動無疑有利于推廣數字項目,讓更多人了解數字人文的理念和成果。

四、當下中國“數字人文”研究的意義

伴隨數字人文在國內的日益熱門,也有不少學者提出疑問:數字圖書館、數字檔案館、數字標準化、計算語言學、GIS、HGIS,這些國內已經有學者做了很多年了,現在專門提“數字人文”有什么意義?“數字人文”強調的是面對尚未完成的數字革命中的知識生產方式轉型,推動面向未來的知識體系及方法的建構,其回應的是大數據時代基于學者導向(research oriented)的研究需求與基于資源共享的網絡基礎設施建設(cyber infrastructure),其建設的是面向數字原生代人類的認知方式系統與路徑。

首先,數字人文提供了數字時代的新的研究路徑與方法。比如,目前被使用最為廣泛的“詞頻分析”。從技術處理上看,中文與英文的詞頻統計是同一模式:列出所有文章中出現的詞匯,再統計其次數。但進行實際操作時,就有很多不同,英文需要處理同一詞匯的語法變形,而中文需要處理“斷詞”,可以運用自然語言處理(Natural Language Processing)和統計學方法進行斷詞。依據詞頻統計所做的研究,不僅僅可以做風格研究,而且可以從更大的范圍內開展思想史的研究。另外存在一種數字人文研究方法的可能性,是關于系統性發現大量資料內隱含的內部關系的,是比分詞更進一步的數據挖掘或者文本挖掘技術。這類技術在商業應用中已經較為多見,比如用以分析顧客的消費行為來進行購買推送。在中文的文本研究中,項潔教授開展的“類書”研究是比較具有代表性的案例。除此之外,數位人文研究中還較為普及的研究就是人際網絡研究,前文提到的CBDB近年來基于歷史文獻數據,開展了大量的社交網絡研究。

其次,數字人文從“基礎數據”的層面,實現真正的跨學科協同合作,并從方法和路徑的層面打通自然科學、應用工程、社會科學、人文科學和藝術的綜合研究,使得研究者從自身的學科立場出發,得以擴展到其他領域,并能以“問題導向”出發,與其他學者協同研究,實現研究層面的資源最大共享化、分析方法的最大通約化和知識內容的最大綜合化。近年來基于互聯網的數字人文社群討論和傳播,顯得非常融洽且富有活力。許多關于數字人文的學術交流和討論已經通過非傳統的渠道進行,并受到眾多學者的關注,逐漸形成一種跨領域、跨專業、跨地區和跨平臺的學術共同體。

第三,數字人文將科學嚴格的系統性、明晰性和方法的規范性帶入人文研究領域。這是在不可逆的數字技術所構成的人文研究的基礎條件和環境中所作出的必然回應。數字人文近年來的“數據/算法驅動”盡管存在“技術黑箱化”支配下的盲目樂觀/悲觀主義,即簡單地將數字人文等同于算法或者數據,或者將數字技術的能力夸大到可以迅速地、高效地解決一切人類世界問題;然而,數字技術的高度滲入化和大數據的發展確實已經為人文研究提出了新的挑戰,而這需要一種新的知識生產范式的介入。

第四,數字人文以“實踐性”的方式塑造了新一代數字人文學者。西方學者拉姆齊(Stephen Ramsay)提出數字人文學者必須具備寫代碼的能力(即使是在數字人文界,實際上也不是所有人都具備編碼能力)。他所提出的廣義數字人文實踐者的概念,也值得我們借鑒。*Stephen Ramsay , Geoffrey Rockwell, “Developing Things: Notes toward an Epistemology of Building in the Digital Humanities”, Debates in Digital Humanities, University Of Minnesota Press, the online access link:http://dhdebates.gc.cuny.edu/debates/text/11, 2012.這樣,就泛化了“數字”所指涉的范圍,使得它不僅包括XML 、XSLT、GIS、R、CSS 和C這樣的編程語言,也包括利用軟件開展相關研究,甚至開發軟件。這就將使用軟件來進行研究的學者、以軟件來進行知識傳播與管理(圖書館員等)以及發明軟件的人(工程師)等都納入了數字人文群體之內,為在更大范圍內重新塑造新一代數字人文學者提供了一個很好的參考框架。尤其考慮到西方乃至中國大學近年來高度專業化、體制化和企業化的特點,強調具有“實踐性”的數字人文群體有利于擴大學術生產的原動力、提升學術的多樣性和促進學術研究的協作性。這也將促進新一代人文社科研究生的培養。我們不能被動地認為數字原生代一定或者自然而然地具備數字思維,事實上,他們也是需要培訓和引導的,而這也正是數字人文具有廣闊而光明的未來的可能性所在。青年一代將會比我們更加了解未來的數字社會,也更加需要掌握數字知識生產的基本思維、理論反思以及研究方法與工具。

猜你喜歡
數據庫研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 老司机久久99久久精品播放| 亚洲国产日韩在线成人蜜芽| 久久青青草原亚洲av无码| 亚洲中文无码av永久伊人| 国产精品刺激对白在线| 亚洲a级在线观看| 国产女人爽到高潮的免费视频| 制服丝袜国产精品| 亚洲国产天堂久久综合226114| 亚洲国产精品国自产拍A| 无码人中文字幕| 99国产精品国产高清一区二区| 欧美成人午夜影院| 国产精品性| 永久免费av网站可以直接看的 | 日本人真淫视频一区二区三区| 成人在线欧美| 久草视频精品| 99青青青精品视频在线| 精品无码国产一区二区三区AV| 女人一级毛片| 亚洲va在线∨a天堂va欧美va| 中文字幕无码制服中字| 天天综合网色中文字幕| 999国产精品永久免费视频精品久久| 国产精品爽爽va在线无码观看 | 国产精品刺激对白在线| 亚洲香蕉在线| 国产精品综合久久久| 欧美国产在线精品17p| 亚洲天堂网在线视频| 伊人精品成人久久综合| 97超爽成人免费视频在线播放| 国内精品视频在线| 青青操国产| 亚洲国产第一区二区香蕉| 好吊日免费视频| 日韩精品免费在线视频| 亚洲精品波多野结衣| 亚洲欧美日韩动漫| 9久久伊人精品综合| 在线日本国产成人免费的| 日韩东京热无码人妻| www.91中文字幕| 国产成人亚洲精品蜜芽影院| 亚洲精品国产日韩无码AV永久免费网 | 亚洲色图欧美一区| 日韩美毛片| 欧美日韩免费在线视频| jijzzizz老师出水喷水喷出| 亚洲成a人片在线观看88| 天天躁狠狠躁| 中文毛片无遮挡播放免费| 综合色区亚洲熟妇在线| 国产一级α片| 欧美不卡在线视频| 免费一级α片在线观看| 国产91蝌蚪窝| 久久亚洲黄色视频| 一区二区三区成人| 国产精品亚洲va在线观看 | 亚洲成A人V欧美综合天堂| 亚洲国产成人精品一二区| 久久黄色毛片| 久久久波多野结衣av一区二区| 2021国产精品自产拍在线观看| 91精品伊人久久大香线蕉| 欧美不卡视频一区发布| 国内精自线i品一区202| 一级毛片在线直接观看| 亚洲 欧美 中文 AⅤ在线视频| 久久人搡人人玩人妻精品| 无码专区在线观看| 欧美一级在线看| 国产永久在线观看| 免费A级毛片无码无遮挡| 国产原创自拍不卡第一页| 综合网天天| 午夜人性色福利无码视频在线观看| 麻豆国产在线观看一区二区| 精品国产网| 免费国产黄线在线观看|