999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代下的歷史研究

2016-11-26 14:46:54馬建強
社會觀察 2016年2期
關鍵詞:數據庫時代研究

文/馬建強

大數據時代下的歷史研究

文/馬建強

隨著互聯網、計算機技術的發展,大數據時代對歷史研究的沖擊在所難免,歷史學也面臨挑戰與機遇并存的命運。當前內容龐大、功能多樣的數據庫與日俱增,歷史研究所面對的數據環境越來越健全。面對這樣的學術環境,一些學者提出了對歷史學發展的思考,一些學者則憑借大數據時代的獨特環境,開展了一些新的史學研究實踐。大數據時代中的歷史研究是一條正在探索的道路,計算歷史學可能會成為歷史研究發展的一個趨向。

建設與嘗試:歷史學研究中的“大”數據運用

面對大數據時代對史學的沖擊,史學界已然進行了一些勇敢的建設與嘗試。所謂的“建設”是以積極心態為營造更好的數據環境而進行的建設;所謂的“嘗試”是在大數據時代的環境下進行史學研究的新嘗試,主要是利用海量網絡數據以及規模較大的“數據庫”進行。

在數據環境的建設方面,臺灣地區是先行者,最先開始探索以實現全文檢索為目標的古籍數字化。早在1985年,臺灣“中央研究院”歷史語言研究所便啟動了“漢籍電子文獻資料庫”的建設工作,內容包括“二十五史”“十三經”,以及“超過兩千萬字的臺灣史料、一千萬字的大正藏”、道藏、清代經世文編等大型類書、叢書,收入典籍達460多種,計4億多字。1999年香港迪志文化出版公司出版“文淵閣四庫全書”電子版,該數據庫以超過7億字的規模成為當時最大的數據庫。進入21世紀,以全文檢索為基礎的數據庫發展迅猛。臺灣雕龍中國古籍全文檢索數據庫起始于2001年,在2013年時已聲稱收入古籍文獻約20000多種,近25億字,且以每年新增5000種文獻10億字的速度遞增,數年后將成為全球第一的超大型中國古籍全文檢索數據庫。

大陸方面在數據環境建設的方面起步晚于港臺,但是近年來成果顯著。在古籍數字化方面成就最為突出的是北京愛如生公司。2001年該公司與北京大學劉俊文教授合作,研發制作“中國基本古籍庫”,該庫分4個子庫、20個大類、100個細目,精選先秦至民國歷代重要典籍,總計收書1萬種,單庫全文超過17億字。目前愛如生公司已陸續推出包括中國近代報刊庫、中國方志庫、中國譜牒庫、中國類書庫等在內的大型數據庫14個;包括四庫系列、別集叢編系列、歷代碑志系列、地方文獻系列等在內的9個系列共82個專題數據庫;包括明清實錄、永樂大典、四部叢刊等在內的數字叢書庫50個。另外還有“原文影像版數字原典”產品8個、“全文檢索版拇指數據庫”9類1000個產品。由北京時代瀚堂科技有限公司推出的《瀚堂典藏》,分為古籍數據庫、近代報刊、民國文獻大全三大主體部分。全庫共包含有15000多種古籍,25000種民國報紙期刊,近4000萬條記錄,漢字總量超過40億。近年來湖南青蘋果數據中心有限公司提出創建“華文報刊文獻數據庫”計劃,將從清朝嘉慶年間至今兩百年的4000種報刊中挑選十分之一進行數字化,形成擁有4000億漢字和4億篇文章的海量歷史文獻庫。

以上僅是能實現全文檢索的大型綜合數據庫,除此以外,還有規模較小的全文數據庫,如書同文古籍數據庫、中華經典古籍庫;或專題數據庫,如中國金石總錄數據庫、東方雜志全文數據庫;以及不能實現全文檢索的大型數據庫,如“大成故紙堆”系列數據庫、晚清期刊全文數據庫(1833-1910)、民國期刊全文數據庫(1911-1949),中美百萬冊數字圖書館、國家圖書館民國圖書、民國期刊數據庫、讀秀學術搜索,等等。在企業行為之外,史學界也對數據建設進行了探討。2013年8月,教育部社會科學委員會歷史學學部年度會議進行了“歷史資料的整理、研究和數字化建設”的專題研討。2010年以來國家社科基金支持的以數據庫建設為核心的文史研究項目就有近70項,其中隸屬于“中國歷史”學科門類的重大項目有6項、重點項目1項、其他類別2項。

雖然目前數據建設還未臻成熟,但是史學界一方面已經認識到了建立相關專業數據庫的重要性,同時也意識到數據庫對推動研究的促進作用。伴隨著日益豐富的數據環境,有一些史家利用數據庫或創建數據庫展開新的研究嘗試,獲得史學研究的新突破或開創了新領域,涌現出一些代表性的成果。

首先是臺灣黃一農教授提出的“e考據”。自2005年以來,黃教授始終號召并實踐著這種“大數據時代”的文史研究方式。在筆者對黃教授的訪談中,黃教授提出“e考據”并不僅僅是一種研究方法,并且還應該是一種融通數位與傳統的研究態度。“e考據”是在e時代作考據,而并非只是用e的方法作考據。以“e考據”的學術方法和學術態度,2010年黃教授從原本非常熟悉的科學史、中西文明交流史跨入了被認為已遭遇研究困境的“紅學”這個陌生的領地。5年后他出版了第一部紅學專著《二重奏:紅學與清史的對話》,這項研究為原本被認為已無多少新材料會出現的“紅學”挖掘出一批過去不為人知的真實可靠的新史料,并填補諸多歷史細節的隙縫,使得“紅學”與“清史”之間的隱秘聯系被彰顯出來。這本著作既是“清史”與“紅學”的“二重奏”,也是數位與傳統的“二重奏”,是一部充分展現“e考據”典范的力作。

第二,在文學史研究領域,以武漢大學王兆鵬教授為代表的團隊,自2005年開始嘗試以數據計量分析唐詩名篇的影響力,并陸續擴充數據、完善統計方法。2011年出版了《唐詩排行榜》一書,對外公布了該團隊研究成果的第四個版本。著名的文學史家傅璇琮先生評價該研究說:“這是一部既有傳統深厚理論依據,又處處洋溢著現代學術新意的著作。這部著作從傳播和接受的角度,依詩作影響深度和廣度的標準對有唐三百年間的詩歌第一次進行了令人信服的排行,這種研究方式和文本呈現,無論在理論拓展還是實踐創新方面,都具有開創性意義。”考察王兆鵬教授團隊研究的內在理路,其學理依據仍然是文學史研究中的傳播、接受理論,而在方法上則是利用了新時代才能實現的依托于數據庫的計量分析。雖然該研究也遭到來自各方對于數據量、計算方式等的質疑,但是我們也應該看到,在文學史研究領域中,古典文學數字化與定量研究這個議題逐漸被更多的文學史研究者關注、認同并加入其中。

第三,以金觀濤、劉青峰的《觀念史研究》一書為代表的數據庫關鍵詞詞頻統計、語義分析與觀念史研究。作者借助于內容達一億兩千萬字的“中國近現代思想史專業數據庫(1830-1930)”進行觀念演變的探討。作者認為這種研究得以展開的前提便是“歷史文獻向數碼化的方向發展”,“原則上講,研究者可以通過建立包括過去所有文獻的專業數據庫,采用數據挖掘方法,把表達某一觀念所用過的一切關鍵詞找出來,再通過核心關鍵詞的意義統計分析來揭示觀念的起源和演變”。這種數據庫方法將觀念史從思想史的附庸中解放出來,獲得了獨立的生命,也避免了過去以核心人物、經典為本為中心的思想史研究的局限。觀念史的研究更能夠體現思想發展的一般性特征,使思想史成為可以檢驗的。這種可檢驗性當然取決于數據庫與計算機的數據挖掘能力。但是作者也承認,在整個研究過程中,數據庫與計算機并非是唯一的全程參與者,“最重要的仍是研究者能否有效地利用挖掘出的大量數據,結合歷史背景和文本結構分析,概括出某一時代某一普遍觀念的理想類型,這依然是思想史研究的基本方法”。

第四,以李中清、梁晨為代表的研究團隊以“量化史學”的方法和“群體史學”的眼光進行中國教育精英研究。2013年兩人曾出版《無聲的革命:北京大學、蘇州大學學生社會來源研究(1949-2002)》一書。在2015年11月7日的北京論壇史學分論壇上,李中清教授以《中國教育精英四段論》為題首次向國內外聽眾介紹了這項研究,認為:“1865-1905年,即清政府廢除科舉之前,超過70%的教育精英是官員子弟,來自全國各地的‘紳士’階層;1906-1952年,超過60%的教育精英是地方專業人士和商人子弟,尤其是江南和珠三角地區;1953-1993年,約超過40%的教育精英是來自全國的無產階級工農子弟;1994-2014年,超過50%的教育精英來自各地區的有產家庭,與特定的重點高中。”該研究依托于李中清、康文林領銜的“基于個人層面的、從1760年至今中國教育精英社會與地區來源的數據庫”。

第五,由哈佛大學燕京學社、臺灣“中研院”史語所、北京大學中古史研究中心合作的“中國歷史人物傳記資料庫”(China Biographical Database Project,簡稱CBDB)及基于此數據庫的相關研究。截至2015年4月,該數據庫共收錄約360000人的傳記資料,這些人物主要出自7-19世紀,目前數據庫正在收錄更多的明清兩代人物傳記資料。CBDB相較于一些企業開發的全文數據庫來說,在數據結構上更加復雜、精細。研發者將歷史事件轉化為結構化數據,數據架構由人物、親屬、非親屬社會關系、社會區分、人仕途徑、宦歷、地址、著述等部分構成。通過這種結構化數據的提取、分析,研究者可以據此對歷史人物進行群體研究,能夠得到相關人物、事件的空間分布以及復雜的社會關系網絡。相對于一般的數據庫,該數據庫可以實現更深層次的數據挖掘。同時也提供了一個計算機處理語義復雜的漢語文言文文本的示范,使得長時段的量化研究、空間分布研究可以實現,并從社會經濟史領域擴展到政治史甚至是思想史領域的研究中,對于開啟未來研究新方向很具啟示意義。

傳承與開創:“大數據時代”與歷史學的前瞻

第一,大數據時代帶來歷史學方法論預流與范式突破。1930年,現代著名史家陳寅恪在為陳垣《敦煌劫余錄》所寫的序中提出了一個著名的觀點。他說:“一時代之學術,必有其新材料與新問題。取用此材料以研究問題,則為時代之新潮流。治學之士,得預此潮流者,謂之預流。其未得預者,謂之未入流。此古今學術史之通義,非彼閉門造車之徒,所能同喻者也。”陳寅恪從新的學術材料的發掘以及由此產生的新問題來前瞻學術的發展趨向,將進入這個時代新潮流的學術稱之為“預流”。伴隨著計算機、互聯網技術的發展,大量的數據庫層出不窮,歷史存留的文獻也正在被夜以繼日地數字化,我們明顯感受到了未來文獻載體數字化的這種強勁趨勢。大數據時代伴隨著新的文獻載體,史學研究的新方法論也正在形成。借用陳寅恪的“預流”觀,我們發現,大數據時代下史學方法論的新潮流也正在成型,今天文史學界正經歷一場由技術革新帶來的方法論預流。

1962年,美國科學哲學家托馬斯·庫恩在《科學革命的結構》一書中系統提出范式理論。范式通常是一套學術共同體共同遵守的研究體系,它是當時一切研究的顯著模式并為后來研究發展提供空間。當范式發生突破,便出現科學革命。借庫恩的“范式理論”來理解歷史學的學科前瞻,可以認為大數據時代利用計算機、互聯網以及大型數據庫來獲取史料、挖掘分析史料信息的一套思維和方法也將成為史學研究的一種新范式。這種范式的形成將會帶來全新的學術問題、學術理念、學術思維、學術視野以及學術方法、學術形態。從一定程度上說,大數據時代正是歷史學范式突破的一個契機。

第二,計算歷史學可能成為大數據時代史學的新趨向。在社會學領域,羅瑋、羅教講的《新計算社會學:大數據時代的社會學研究》一文將新計算社會學(new computational sociology)這一概念介紹給了中國學者,產生了廣泛的學術影響。作者認為:“新計算社會學是當代社會學界借助計算機、互聯網與人工智能技術等現代科技手段,利用大數據、新方法來獲取數據與分析數據,從而研究與解釋社會的一種新的范式或思維方式。”

筆者認為,“計算歷史學”應該與“新計算社會學”相似,可能成為超越“計量史學”的大數據時代下的史學發展新趨向。“計算歷史學”所能夠實現的前提是計算機科學、互聯網、大數據以及人工智能技術等在歷史學研究方面的有效利用。史學界對于“計算歷史學”的認識與建設也會伴隨著大數據時代下相關技術的進步、數據的完善、研究的推進而不斷深化。“計算”最終將遠遠超越“統計”“計量”,體現出人類借助于技術而實現的對歷史文本、信息、數據更強大的挖掘、分析能力,彌補人腦在面對龐大信息時搜集、分析上的自然局限。正如上文所述,當前借助于“大數據”的一些歷史研究新嘗試所示,通過豐富的互聯網資源,建設龐大、精準甚至結構化的數據庫,能讓歷史研究者為進入研究困境的學科開創新局,能處理過去無法處理的學術議題,能獲得過去人類自身認識局限所不能認識到的問題,也能啟發研究者開拓更多的新研究空間。

第三,研究者的主體地位與溫故知新的學術態度仍然重要。中國傳統文史學界將“博雅”視為一個崇高理想,“博雅”實際體現的是人對史料的吸收記憶范圍之廣,運用處理能力之強。錢鐘書以《管錐編》《談藝錄》兩部經典著述成為20世紀文史學界“博雅”的典范。在今天有人質疑錢鐘書的價值,認為其無非是一個“電腦數據庫”。不過吊詭的是,因“博雅”而被稱為“電腦數據庫”的錢鐘書在1984年便開始倡導將計算機技術引入古典文獻的搜集、疏證和整理中來,并且規劃指導了“中國古典數字工程”。錢鐘書非常注重計算機技術在文史研究中的運用,同時也認為:“實踐證明,能幫助人的計算機需要人的更多的幫助。”作為一個具有深厚文史積淀的前輩學人,錢鐘書超前又辯證地提出了對未來文史領域中人與計算機技術之間關系的思考。

“計算歷史學”作為大數據時代中歷史研究的思維和范式,研究者在探索的過程中既要注重開創也要注重傳承,應該有“溫故知新”的學術態度。所謂的“故”既包含傳統研究的學術方法和學術積累,也包括大數據時代下陸續開展的種種史學研究的新嘗試所積累的經驗與教訓。所謂的“新”則是不斷發展的計算機技術、互聯網技術、人工智能技術,以及與日俱增并不斷系統、完善、精確的數據環境,以及在此基礎上的新問題、新思維、新視野,它是永遠面向未來開放發展的。在充分溫故的前提之下,不斷地知新,不斷地積累經驗、教訓進行再創造,使“故”與“新”之間保持一種健康有序的互動、動態和諧的傳承。

大數據時代的歷史研究沒有特別的捷徑,需要史學工作者的勤勉與努力,嚴謹厚重仍然是歷史學的特點。研究者在面對新的學術環境時必須有方法論更新的自覺和勇氣,也必須有全新的歷史思維和問題意識,大數據時代既帶來了研究的便利,也給研究者施加了新的研究壓力。計算機能夠幫助人,但同時它幫助人的能力更需要通過人的幫助來不斷提高。面對新環境更好地發揮人腦的主動性、創造性,引導計算機、互聯網、人工智能技術配合歷史研究發展,積極地面對并建設歷史研究所需要的數據環境,更是這一代歷史學者的使命。

(作者系湖北大學中國思想文化史研究所博士生、武漢大學社會發展研究院大數據與計算社會科學研究中心跨學科團隊研究人員;摘自《學術論壇》2015年第12期;原題為《計算歷史學:大數據時代的歷史研究》)

猜你喜歡
數據庫時代研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
數據庫
財經(2017年2期)2017-03-10 14:35:35
e時代
足球周刊(2016年14期)2016-11-02 10:56:23
e時代
足球周刊(2016年15期)2016-11-02 10:55:36
e時代
足球周刊(2016年10期)2016-10-08 10:54:55
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 亚洲国产成人久久精品软件| 免费国产高清视频| 国产成人三级在线观看视频| 91在线无码精品秘九色APP| 四虎精品黑人视频| 亚洲精品制服丝袜二区| 国产免费福利网站| 欧美成人一级| 国产交换配偶在线视频| 午夜高清国产拍精品| 妇女自拍偷自拍亚洲精品| 国产午夜无码专区喷水| 乱人伦99久久| 国产手机在线小视频免费观看| 最新国产麻豆aⅴ精品无| 97久久人人超碰国产精品| 成年看免费观看视频拍拍| 日韩欧美中文字幕在线韩免费| 免费毛片网站在线观看| 第一页亚洲| 无码粉嫩虎白一线天在线观看| 国产午夜在线观看视频| 欧美自慰一级看片免费| 国产网友愉拍精品视频| 国产又粗又猛又爽| 精品国产中文一级毛片在线看| 人妻出轨无码中文一区二区| 亚洲美女一区| 国内毛片视频| 69视频国产| 中文字幕有乳无码| 在线无码九区| 国产99视频精品免费观看9e| 国产成人高精品免费视频| 久久久久亚洲AV成人人电影软件| 无码国产偷倩在线播放老年人| 久久精品午夜视频| 成人亚洲视频| 波多野结衣久久精品| 亚洲an第二区国产精品| 久久综合国产乱子免费| 国产簧片免费在线播放| 国产一级妓女av网站| 91欧美亚洲国产五月天| 欧美国产另类| 无遮挡国产高潮视频免费观看| 欧美成人亚洲综合精品欧美激情| 激情视频综合网| 四虎永久免费地址| 伊人无码视屏| 亚洲美女视频一区| 亚洲Av综合日韩精品久久久| 伊人网址在线| 99精品国产电影| 日韩大乳视频中文字幕 | 亚洲va视频| 国产精品手机视频| 国产嫖妓91东北老熟女久久一| 国产chinese男男gay视频网| 久久久久久久久18禁秘| 色婷婷在线播放| 人妻中文久热无码丝袜| 91欧美亚洲国产五月天| 国产精品香蕉在线| 婷婷激情亚洲| 国产人妖视频一区在线观看| 欧美区在线播放| 久久不卡国产精品无码| 国产精品刺激对白在线| 欧美a级完整在线观看| 亚洲天堂网在线观看视频| 久久婷婷五月综合色一区二区| 五月婷婷综合网| 激情乱人伦| 亚洲天堂日韩av电影| 国产91无毒不卡在线观看| 四虎精品国产AV二区| 精品国产成人国产在线| 欧美成a人片在线观看| 欧美一区二区丝袜高跟鞋| 欧美日本激情| 精品小视频在线观看|