■ 王國燕 沈佳斐
大數據時代的到來,為人文社會科學的量化實證研究提供了更多可能。2011年Science上發布了關于Google Books的封面文章并推出同一系列的3篇論文,從概念、意義到實證層面宣布剛建成的谷歌數字圖書館對人類文化歷史定量研究的重要價值,并提出文化組學(culturomics)的概念和方法。這是一個由“文化(culture)”和“基因組學(genomics)”組成的合并詞,社會學家讓·巴蒂斯特·米歇爾及其合作者對其定義為:文化組學是指通過大規模數據文本的量化分析,對人類文化行為和歷史趨勢展開計算詞匯學的研究方法。米歇爾等人通過對谷歌數字圖書館掃描的500萬本歷史圖書數據進行數據分析與挖掘,采用多元詞匯Ngram分析,通過特定語言和詞匯在人類文明史上的出現頻率的檢索測試出人類文化演變的趨勢①。谷歌圖書大數據的到來,使得有學者感慨傳統歷史學家快丟掉飯碗了②。
許多未知事件通過媒介大數據信息可以進行很好的預知。美國東北大學巴拉巴西教授等人(Albert-László Barabási)通過對匿名移動電話用戶的活動模式進行研究,發現人類93%的行為是可被預測的③。在文化組學2.0項目中利塔如(Kalev H.Leetaru)通過對媒體信息與印刷品的數據庫分析,成功預測了2011年的“阿拉伯之春”事件,以及本·拉登(Osama Bin Laden)的生前藏身地阿伯塔巴德(Abbotabad),而且誤差僅在半徑124英里范圍內④。作為一種長時域序列分析工具⑤(谷歌圖書語料庫的訪問工具,根據輸入內容生成時間序列趨勢圖⑥),在最近幾年間,谷歌數字圖書館的詞頻分析視窗Google Ngram Viewer通過對海量書籍中文字內容的分析,已在人文社科的多個領域進行了初步探索與研究。在心理學領域,國際上有像奧什(Oishi S.)等人探尋了幸福概念中的文化和歷史變遷⑦,國內也有像曾榮等人探討了中國文化價值觀的變化以及價值觀與生態轉變(城市化、經濟發展和高等教育招生)之間的關系⑧;在經濟文化方面,國際上有像本特利(Bentley R.A.)等人對于20世紀美國經濟大蕭條與悲觀性詞匯之間的相關性研究⑨,國內也有像陳云松等人研究了20世紀宏觀經濟條件與公眾對社會階層認知的關系⑩;還有像博漢農(Bohannon J.),卡斯伯(Kesebir P.),蒙塔涅(Montagne M.)等人進行了多領域、多方面的詳盡論述。而在傳播學領域,本文是基于谷歌數字圖書館對于傳播學的首次文化組學分析研究。
人類知識信息總量的指數級增長,為大數據時代奠定了實質基礎,技術的不斷演進掀起了大數據量化研究的熱潮。一些學者用“V”的概念將大數據的特點歸納為數量(Volume)、速度(Velocity)、類型(Variety)、價值(Value)與準確(Veracity)。從蘇美爾泥石板至今,人類已“出版” 7.5億篇論文和文章,2500萬首歌曲,5億張影像,50萬部電影,300萬部錄像、電視節目和短片以及1000億個公共網頁。隨著互聯網等技術在各領域的快速發展運用,海量數據正在被不斷生成,今天度量數據存儲的大小已經到了Tb級和Pb拍級,甚至到了Eib艾級(2的60次方)。
龐大的數據信息見證了人類發展史上的演變,信息科學更是為揭示信息內容背后的客觀規律打開大門。文字內容作為承載人類歷史信息的主要形式,其中的許多詞匯已被傳承了幾百年甚至上千年,書籍作為文字所依附的載體,更是體現了從個人層面(作者)到群體層面的文化變遷(人類語言的使用趨勢)。因此,書籍的信息數據計算分析在近十年得到了不斷的推進,國際上有像谷歌、雅虎、Ask與MSN這樣的搜索引擎開始對書籍進行數字化,數以千萬計的圖書被掃描后存儲在數據庫中,并且通過搜索技術可抓取或閱讀任何已掃描的圖書文本。在中國也有像超星這樣的公司,更是在早期就建立起了數字圖書館以及提供數字化服務。書籍背后所蘊藏的大量數據信息對于社會文化的量化研究具有重要的意義。
谷歌在2004年法蘭克福書展上啟動了谷歌圖書館計劃,試圖掃描自古登堡印刷術發明以來全世界所有的印刷書籍,同時,其也整理了保留至今的所有圖書清單共計1.3億本,其中排除了已被焚毀的曾經世界最大的亞歷山大圖書館。隨著該龐大語料庫的發展推進,很快燃起了數字人文學科黃金時代的希望,它將打開歷史文化的新篇章。2011年,米歇爾(Jean-Baptiste Michel)等人基于500多萬種(5195769種)掃描質量較高圖書的語料庫,在《科學》雜志上發表了題為《使用百萬數字化書籍的文化定量分析》(Quantitative Analysis of Culture Using Millions of Digitized Books)的重要論文。截至2012年7月谷歌語料庫最新版(繼2009年7月后第2版),谷歌已對超過3000萬種書籍進行了掃描識別,占到現存所有歷史圖書的23%。其中可供全文檢索分析的達到800多萬種(8116746種),詞匯量高達8613億,且語料庫還將被繼續更新。新版谷歌圖書語料庫時間跨度從1500年至2008年,從早期的幾十年每年只有幾本書數十萬字,到1800年,語料庫就增長到每年9800萬字,到1900年達到18億,再到2000年的110億,人類知識信息的體量與日俱增。因此,Google 數字圖書館龐大的谷歌語料庫為洞察百年文化變遷提供了可能,其也是目前為止最大的數字化圖書數據庫。
大數據在社會學科中的運用越來越廣,正在使傳統的實證研究發生著重大變化,這一趨勢驗證了哈佛大學加里·金(Gary King)早在2009年的預言。書籍作為人類歷史文化思想的重要載體,其背后的大數據不僅反映書籍作者個人的觀點,更能體現一群有影響力人的價值觀與思想態度的變化,以及閱讀群體的興趣偏好,這些語言文字信息反映了整個社會群體的思想體系。對數個世紀海量書籍的數字化,通過關鍵詞的詞頻(給定年份中關鍵詞的實際數除以該年份中語料庫的總數)計算分析,可以折射出其相關方面的文化趨勢并進行定量研究,這被認為是最簡單、最公正的方式。本文依據谷歌圖書千億級語料庫,對傳播學關鍵詞進行詞頻分析,以更加直觀的形式來展現傳播學發展至今的內在變化趨勢與規律。
在Google圖書館推出的詞頻瀏覽視窗“Books Ngram Viewer”中,可以圖示形式顯示選定年間圖書中的詞頻趨圖。谷歌因在快速推進圖書數字化的過程中,受到了版權問題的困擾,尤其是美國1998年的《版權期限延長法案》(Copyright Term Extension Act),將版權延長至作者去世之后70年。這使得閱讀圖書全文需要得到授權或者付費。但“Books Ngram Viewer”并不直接提供圖書全文,而通過全文檢索分析得出詞頻數據,從而回避了版權問題。谷歌將其語料庫中海量的文本進行切分、斷句創建單獨的記錄,在計算機科學中將其稱為n元詞組(n-gram),例如“communication”為1元詞組,“big data”為2元詞組,“Google Ngram Viewer”則為3元詞組,該工具最多支持5元詞組的檢索,同時詞組只有在當年語料庫中出現超過40次才會有數據點,否則將被忽略不計,這既有利于最終數據分析圖的簡潔明了,又有助于提高關鍵詞的精度,排除低頻詞的影響。在檢索過程中,允許同時檢索對比12組關鍵詞,每組關鍵詞之間用英式逗號隔開,且關鍵詞能夠區分大小寫,對于不區分大小寫形式的關鍵詞數據點合集采用(ALL)的形式加以辨別,支持英語、漢語、法語、德語、希伯來語、意大利語、俄語、西班牙語8種語言的檢索。針對檢索結果,可對曲線進行平滑處理,以1900年平滑3為例,意味著1900年顯示的數據為其前后各3年原始數據一共7年的平均值(1897、1898、1899、1900、1901、1902與1903的均值)。
在關鍵詞的選取上,本研究主要參考了胡翼青的《西方傳播學術史手冊》、董璐的《傳播學核心理論與概念》、周慶山的《傳播學概論》、李正良的《傳播學原理》、段鵬的《傳播學基礎:歷史、框架與外延》與張邁曾的《傳播學引論》等工具書與教科書,并未選用傳播學理論專著,原因在于:一是教科書相對于傳播學著作要少得多,而且條目結構歸類更為明確,有利于關鍵詞的選取定位。二是教科書對于學科的理論基礎知識歸納更為清晰,提煉更為精簡,有利于關鍵詞信息的梳理總結。在語料庫的語種選擇上,英語作為近百年來國際通用語言,詞匯量接近5000億,遠超其他語種,對于西方的知識體系具有足夠的代表性,因此本研究選用英語語料庫作為分析對象。在時間跨度的選取上,考慮到傳播學誕生于20世紀初期,我們將檢索時間選取在1900至2000年,而Google Ngram Viewer的時間跨度為1500-2008,未取到2008年原因在于:一是Google在2000年后調整了選取書籍的方法,易使樣本的統一性受到破壞,樣本分布出現偏差。二是2000年之后,谷歌圖書語料庫還在對2000年之后的圖書進行更新數字化,樣本不具有一定的代表性。同時將平滑參數設為默認值3,這使得生成的文化轉變圖像看上去更像我們日常生活中熟悉的經濟現象趨勢圖,更加美觀。
1.傳播媒介受技術發展推動呈多元化、多感官形式發展
20世紀,人類社會政治、經濟、技術等多方面因素發生形式變革,對于傳播學的形成與發展產生了巨大影響,同時在傳播過程中承載信息的重要物質工具——傳播媒介,其也在不斷進行著更替與豐富,從傳統的印刷媒介發展到電子媒介再到如今的新媒介,信息內容傳播的時效性越來越強,傳播的覆蓋面越來越廣,加速了信息時代的到來。
隨著媒介形式的不斷多樣化,信息內容的獲取不再掌握在少數人的手中,更大的社會需求反之也在不斷催生著新媒介的產生,這一過程同時也見證著人類技術文明的發展史。從印刷術的發明到電子技術的出現再到計算機的網絡互聯,圖1A中比較了印刷媒介(書籍、報紙、雜志)、電子媒介(廣播、電視、電影)與新媒介(互聯網)八種較為常見的傳播媒介形態,可見:一是書籍仍然是人們傳播信息、獲取信息的的主要媒介,是最重要的載體,并且長期處于相對穩定的狀態。二是除了電報呈現衰弱趨勢外,其余傳播媒介形態按目前的發展還未出現某種媒介取代另一種媒介的現象。從語言、文字的產生到印刷術的出現,人類經歷了早期較為重要的傳播媒介形態的飛躍,以報紙為參考,比較在第四次媒介革命中出現的廣播和電視,以及第五次媒介革命中的互聯網之間的發展狀況(圖1B),幾乎出現于同一時期的廣播(聽覺)一開始發展迅猛,后期逐漸被電視(聽覺、視覺)超越,在信息的傳播過程中,從單一的聽覺到更加直觀的視覺感官加入,傳播媒介豐富了人獲取信息的通道。直到更加多元化的互聯網媒介出現,其在20世紀后期表現出強勁的生命力,也有人預言:“以互聯網為主體的新媒介將取代傳統媒介”,這在本研究中還未能看到互聯網的鼎盛時期,同時之前的其他媒介也未都表現出衰退趨勢,還需時間的檢驗。而每一次新媒介形態的出現都帶來先前媒介的震蕩下調,并最終形成各種主要媒介的差異化功能定位,從而找到自己無法被取代的生存價值。

圖1 傳播媒介發展變化趨勢圖
圖左上角數字(1e-4=10-4)是詞頻的單位,表示每10000萬本書中關鍵詞被提及的次數,即當年出版的所有新書中被檢索到的百分比,下同。
2.傳播學代表人物的影響力與其政治地位具有正相關性且成名年限在不斷縮短
傳播學自從最早在美國孕育誕生以來,百年的歷史發展脈絡中已形成眾多流派,其中主要以美國學者為主的經驗學派和以歐洲學者為主的批判學派,在眾學派中也不斷涌現出眾多傳播學大家,對于傳播學的發展起到了至關重要的作用。
1980年,施拉姆(Wilbur Schramm)在《美國傳播研究的開端》(The Beginning of Communication Study in America)一文中高度評價了傳播學的四大奠基人:拉斯韋爾(Harold D.Lasswell)、勒溫(Kurt Lewin)、拉扎斯菲爾德(Paul F.Lazarsfeld)、霍夫蘭(Carl I.Hovland),而施拉姆也成為了傳播學的集大成者,這是目前最為公認的為傳播學做出重要貢獻的五位代表人物。對他們進行詞頻檢索(圖2A)分析發現:(1)勒溫在與其他四位代表人物相比下,影響力長期居于領先地位。(2)五位代表人物的名氣頂峰時期均位于1970年左右。從所做的貢獻來看,五位代表人物對于傳播學的形成與發展起到了重要的作用,給后期的傳播學者開辟了道路,為傳播學服務于社會做出了巨大貢獻,具有深遠的影響。而在整個傳播學發展史過程中,五位代表人物的名氣并非是最高的。在統計的60位與傳播學有關的西方代表人物中(限于篇幅未能將全部代表人物羅列展示),有李普曼(Walter Lippmann)與麥克盧漢(Marshall McLuhan)等人的社會影響力已遠超五位先驅(圖2B)。李普曼的影響力從20世紀早期至2000年間共出現過兩次較大的峰值,分別為1942年與1964年,而麥克盧漢的影響力峰值出現在1971年,從兩人的個人經歷來看,政治地位的變化可鮮明地反映出其在學術上的影響力:1942年,李普曼的才能受到了戴高樂(Charles André Joseph Marie de Gaulle)以及丘吉爾(Winston Leonard Spencer Churchill)的賞識,成為了座上賓。1958年、1962年兩次獲得普利策獎后,于1964年又受到約翰遜(Lyndon Baines Johnson)總統授予的自由勛章,達到影響力的頂峰。麥克盧漢在1968年成為了加拿大總理特魯多(Pierre Elliot Trudeau)的顧問,并在兩年后達到了影響力的頂峰。歷史上更有諸如納粹黨統治時期的一些學者與藝術家,其命運直接受到了政治變革的決定。

圖2 傳播學代表人物影響力變化趨勢與成名年限圖
隨著傳播渠道不斷增加,傳播效率不斷提升,傳播覆蓋面不斷拓寬,傳播學代表人物的學術影響力也在被不斷擴大。在60位主要代表人物中,排除無檢索結果和與其他領域同名的學者,對剩余57位代表人物進行出生、逝世、影響力頂峰年代統計發現(圖2C):傳播學代表人物的成名年限(成名年限=影響力峰值年-出生年)越來越短,且越來越能在其生前看到自己最具影響力的時刻。這一結果也驗證了艾登(Erez Aiden)和米歇爾(Jean-Baptiste Michel)的研究成果。
3.傳播類型的發展帶有政治因素的傾向性
廣義的傳播學具有十分寬泛的概念,包含了人類一切的傳播行為。而隨著人類社會的日益健全、完善,功能系統劃分愈發多樣,政治、經濟、科學、藝術、宗教、健康等領域構成的人類社會變得更加復雜化,傳播學的研究領域也愈發細分化。
根據不同的研究對象與標準,傳播被劃分出不同的類型,而這種分類事實上也因人類社會信息的復雜性變得不可統計,不同的傳播類型之間又存在著相互交叉、相互滲透的關系,只能依據不同的研究需求結合現存狀態來進行列舉式的分類。圖3A中列舉了目前詞頻比例較高的前十種傳播類型,可見:大眾傳播在眾多傳播類型中占據了主導地位,是傳播研究中的重要分支、研究熱點。“大眾傳播”這一概念第一次出現于1945年11月在倫敦發表的聯合國教科文組織憲章中,拉斯維爾等人也在1946年把傳播研究作為一個專門的領域,在其著作《宣傳、傳播與輿論》中第一次明確提出“大眾傳播學”的概念。詞頻圖很好地呈現了大眾傳播的地位與發展。按照傳播范圍與規模的“五分法”分類標準,人們通常把傳播分為內向傳播、人際傳播、群體傳播、組織傳播、大眾傳播五大類,而從應用的角度來研究傳播活動,可從政治、經濟、文化與科技等方面來比較,如國際傳播、廣告傳播、文化傳播和科技傳播四大傳播類型,國際傳播在其中占據著重要地位,它是“國家之間以及非政府組織、國際組織等國際信息與文化的交流和傳播活動”,該領域的發展與各國家利益密切相關,帶有鮮明的政治色彩與意識形態傾向。圖3B顯示出視覺傳播成為了極具影響力的傳播形態,同時科學技術的不斷發展是一把雙刃劍,使得危機傳播、健康傳播等成為了熱點傳播主題。這些應用傳播類型的發展變化與科學技術的驅動密不可分。
4.傳播理論的研究投入中早前的傳播效果研究占據重要地位
針對傳播學研究的問題,其主要對象是受眾,受眾在傳播學的百年發展過程中角色在不斷發生著變化,同時媒體的角色也在進行著轉變,信息內容傳播的效果同樣在不斷被界定衡量,這一過程中傳播學眾多理論也如雨后春筍。
從早期的魔彈論認為,受眾在宣傳(傳播)面前毫無抵抗力的被動態勢,到后期的使用與滿足理論認為,受眾對于傳播信息的使用由其得到何種滿足決定的主動態勢。有從媒體傳播效果出發,有限效果理論中媒介擁有極小影響的弱效果,而強大效果理論中恰當的傳播技巧在恰當的環境中,傳播可發揮巨大影響的強效果。圖4A中列舉了十種最為常見詞頻較高的傳播理論,從中可見:(1)議程設置理論在眾多理論中占據著絕對的優勢,在1989年后成為研究的熱點。(2)傳播理論的盛行誕生主要集中在20世紀六七十年代。從傳播效果的研究上看其與傳播學本身的發展近乎同步,從20世紀初至現在大致經歷了從魔彈論到有限效果論再到適度效果論以及后期的強大效果論四個階段。有限效果論的出現推翻了魔彈論的不可抵抗性,適度效果論又對有限效果論的矯枉過正進行了修飾,強大效果論則以一種更加理性的角度來審視傳播的力量,而這些理論的出現并未徹底取代前者,恰恰相反早前效果理論的研究熱度高于后期的理論(圖4B),適度效果論與強大效果論的研究熱度長期低于魔彈論與有限效果論。傳播效果的大小在一定程度上影響著研究者研究領域的大小,在對傳播效果的不斷探索與投入中,回顧總結前期理論的利弊在無形中提升了其研究熱度。

圖3 傳播類型研究熱點分布圖

圖4 傳播理論研究熱點分布圖
大數據時代,人類已經進入信息社會,傳播學的發展也將迎來新的契機。傳播媒介的多元化、多感官形式使信息的傳播更加直接明了,受科學技術發展的推動;每一次新媒介形態的出現都帶來先前媒介的震蕩下調,并最終形成各種主要媒介的差異化功能定位,從而找到自己無法被取代的生存價值;傳播學代表人物的成名年限在不斷縮短且其影響力與政治地位成正相關;傳播類型的發展也帶有濃厚的政治因素傾向性;傳播理論的早期效果研究占到了大部分的研究投入。整個傳播學的發展趨勢與科學技術緊密相連,與政治因素息息相關。
通過谷歌數字圖書對于傳播學的文化組學分析,有助于站在一個更加直觀的角度來審視傳播學的歷史與發展變遷,了解其過去內部規律以及探索未來更多的可能趨勢。充分將大數據的優勢運用于傳播學中,更能煥發其無限生機。
注釋:
② [菲律賓]尼克:《計算歷史學:大數據時代的讀書》,載于呂大年、高峰楓主編:《六合叢書:哲學評書》,浙江大學出版社2014年版。
③ Song C.& Barabási A.L.LimitsofPredictabilityinHumanMobility. Science,vol.327,no.5968,2010.p.1018.
④ Leetaru K.Culturomics2.0:ForecastingLarge-ScaleHumanBehaviorUsingGlobalNewsMediaToneinTimeandSpace.First Monday,vol.16,no.9,2011.
⑤ Klein J.L.StatisticalVisionsinTime:aHistoryofTimeSeriesAnalysis,1662-1938. New York,NY:Cambridge University Press.1997.p.372.
⑥ Manovich L.Trending:ThePromisesandtheChallengesofBigSocialData.in Gold,M.K.,ed.,Debates in the Digital Humanities,Minneapolis:The University of Minnesota Press.2012.
⑦ Oishi S.,Graham J.,Kesebir S.,et al.ConceptsofHappinessAcrossTimeandCultures.Personality & Social Psychology Bulletin,vol.39,no.5,2013.pp.559-577.
⑧ Zeng R.& Greenfield P.M.CulturalEvolutionOvertheLast40YearsinChina:UsingtheGoogleNgramViewertoStudyImplicationsofSocialandPoliticalChangeforCulturalValues. International Journal of Psychology Journal International De Psychologie,vol.50,no.1,2015.pp.47-55.
⑨ Bentley R.A.,Acerbi A.,Ormerod P.,et al.BooksAveragePreviousDecadeofEconomicMisery. Plos One,vol.9,no.1,2014.e.e83147.
⑩ Chen Y.& Fei Y.EconomicPerformanceandPublicConcernsaboutSocialClassinTwentieth-CenturyBooks. Social Science Research,vol.59,2016.p.37.