石豪
[摘要]信息技術(shù)驅(qū)動(dòng)傳播學(xué)范式轉(zhuǎn)移,進(jìn)而增加了學(xué)科研究對(duì)文字?jǐn)?shù)據(jù)挖掘技術(shù)的依賴(lài)。文章嘗試梳理計(jì)算傳播學(xué)的背景和概念,分析計(jì)算傳播學(xué)的學(xué)科訴求與自然語(yǔ)言處理技術(shù)引入的必要性,闡述自然語(yǔ)言處理技術(shù)在計(jì)算傳播學(xué)中的應(yīng)用與面臨的挑戰(zhàn),并對(duì)未來(lái)自然語(yǔ)言處理技術(shù)如何應(yīng)對(duì)學(xué)科問(wèn)題提供有益思路。
[關(guān)鍵詞]計(jì)算傳播學(xué);自然語(yǔ)言學(xué)習(xí);研究范式
信息技術(shù)的發(fā)展推動(dòng)計(jì)算社會(huì)科學(xué)的興起。2009年Lazer等學(xué)者在《科學(xué)》雜志發(fā)表文章,提出信息技術(shù)強(qiáng)大的數(shù)據(jù)獲取和解析能力為社會(huì)學(xué)研究范式變革和互聯(lián)網(wǎng)上人類(lèi)社會(huì)行為的研究提供了新的機(jī)會(huì)。計(jì)算社會(huì)學(xué)通過(guò)考察網(wǎng)絡(luò)空間中海量的人類(lèi)行為數(shù)據(jù),來(lái)消除異質(zhì)性和噪聲因素,使其可以分析復(fù)雜的社會(huì)系統(tǒng),關(guān)注系統(tǒng)中的社會(huì)現(xiàn)象,豐富人們的社會(huì)認(rèn)知,提高學(xué)科理論建構(gòu)深度和跨學(xué)科研究的關(guān)注度[1]。
計(jì)算社會(huì)科學(xué)視角促進(jìn)傳播學(xué)范式轉(zhuǎn)型。計(jì)算社會(huì)學(xué)對(duì)海量數(shù)據(jù)的利用,豐富了傳播學(xué)獲取數(shù)據(jù)和預(yù)處理數(shù)據(jù)的有效途徑。計(jì)算社會(huì)學(xué)的計(jì)算分析方法為傳播學(xué)要素的數(shù)據(jù)挖掘、分析和檢驗(yàn)提供了多種方式。計(jì)算社會(huì)學(xué)中網(wǎng)絡(luò)科學(xué)研究為傳播學(xué)提供了方法和工具,同時(shí)拓展了傳播學(xué)研究對(duì)象的邊界。計(jì)算社會(huì)學(xué)對(duì)傳播學(xué)學(xué)科的創(chuàng)新引起了Cohen等學(xué)者的注意。他們于2011年提出通過(guò)信息技術(shù)發(fā)展新聞傳播學(xué)這一有價(jià)值的洞見(jiàn)。隨后,祝建華和王成軍等學(xué)者在2014年提出建立計(jì)算傳播學(xué)這一研究領(lǐng)域。2015年,第一本計(jì)算傳播學(xué)圖書(shū)《社交網(wǎng)絡(luò)上的計(jì)算傳播學(xué)》出版。
經(jīng)過(guò)幾年的發(fā)展,有關(guān)計(jì)算傳播學(xué)在國(guó)內(nèi)外期刊的學(xué)術(shù)論文數(shù)量和引用率都有顯著提高。計(jì)算傳播學(xué)研究取向逐漸受到傳播學(xué)者關(guān)注,北京師范大學(xué)、南京大學(xué)、復(fù)旦大學(xué)、中國(guó)人民大學(xué)等高校的多名學(xué)者以計(jì)算傳播學(xué)作為目前的主要研究方向,python和機(jī)器學(xué)習(xí)等計(jì)算傳播學(xué)常用知識(shí)逐漸被引入傳播學(xué)研究生課程中[2]。
結(jié)合王成軍于2014年提出的計(jì)算傳播學(xué)定義[3],計(jì)算傳播學(xué)是以信息技術(shù)和網(wǎng)絡(luò)科學(xué)為數(shù)據(jù)收集和分析工具,尋找人類(lèi)傳播現(xiàn)象中的可量化基因,用于描述傳播現(xiàn)象、傳播結(jié)構(gòu)、傳播過(guò)程和解釋傳播各要素之間的因果關(guān)系的一門(mén)傳播學(xué)新興研究取向和范式。
一、計(jì)算傳播學(xué)研究訴求與自然語(yǔ)言處理的引入
計(jì)算傳播學(xué)帶來(lái)的傳播學(xué)范式調(diào)整是多方面的。一方面,計(jì)算傳播學(xué)使得傳播現(xiàn)象的研究不拘泥于功能研究,而是對(duì)復(fù)雜多元的傳播現(xiàn)象和群體特征的描述,并進(jìn)而提煉出新的研究主題及其背后意義。另一方面,計(jì)算傳播學(xué)可以較好地平衡研究者的主觀(guān)思想和文本研究的客觀(guān)性要求。信息技術(shù)使得學(xué)科可以關(guān)注假設(shè)之外的碎片化、小概率且大容量的事件信息,探究背后真正的傳播要素[4]。
計(jì)算傳播學(xué)研究范式對(duì)文字文本研究相關(guān)工具具有迫切需求。文字文本是新聞傳播研究的重要對(duì)象,也是在計(jì)算傳播學(xué)研究中數(shù)據(jù)獲取、挖掘和分析的主要內(nèi)容。相比圖像數(shù)據(jù),網(wǎng)絡(luò)空間中的文字文本具有容易獲取、數(shù)據(jù)處理所需背景知識(shí)相對(duì)較少、數(shù)據(jù)計(jì)算量小等優(yōu)勢(shì)。圖像數(shù)據(jù)通常是矩陣格式的RGB像素組成的集合,對(duì)圖像數(shù)據(jù)的處理需要運(yùn)用圖像處理和計(jì)算機(jī)視覺(jué)等相關(guān)學(xué)科知識(shí),而文字文本占用空間極小,同時(shí)也不需要圖形、圖像的背景知識(shí),符合傳統(tǒng)新聞傳播學(xué)者的研究習(xí)慣,增加了研究的可及性。因此,文字在計(jì)算傳播學(xué)中具有更廣泛的應(yīng)用。
然而,社交網(wǎng)絡(luò)上的數(shù)據(jù)來(lái)源缺乏管制,使計(jì)算傳播學(xué)研究面臨巨大挑戰(zhàn)。網(wǎng)絡(luò)數(shù)據(jù)的獲取和分析是計(jì)算傳播學(xué)研究的必修課。許多學(xué)者傾向于直接獲取網(wǎng)絡(luò)提供的數(shù)據(jù)和依賴(lài)數(shù)據(jù)來(lái)源已經(jīng)提供的數(shù)據(jù)框架,如國(guó)家統(tǒng)計(jì)局、twitter數(shù)據(jù)接口、Gdelt新聞地圖[1]和WOS索引中的SCI/SSCI論文分析等。網(wǎng)絡(luò)對(duì)數(shù)據(jù)的管制涉及隱私問(wèn)題和商業(yè)機(jī)密,所以社交媒體平臺(tái)通常不會(huì)公開(kāi)數(shù)據(jù)API。尤其是劍橋丑聞后[5],網(wǎng)絡(luò)隱私研究持續(xù)受到公眾輿論壓力,各大網(wǎng)絡(luò)平臺(tái)開(kāi)始收緊數(shù)據(jù)開(kāi)源接口。
綜上,計(jì)算傳播學(xué)中需要一套行之有效的機(jī)器文字語(yǔ)義識(shí)別方法作為網(wǎng)絡(luò)空間的語(yǔ)義文本分析工具,用來(lái)提升數(shù)據(jù)獲取能力、處理效率和分析能力,進(jìn)而滿(mǎn)足個(gè)性化、定制化的數(shù)據(jù)獲取、組織和處理需求。這時(shí),自然語(yǔ)言處理技術(shù)開(kāi)始進(jìn)入計(jì)算傳播學(xué)者的視野,成為計(jì)算傳播學(xué)文本研究的得力工具。
自然語(yǔ)言處理(natural language processing,簡(jiǎn)稱(chēng)NLP)技術(shù)是實(shí)現(xiàn)機(jī)器與人進(jìn)行語(yǔ)言互動(dòng)的各種理論和方法。它主要處理的是語(yǔ)言和音頻等非結(jié)構(gòu)化的數(shù)據(jù),它可以幫助機(jī)器理解、解釋人類(lèi)語(yǔ)言,使得機(jī)器與人進(jìn)行語(yǔ)言互動(dòng)。NPL有自然語(yǔ)言理解和自然語(yǔ)言生成兩大核心功能。前者幫助機(jī)器理解人類(lèi)語(yǔ)言,后者讓機(jī)器可以與人溝通。自然語(yǔ)言處理的原理是通過(guò)預(yù)處理過(guò)程將非結(jié)構(gòu)內(nèi)容標(biāo)準(zhǔn)化,被標(biāo)準(zhǔn)化的內(nèi)容可以被機(jī)器正確解析,并實(shí)現(xiàn)特定功能。其中,對(duì)語(yǔ)言的預(yù)處理需要經(jīng)過(guò)分詞(Tokenization)、詞干提取(Stemming)、詞形還原(Lemmatization)、詞性標(biāo)注(Parts of Speech)、命名實(shí)體識(shí)別 (NER)、分塊 (Chunking)六個(gè)步驟。標(biāo)準(zhǔn)化過(guò)程可以通過(guò)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩種方法實(shí)現(xiàn)。機(jī)器學(xué)習(xí)包括語(yǔ)料預(yù)處理、特征工程和選擇分類(lèi)器三個(gè)步驟;深度學(xué)習(xí)包括語(yǔ)料預(yù)處理、設(shè)計(jì)模型和訓(xùn)練模型三個(gè)過(guò)程。
在計(jì)算傳播學(xué)研究中,基于機(jī)器學(xué)習(xí)的自然語(yǔ)言處理方法較為常用,它包括四種分析方法。一是文本分類(lèi)。文本分類(lèi)通常包括監(jiān)督學(xué)習(xí),即在訓(xùn)練集中同時(shí)給出特征向量和標(biāo)簽,完善模型分類(lèi)方法。二是文本聚類(lèi)。文本聚類(lèi)是無(wú)監(jiān)督學(xué)習(xí)方法,在模型訓(xùn)練中僅僅給出特征向量和分類(lèi)數(shù)目,機(jī)器通過(guò)分析樣本特征向量相似性,對(duì)其進(jìn)行聚類(lèi),最終達(dá)到分類(lèi)的目的。三是關(guān)聯(lián)分析。關(guān)聯(lián)分析主要是找出特征向量和結(jié)果之間的簡(jiǎn)單關(guān)聯(lián)性、時(shí)序關(guān)聯(lián)性和因果關(guān)聯(lián)性。四是趨勢(shì)預(yù)測(cè)。趨勢(shì)預(yù)測(cè)是通過(guò)已有數(shù)據(jù)得到時(shí)間序列分布,找到變化趨勢(shì),以達(dá)到數(shù)據(jù)預(yù)測(cè)的目的[6]。
二、自然語(yǔ)言處理在計(jì)算傳播學(xué)中的應(yīng)用
自然語(yǔ)言學(xué)習(xí)目前在計(jì)算傳播學(xué)中應(yīng)用較廣的功能是詞頻分析、情感分析和語(yǔ)義建模。
第一是詞頻分析。詞頻分析是計(jì)算傳播學(xué)者經(jīng)常使用的功能之一。百度指數(shù)、微博熱度、抖音熱榜等網(wǎng)站熱詞排名原理是根據(jù)分布式大數(shù)據(jù)系統(tǒng)流處理方法,對(duì)經(jīng)過(guò)自然語(yǔ)言學(xué)習(xí)“分詞”技術(shù)預(yù)處理后的詞語(yǔ)信息進(jìn)行數(shù)量統(tǒng)計(jì)。而大多數(shù)學(xué)者研究時(shí)通常利用第三方分詞庫(kù)對(duì)特定爬取文本數(shù)據(jù)進(jìn)行詞頻分析。
在傳播者研究中,Wu等人(2011)通過(guò)對(duì)Twitter用戶(hù)進(jìn)行隨機(jī)抽樣、設(shè)定關(guān)鍵詞找到了54萬(wàn)關(guān)鍵用戶(hù),通過(guò)關(guān)注度和發(fā)帖量鎖定了意見(jiàn)領(lǐng)袖和普通用戶(hù);Himelboim等學(xué)者發(fā)現(xiàn)話(huà)題注意力分布在服從冥率分布,論證了公眾輿論傳播的不平等性[7]。在受眾研究中,祝建華和Fu等學(xué)者都通過(guò)社交網(wǎng)絡(luò)上的發(fā)帖和接收頻率來(lái)尋找受眾,發(fā)現(xiàn)了社交網(wǎng)絡(luò)用戶(hù)的動(dòng)態(tài)流動(dòng)性,并將受眾區(qū)分為“圍觀(guān)者”“潛水員”“單篇作者”[6]。在內(nèi)容研究中,有學(xué)者根據(jù)網(wǎng)絡(luò)搜索詞對(duì)公眾注意力進(jìn)行追蹤,如流行詞、熱詞、幸福指數(shù)等測(cè)量效度[2]。哈佛大學(xué)利用掃描500多萬(wàn)種出版物關(guān)鍵詞的詞頻來(lái)分析語(yǔ)言與社會(huì)變遷。在傳播渠道研究中[7],Petrovic等學(xué)者通過(guò)統(tǒng)計(jì)70多天中新聞對(duì)各種事件報(bào)道的數(shù)量,發(fā)現(xiàn)社交媒介與傳統(tǒng)媒體在新聞時(shí)效性上相似。在效果研究中,Zhao等學(xué)者通過(guò)分析強(qiáng)國(guó)論壇中的帖子數(shù)、媒體報(bào)道數(shù)和公眾采納數(shù),分析公眾輿論的宏觀(guān)效果[7]。
第二是情感分析。情感分析的本質(zhì)是利用算法依照特定的情感類(lèi)型對(duì)文本進(jìn)行分類(lèi)處理,如積極與消極、高興與悲傷等類(lèi)型。情感分析任務(wù)包括情感分類(lèi)、主觀(guān)性判斷、意見(jiàn)總結(jié)、字典分析和評(píng)論有效性分析等[6]。通過(guò)情感分析算法,學(xué)者可以對(duì)網(wǎng)絡(luò)空間的文字信息的評(píng)價(jià)對(duì)象和被評(píng)價(jià)主體、傳播話(huà)題內(nèi)容和情感傾向、意見(jiàn)傳播的時(shí)間進(jìn)行態(tài)度分析。
一些學(xué)者將情感分析用在電商消費(fèi)者口碑傳播分析中,他們把評(píng)分的高低作為消費(fèi)者積極或消極的指標(biāo);或者通過(guò)人工標(biāo)注、詞典匹配和共生詞網(wǎng)絡(luò)來(lái)分析消費(fèi)者主觀(guān)評(píng)價(jià)的情感傾向[6]。情感分析還可以用于虛假信息的判定。如Jindal和Cupia等學(xué)者通過(guò)分析同一用戶(hù)對(duì)存在競(jìng)爭(zhēng)關(guān)系的商家評(píng)價(jià)的差異度,來(lái)分析信息的真實(shí)度和水軍散布流言的方式。情感分析還被學(xué)者用來(lái)分析社交媒介人群的情感傾向[7],研究幸福感、孤獨(dú)感、抑郁感,以及情緒傳染網(wǎng)絡(luò)傳播結(jié)構(gòu)和趨同性。如Dodds等學(xué)者通過(guò)對(duì)Twitter用戶(hù)分析發(fā)現(xiàn)人的情緒與節(jié)日有關(guān);Zhao等學(xué)者通過(guò)情緒分析微博用戶(hù)對(duì)新聞事件的看法;Fowler等學(xué)者發(fā)現(xiàn)了社交媒介的群體情緒傳染現(xiàn)象[6]。
第三是語(yǔ)義建模。人類(lèi)的語(yǔ)言非常復(fù)雜,每個(gè)詞語(yǔ)在不同的環(huán)境下具有不同的含義,而語(yǔ)義建模就是通過(guò)算法結(jié)合語(yǔ)境對(duì)詞語(yǔ)背后隱含的意義進(jìn)行解讀。這一技術(shù)在計(jì)算傳播學(xué)中應(yīng)用較為成熟的技術(shù)是主題解析,即找到所述內(nèi)容所屬的主題類(lèi)型。
基于此,計(jì)算傳播學(xué)可以研究網(wǎng)絡(luò)社交媒介場(chǎng)景下的傳播者。如祝建華等人探討了媒體、政黨和專(zhuān)業(yè)博客在不同主題傳播中的議程設(shè)置策略。在對(duì)社交媒介中的受眾進(jìn)行分類(lèi)和描述中,Benevenuto 等人找到了社交媒介內(nèi)容生產(chǎn)者和消費(fèi)者之間的比例關(guān)系。在媒介生態(tài)研究中,對(duì)于“內(nèi)容為王”還是“渠道為王”之間的爭(zhēng)論是學(xué)者熱議的話(huà)題[8]。Zhao 等人通過(guò)內(nèi)容建模對(duì)《紐約時(shí)報(bào)》和Twitter中的新聞內(nèi)容主題進(jìn)行分類(lèi),不但找到了不同場(chǎng)景下內(nèi)容闡述最多的主題,而且區(qū)分了以事件為導(dǎo)向的話(huà)題、以人物及組織為導(dǎo)向的話(huà)題和持續(xù)性話(huà)題。Qin等學(xué)者結(jié)合語(yǔ)義挖掘工具找到了“棱鏡門(mén)”媒體呈現(xiàn)的框架[9]。網(wǎng)絡(luò)空間的數(shù)字痕跡給傳播結(jié)構(gòu)和渠道的研究帶來(lái)了便利,如數(shù)字信息的擴(kuò)散網(wǎng)絡(luò)和數(shù)字媒體與傳統(tǒng)媒體信息擴(kuò)散的差異性[10]。Kwak 等人發(fā)現(xiàn)社交媒介中的信息主題擴(kuò)散傾向于廣度; Kim 等人發(fā)現(xiàn)新聞擴(kuò)散與新聞主題類(lèi)型的關(guān)系;Digg等學(xué)者發(fā)現(xiàn)社交媒體中的協(xié)同過(guò)濾與集體把關(guān)現(xiàn)象[7]。在效果研究中,主題識(shí)別被用于研究新聞傳播對(duì)受眾的影響,如研究通過(guò)提取論壇網(wǎng)絡(luò)用戶(hù)的語(yǔ)義,對(duì)比用戶(hù)知識(shí)框架和闡述的異同。還有一些學(xué)者通過(guò)主題識(shí)別找到社交網(wǎng)絡(luò)人類(lèi)行為傳播特征,如惡性行為、合作行為、導(dǎo)致肥胖行為、吸煙行為、飲酒行為、睡眠行為等[7]。
三、自然語(yǔ)言處理在計(jì)算傳播學(xué)研究中面臨的挑戰(zhàn)
(一)自然語(yǔ)言處理技術(shù)的局限性導(dǎo)致了計(jì)算傳播學(xué)研究的局限性
自然語(yǔ)言處理算法一種是依賴(lài)人工的監(jiān)督學(xué)習(xí)算法,還有一種是非監(jiān)督學(xué)習(xí)的聚類(lèi)算法。這兩種算法都難以滿(mǎn)足人們對(duì)海量數(shù)據(jù)進(jìn)行精確處理的需求。由于算法無(wú)法直接找到最精確的文字語(yǔ)義,傳播學(xué)者只能退而求其次,選擇詞頻分析、情感分析和主題分析作為研究的主要方式[4]。
(二)自然語(yǔ)言處理技術(shù)的局限性導(dǎo)致了技術(shù)工具的適用性問(wèn)題
自然語(yǔ)言處理算法直接影響了數(shù)據(jù)處理結(jié)果。然而,大多數(shù)傳播學(xué)者不具有很強(qiáng)的算法研究能力。因此,傳播學(xué)者在運(yùn)用自然語(yǔ)言處理作為工具的時(shí)候,往往利用別人已經(jīng)封裝完成的NLP框架,無(wú)法根據(jù)特定應(yīng)用場(chǎng)景需求制作定制化框架,進(jìn)而無(wú)法滿(mǎn)足各類(lèi)個(gè)性化研究的需求。這樣一方面會(huì)導(dǎo)致同一組數(shù)據(jù)結(jié)果出現(xiàn)偏差和雷同,另一方面會(huì)導(dǎo)數(shù)據(jù)無(wú)法被充分有效利用。由于不了解算法構(gòu)造,因此自然語(yǔ)言處理算法對(duì)傳播學(xué)者來(lái)說(shuō)就是一個(gè)無(wú)法解釋的黑箱。他們無(wú)法證明支撐整個(gè)研究邏輯的關(guān)鍵變量是否可控,也無(wú)法證明通過(guò)算法得出的數(shù)據(jù)結(jié)論是否有效。
(三)自然語(yǔ)言處理技術(shù)的局限性導(dǎo)致了研究方法的僵化和同質(zhì)化
自然語(yǔ)言處理方法為傳播學(xué)者提供了有力的文字文本分析工具,使其得以分析網(wǎng)絡(luò)空間中的海量文字?jǐn)?shù)據(jù),但自然語(yǔ)言處理技術(shù)的局限性和傳播學(xué)者對(duì)技術(shù)了解不夠深入導(dǎo)致技術(shù)框架被重復(fù)、不科學(xué)的利用,一定程度上也帶來(lái)了研究方式的僵化[11]。
(四)研究方法的同質(zhì)性導(dǎo)致了理論研究難以突破
計(jì)算傳播學(xué)的研究大多是傳統(tǒng)社會(huì)學(xué)經(jīng)驗(yàn)研究的延續(xù),研究過(guò)程逐漸演變成對(duì)原有理論更加精細(xì)化的論證和描述,難以開(kāi)發(fā)出新的理論。許多文章是對(duì)已知理論和常識(shí)的解釋和論證,而不是對(duì)未知問(wèn)題的求解。
四、未來(lái)自然語(yǔ)言處理帶給計(jì)算傳播學(xué)的機(jī)遇
自然語(yǔ)言處理技術(shù)不斷發(fā)展為計(jì)算傳播學(xué)帶來(lái)了新的可能,也為應(yīng)對(duì)計(jì)算傳播學(xué)研究中的諸多問(wèn)題提供了新的思路。
第一,2017年谷歌團(tuán)隊(duì)提出的Transformer自然語(yǔ)言模型利用attention結(jié)構(gòu)代替了lstm機(jī)制,其不但可以有效地分析全局信息,而且在計(jì)算復(fù)雜度和準(zhǔn)確度上也全面超越了RNN和CNN。基于transformer模型的相關(guān)研究成果有可能衍生出新的更加精細(xì)化、可及性和定制化的文本挖掘技術(shù),進(jìn)而為未來(lái)自然語(yǔ)言處理在計(jì)算傳播學(xué)中的應(yīng)用提供新方法[12]。
第二,自然語(yǔ)言閱讀理解技術(shù)的快速迭代為計(jì)算傳播學(xué)文本的精細(xì)化、定制化研究帶來(lái)了曙光。自然語(yǔ)言閱讀理解(MRC)算法使機(jī)器可以根據(jù)語(yǔ)境理解語(yǔ)言含義,總結(jié)歸納提煉要點(diǎn),著力解決語(yǔ)言的多樣性、歧義性、魯棒性和知識(shí)依賴(lài),經(jīng)過(guò)MRC到KBMRC(知識(shí)依賴(lài)的機(jī)器閱讀理解,Knowledge-Based Machine Reading Comprehension)技術(shù)有著顯著提高,但在“檢測(cè)無(wú)法回答的問(wèn)題”和“合理答案的區(qū)分”等方面仍面臨許多難題[13]。
第三,在計(jì)算傳播學(xué)的研究中,人們通常是先提出模型,再通過(guò)統(tǒng)計(jì)學(xué)等學(xué)科進(jìn)行關(guān)聯(lián)性驗(yàn)證。然而,文字文本數(shù)據(jù)中通常包含許多難以察覺(jué)的隱含變量。這些變量具有小樣本、離散和高維等特點(diǎn),無(wú)形中增加了模型設(shè)計(jì)的難度。而基于無(wú)監(jiān)督學(xué)習(xí)的自然語(yǔ)言處理技術(shù)可以在先不給出具體模型的情況下,直接挖掘數(shù)據(jù)的特征向量[14],因此,能夠察覺(jué)到這些隱含變量,進(jìn)而彌補(bǔ)假設(shè)模型的先天性不足。
第四,自然語(yǔ)言處理將進(jìn)一步推動(dòng)計(jì)算傳播學(xué)研究的客觀(guān)性。為了縮短計(jì)算傳播學(xué)與客觀(guān)的“科學(xué)”之間的距離,計(jì)算傳播學(xué)者一直在致力于用更加客觀(guān)的方式研究傳播對(duì)象,隨著自然語(yǔ)言處理技術(shù)不斷進(jìn)步,其準(zhǔn)確性和客觀(guān)性將大大提高。比如,計(jì)算傳播學(xué)者將調(diào)查問(wèn)卷和訪(fǎng)談替換成了信息技術(shù)挖掘下的數(shù)據(jù)集和驗(yàn)證集,通過(guò)海量數(shù)據(jù)弱化個(gè)體間的異質(zhì)性等。
第五,自然語(yǔ)言處理催生的傳播模式和倫理探討。除了語(yǔ)言理解,自然語(yǔ)言處理的另一個(gè)重要功能是自然語(yǔ)言生成,其應(yīng)用場(chǎng)景為數(shù)據(jù)新聞,如機(jī)器文字寫(xiě)作、社交機(jī)器人和AI論文等。隨著自然語(yǔ)言處理技術(shù)的發(fā)展,網(wǎng)絡(luò)空間將出現(xiàn)更多機(jī)器生成的文字文本,同時(shí)也為計(jì)算傳播學(xué)的研究對(duì)象、模式和倫理提供了新的議題。
[參考文獻(xiàn)]
[1]王成軍.計(jì)算傳播學(xué)的起源、概念和應(yīng)用[J].編輯學(xué)刊,2016(03):59-64.
[2]王成軍.計(jì)算社會(huì)科學(xué)視野下的新聞學(xué)研究:挑戰(zhàn)與機(jī)遇[J].新聞大學(xué),2017(04):26-32,146.
[3]王成軍.計(jì)算傳播學(xué):作為計(jì)算社會(huì)科學(xué)的傳播學(xué)[J].中國(guó)網(wǎng)絡(luò)傳播研究,2014(00):193-206.
[4]谷羽.語(yǔ)義網(wǎng)絡(luò)分析方法在傳播學(xué)中的應(yīng)用及批判[J].現(xiàn)代傳播(中國(guó)傳媒大學(xué)學(xué)報(bào)),2019(04):155-159.
[5]李曉靜,付思琪.智能時(shí)代傳播學(xué)受眾與效果研究:理論、方法與展望—與香港城市大學(xué)祝建華教授,斯坦福大學(xué)杰佛瑞·漢考克教授對(duì)談[J].國(guó)際新聞界,2020(03):108-128.
[6]張倫,王成軍,許小可.計(jì)算傳播學(xué)導(dǎo)論[M].北京:北京師范大學(xué)出版社,2018.
[7]許小可,胡海波,張倫,王成軍.社交網(wǎng)絡(luò)上的計(jì)算傳播學(xué)[M].北京:高等教育出版社,2015.
[8]張倫.計(jì)算傳播學(xué)范式對(duì)傳播效果研究的機(jī)遇與挑戰(zhàn)[J].新聞與寫(xiě)作,2020(05):19-25.
[9]張倫,鐘智錦.社會(huì)化媒體公共事件話(huà)語(yǔ)框架比較分析[J].新聞?dòng)浾撸?017(02):69-77.
[10]張倫,胥琳佳,易妍.在線(xiàn)社交媒體信息傳播效果的結(jié)構(gòu)性擴(kuò)散度[J].現(xiàn)代傳播(中國(guó)傳媒大學(xué)學(xué)報(bào)),2016(08):130-135.
[11]塔娜.“計(jì)算傳播學(xué)”的發(fā)展路徑:概念、數(shù)據(jù)及研究領(lǐng)域[J].新聞與寫(xiě)作,2020(05):5-12.
[12]Vaswani A,Shazeer N,Parmar N,et al. Attention Is All You Need[J]. arXiv,2017.
[13]Liu S,Zhang X,Zhang S,et al. Neural Machine Reading Comprehension:Methods and Trends[J]. Applied Sciences,2019.
[14]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.