999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

物盡其用:基于計算機思維的新聞文本挖掘研究*
——以“中國突發事件數據庫”的建設實踐為例

2019-10-10 10:49:52張振宇喻發勝
現代傳播-中國傳媒大學學報 2019年9期
關鍵詞:數據挖掘計算機數據庫

■ 張振宇 喻發勝

一、問題的提出

早在2000年,學者麥奎爾(Denis McQuail)就指出:“原則上,其它我們已經敘述過的媒介好像已經沒有什么存在的必要了,因為所有的媒介都能夠納入以計算機傳播為核心的架構之下。”①隨后十多年間,計算機科學給傳媒行業帶來的沖擊有目共睹,而數據庫(Database)②作為計算機科學的重要分支,③雖然早在20世紀80年代即被引入到國內傳媒行業,但30多年過去了,大多數媒體對數據庫的理解和應用還停留在資料庫、案例庫的初級階段,遠遠沒有發揮出數據庫蘊含的巨大威力。近年來,基于數據庫技術的大數據(Big Data)理念與方法的出現,更為擁有海量內容資源的新聞行業帶來了新的發展契機,傳統媒體應該如何通過數據庫建設來實現新聞文本的“物盡其用”,進而探索其戰略轉型的可能性路徑,是一個值得嘗試的研究方向。

在這一背景下,筆者團隊自2013年起在兩項國家社科基金課題的支持下,開始探索如何基于傳媒本體來建設“中國突發事件數據庫”,并于2018年初步完成了該數據庫的基本架構。在歷時五年的研發過程中,我們發現數據庫建設雖然是一個面向實踐的應用課題,但卻蘊含著更抽象層面的理論命題,那就是計算機科學的思維方式(即“運用計算機科學的基礎概念去求解問題、設計系統和理解人類的行為”④)對重新發掘新聞價值的啟示意義。⑤具體而言,該命題可以展開為:(1)在傳統媒體的市場邏輯中,被稱為“易碎品”的新聞在媒體平臺發布之后,往往就因其時效性的消逝而失去了使用價值,但在計算機思維的加持下,是否能從已經過時的新聞中挖掘出新的價值?(2)計算機思維中的數據庫理念和方法對新聞報道文本的深度加工有何借鑒意義?這不同于過去簡單地將新聞內容數字化之后入庫,而是如何根據不同的需求將新聞報道加工成數據庫能夠挖掘和可視化呈現的結構化數據?(3)如果將前面兩個問題的答案相結合,是否能為傳統媒體的轉型提供一種路徑選擇的可能性(從內容提供商到數據服務商)?為了回答這一問題鏈,有必要追本溯源,首先考察國內媒體數據庫的建設史及對其的研究史。

二、國內媒體數據庫的建設史、研究史及其缺憾

就目前能夠查詢到的史料而言,國內媒體的數據庫建設史可以上溯到20世紀80年代,當時新華社、文匯報等新聞單位率先引入了對媒體進行數字化存儲的機制,這可被視為媒體數據庫的雛形。但在隨后十多年時間里,新聞媒體的數據庫主要是直接將報紙進行數字化掃描后以電子文檔的形式存儲起來,只提供基本的新聞查詢和檢索功能,因此更接近檔案庫(或曰資料庫、案例庫)的概念。⑥

進入21世紀以來,隨著數據庫技術的不斷迭代升級,新聞媒體也比過去更加重視數據庫的建設,主要體現為以下三點:一是在建設主體上,除了國家通訊社和幾大中央紙媒外,越來越多的地方媒體和廣電媒體也開始自建數據庫;⑦二是在內容架構上,除了檔案型新聞報道數據庫之外,還出現了讀者(訂戶)數據庫、影視劇數據庫、廣告客戶數據庫、影視政策研究數據庫、無人機新聞采集數據庫等;⑧三是在功能設計上,媒體數據庫除了對內提供新聞檢索等功能外,也開始嘗試對外提供一定的增值服務。雖然這些服務基本上還停留在信息查詢的層面,但這對于媒體轉型的探索意義遠超過其實際價值。⑨

通過歷史梳理我們發現,國內新聞媒體數據庫的建設體現出以下幾個特點:一是起步晚,基礎相對薄弱,直至目前也沒有出現具有盈利能力的新聞內容數據庫;二是各自為營,不同數據庫的適用范圍受限于所屬媒體的輻射范圍,極少能提供跨地域、跨行業的數據服務;三是功能單一,基本上只能提供最基礎的新聞內容的存儲、檢索服務,沒有對新聞內容進行深度挖掘和可視化呈現。

與國內媒體數據庫的建設進程相呼應,國內新聞傳播學界對傳媒數據庫的相關研究也體現出一定的階段性特征:目前能查到的最早的相關文獻是1985年的《美日報紙的信息服務》,⑩當時國內媒體尚未開始建設數據庫,因此該文主要是引介發達國家報業在20世紀六七十年代建設數據庫的經驗。在隨后十多年的時間里,國內媒體在數據庫的建設上乏善可陳,相關研究也停滯了近十年,直到1994年,才有第二篇文獻開始研究國內新聞媒體的數據庫建設。嚴格意義上說,在2000年以前,國內相關文獻都很難稱得上是學術論文,而主要是各類資訊和經驗總結,沒有太多理論含量。直到2001年后,隨著越來越多的媒體開始自建各類數據庫,這一時期相關研究才在廣度和深度上有所拓展:在廣度上,這一時期的研究超越了過去主要研究報刊數據庫的界限,而將不同類型和功能的媒體數據庫納入研究范疇;在深度上,這一時期的研究不再停留于對數據庫基本知識的介紹和經驗總結上,而是開始探討數據庫的設計理念、建設規劃、內容架構、應用領域等內容,乃至對傳媒數據庫可能帶來問題的反思上。盡管取得了不少成果,但國內相關研究還存在以下問題:(1)研究視角相對集中,大多數文獻都站在應用角度,聚焦于數據庫如何服務新聞報道和產品營銷;(2)研究思路較為單一,大都遵循了“現狀-問題-原因-對策”的常規模式,并未體現出傳媒行業數據庫建設的特殊性與不同類型媒體數據庫的豐富性;(3)研究結論流于空泛,所提出的對策多為宏觀的描繪,缺乏相對具體的方法與路徑,也未見從實踐到理論的學術建構。

從上述梳理中不難發現,國內傳媒數據庫實際建設進度與理論研究成果呈現出很強的相關性,且都存在著繼續深入的空間。其中,這兩者共同存在的問題是它們基本上都在傳統的史料保存或檔案管理范疇中進行,相對缺乏計算機思維的引入。對此,本文擬通過引入計算機思維來重新審視和發掘新聞文本的價值,將其從僅供查閱的“史料”轉變為可供挖掘的“語料”,在此基礎上搭建數據庫的平臺架構并進行數據挖掘,以實現新聞內容資源的充分燃燒,進而探索為傳媒轉型提供一種可能路徑。下面將分而述之。

三、從新聞文本到結構化數據:傳媒數據庫建設的資源配置

從傳統新聞學的視角看,失去了時效性的新聞也就失去了最核心的使用價值,只剩下檔案或者史料價值。但從計算機思維的視角看,已經“過時”的新聞報道卻因其事實層面的準確性、報道領域的全面性和文字表達的規范性而天然地具備了成為優質數據庫語料資源的巨大潛質。這正是建設傳媒數據庫所具有的獨特優勢——因為建設任何類型的數據庫首先都需要考慮數據的來源問題,而傳媒可以直接取材于自身豐富和優質的內容資源。

正是在這一學科交叉的視野下,我們在思考中國突發事件數據庫的數據來源問題時,就發現不同類型的突發事件分屬不同的職能部門(如社會安全事件主要歸口公安部,公共衛生事件則歸口衛計委),而各部門對突發事件進行信息管理時所使用的數據結構存在較大差異(如公安部的數據表格就不同于衛計委),數據整合的難度很大。相比較而言,從媒體報道中對突發事件相關新聞進行數據清洗反而效率更高,因此,在經過反復嘗試和比對后,我們選擇了新華網、人民網和中國裁判文書網作為突發事件數據采集的主要來源。這一研究選題也正好給我們提供了一次以“突發事件”為對象、嘗試借助計算機科學的數據庫思維來對媒體內容資源進行重新整合的探索發現之旅。

為了服務于后期的數據挖掘和知識發現,我們從一開始就摒棄了直接對媒體內容進行數字化轉換的傳統模式,采用了對媒體內容進行結構化處理這一新的資源配置模式。因為從計算機思維的視角看,數據庫與資料庫的根本區別正在于后者所存儲的是只能檢索瀏覽的非結構化數據,而前者存儲的則是可供計算挖掘的結構化數據,即“可以用二維表表示的數據,其中每個字段的取值范圍和存儲所需的數據量都有清晰的界定”。數據的結構化問題實際上源于新聞思維和計算機思維的根本性差異——因為人在閱讀新聞時能夠直接通過文字理解其文本的意義,但計算機所看見的文本卻是一行行的字符串,因此只有當字符串以特定格式出現在指定區域時,才能被計算機讀取和理解,這就是結構化的意義。

而對新聞報道進行結構化處理的前提是制定基礎數據處理標準,在計算機思維看來,這其實是一個信息表示標準化的問題——“除非信息系統(數據庫)對其所處理和交換的信息的表示有一致性的認識,否則信息系統的優越性就不能發揮,而對于各種信息表示一致性的認識,只有通過開展信息表示標準化才能達到。”在本項目中,這就意味著對于所有以文本形式存在的突發事件新聞報道,都應該有一個統一的標準和規范來描述與突發事件本體相關的各個維度信息。

為此,我們專門研究制定了“中國突發事件基礎數據處理標準(下文簡稱EBDPS)”。由于突發事件的種類繁多、特征各異,再加上對其進行新聞報道時不同媒體所采用的語匯也不盡相同,因此制定標準必須兼顧事件的本體特征和新聞報道的文體特征。為此,該標準將突發事件的基礎數據分為三個模塊:本體、影響與應對。其中,“本體”指的是對突發事件本身各項特征的描述,例如發生的時間、地點、類別、級別等;“影響”指的是對突發事件所造成后果的描述,例如死亡人數、受傷人數、經濟損失(貨幣化和非貨幣化)等;“應對”指的是政府部門、社會組織和公眾所開展的各項救援措施。每個模塊均包含了相應維度的字段,每個字段則有相應的數據類型、數值單位和填寫規則,制定該標準的過程,其實也就是在各類突發事件新聞報道所涉及到的信息之間尋求“并集”的過程,最終的目標是盡可能保障對任意一起突發事件的新聞報道都可以被加工成一條能夠被數據庫識別和存儲的突發事件數據。

標準的制定只是結構化處理的第一步,因為在錄入的過程中我們發現,以求全為原則的基礎數據處理標準不可避免地產生了大量的冗余字段,從而極大地影響了前期錄入和后期檢索的速度,為此,我們又引入了“最小數據集”的方法來對基礎數據處理標準進行二次加工。所謂最小數據集(Minimum Data Set,簡稱MDS),是指通過收集最少的數據,最好地掌握一個研究對象所具有的特點或一件事情、一份工作所處的狀態,其核心是針對被觀察的對象建立一套精簡實用的數據指標。如果說基礎數據處理標準的制定需要“求其全”的話,那么最小數據集的制定則需要“取其精”,以使其能夠被數據庫便捷地檢索和運算。由此,我們將突發事件的MDS確定為“類別、時間、地點、死亡人數、經濟損失”五個可量化的維度,從而用最小的數據量勾勒出一起突發事件最核心的信息要素,以便提高后期對突發事件新聞語料進行批量結構化處理的速度和準確率。

綜上,在確定主要數據來源、制定好EBDPS和提煉出MDS之后,就基本上制定好針對任意一條新聞文本的數據處理方法,亦即完成了突發事件數據庫所需要的資源配置工作。從學理層面看,這一過程的理論意義部分在于,它揭示了計算機科學中結構化數據的思想對于新聞報道文本再加工的重要借鑒意義——那些已經過時的“新聞”文本通過符合數據庫標準的結構化處理之后,就能轉化為可供繼續挖掘的數據資源。但面對海量的新聞報道文本,如何利用計算機思維及相關方法來設計批量化處理的加工流程,則是接下來需要研究解決的問題。

四、人機協同:新聞批量化處理的加工流程

過去新聞媒體自建的資料庫、檔案庫之所以未能實現對內容資源的深度加工,最重要的原因就是在數據采集環節上無法實現對海量文本的高效批量化處理,特別是無法基于特定的主題需求對相關文本進行流水線式的加工作業,所以只能簡單地將原有的紙質文本數字化后存儲起來。為了解決這一問題,在建設突發事件數據庫時,我們采用了計算機科學中的“人機協同”理念來設計整個結構化信息加工流程。

所謂“人機協同”,指的是“在知識管理、尤其在基于語義Web的知識處理過程中,強調人與計算機的分工與合作,通過人對知識處理的前端控制,降低計算機知識處理的難度,在人與計算機之間尋找最佳的協同狀態……人與計算機共同感知、共同決策、相互學習、相互監督,共同完成知識管理任務。”之所以需要人機協同,是因為人的思維和計算機思維在文本處理領域中各有所長——人腦的長處是基于長期知識積累后對語義信息的準確理解和判斷,而計算機的長處則在于通過特定算法對規定重復任務的高效完成。這一理念在本次研究中體現為:首先在知識處理的前端由人工研發作為檢索依據的正則表達式(“人”),接下來用專門開發的爬蟲軟件對指定域名的目標文本進行抓取(“機”),再借助特定算法對抓取的海量文本進行初步的數據清洗(“機”),最后由人工完成對計算機已處理文本的甄別、錄入與檢查(“人”)。

在人機協同的過程中,新聞傳播學者最能發揮其專業優勢的地方是通過對突發事件新聞報道的內容分析來編寫爬蟲軟件所依據的正則表達式(regular expression)。作為一種匹配文本中字符序列的查找模式,正則表達式最基本的功能就是讓計算機用戶和開發人員找到想要的文本塊。對于本項目而言,正則表達式的意義在于為爬蟲軟件提供描述突發事件的關鍵詞,以尋找和抓取在語義上最相關的新聞報道。當然,任何爬蟲軟件都無法做到對目標文本的完全匹配,只能盡可能避免遺漏與冗余。因此,如何從已有的典型語料中提煉關鍵詞來組成正則表達式是一個非常重要的問題。

最開始,我們考慮到抓取文本描述的主體對象是突發事件,因此選擇了政府部門制定的“突發事件分級分類標準”作為提取關鍵詞的依據,但測試后發現,抓取效果并不理想——得到的文本多為政府文件,跟目標文本的匹配度不高。經過仔細甄別,發現癥結在于誤將政府文件作為正則表達式的編寫依據,而想抓取的目標文本源自媒體上的新聞報道,兩種文體的差異導致了正則表達式的匹配失靈。對此,我們改為直接從典型的新聞報道中提取關鍵詞,并考慮到爬蟲軟件搜索語料的邏輯是字符串匹配而非語義匹配,為了避免遺漏,我們設計了包含and和or這兩級邏輯結構的正則表達式,以盡可能全面地涵蓋各種關鍵詞:第一級是用and連接“主體”和“動詞”,如“洪水and發生”;第二級是用or連接主體或動詞的不同表達方式,如“(洪水or洪災or山洪)and(發生or出現or遭遇or襲擊)”,并對三級分類的每一個突發事件類別中都設置了三個正則表達式,分別對應其本體、影響和救援這三類新聞,以提高檢索的準確度。

經過多次試錯修訂好正則表達式之后,接下來的網絡爬蟲、數據清洗等環節就基本上納入了計算機的正常工作流程,在此不再贅述。當然,期間也有人工的隨時介入(如對采集過程的監測、爬蟲方式的改進、防火墻障礙的清除等),直至最后將清洗完畢的新聞素材按照之前研發的MDS格式錄入數據庫,原本也想編寫程序來批量錄入,但經過嘗試發現準確率太低,所以還是選擇了“人工錄入+檢查”的方式。最后,項目組從約一億三千萬個原始網頁中幾經淘煉,共錄入了15354起突發事件(工作時間截至2018年12月1日),并將每一起突發事件的原始新聞報道都以完整網頁的形式作為科研素材另存為數據庫中備察。

從學術研究的層面看,這一實踐環節的學理意義主要在于計算機思維中“人機協同”理念的深刻啟示,正如計算機專家周以真所指出的,計算機思維能夠幫助我們明晰哪些事情計算機比人做得好?哪些事情人比計算機做得好?對于本研究命題而言,計算機在大規模語料的批量處理、對結構化數據的統計運算、工作流程的無縫銜接和穩步遞進等方面具有人腦所無法比擬的優勢;而人在研究問題的發現、研究目標的錨定、文本意義的識別理解等方面比計算機要更勝一籌。因此,要想計算機科學為我所用,首先必須清楚本專業的需求與優劣勢,同時也要理解計算機的高能與局限,并學會以計算機的思維方式來思考問題,這樣才能超越過去“僅得其表”的媒體資料庫階段,進入到“深得其里”的媒體數據庫階段。基礎數據錄入工作的結束,也標志著突發事件數據庫的初步建成,接下來需要面對的就是“so what?”的問題,即,當我們已經獲取了由新聞文本加工而來的海量突發事件數據之后,又能怎樣?對此,下文將借助計算機思維中的數據挖掘理念及方法來回答這一問題。

五、數據挖掘:新聞文本的潛在價值呈現

作為一種重要的計算機思維方式,數據挖掘是指“通過特定的算法對大量的數據進行自動分析,從而揭示數據當中隱藏的規律和趨勢,即在大量的數據當中發現新知識,為決策者提供參考”,大數據的興起使其重要價值被更多專業人士所認識,圖靈獎得主吉姆·格雷(Jim Gray)甚至將數據科學上升到范式革命的高度,將其從第三范式的計算機科學中獨立出來成為第四范式(The Fourth Paradigm),理由是其不同于基于數學建模的傳統研究范式,而能夠跨域對物理界(physical universe)的觀測而直接通過對數據界(data universe)的研究獲取新知識;數據挖掘的思想傳播到國內后,李國杰院士也敏銳地發現數據挖掘對于計算機科學與社會科學交叉協同的重大意義,指出社會科學能夠借助大數據的推力,脫下“準科學”的外衣,真正邁進科學殿堂。

這一論斷對于作為社會科學的新聞傳播學也有啟示意義:已經結構化的新聞文本為我們提供了優質的語料基礎,通過對其進行數據挖掘,可以“發現未知的關系,和以數據擁有者可以理解并用對其有價值的新穎方式來總結數據。”具體到本題所建設的突發事件數據庫中,目前的數據挖掘主要沿著兩條路徑展開:一是對中國境內四大類突發事件的時空分布特征進行統計呈現,以顯示其整體性的變化趨勢;二是就某一類突發事件與特定領域的關聯度展開具體分析,以揭示其風險演化的相關性。需要說明的是,由于本課題屬于探索性研究,目前只進行了一些最基礎的挖掘工作,因此所列舉的數據挖掘成果主要是為了證明對新聞文本進行價值挖掘的可行性,并不能代表相關研究的最高水平。下面將分而述之:

(一)利用權威媒體的全樣本數據對四大類突發事件時空分布特征的整體呈現

由于突發事件的發生時間和地點是描述其本體特征的重要信息,因此我們在制定EBDPS和MDS時都設置了相應的字段,當基于全網爬取的所有突發事件MDS都錄入進數據庫之后,即可采用最基礎的數據挖掘算法對描述其發生時間和地理位置的結構化數據進行統計分析,以時間和空間兩個維度來計算每一類突發事件的發生頻次,從而觀測其發生的概率是否具有一定的特征?應該說,這也能體現突發事件數據庫的最基本功能——即從宏觀上了解四大類突發事件在時空中的分布狀況。經過初步統計和可視化處理之后,得到了以下三組圖表,第一組是從2001年以來四大類突發事件發生頻次的年度分布圖(以月為最小單位),見圖1-圖4:

第二組是從2001年以來四大類突發事件發生頻次的月份分布圖,見圖5-圖8:

圖1 2001-2016中國自然災害的時間分布

圖2 2001-2016中國事故災難的時間分布

圖3 2001-2016中國公共衛生事件的時間分布

圖4 2001-2016中國社會安全事件的時間分布

圖5 2001-2016自然災害的月份分布

圖6 2001-2016事故災難的月份分布

圖7 2001.1-2016公共衛生事件的月份分布

圖8 2001.1-2016社會安全事件的月份分布

第三組是從2001年以來四大類突發事件的空間分布圖(以省份為最小單位),見圖9-圖12:

圖9 2001-2016中國自然災害的空間分布

圖10 2001-2016中國事故災難的空間分布

圖11 2001-2016公共衛生事件的空間分布

圖12 2001-2016社會安全事件的空間分布

如果能夠掌握全樣本的突發事件時空分布特征,對于理解突發事件的發生規律和研究相應的風險防控措施無疑具有重大意義。但就筆者所檢索的范圍來看,不論是政府部門的權威發布,還是科研院所的研究成果,均未發現有對2001年以來四大類突發事件整體性的時空分布特征進行展示的數據和文獻(只有就某一特定類型突發事件的時空分布研究文獻),其原因可能是受條塊分割的管理體制和領域細分的科研需求所限。而本文基于新聞報道所挖掘出的四大類突發事件時空分布特征的可視化呈現自然不敢稱全面,也難以做到精準,但大數據研究本身就意味著對誤差的容忍,這一挖掘結果至少給我們提供了從某個側面(主流媒體新聞報道)“一窺全豹”的契機,也間接證明了新聞文本所蘊含的價值所在。

如果有朝一日政府部門公開了突發事件的相關統計數據,再將其與本文的數據挖掘結果進行比對,抑或還有另一種研究價值:即分析怎樣的突發事件才能見諸于媒體?換言之,新聞媒體對于突發事件的報道是依據怎樣的標準進行選擇的?這樣的報道標準凸顯了什么內容,又遮蔽了什么內容?那可能會為突發事件相關研究開拓一個新的面向,本文不再展開。

(二)利用相關性運算來揭示某類突發事件在某個特定領域的風險演化

如果說對突發事件時空分布特征的可視化呈現是從整體上讓我們獲知其發生頻次的概貌的話,那么對某一特定類型突發事件的數據挖掘則有助于我們深入分析其對于人類社會的風險影響,而實現這一目標的路徑就是對某一具體事件類型的不同維度數據進行相關關系(correlation)運算。

對“相關性”的重視也是大數據的支撐性理念之一,舍恩伯格就曾旗幟鮮明地指出,大數據“要相關性而不是因果性”,安德森(Chris Anderson)甚至有更極端的觀點認為:“相關關系的價值已經可以讓我們忽略因果關系”。對于本題而言,我們主要分析了特定類型的突發事件與其隨后發生的其它事件之間的相關性,以此來推測其風險演化的某些可能性。為了盡可能試驗不同的價值適用場景,我們設計了一個以兩年為研究周期,以寫作碩士研究生學位論文為實現途徑,涵蓋四大類突發事件的研究計劃,并取得了一些之前未曾預料的研究發現。限于篇幅,此處不展開分析過程,僅對其結果做概括性的描述。

在自然災害領域,駱璟選取了數據庫中2011-2015年經過中國境內的全部臺風災害及其衍生災害的相關信息進行數據挖掘,發現臺風除了能造成顯而易見的氣象災害以外,還容易引發地質災害——約占96%的臺風發生后均有地質災害發生,其發生概率從高到低依次是滑坡(23%)、泥石流(19%)、崩塌(8%)和決堤(3%)等,從而以實證數據提出了需要重視對臺風衍生災害的預警建議。

在事故災難領域,于清在數據庫平臺上對新華網2005-2015年4983條道路交通事故相關報道進行結構化處理和數據挖掘,發現道路交通事故,提出了高速交通事故的四因素致災模型,即高速交通事故一般都是由環境(天氣、時間等)、道路(路況、地理等)、車輛(機械故障等)、人為(駕駛員、行人等)因素所導致的,并計算出它們在交通事故發生因素中所占的比重,以期能為高速交通事故的傳媒預警提供一些借鑒。

在公共衛生事件領域,徐睿含關注的是突發性豬流感對生豬產業鏈的影響,她通過比對2004-2015年間突發事件數據庫中的豬流感疫情數據與農業部發布的《中國農產品價格調查年鑒》中生豬產業鏈(如豬仔、豬肉、豬飼料等)相關價格數據進行相關性分析,發現豬流感疫情對仔豬價格存在顯著負相關關系(時滯6-12個月,相關系數為0.6827),對出欄量也是顯著負相關關系(時滯5個月,相關系數為0.6870),但與豬飼料價格、獸醫站經營收入則沒有太大影響。

在社會安全事件領域,王湘云通過對2006-2016年間1176起搶劫類突發事件的數據挖掘,發現搶劫案件與節氣存在一定的相關關系:在相對寒冷的第一和第四季度,搶劫事件的案發率為52.4%,但值得注意的是,二月份多處于中國的農歷春節,該月份的案發率全年最低,僅占全年案發總數的6.4%。此外,盡管該研究中的統計數字人口流動的大省往往也是搶劫案件高發的省份,然而并不能說明流動人口是搶劫案件的“主力軍”。例如,在廣東、浙江等經濟發達地區,外籍人員作案比例分別為17%和9%,而在遼寧、新疆等經濟欠發達地區,該統計數字分別攀升至27%和32%。作者通過相關性分析發現外來流動人口作案率與該地區的經濟發達程度呈顯著負相關(相關系數為-0.486)。

當然,從新聞傳播學的學術標準來衡量,上述研究發現可能對傳統新聞傳播學的學術譜系沒有太大的理論貢獻,但其意義主要在于探索了對新聞報道進行數據挖掘以實現其潛在價值的可行性。正如計算機專家David Hand曾指出的:“(數據挖掘)和所有科研事業一樣,許多努力將是沒有回報的(做一項保證會成功的研究既是罕見的也是乏味的),但是一旦有了令人興奮的發現,這些努力就得到了加倍的補償。”對于本部分研究而言,雖然目前所取得的成果很有限,但其令人興奮之處在于:發現了作為一種計算機思維的數據庫方法對于新聞文本價值挖掘乃至傳媒行業轉型的啟示意義。

六、結語:計算機思維對于媒體轉型的戰略意義及其反思

數據科學家周濤曾提出:要從能源的高度來重估數據的價值,即計算和數據是現代社會重要的能源和材料,是第三次工業革命的主要推動力。這一典型的計算機思維方式似乎可以提醒我們換一個角度思考傳媒行業的轉型發展問題:目前,傳統傳媒業大多遭遇了經營上的困境,“二次售賣”理論對此的解釋是:當第一次售賣失敗時(傳統媒體渠道提供的內容不再被受眾選擇),第二次售賣也就很難實現了(傳統媒體無法將受眾售賣給廣告商)。學界為了從理論上紓解這一困境,提出過不同版本的“三次售賣”理論,如賣品牌、賣衍生品、賣短信互動、賣價值鏈等等,但總的看來,上述觀點都跳不出傳統傳媒經營的范疇,究其原因,可能是因為相關研究大多集中在新聞傳播學領域,學科的藩籬在一定程度上限制了關于“哪些可以售賣”的想象力。

但計算機思維(特別是數據庫理念)的引入卻能夠讓我們拓寬“三次售賣”的思路:因為媒體經年積累的內容資源中其實蘊含著海量的數據,而“通過對海量數據進行分析,能夠獲得具有巨大價值的產品和服務,或深刻的洞見”,在數據庫技術的加持下,諸如新聞報道等媒體內容就可以通過結構化處理流程提煉出數據,進而具備了可供挖掘和售賣的價值,正如舍恩伯格所指出的:“當文字變成數據,它就開始大顯神通了——人可以用之閱讀,計算機可以用之分析”。因此,本題研究的意義也可以解讀為另一種“三次售賣”理論,以此來為傳統媒體轉型提供一條可供借鑒的路徑:傳統媒體在“二次售賣”的基礎上,還能夠通過建設基于自身內容積累的傳媒數據庫,根據用戶的特定需求來進行數據挖掘和分析,即售賣以數據庫為載體的“傳媒行業所積累的海量數據和基于大數據的增值服務”。

當然,就本課題組目前研究的程度而言,利用計算機思維來建設傳媒數據庫進而實現新聞價值的完全燃燒,還面臨著不少現實障礙。例如:在建設主體層面,現在很多新聞媒體相對缺乏大數據理念,尚未意識到基于自身資源建設傳媒數據庫的可行性和潛在價值;在數據采集層面,存在著描述性的新聞報道范式與結構化的數據采集標準之間的矛盾,導致很多模糊表達的報道文本很難進行結構化處理;在數據來源層面,大數據思維要求數據源多多益善,因為不同來源的數據疊加在一起時往往能夠產生“1+1>2”的效應,但目前條塊分割的傳媒管理制度和開放程度非常有限的公共數據導致了現在媒體數據庫的建設只能以自身積淀的數據為主,如果能夠在未來能夠引入更多元的數據倉庫與傳媒數據庫進行疊加的話,無疑能從新聞文本中挖掘出更有價值的信息,等等。雖然這些聽起來都屬于應用層面的問題,但正如羅杰斯(Everett M.Rogers)所指出的:“在傳播學史上,面向實際應用的研究選題經常會為抽象理論領域的突破打下基礎。”因此,本文不成熟的研究僅僅只是一個粗淺的開始,這些問題都有待于未來更進一步的探索。

(感謝華中師范大學新聞傳播學院王然老師對本文所作貢獻)

注釋:

① [美]丹尼斯·麥奎爾:《麥奎爾大眾傳播理論》(第4版),崔保國、李琨譯,清華大學出版社2006年版,第14頁。

② 從技術層面講,數據庫就是關聯記錄項(或曰關聯表,related tables)的自描述(self-describing)集合。見David M.Kroenke、David J.Auer:《數據庫原理(第3版)》,清華大學出版社2008年版,第15頁;在計算機科學的話語體系中,數據庫是持久存儲在計算機內有組織、可共享的數據集合。即按照一定的數據模型組織、描述和存儲,具有較小的冗余度、較高的數據獨立性和易擴展性,并可為用戶所共享。見《數據庫百科全書》編委會:《數據庫百科全書》,上海交通大學出版社2009年版,第11頁。

③ 關于計算機科學的分類有不同的說法,如1991年ACM(國際計算機學會)和IEEE(國際電氣和電子工程師協會)聯合發布的“Core areas of computer science(計算機科學的核心領域)”,將其分為九大種屬;維基百科(Wikipedia)則將計算機科學分為十三個門類,但無論哪種劃分,都將Database單列為其中一種。

④ 在這里采用的曾任美國卡內基·梅隆大學計算機科學系主任、著名計算機科學家周以真(Jeannette M.Wing)在美國計算機權威期刊《Communications of the ACM》雜志上給出的定義,見Jeannette M.Wing:《Computational Thinking》,《COMMUNICATIONS OF THE ACM》,March 2006/Vol.49,No.3。

⑤ 從某種意義上看,本文可視為該數據庫建設的副產品:一則在研發過程中所遭遇的很多難題其實折射出傳媒數據庫建設的共性困境,這些具體的問題及其解決為本文寫作提供了靈感和素材;二則與數據庫編程專家貫穿始終的深入討論甚至爭辯,也促使筆者學習如何以計算機科學的思維方式來思考本學科的問題,并嘗試將這些思考以本學科畛域的話語方式表達出來。

⑦ 據不完全統計,國內自建數據庫的新聞媒體除了前文列舉的之外,還有:國家廣電總局、解放軍報社、北京日報社、廣州日報社、浙江日報社、深圳特區報、天津日報社、貴陽日報社、浙江工人日報社、銀川晚報社等新聞媒體。

⑧ 上述數據庫具體內容依次參見下列文獻:葛紅霞:《轉企改制與構建媒體用戶數據庫》,《記者搖籃》,2012年第2期;陳秀敏:《廣播影視政策研究數據庫建設與發展思考》,《廣播與電視技術》,2014年第6期;胡新橋,劉志月:《廣告專業化數據庫生存策略》,《新聞前哨》,2010年第6期;《合潤SSI影視劇數據庫正式上線》,《聲屏世界·廣告人》,2013年第7期;劉勝男:《搜狐建立飛手數據庫 加速改變新聞生產方式》,《中國傳媒科技》,2015年第9期。

⑨ 如貴陽日報數據庫就向當地黨政機關、企業、高等院校等提供信息服務,見郭英劍,梅敏:《無憂檢索、增值管理、服務社會——貴陽日報數據庫激活信息數字化》,《中國傳媒科技》,2003年第2期。

猜你喜歡
數據挖掘計算機數據庫
計算機操作系統
探討人工智能與數據挖掘發展趨勢
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产产在线精品亚洲aavv| 国产主播喷水| 亚洲国产成人综合精品2020| 日韩av在线直播| 国产精品毛片一区视频播| 久久动漫精品| 露脸国产精品自产在线播| 国产毛片一区| 四虎永久在线精品国产免费| 一级一毛片a级毛片| 多人乱p欧美在线观看| 91成人试看福利体验区| 欧美激情视频二区| 91亚洲视频下载| 国产成人91精品| 五月激情综合网| 热这里只有精品国产热门精品| 亚洲欧美日韩色图| 国产精品冒白浆免费视频| 狠狠操夜夜爽| 偷拍久久网| 亚洲午夜久久久精品电影院| 久久99精品国产麻豆宅宅| 99久久国产综合精品2020| 国产午夜人做人免费视频中文| 无码免费的亚洲视频| 美女被操黄色视频网站| 本亚洲精品网站| 亚洲国产综合自在线另类| 国产美女在线观看| 亚洲国产黄色| 日韩欧美中文| 无码又爽又刺激的高潮视频| 五月天福利视频| 精品欧美日韩国产日漫一区不卡| 久久中文电影| 国产国产人成免费视频77777| 人妻精品久久无码区| 免费无遮挡AV| 亚洲成人网在线播放| 不卡视频国产| 精品国产自在在线在线观看| 日韩在线2020专区| 欧美一级高清片欧美国产欧美| 久久香蕉国产线看观看亚洲片| 黄色三级毛片网站| 九九视频免费在线观看| 亚洲无码高清视频在线观看| 无码福利视频| 久青草网站| 在线日本国产成人免费的| 中文纯内无码H| 久久精品女人天堂aaa| 亚洲成aⅴ人在线观看| 欧美区一区二区三| 久久精品人人做人人爽97| 色视频久久| 狠狠做深爱婷婷久久一区| 欧洲免费精品视频在线| 欧洲一区二区三区无码| 国产精品免费露脸视频| 香蕉精品在线| 2021无码专区人妻系列日韩| 亚洲精品色AV无码看| 亚洲日韩国产精品综合在线观看| 成人毛片免费观看| 九九九精品成人免费视频7| 日韩A∨精品日韩精品无码| 欧美α片免费观看| 国产精品视频观看裸模| 国产精品女主播| 欧美不卡视频在线观看| 国产精品人成在线播放| 国产成人h在线观看网站站| 免费日韩在线视频| 成人国产免费| 高清久久精品亚洲日韩Av| 国产91特黄特色A级毛片| 在线观看精品国产入口| 成人av手机在线观看| 国产99热| 国产99视频在线|