999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

健康類虛假信息的人工神經網絡識別與治理*

2022-10-17 07:45:14趙冰潔
現代傳播-中國傳媒大學學報 2022年8期
關鍵詞:信息模型

詹 騫 趙冰潔

伴隨新型冠狀病毒的爆發,一場聲勢浩大的“信疫”(infodemic)也幾近同時席卷全球,根據世界衛生組織的定義,“信疫”是指“信息過多——有些準確而有些不準確——這使得人們在需要時難以找到可信賴的來源和可靠的指南”①。該詞的誕生可以追溯至嚴重急性呼吸系統綜合癥(SARS)疫情爆發時期,大量真假混雜信息使公眾陷入集體焦慮,而真相“失聲”對政治經濟領域造成的危害于當時已然顯露。如今面對情形更加嚴峻的新冠肺炎疫情,諸多真偽莫辨的信息在各類平臺上的快速擴散強化了人們的焦慮情緒,也加重了“信疫”的規模與危害。

追究此次“信疫”爆發的根源,新冠肺炎疫情自身的嚴重性無疑是其中推動力之一,但最重要的還是整個社會的傳播格局早已今非昔比。②傳統媒體的影響力在一定程度上減弱,而相對疏于監管審查的各類社交媒體平臺成為主流,多元發聲路徑造成的信息混雜以及不斷被建構的信息過濾泡等都在加劇信息識別的難度。社交媒體在流量為王的逐利性傳播邏輯引導下,大量推薦娛樂化、淺表化的內容,用戶感官長期接觸淺層次的信息刺激,導致其對部分主流嚴肅內容和公共議題的認知和理解能力缺乏。③由是,整體信息環境的理性客觀被弱化,虛假信息進而泛濫。

根據一項基于2006年至2017年間Twitter上約12.6萬個經過驗證的信息的研究,各個類別的虛假信息都有著較真實信息明顯更快的傳播力與更深的影響力。④而在諸類信息中,相對于財經信息、科技信息、體育信息等,健康信息是大眾的剛性需求⑤,公眾對健康議題關注度的不斷提升促發了此類信息在網絡上的產生與傳播。相較于真實信息,健康類虛假信息借助其更高的情感性⑥、更強的煽動性和匹配度⑦,往往會有更大的傳播影響力和更嚴重的破壞力,亟待治理。但海量的信息治理已并非簡單人力監管與審查所能解決,技術的底層參與是必不可少的治理手段。這也正是此次研究的出發點,以跨學科的視野對虛假信息的算法設計與算法治理效果進行探索,試圖從微觀層面觀察算法治理的功效進而探討以此為核心開展協同治理的可能性。

一、文獻回顧:虛假信息的算法治理

(一)基于數字技術的算法治理

數字技術的弊端在當下不斷顯露,虛假信息、數據安全、隱私泄露等成為全球各國共同關注的問題,數字治理(digital governance)即是針對這一情形提出的共識性方案,其治理主體由政府、市民和企業構成。⑧在企業層面,對虛假信息的人工監管是一種有效手段,但同時更高效的方案,即算法治理(algorithmic governance)逐漸成為數字治理體系中具有核心地位和決定意義的子體系。⑨

當前的算法治理以社交平臺為中心劃分為內部與外部兩種邏輯,分別指向虛假信息進入傳播之前和進入流通之后的治理邏輯。在內部算法治理方面,由于社交平臺算法對流量的追求,信息生成后并不會立刻進入快速傳播階段,而是會進入冷啟動階段,隨后依據內容的反饋情況來決定是否予以進一步大量推薦。在此過程中,算法便可盡早對內容的真實性進行識別。目前采用的相關措施包括識別虛假信息中的高頻關鍵詞、通過機器學習模擬信息可能帶來的情緒進而分析識別等,或是在此過程中針對被檢測到的虛假信息的信源進行“降權”處理,以提升早期檢測的識別效率。對于已經進入傳播階段的虛假信息,則需要借助外部算法進行治理,也即本研究希望去探索的,針對信息文本本身構建模型來識別虛假信息,之后才有可能進入更加精準的人工再次甄別與辟謠環節,提高信息鑒別的效率。

(二)人工神經網絡與虛假信息的識別

虛假信息的算法識別包括基于機器學習的檢測和基于深度學習的檢測。機器學習方法的局限十分明顯,人工設計的信息分類特征既耗費精力,又難以做到全面覆蓋,普適性也較弱,隨后發展出來的基于深度學習的檢測方法則能夠較好地解決上述問題。這類方法以人工神經網絡(artificial neural network)為代表,算法能夠通過給定的數據集來自行學習,尋找其中各類特征與條件,信息檢測的準確率以及速率都得到了提升。

當下,人工神經網絡已經擁有了相對成熟的自主學習能力,基于其上的各類模型有著不同的學習特點和適用范圍,在諸多領域都取得了良好的表現。在自然語言處理領域運用較為廣泛的為循環神經網絡(Recurrent Neural Network,RNN),其中加入了序列的相關屬性,實現了信息在不同神經網絡單元中的保存與傳遞。最先將這一模型引入虛假信息識別的是馬(Ma)等人的研究,其得到了虛假信息上下文隨時間變化的特征,提升了信息識別的速率,也開創了循環神經網絡在這一領域的應用。然而由于循環神經網絡自身算法的缺點,其在實踐中并不能夠很好地處理較長序列的數據,作為一種特殊循環神經網絡,長短期記憶網絡(Long Short-Term Memory network,LSTM)則成功克服了這一缺點,成為當前常用的人工神經網絡之一。高玉君等人對循環神經網絡、長短期記憶網絡以及其他人工神經網絡的虛假信息識別效果進行了對比研究與評估,發現相較于其他的神經網絡,長短期記憶網絡有著更高的準確率與更低的損失率,取得了較好的檢測結果。鑒于此,本研究在長短期記憶網絡基礎之上來構建虛假信息的識別模型。

(三)虛假信息治理成為交叉學科的重要研究指向

虛假信息識別與治理的相關研究目前并不局限于單一學科,而是成為很多學科共同的研究指向,既有的研究既呈現出不同學科自身的特點,又形成了觀點的交融與互構。

在以政府為主導的虛假信息監管和治理中,有情報學領域的三方博弈模型和計算機領域的微博虛假信息提前把關模型。在以個體為核心的虛假信息判別與感知中,信息管理學領域的研究者關注人口學特征對健康類虛假信息的識別。心理學的研究學者則指出即便虛假信息被識別并更正,受眾的判斷過程中還依然存在對其的部分依賴,需要對正確信息重復更多的次數來進行糾偏。在一般性的治理策略層面,圖書館學領域的學者提出要調動社會教育職能,開展跨行業式的協作治理。新聞傳播學和法學領域的學者認為推進立法、強化監控過濾、及時回應公眾需求是必由的治理途徑。正是受到這些多元研究視野的啟發,本研究站在新聞傳播學的視野之下,通過智能科學的算法模擬來探討虛假信息治理的有效模式。

二、研究設計

(一)研究數據的獲取:虛假信息集與真實信息集

為探索更加適用于識別虛假信息的算法,此次研究選取真實傳播環境中的健康類虛假信息和健康類真實信息作為訓練與測試的數據樣本。在具體文本來源的選擇上,虛假信息選取微信上的“騰訊較真平臺”小程序和“微信辟謠助手”小程序中的健康類信息,真實信息則選取丁香醫生科普欄目文章。

“微信辟謠助手”小程序共有包括人民網、科普中國、果殼等在內788所辟謠機構加入,目前一共辟謠了8644篇謠傳文章;“騰訊較真辟謠”作為騰訊新聞旗下的事實查證平臺,其在2021年全年共發布辟謠文章3189篇,為累計超過3.1億人次提供了辟謠科普。這兩個辟謠平臺的相關內容均為在現實中傳播的虛假信息,經過對所有內容的逐一梳理,從中共收集2000條健康類虛假信息作為研究樣本。

為了不造成信息的同質化,健康類真實信息從丁香醫生網站獲取。該網站成立于2000年,是國內最大的專業醫生社區,也是騰訊辟謠平臺的最早合作機構之一。本研究采集的丁香醫生網站上的健康科普信息,包括“傳染病”“職業病”“急救”等多個類別。為使真實信息和虛假信息數量保持一致,以時間倒序的方式收集2000條信息作為研究樣本。

將2000條虛假信息和2000條真實信息分別整合入兩個文檔中,先去除空格、段落符號等干擾信息,再將其以句為單位進行分行處理,使其轉變為更利于算法學習的形式,最終得到包含8972句虛假信息與8464句真實信息的數據集。

(二)長短期記憶網絡模型的建構

百度的開源人工神經網絡深度學習平臺飛槳(PaddlePaddle)于2016年8月正式開放源代碼,這是中國首個開源開放的深度學習框架,其中包含諸多已有算法,可減少基礎搭建的工作成本。故此次采用Paddle Fluid API編程并搭建一個長短期記憶網絡(LSTM)用以檢測識別虛假信息,搭建過程主要可以分為數據預處理、配置網絡、模型訓練以及模型評估四個部分(如圖1所示)。

圖1 人工神經網絡算法流程

數據預處理階段,主要是對上文提及的8972句虛假信息與8464句真實信息數據進行轉化,具體的流程如圖2所示。先將收集完成的數據進行解壓,分別放置在虛假信息與真實信息文件夾。而后對這些數據進行初步的標記處理,在已有數據集語句的句首添加標簽進行區分,其中虛假信息添加0,真實信息添加1。然后采用google公司提供的Word2Vec工具將上述句子轉換成算法可以識別的詞向量,匯總得到數據詞典。此外,根據此次模型的需要,將所有的真實信息與虛假信息數據按照4∶1的配比劃分為訓練集(train_set)和驗證集(eval_set),即7178句虛假信息和6771句真實信息進入訓練集,1794句虛假信息和1693句真實信息進入驗證集。

圖2 數據預處理流程

模型訓練部分是在模型各個參數初始化后,使用訓練集對模型進行訓練并不斷修正模型。最后的模型評估部分則是將測試的數據集輸入上述模型,求出其對應的損失值(cost)和準確率(acc),以此判斷此次構建模型的有效性。

三、研究發現:長短期記憶網絡模型能有效識別健康類虛假信息

在實際數據測量前,先對此次虛假信息判別算法的相關參數進行設定,其中共包括True(T)、False(F)、True positive(TP)、True negative(TN)這四個類別。T為正確樣本個數;F為錯誤樣本個數;TP為被正確地劃分為正例的個數,即實際為真實信息且被算法劃分為真實信息的樣本數;TN為被正確地劃分為負例的個數,即實際為虛假信息且被算法劃分為虛假信息的樣本數。

為更準確評估此次構建的算法模型,選取準確率(acc)和損失值(cost)兩個指標進行測量。其中準確率主要測量被正確判別出真實信息或虛假信息的語句占總樣本的百分比,是直接通過上文提及的TP與TN和較T與F和之比得出。

損失值則是通過對比模型預測結果與真實數據的標簽得出,能夠表征模型對輸入信息判斷的不確定性降低的程度。其中yi表示樣本i的標簽,0代表虛假信息,1代表真實信息。pi表示正確預測的概率,1-pi表示預測錯誤的概率。Cost則是表征神經網絡算法優劣的重要數值,該數值越小表明模型效果越好。

為保證得到的模型具有較好的效用,其需具備較高的準確率(acc)以及較低的損失值(cost)。針對這兩個評價指標,在不斷增加的迭代次數(iter)中對這兩個值進行觀測。模型對訓練集的13949條語句進行了超過13萬次的學習與訓練,由圖3看出損失值cost不斷減小并最終達到0.1左右,而與此同時,準確率也在不斷提升,并最終能夠維持在0.98。兩個評價指標均表現良好,展示了此模型能夠在訓練集上對信息的真實性進行準確識別,達到了理想的效果。

圖3 訓練集運行結果

模型采用同樣的方法來檢測測試集中的3487條語句,伴隨訓練次數不斷增加至14萬,通過圖4可以看出模型的損失值cost能夠穩定在0.3上下,而準確率acc能夠達到0.9左右,表明各項指標均已達到較好的效果,且模型并未發生過擬合現象。這表明所構建的長短期記憶網絡模型通過“自我學習”習得了健康類虛假信息和真實信息的差異,并在給出的信息環境中能夠進行較為準確的進行信息識別,尋找出虛假信息。

圖4 測試集運行結果

四、思考與建議

(一)算法治理虛假信息的限度

本研究是一項跨學科的探索性研究,通過切實的算法實踐來考量外部算法治理的建構過程與實際成效。人工神經網絡模型的構建與完善建立在大量現實數據基礎之上,準確、清晰的海量數據被投進算法,通過不斷的深度學習與迭代,訓練出算法的“自主意識”和對信息真假的判別標準,一定程度上達成了對人類思維的有效模擬,同時還跨越了人類腦力的計算極限。健康類虛假信息和其他類別的虛假信息一樣,常常具有調動情緒的特征,但總體上的語言表達是直接而非間接、明確而非隱晦,便于人工神經網絡模型的學習;但對于語言中出現的隱喻、反諷、雙關等修辭現象,現有算法還缺乏靈活處理的能力,算法自身還有突破空間。

本研究提出的虛假信息識別模式是典型的文本識別模式,是通過對語句的信息特征來進行判別,專注于文本自身,受互聯網復雜傳播環境的影響較弱。但這一類模式需要建立在大量的已有數據訓練的基礎上,在實際的應用中,使得其所能識別的虛假信息多局限在與已有虛假數據類似的信息中,對新型虛假信息的鑒別能力較弱。同時,一些經過人為特殊處理的虛假信息也較難識別,如采用諧音、符號隔開等方式調整后的文本。

除了以上的局限性外,算法自身的“黑箱”、算法公正偏差等爭議及其可能帶來的技術異化問題也成為亟待解決的新難點。算法“黑箱”是普遍存在的一個現象,尤其在深度學習領域,算法的中間層數據均是由其自身對既有數據的學習提煉得到,人工并不能夠探知,這也就使得其具體的計算過程難以被人工干預,具有較高的不可控性。此外,公正偏差也是算法的關鍵問題之一,算法這種基于大量數據的程序被給予了太高的理性期望,但其背后的設計研發人員也有個人的喜惡或利益傾向,有時難免會被代入算法之中。帶有偏見的算法一旦被廣泛應用,其中的不公正性被放大,就有可能造成不可逆的后果。

(二)協同治理的可行性

鑒于上述算法治理的局限性,以政府、平臺、媒體等多方參與者為主體構建協同治理模式是更加可行的路徑。其間,政府是處于主導地位的政策制定與管理者,把握引導整體的傳播環境走向。逐利的資本與平臺往往用算法充當誘餌制造信息亂象,或者以行業機密為由造成算法黑箱,政府在此間可以作為利益無關方進行獨立的監控、協調與平衡。針對部分已經產生較為嚴重社會影響的虛假信息輿情事件,也需要政府進行及時的調節管控,必要時采取相應的法律手段。但政府的監管與協調往往是事后參與,過程控制能力相對有限。

平臺內部有紛繁復雜的各類數據與算法,若要對其進行全面且細致的把控,必然需要引入前端技術人才,這對于政府而言無疑是巨大的負擔,因而建立政府與平臺以及平臺之間的關聯規范機制更加可行。平臺自身可對算法進行更加嚴格的審核,同時不斷完善虛假信息識別的方案及用戶的反饋機制,以此優化平臺的參與環境。平臺之間建立合作關系,通過相互監督、源碼開放等方法構建更高效的虛假信息識別體系。此外,平臺并非中立的存在,往往存在著媒體的偏向性和意識形態屬性。這也就意味著在對平臺適當放權、由其主導算法治理的同時,政府要完善對平臺問責的相關規范與立法,進行協調與監督。

根據愛德曼國際公關公司與清華大學國家形象傳播研究中心聯合發布的《2022年愛德曼信任度調查中國報告》可知,和其他國家相比,中國的受訪者對媒體的信任度非常高。這充分說明了我國媒體具有巨大的信息價值影響力。在虛假信息的治理中,媒體把控好內容的編輯與審核,保證自身內容的客觀性與真實性。對于已經傳播并證實的虛假信息,媒體借助平臺及時辟謠,盡早消除或減弱虛假信息帶來的惡劣影響。自媒體環境下,用戶也對虛假信息的再生產及擴散有著重要的影響,尤其是信息涉入度高、鑒別能力較低且存在主觀傾向的用戶更難識別虛假信息,且容易進一步傳播。用戶如果能提升對信息的鑒別能力,建立信息傳播的責任意識,就能有效減少極端情緒或虛假信息的傳播。

“信疫”時代虛假信息的傳播范圍以及危害程度都在不斷加深,其治理過程需要多主體的共同參與。以平臺算法為底層核心,形成虛假信息識別的常態化、過程化機制;政府平衡各平臺間的利益關系,并監管由此所導致的算法黑箱問題;媒體則需在保證自身生產與傳播客觀準確信息的基礎上,盡可能削弱已傳播的虛假信息帶來的影響,多方參與構建兼具穩固性和彈性的協同治理路徑,不斷凈化和改善實現信息傳播空間。

(三)治理中的算法張力

算法作為一種技術中介,深刻植入當下的社會生活,聯結人的身體與外物,形成人的認知與意識,讓人們存在于物質實在與虛擬實在之中。技術作為一種非中立的存在物,不同的技術以不同的方式構造環境。算法既可以用來制造并擴散虛假信息,同時也能夠用于有組織的大規模的信息監督和虛假信息識別。不論是前者還是后者,算法的內容生產與結果產出都依據“原始數據輸入—機器處理數據—得到最終數據”的鏈路來運行。算法能夠主動進行海量學習、反饋與重構,正如本研究所呈現的,一個小型算法經過了十多萬次的迭代后獲得穩定,確立了自身的判別標準,而這一過程既是人通過代碼編寫賦予給算法獨特的計算能動性,同時也正是人被算法所取代的部分。就像普通用戶看不到算法在何處運行一樣,算法的設計者也無法完全掌控算法的具體學習過程,如科學家在圍觀阿爾法狗的圍棋對弈時,不知道程序的盲點和拐點會在何時出現。

算法作為一種解決問題的手段而存在,一直進行著循環的進化:為解決老問題采用新技術,新技術又引起新問題,新問題的解決又要訴諸更新的技術。算法治理文字形態的虛假信息時,專注于自然語言識別;當虛假信息演進到視頻深度合成時,算法的專注點轉向為圖像的分類與復原。算法處理的數據也從連續、有標簽的數據向空間化、無標簽的復雜數據轉變。算法的開發者經由技術選擇不斷擴張技術的適用范圍,技術也在不斷的迭代中構建出獨特的發展邏輯與路徑。在人與技術共存共生的格局下,虛假信息的生產與治理也形成了獨有的算法張力,算法既是虛假信息的治理之矛,以智能化的方式抓取其特征;同時也是虛假信息的隱蔽之盾,使之獲取了偽裝的技術力量。如“深度偽造”也要使用以循環神經網絡、卷積神經網絡為代表的人工神經網絡模型來實現,這就構成了虛假信息生產與識別的技術性競爭。算法在不同目標的競爭中被多方爭奪,進而也在不斷實現技術的自我超越。

很多知名科技公司推出了開放技術平臺,算法的易得性降低了技術應用的門檻,也降低了虛假信息生產的物質成本。基于商業目的、政治目的乃至個人情感目的入場的多元主體均能充分利用算法參與信息生產,加之主體間的利益博弈,造成了虛假信息形態與類別的紛繁多樣和整體信息環境的日益復雜。虛假信息生產主體的多元化和治理主體的多元化遙相呼應,在某些語境下部分主體甚至具有同一性,共同構成了交錯變動的多元網絡關系,而算法始終是其中重要的行動力量。作為主體的人在不斷挖掘基于數據的算法智慧,同時也在錘煉駕馭技術的智慧,而算法則為人設定技術使用的閾值和邊界,為人的數字治理框定范圍。

(本文感謝中國傳媒大學數據科學與智能媒體學院趙薇副教授的技術指導。)

注釋:

① World Health Organization.NovelCoronavirus(2019-nCoV)SituationReport-13.https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200202-sitrep-13-ncov-v3.pdf?sfvrsn=195f4010_6.2020-02-02.

② 方興東、谷瀟、徐忠良:《“信疫”的根源、規律及治理對策——新技術背景下國際信息傳播秩序的失控與重建》,《新聞與寫作》,2020年第6期,第35-44頁。

③ 馬玉寧:《情感與規制:社交媒體虛假信息的傳播動因和治理路徑》,《中國編輯》,2022年第4期,第51-56頁。

④ Vosoughi S,Roy D.TheSpreadofTrueandFalseNewsOnline.Science,vol.359,no.6380,2018.pp.1146-1151.

⑤⑦ 曾祥敏、王孜:《健康傳播中的虛假信息擴散機制與網絡治理研究》,《現代傳播》,2019年第6期,第34-40頁。

⑥ Zheng X,Wu S,Nie D.OnlineHealthMisinformationandCorrectiveMessagesinChina:AComparisonofMessageFeatures.Communication Studies,vol.72,no.3,2021.pp.474-489.

⑧ 鐘祥銘、方興東:《數字治理的概念辨析與內涵演進》,《未來傳播》,2021年第5期,第10-20頁。

⑨ 張吉豫:《構建多元共治的算法治理體系》,《法律科學》(西北政法大學學報),2022年第1期,第115-123頁。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 第一页亚洲| 亚洲精品无码不卡在线播放| 日韩欧美视频第一区在线观看| 四虎精品黑人视频| 欧美日本在线观看| 国产精品99r8在线观看| 青青草国产一区二区三区| 综合亚洲色图| 国产对白刺激真实精品91| 成人在线观看一区| 国内精品九九久久久精品| 日韩第一页在线| 伊人91在线| 欧美日本中文| 成人蜜桃网| 日韩a级片视频| 操操操综合网| 日韩无码黄色网站| 九九久久精品免费观看| AV老司机AV天堂| 亚洲精品图区| 91久久偷偷做嫩草影院| 国产jizzjizz视频| 第一区免费在线观看| 福利小视频在线播放| 国内精品视频区在线2021| 好紧好深好大乳无码中文字幕| 九色综合伊人久久富二代| 国内精品91| 69国产精品视频免费| 91九色国产在线| 色悠久久久| 国产美女一级毛片| 中日无码在线观看| 国内嫩模私拍精品视频| 视频二区国产精品职场同事| 亚洲精品卡2卡3卡4卡5卡区| 美女免费精品高清毛片在线视| 制服丝袜一区| 最新亚洲人成无码网站欣赏网| 午夜毛片免费看| 亚洲视频二| 亚洲人成日本在线观看| 久久亚洲AⅤ无码精品午夜麻豆| 毛片久久久| 99re热精品视频中文字幕不卡| 青青草一区| 在线无码av一区二区三区| 亚洲女同欧美在线| 中文字幕日韩丝袜一区| 午夜精品久久久久久久2023| 视频一区视频二区中文精品| 亚洲最大福利网站| 久久国产免费观看| 一级毛片中文字幕| 久久99精品久久久久久不卡| 精品天海翼一区二区| 国产一级毛片网站| 伊人成人在线视频| 美女无遮挡拍拍拍免费视频| 亚洲高清国产拍精品26u| 高清码无在线看| 亚洲日韩高清在线亚洲专区| 26uuu国产精品视频| 亚洲日韩在线满18点击进入| 欧美在线一二区| 日韩无码视频专区| 国产亚卅精品无码| 中文字幕永久在线看| 久久亚洲国产一区二区| 久久午夜夜伦鲁鲁片不卡| 亚洲va精品中文字幕| 91在线播放免费不卡无毒| 亚洲成人高清无码| 国产拍揄自揄精品视频网站| 欧美精品亚洲精品日韩专区va| 男女性午夜福利网站| 无码久看视频| 国产黑丝一区| 一本大道香蕉中文日本不卡高清二区 | 四虎成人免费毛片| 日韩精品成人在线|