□文│張淑玲
在人工智能與新聞業深度交融的智能化媒體時代,算法權力 (algorithmic power)的躍升與擴張已引起業界和學界熱議。原屬專業記者和編輯的諸多職權,如新聞線索發掘、內容生產、評論引導乃至編輯發布等,已被越來越多地讓渡給算法。憑借技術層面的不斷優化,算法的應用場景和權力范圍也在不斷延伸和擴張。
與此同時,由于技術本身的復雜性以及媒體機構、技術公司的排他性商業政策,算法猶如一個未知的“黑箱”——用戶并不清楚算法的目標和意圖,也無從獲悉算法設計者、實際控制者以及機器生成內容的責任歸屬等信息,更談不上對其進行評判和監督。[1]那么,如何厘清與新聞實踐及研究相關的算法技術及其運行原理?算法“黑箱”的具體表現形態和應用場景是什么?對于黑箱化的算法權力應當如何加以制衡和規范?這些都是算法時代值得警醒和亟待解答的重要問題。本文試就這些問題展開探討。
計算機和算法介入新聞領域的過程是一個動態演進的歷史過程。實際上,算法的出現遠早于計算機和其他電子計算設備,其源頭可以追溯到我國古代的《周髀算經》以及中世紀波斯數學家阿勒·霍瓦里松的著作《代數對話錄》。而20世紀科幻作品中描繪的機器人曾被視為工業社會自動化的產物和算法的前身。
在媒介研究領域,新聞機器人的提法最早出現在1998年。兩位韓國學者建議搭建以“用戶注冊時提供的閱讀偏好”為參照、由算法進行新聞內容采集和分發的“應需服務平臺”。[2]自那以來,圍繞新聞機器人代替專業記者從事常規新聞生產及其潛在影響的討論一直沒有停止。從20世紀六七十年代勃興的計算機輔助報道、精確新聞,到大數據時代的數據新聞乃至自動化新聞,新聞業逐漸發展到以數據為驅動、以算法為引擎的算法時代。
作為人工智能的基本構成要素,算法與數學和計算機科學領域均有著密切的關聯。嚴格地說,算法是包含一系列復雜的數學規則、能通過預先設定的步驟解決特定問題的計算機程序。[3]它的設計邏輯是將人類解決問題的過程分解為若干步驟(見圖1),再通過程序設計,將這一過程模擬化或公式化,借助系統化的計算機程序來求解更復雜的問題。
目前與新聞業實踐結合最多的算法技術主要應用于自動化新聞和算法推薦領域。按照卡爾森(Carlson)的定義,自動化新聞生產是“將數據轉化為新聞敘事文本的算法過程,其中涉及的人力干預僅限于最初的編程活動”。[5]而算法推薦是以定制化信息服務為出發點,使用特殊的推薦引擎系統,借由機器算法推選出用戶感興趣的內容,并將其推送至用戶端。從本質上說,算法在整個新聞生產和分發鏈條上起著信息匹配中介的作用,它將計算機程序設計中連接輸入數據和輸出數據的兩端貫穿起來,通過把關、映射、修辭、決策等功能應用于新聞選題、內容生產、新聞游戲、新聞推送和用戶決策等場景(見圖2)。[6]憑借垂直領域開放平臺的接口或平臺授權,算法在龐大的數據支持下精確迅捷地抓取、生成、發布和推送資訊,最終實現對新聞內容生產環節和分發環節的再造和變革。

圖1 算法設計的一般過程[4]

圖2 算法在新聞業的應用場景
在新聞生產的具體語境下,算法是如何形成并影響著知識生產和公共輿論?算法如何利用互聯網的海量數據代替人類記者和編輯行使信息傳播把關人的職能?對于專業人士以外的大多數用戶而言,這個過程如同一個“黑箱”,既難以理解又無從評判和監督。
“黑箱”是控制論中的概念。作為一種隱喻,它指的是為人所不知的那些既不能打開、又不能從外部直接觀察其內部狀態的系統。[7]而“技術黑箱”特指人工制造品(artifacts),作為知識已經被部分人知道,但另一部分人不一定知道。在新聞生產的整個鏈條中,算法權力得以充分施展的是自動化決策環節,分別體現在算法自動生成新聞內容、智能推薦新聞產品、借助模擬程序或預測模型講述新聞故事三個層面。[8]在這里,由算法自動生成的新聞稿件是人工制造品,而算法程序和工作原理作為知識,被集成于某種框架之中,對開發者、設計者而言是已知的知識,對受眾或用戶則構成了一個“技術黑箱”。
1.算法權力的技術黑箱
按照功能劃分,算法有優先級排序算法、分類算法、關聯度算法和濾波算法等多種類型,而自動化決策往往不是單一的某個算法可以完成的,有時可能需要多種算法的疊加。其中涉及基于大體量數據的復雜運算程序和機器學習技術,即便是專業的新聞記者和編輯,也未必能夠參透算法的內部運作機理。
美國學者迪亞克普拉斯(Diakopoulos)研究了算法“黑箱”的兩種常見情形。[9]第一種情形對應監督式機器學習技術,屬于算法“黑箱”初級形態,多見于結構化數據豐富的財經和體育新聞報道領域,也是目前國內運用比較多的算法形式。如圖3(A)所示,這一過程有固定的模板,輸入和輸出都是已知信息。算法自動按照給定的規則填充公式化的表達,生成稿件內容。這里算法本身是黑箱,用戶基于公開的應用程序編程接口(API)可以全部觀察到輸入和輸出兩端的情況。第二種情形屬于算法“黑箱”的中間形態,常見于新聞眾包模式。如圖3(B)所示,算法輸入側即新聞線索挖掘、數據收集等環節具有不透明性,對用戶而言是未知的,但符合某種統計學規律,只有輸出側是已知的。
本文認為,在上述兩種情形之外,還存在對應無監督式機器學習的第三種形態,也即算法“黑箱”的進階形態。如圖3(C)所示,無須固定的輸入輸出模板,算法在沒有任何人為干預的條件下,憑借自主學習能力自動地從數據中抽取知識。這里輸入和輸出兩側組成了一個閉環的黑箱,無論是新聞線索發掘、文本生成,還是后續的編輯審稿和新聞簽發等諸多流程均是不透明的。
2.算法中隱含的偏見和利益取向
計算機系統隱含的偏見和利益取向多年前就已引起廣泛關注。多項研究均顯示,軟件產品具有隱蔽性的特征,特定的權力結構、價值觀和意識形態已經事先被嵌入其中。在軟件的遮蔽下,“有限性、許可、特權和障礙”[10]等限制不易被人察覺。

圖3 新聞生產中的三種算法“黑箱”情形
具體從算法設計過程來看,基礎數據和推理假設是必不可少的兩個因素。而這二者都有可能隱含設計者的偏見、價值觀和意識形態取向。特別是社會化媒體搜索引擎的信息過濾和個性化推送環節,設計者和技術人員不僅影響算法的設計流程,而且在算法運行時仍可介入過濾程序,其中既可能帶有算法設計者的主觀偏見,也可能存在輸入數據的可靠性以及由算法局限造成的歧視效應。[11]相應的后果是算法自動生成的新聞作品可能與設計初衷背道而馳,甚至包含不準確或虛假信息。這不僅有悖于客觀、公正的新聞報道準則,也會直接影響到公共議程設置和輿論意見的形成。
從介入新聞生產的多元利益主體來看,由于不具備獨立研發智能算法的技術能力和人才資源,多數媒體只能尋求與技術公司合作,以業務外包、網絡協作的方式完成基于算法的新聞生產。在技術公司、互聯網公司乃至金融資本的夾擊下,專業媒體面臨著新聞內容分發渠道被擠占的被動境地。
從掌握算法的媒體機構和技術公司的立場考慮,一方面,由于算法披露的成本投入和現實收益不成比例,這些機構在商業化運營的壓力下缺乏足夠的信息披露動力。另一方面,如果披露的信息中存在匿名方式不當的情況,新聞機構可能面臨被控侵犯隱私的法律風險,而公開承認報道內容中存在錯誤或不確定性因素也有可能招致訴訟糾紛。此外,他們的顧慮還體現在:如果將專有算法程序公之于眾,有可能侵害自身的技術競爭優勢,陷入被第三方介入操縱的被動局面。[12]
從用戶的層面來說,算法信息的大量披露可能導致信息過載。由于不同受眾群體存在差異化的信息需求,除專業人士之外的大多數受眾可能難以理解這些計算公式或對之不感興趣。因此,如果新聞機構不了解用戶對算法透明的真實需求狀況,披露的算法信息超出了他們所能接受、處理和有效利用的范圍,使其難以找到有價值的高關聯度信息,就可能對用戶界面造成干擾,帶來不必要的信息重荷,進而影響用戶的感官和認知體驗。
與算法的權力邊界不斷擴張相對的是,算法的某些負面影響和潛在問題被“黑箱”所掩蓋和遮蔽,業已引發了業界和學界共同的焦灼和思考。既然算法“黑箱”的核心問題在于信息不對稱和不公開,就現階段而言,要對無處不在但又不透明的算法權力加以有效規制,需要邁出的第一步就是破解算法黑箱、推進算法透明。
首先,算法透明已具備一定的現實可能性和外部環境條件。隨著傳播技術的加速迭代,互聯網和數字媒介的普及大大降低了數據存儲、收集、分析的成本,使得任何有網絡連接的組織和個人均有可能借助數字技術對政府和機構行使監督和問責職能。而開源文化、開放數據運動在全球多個國家的擴散也為推進算法透明營造了一個開放的外部社會語境。
其次,對人工智能技術范式驅動下的新聞業而言,算法透明既可對新聞客觀性準則給予全新詮釋,也能凸顯專業新聞機構在內容生產方面的優勢和權威性。各種超鏈接、消息源和數據來源的公開披露以及社交媒體上用戶產生的海量評論,使得新聞產品的數據驅動和交互特性越來越受到重視,增強透明性實際上是鼓勵用戶充分參與新聞生產過程。
最后,推行透明的算法披露機制,不僅有助于專業人士發掘算法真相,也可以為受眾提供了解真實的新聞生產過程的機會,因此具有完善新聞生產問責機制和強化專業媒體權威性的雙重意義。
需要明確的一點是,推進算法透明與規制算法權力是一體兩面的關系。鑒于很多算法屬于涉及商業利益的專有算法,受知識產權保護,因此現實中的算法透明只能是有限度的透明。而且,算法透明也不必然代表算法權力“被關進了籠子”,但它是針對算法黑箱問題而提出的、制衡并規范算法權力的應對之策。
算法的哪些內容應該向用戶充分披露?如何在算法透明性和商業利益之間尋找一個恰當的平衡點?從一般意義上來說,透明意味著獲悉真相和人類行為動機的手段和方法。按照新聞透明性的要求,通過公開信息披露,無論是否屬于新聞從業人員,只要對新聞作品及其產制流程感興趣,均享有監督、核查、評判甚至參與到新聞采集、生產以及分發過程的機會,用戶借此可以更多地了解新聞生產過程及其背后的設計邏輯。[13]
結合前文對算法運行過程中的“黑箱”問題和算法透明現實阻力的分析,本文認為,可以結合內生性的生產邏輯和外生性的監管邏輯,按照算法披露、法律規制和社會監督三個思路構建算法透明實現機制(如圖4所示)。

圖4 算法透明實現機制的設計思路
第一,從生產主體的角度來看,專業媒體、技術公司以及新聞聚合網站可以本著算法要素透明、程序透明和背景透明的三條原則構建算法披露機制,提升算法透明度。
1.算法要素透明
數據是算法運行的前提條件和基本要素。在基于算法的新聞生產和分發流程中,算法程序的高效運行對數據量級和質量均有很高的要求。按照透明性原則,新聞媒體機構需要對數據質量、可信度、準確性、誤差范圍、采樣范圍、缺失值、機器學習過程中訓練數據的規模等進行必要說明。另外,對于涉及公共利益的算法,新聞機構應向用戶主動披露源代碼。此外,模型輸入的變量及其特征,特別是對于新聞價值定義的標準、語義分析時的關鍵變量值、特征權重和建模工具等信息均有必要向用戶披露,從而使他們對算法的建模過程有較為全面的了解。
2.算法程序透明
生產主體應就算法的運算和決策過程予以必要解釋,以實現程序透明。算法程序的推理規則,如分類、數值推測、推薦等,其中包含的準確度、基準值、置信水平等統計數據均存在不確定性。還有外部接口的開關、輸入與權重的可調整性以及呈現給終端用戶的界面設計等,都需要考慮以便于用戶理解的方式予以充分披露。
3.算法背景透明
自動化新聞生產過程中是否有人工編輯和記者的干預,以何種形式、在什么程度上參與,誰應對報道的準確性負責,媒體機構應該予以明確說明。對算法在實際運行中可能帶有的偏見、易犯的錯誤,新聞機構也應該坦誠告訴用戶。特別是當涉及爭議性、批判性新聞話題的時候,應向用戶交代算法設計者及其所在機構的目標和意圖。
從具體操作方式上看,媒體機構可以效法其他商業企業,以發布階段性算法透明報告或組織分享交流會的形式,向外界定期公開算法運行的相關信息。例如今日頭條在2018年1月份召開了一場旨在推動整個行業問診算法、建言算法的論壇,面向行業公開頭條的算法原理,以消除社會各界對算法的困惑和誤解。
另外,在媒體內部設置專門崗位,由專職人員負責與受眾或用戶溝通、解釋算法的運作機理,也不失為一個增強用戶黏性、提高算法透明度的好辦法。在信息披露界面設計上,還應思考如何在不影響用戶體驗的前提下以通俗易懂、界面友好的方式披露算法信息。
第二,在法律體系層面,目前我國政府尚未針對算法特殊性及其在互聯網時代產生的法律問題作出回應,如是否應該承認人工智能作為具有自我意識的法律主體地位,是否應該保護算法新聞的著作權、言論自由等權利及責任認定等。
在監管方式上,相關政府部門可從事前干預算法設計和根據后果事后向算法追究責任兩方面入手。要在尊重算法商業邏輯的基礎上,將算法與新聞業的融合看成是互聯網智能演進的過程中由商業力量驅動的知識生產過程,思索基于算法的新聞價值生產以及相應的問題。不僅要約束多元利益主體在互聯網空間中的行為,也要對算法技術本身的變化作出回應。針對不同用途的算法,從其內部的設計規則以及外部行為與后果等層面構建算法權力規范體系。[14]
國際范圍內,歐盟率先在2016年5月通過《全面數據保護法》(General Data Protection Regulation),規定軟件公司應向用戶解釋算法決策背后的邏輯推理過程,并明確規定,如果相關主體未履行披露義務,將對其處以高額罰金。美國計算機學會公眾政策委員會(ACM Public Policy Council)也公布了知情原則、質詢和申訴原則等6項算法治理指導細則(見表1)。[15]對此我國監管部門可在研判我國互聯網治理的具體國情基礎上適當學習借鑒。

表1 ACM公布的算法治理指導原則
第三,在更廣的社會監督層面,隨著我國信息公開進程的逐步推進和數據開放環境的改善,數據保護、數據安全意識近年來已普遍得到社會公眾的認可。但智能算法在社會公眾眼中往往帶有“科學”“客觀”的外在光環和神秘性。本文認為,要實現對算法權力的問責和充分監督,應在全社會范圍內加強“算法素養”(algorithm literacy)教育,引入第三方監督與核查力量,并充分發揮專業新聞媒體的問責和監督職能。
1.培育算法素養
算法設計者和利益相關者應樹立兼顧效率和公共利益的理念,設計和使用算法時遵循相應的倫理規范。社會公眾應多學習和了解必要的算法常識,既不過于依賴算法,也應清醒認識到算法的負外部性問題,對算法的系統性影響給予審慎的評價和認知,不僅要以爭取合理知情權的方式破除算法“黑箱”,還應理性地生產和保護個人信息,防范算法可能帶來的風險與消極后果。
2.加強第三方算法監管力量
為了保證對算法權力的全方位監督,應建立值得信賴的算法倫理委員會等第三方獨立組織,支持學術性組織、非營利機構或自媒體的適當介入,加強第三方監管力量。目前在德國已經出現了由技術專家和資深媒體人挑頭成立的名為 “監控算法”(Algorithm Watch)的非營利組織,宗旨是評估并監控影響公共生活的算法決策過程。具體的監管手段包括審核訪問協議的嚴密性、商定數字管理的道德準則、任命專人監管信息、在線跟蹤個人信息再次使用的情況,允許用戶不提供個人數據、為數據訪問設置時間軸、未經同意不得將數據轉賣給第三方等。
3.發揮專業媒體的算法問責職能
專業新聞媒體,特別是其中的調查記者隊伍素來被視為追求事實真相、推動社會進步的標桿。算法時代的媒體機構一方面要對機構內部的算法使用和運行情況展開自我核查和糾錯,另一方面也應充分發揮事實真相提供者和輿論監督主力的職能,針對算法可能存在的偏見、歧視以及錯誤,勇于向算法提問、調查和追責。
注釋:
[1]葉韋明.機器人新聞:變革歷程與社會影響[J].中國出版,2016(10)
[2]Lee S M, Kim T Y. A News on Demand Service System bas ed on Robot Agent//Proceedings of International Conferenc e of Parallel and Distributed Systems[C].Taiwan:1998:528
[3]鄧建國.機器人新聞:原理、風險和影響[J].新聞記者,2016(09)
[4]王紅梅,胡明.算法設計與分析(第二版)[M].北京:清華大學出版社,2013:6
[5]Carlson M.The Robotic Reporter: Automated journalism and the redefinition of labor,compositional forms,and journalistic authority[J].Digital Journalism,2015,3(3)
[6]張超.作為中介的算法:新聞生產中的算法偏見與應對[J].中國出版,2018(1)
[7]陶迎春.技術中的知識問題——技術黑箱[J].科協論壇,2008(7)
[8][9]Diakopoulos N.Algorithmic Accountability:Journalistic investigation of computational power structures[J].Digital Journalism,2015,3(3)
[10]Mager A.Algorithmic Ideology: How Capitalist Society Shapes Search Engines[J].Information,Communication &Society,2012,5(15)
[11]Bozdag E.Bias in Algorithmic Filtering and Personalization[J].Ethics and Information Technology,2013,3(15)
[12][13]Diakopoulos N & Koliska M.Algorithmic Transparency in the News Media[J].Digital Journalism,2016
[14]胡凌.人工智能的法律想象[J].文化縱橫,2017(02)
[15]Statement on Algorithmic Transparency and Accountability [EB/OL].http://www.acm.org/binaries/content/assets/public-policy/2017_usacm_st atement_algorithms.pdf