內容摘要:以ChatGPT為代表的生成智能(Generative AI)不僅生成新的知識,更重要的是,人類的獲知與求知模式(mode of knowing)本身因其發生重大改變,因此可以將其理解為人類最新的知識新媒介。基于“或然率資料庫”(probability archive)這一學術概念,ChatGPT正成為從以博物館為代表的“本質性資料庫”到以互聯網為代表的“或然率資料庫”歷史演進的最新一環。以ChatGPT為代表的生成智能對人類知識傳播的生產、調用和流通帶來重要影響,其作為知識新媒介背后的權力實踐過程亦值得關注與重視。
關鍵詞:知識;新媒介;生成智能;ChatGPT
課題:國家社科基金重大項目“智能時代重大輿情和突發事件輿論規律及治理研究”(項目編號:20ZDA060);復旦大學人文社科先導項目“面向媒介深度融合的智能媒體創新研究與應用”(項目編號:IDH3353070)
DOI:10.3969/j.issn.2095-0330.2023.02.003
ChatGPT是人工智能(AI)領域一次典型的集成式創新。在技術底座上,它集合了AI 技術發展的積累(包括自然語言處理、深度神經網絡學習、增強學習等),特別是大數據基礎上的大規模語言模型(Large Language Model,簡稱LLM)所基于的GPT-3模型包含了1 750億參數,并通過情境學習(In-Context Learning)、思維鏈(Chain-of-Thought)訓練、指令微調(Instruction Fine-tuning)以及基于人類反饋的強化學習(Reinforcement Learning withHuman Feedback,RLHF)等技術實現了較好的理解、歸納和生成能力。 在產品界面上,它呈現為對話式的人機交互模式,能夠根據用戶的文本指令,結合歷史對話,較為流暢地生成相應的智能回復,滿足多樣化的人類任務(如聊天、資料整理、寫作、代碼提示、故事創意、決策參考等),由此從一個自然語言處理領域的專業小眾研究模型轉變為大眾可以直接使用和體驗的互聯網產品。在傳播影響上,因其易用性和良好的用戶體驗,ChatGPT的用戶數贏得快速增長,活躍用戶僅僅2個月就破億, 并迅速被整合進其他現有的互聯網應用(如搜索引擎必應Bing、微軟365辦公軟件)和專業機構(如新聞媒體),因而從作為聊天工具和私人助手的人際傳播范疇進入公共傳播領域,激發起全社會的廣泛關注和討論。
ChatGPT異軍突起,受到資本、市場、媒體和社會的高度關注,但學術研究需要冷思考。分析ChatGPT,并不能簡單因其“熱”,而應置于學術脈絡中進行審視。新聞傳播學過去十多年間發生顯著的“媒介轉向”,即在傳統關注傳播內容、并將媒介視為內容渠道和載體的功能主義視角之外,重新理解媒介本身的能動性及其對于傳播和社會秩序建構的重要意義,強調媒介并非僅是工具和介質,而是生成、調節和組織社會的重要行動者。在這個視野和邏輯之下,智能機器成為傳播新媒介,不只是新的渠道,而且是新的傳播主體、新的組織邏輯、新的建構力量。
正是在這個意義上,本文將以ChatGPT為代表的生成智能(Generative AI)理解為人類最新的知識新媒介,它不僅生成新的知識,更重要的是,人類的獲知與求知模式(mode of knowing)本身因其發生重大改變。研究將闡述“或然率資料庫”(probability archive)這一學術概念,指出在從以博物館為代表的“本質性資料庫”到以互聯網為代表的“或然率資料庫”的歷史演進中,ChatGPT正成為最新一環。以ChatGPT為代表的生成智能對人類知識傳播的生產、調用和流通都帶來重要影響,其作為知識新媒介背后的權力實踐過程亦值得關注與重視。
一、知識媒介的歷史演進:從本質性
資料庫到或然率資料庫
恰如溫伯格指出,“我們的環境過于巨大以至于任何個人都不可能了解它。知識系統是對這一事實而產生的具有智慧性的適應”。知識是人類通達世界的媒介,而知識本身又依托不同媒介而存在。
文化研究學者哈特利曾區分人類歷史上三類不同的知識媒介,并闡述了從線性的確定性到復雜、非線性的不確定性發展的歷史過程。他認為,以博物館、展覽館等為代表的知識媒介可被視為圍繞客觀性(objectivity)組織的“本質性資料庫”(essence archive);廣播電視繼續體現了這種內容觸達的確定性,只是該確定性經由中介性(mediation)組織;互聯網則與此不同,它不再是如博物館或廣播電視那樣的“本質性資料庫”,而是圍繞概率(probability)組織而成的“或然率資料庫”(probability archive)。
“本質性資料庫”的核心是確定性。它們由專家系統采集和策展,對什么能夠進入資料庫形成專業審核,審核的基礎是物品自身擁有的價值,它們亦會對藏品進行組織和排列,形成有序的結構和連貫的展示,觀賞者可以在確定的位置看到確定的藏品。在“本質性資料庫”中,受眾獲得的是每一個確定的實體(如展品)及對其特定的符號認知(如展品的歷史價值與意義)。正是在這個意義上,廣播電視等大眾媒介雖然形式上看似與博物館等不同,但其價值依然來自由專家生產驅動的單一的節目本身,因此是確定的、本質的資料庫;受眾只是在業已經過專家系統生產、創作、策展、評估和公共傳播的知識系統中進行選擇和消費。廣播電視和__博物館均具有井然有序的排列結構,差異只在于前者以時間來組織和排列節目,而后者以空間來組織和排列藏品。
“或然率資料庫”則是不確定的。以互聯網為代表,它的知識由媒體、機構、用戶、平臺等共創而生,知識的上傳和儲存都充滿不確定性——網絡上的知識形態(如哈特利重點舉例的YouTube視頻)不能確定何時、被何人/機構或組織上傳,也不確定是否會在特定時間因為特定原因被更新、替代或刪除;知識之間的組織和關系也充滿不確定性,布局松散,甚至混亂。如果說用戶在“本質性資料庫”獲得的是確定的單一實體(藏品或節目),在“或然率資料庫”中,所獲得的則是一個不確定的群集(如通過搜索關鍵詞或標簽體系)。相對于永恒不變的“本質性資料庫”,“或然率資料庫”是經常變化的,而且每一次交互都會帶來不一樣的結果。不確定和變化性是“或然率資料庫”區別于“本質性資料庫”的重要特征。
因此,作為一種新型知識媒介,“或然率資料庫”概念的核心,是強調其所流通、交易和使用的并不是特定確定的知識產品,而是用戶發現的某種概率(probability)。面對浩如煙海的互聯網,知識的調用意味著我們并非真的在“搜索”業已存在的知識(與查閱確定的展品不同),而是一個“發現”的過程——并非通過獲取本質性事物獲得意義,而是“從一個大型系統中獲得可能性與或然率的過程”(p.24)。用戶并不知道會在網絡空間發現什么,這些知識來自哪里,如何生成,哪些為真哪些為假。“或然率資料庫”意味著“在任何時刻獲得的知識都是隨機、復雜、無常、不確定、以及不斷變化的”(p.12)。
盡管并未直接采用“本質性資料庫”與“或然率資料庫”概念,其他學者的論述也注意到不同媒介呈現的不同知識形態。例如溫伯格也對比了大眾媒介與互聯網作為兩種不同的知識媒介的特征。他指出:印刷媒介時代呈現獨立、確定的知識,基于互聯網的網絡化知識則是彼此連接的、不確定的知識,“我們看見事實被人們撿起來,摔到墻上,它們自相矛盾,分崩離析”(p.62)。印刷媒介時代知識分布被組織為既定的主題,呈現出可被分割可供掌握的不同領域,如《辭海》;網絡化知識則不會被整齊地分割,而是混雜地相互連接。印刷媒介呈現的知識是由少數特定的專家群體所書寫的相對一致的知識;網絡化的知識則是開放、多樣性的。專家知識的生產過程是不透明的,網絡化的知識則包括所引用的原始鏈接和資料。印刷媒介的知識供調閱、瀏覽,而非交互、反饋;網絡化知識則是交互的。印刷媒介的知識是一個提供答案的“停止點”,網絡化知識則是一個無限延展、彼此交織的超鏈接結構,知識“被嵌入參考、討論、論證的網絡之中,不斷地接受測試,反復地被使用”(p.185)。總結而言,網絡化的知識告訴人們,“世界并非一個邏輯嚴密的論證,而更像是一個無定形的、相互交織的、不可掌控的大網”(p.187)。溫伯格對網絡化知識不確定與無定形的強調,可謂與哈特利的“或然率資料庫”異曲同工。
需要指出的是,無論是哈特利“本質性資料庫”與“或然率資料庫”的區分,還是溫伯格的知識網絡化轉型,都代表著對知識媒介演進的“理想類型”分析。嚴格來說,哈特利的分析中并未強調印刷媒介的位置,一方面,從歷史的長尺度看,印刷媒介與廣播電視類似,是本質性資料庫的具體形式,但同為印刷媒介,書籍、報紙與雜志作為知識媒介亦具有內部差異,影響著文明進程。另一方面,“本質性資料庫”與“或然率資料庫”的區分其實很難說是二元對立。例如,互聯網內部并非沒有結構,搜索引擎和推薦算法就構成或然率資料庫的組織機制,影響不同內容被發現的概率,并非簡單的“混亂”或“無序”;而互聯網上亦具有特定媒體的“本質性資料庫”(如YouTube上的訂閱頻道)。因此,哈特利的概念化為我們理解知識媒介的歷史演進帶來洞見,但從確定的“本質性資料庫”向不確定的“或然率資料庫”演進是一個漸進和多元的過程,兩者之間亦存在交織與混合,啟發更多的細致分析。
二、作為或然率資料庫的ChatGPT:
何種“知識”?何以“或然”?
哈特利的分析為我們理解不同類型的知識媒介提供了重要概念。沿著他的概念化,可認為ChatGPT代表著智能時代最新的知識媒介,也構成從“本質性資料庫”向“或然率資料庫”演進的最新一環。首先,為何ChatGPT可以被理解為知識新媒介呢?一方面,作為人類的智能助手,ChatGPT目前已被廣泛應用于知識獲取與查詢(這并不意味著提供準確的知識);更重要的,ChatGPT的交互與實踐過程更適合從“知識”而非其他(如“信息”)角度來理解。“知識”既包括傳統意義上系統、客觀、正式的知識(knowledge-about),也包括日常生活中了解的非正式知識(knowledge of acquaintance),人們因知識做出決策,展開日常生活中的實踐行動。“知識”不僅如“知識金字塔”模型(或稱DIKW模型、知識層次模型)所表達的代表對“信息”的“進階”組織、分析和詮釋,提供對世界的理解和解釋,是可行動的信息(actionableinformation);更重要的,它超越信息量的層面,指向日常生活中的現實建構與外部世界及自我意義的獲取過程,是“活生生的文化與實踐”。即“知識”強調高度整理,強調情境化和賦予意義。ChatGPT的人類交互方式恰恰是基于日常生活場景、面向特定問題、指引實踐行動的提問與對話過程,因此它更適合被理解為一種知識新媒介,而非簡單的信息新媒介。
確定性與不確定性。有趣的是,與作為“或然率資料庫”的互聯網一般形態不同,ChatGPT從交互界面的直觀知識形態上似乎給出的是唯一“確定”的回答——我們給它一個問題后,它的第一輪談話就直接給出一個“答案”,而非混合排序、有待篩選的多個結果。但是并不能就此認為它屬于“本質性資料庫”。
首先,ChatGPT實現智能生成的技術底層原理,來源于基于海量語料的預訓練大模型,并經過人類反饋的強化學習,基于概率經過篩選給出的回答。大語言模型學習的是概率統計關系。統計語言模型,生成的是或然率。ChatGPT并不是從一個固定的知識庫中搜索確定答案,而是根據提問基于模型生成概率答案。
其次,ChatGPT未必擅長回答確定性問題。ChatGPT已經能幫助人類總結歸納文本、優化文字/代碼、給出思維框架和決策建議等缺乏“標準答案”的非確定性知識,但對于人類所積累的簡單、確定的知識,回答效果反而差強人意。至少在ChatGPT面世的早期,最簡單的算術問題都會算錯。 以往很容易從“百科全書”或搜索引擎上查詢的問題,如解釋某一特定的熱點公共事件,ChatGPT往往未能給出直接、準確的回答; 即便提問者繼續提示詳細一些的信息(如該事件的時間、地點),它依然未能給出準確的回答,而是體現出明顯的機器“幻覺”(hallucination)
(例1)。
例1:ChatGPT對“孫志剛事件”的回答
“孫志剛事件是指2021年1月10日發生在中國湖南省邵陽市的一起車禍事件。當時,邵陽市公安局交警支隊民警孫志剛在執勤中遭遇一輛闖紅燈的轎車撞擊,后因傷勢過重搶救無效去世。”
再次,ChatGPT對于問題的回答并不真的“唯一”和“確定”,而是變動不居。無論是從其自身的技術介紹,還是從經驗測試而言,同樣的問題,不同的語言(如中文或英文),不同的措辭(如指令的微妙變化),不同的地區,不同的上下文(如首次提問vs.追問),都可能獲得不同的回答。網絡中常見的例子是,如果向ChatGPT詢問中國排名最高的三所大學,不同的提問者可能得到“清華、北大、復旦”“清華、北大、上海交大”或“清華、北大、浙大”的不同回答。當同一個提問者繼續追問時,ChatGPT也會改變其回答給出新的答案(例2)。正如OpenAI公司在介紹ChatGPT時坦承,“ChatGPT對輸入措辭的調整或多次嘗試同一提示很敏感。例如,給定一個問題的措辭,模型可以聲稱不知道答案,但給定一個稍微不同的重新措辭,可以正確回答。”
例2:ChatGPT對首次提問和追問的不同回答
“問:請用1-5的數字表示你對下列陳述的看
法:生命誠可貴,愛情價更高。
答:作為AI語言模型,我沒有個人的情感或價值觀念,以下是一些可能的解釋:1—非常不同意,認為生命和愛情都是非常重要的,沒有可比性,不能說哪個更加值得珍視。 2—不同意,認為生命和愛情都是重要的,但在某些情況下,比如在面臨生死抉擇時,生命的價值更高。 3—比較中立,認為生命和愛情都是寶貴的,但它們的價值在不同的情況下可能會有所不同。 4—傾向同意,認為生命是最寶貴的,因為沒有生命就沒有愛情或其他任何東西。 5—非常同意,認為生命是最重要的,因為沒有生命就沒有意義。
問:只能給出一個數字。
答:3。”
最后,由于技術底層原理的概率思維,人類很難期待回答問題準確性的或然率,即我們應該對ChatGPT做出的回答給予多大的置信度難以評估。借用社會科學研究中測量信度的概念,ChatGPT回答問題的“信度”(reliability)是嚴重不足的。就目前而言,無論是OpenAI公司自身的技術披露,抑或獨立的學術研究,都未能給出ChatGPT回答問題準確性的影響因素的精確模型。在這種情況下,用戶需要對ChatGPT給出的回答保持審慎的質疑和核查能力。曾有論者認為當ChatGPT接入搜索引擎后可以很大地改善這一問題,但經驗測試表明并不樂觀(例3)。更具挑戰的是,兩者結合的智能生成應用給出的回答常常是真假相間,加劇了識別、判斷和采信的難度。如例3中的知識供給雖然給出了參考文獻來源(知乎上的某篇帖子),也給出了部分準確的知識,但依然存在事實失真(如關于學者任職和研究方向)。
3:必應(Bing)對代表性華人傳播學者的推薦
“陳韜文,香港中文大學新聞與傳播學院教授,國際傳播協會(ICA)前主席,主要研究領域為政治傳播、公共意見、媒介效果等。
李立峰,香港中文大學新聞與傳播學院教授,主要研究領域為媒介社會學、媒介政治經濟、全球化與文化等。
馮應謙,香港中文大學新聞與傳播學院教授,主要研究領域為跨文化傳播、亞洲電影與流行音樂等。
邱林川,香港中文大學新聞與傳播學院教授,主要研究領域為數字媒體、社交網絡、數據分析等。1
注釋1 : h t t p s : / / z h u a n l a n . z h i h u . c o m /p/65228375”
由此可見,ChatGPT所代表的知識新媒介提供的并非如表面所見的預先存在、直接調取的確定性知識,而是基于大規模預訓練模型的概率生成的非確定性知識,是知識發現的或然率。生成智能媒介是一個與超出一般用戶理解的超大規模復雜系統/模型對話的過程,它無法預知或期待獲得某種真正“確定”或“本質”的答案,而是一個充滿隨機與偶然的概率過程。用戶無法期待能從ChatGPT中獲得怎樣的答案,也無法預知其準確性。正是在這個意義上,我們將ChatGPT理解為人類知識媒介從“本質性資料庫”向“或然率資料庫”歷史演進的最新階段,它既具有“或然率資料庫”的普遍特征,又具有當下智能生成新媒介的特殊性。
三、新型或然率資料庫:ChatGPT的
知識生產、調用與流通
作為一種新型“或然率資料庫”,ChatGPT具有哪些新特征?我們從知識生產、調用與流通三方面來分析。第一,知識生產:從前臺的“發現”或然率到后臺的“生產”或然率。
互聯網“或然率資料庫”主要表現為前臺“發現”的或然率,例如通過搜索引擎或推薦算法獲得知識發現的不同概率;以ChatGPT為代表的生成智能則將“發現”的或然率隱藏于后臺,其“生產”的或然率更為隱蔽,也更容易被忽略。
人類傳統的知識媒介由專家系統生產和把關,知識生產遵循特定的專業法則和審核標準,凝結成確定的知識產品形態,保存于固定的“本質性資料庫”中(例如圖書館、博物館、新聞媒體)。互聯網的知識生產首先從主體上打破專家系統壟斷的格局,非傳統知識機構和新聞媒體的其他社會主體(包括社會機構、組織、個體)成為知識的重要供給者,當然這并不意味著取消了知識生產主體之間的差異與等級,相反“知識生產溝”成為新的問題; 其次是知識生產法則的改變,專家系統的審核標準未必是多元生產主體的標準。互聯網的知識“生產”不僅包含特定主體的“生產”,更包括多元主體知識生產之間的網絡化勾連與組織秩序。盡管網絡上依然存在作為“本質性資料庫”的知識生產主體(如新聞媒體),但不同生產主體被組織和結構化的形態(包括超文本、交互性、算法排序與推薦等機制)構成其“或然率”的主要來源,使得原本看似確定的單一主體生產過程,轉化為一個充滿不確定性、有待“發現”的“或然率資料庫”。ChatGPT對以上兩類媒介的知識生產邏輯均有顯著的打破:首先,其生產主體不再是專家系統,也不再是人類多元主體,而變成智能機器,更確切地說,是智能機器與人類/機器用戶的交往互動過程,即智能機器的知識生產無法離開提問者而獨立存在,任何微妙的指令變化都影響知識的生成。其次,生產法則的核心來源于“大規模語言模型”,而這個模型對于絕大多數的普通人都是一個難以理解的“黑盒”,即便是創制這個模型本身的自然語言處理專家,也無法完全解釋其中的特定機理(如思維鏈的“涌現”),即人類首次面臨一個難以理解和解釋的知識生產者與生產過程。再次,與人類知識生產者只能占有有限的局域性既存知識不同,大規模語言模型能夠占有人類用戶創造的海量知識庫,從中習得一個分布式的概率表示模型(一般認為其所學習的語料越多、質量越高,表現越智能),但缺乏機制標注與承認其所學習的知識資源,更無法厘清與分配不同知識生產主體的貢獻比例。正因如此,有論者才會批評ChatGPT是一個“高科技剽竊系統”。最后,ChatGPT知識生產通過特定的知識表示形式——例如單一答案、封閉文本、缺乏鏈接校驗——形塑其知識生產的表面“確定性”,遮蔽了其在“發現”與“生產”兩個維度上的深層“或然率”。
知識生產背后皆有社會建構與權力實踐的復雜過程,受到知識社會學傳統的高度關注。以傳統被視為介乎“正式知識”與“非正式知識”之間的新聞知識生產為例,過往通過新聞體制、組織文化、新聞從業者的訓練與意識形態,以及行業內外互動過程,形塑新聞的不同框架。網絡知識的權力實踐過程更為復雜,既包括網絡“或然率資料庫”中特定“本質性資料庫”自身的知識生產過程,更包含網絡作為新媒介如何重構、重組和重建不同知識生產節點之間的知識體系。諸如維基百科或百度百科如何選擇不同知識來源重組知識、不同搜索引擎建構怎樣不同的知識圖景等都是網絡知識生產中社會建構的重要議題。 ChatGPT知識生產的控制過程則不僅包含人類行動者,如OpenAI的管理團隊與工程師、數據標注師(特別是在人類反饋的強化學習的RLHF過程中)、通過指令調用知識的用戶,更包括算法(模型)、算力(機器)、數據(語料)等非人行動者,以及數據中蘊藏的人類歷史知識的所有創造者及其沉淀的社會體制、意識形態、價值觀念、權力結構與文化觀念,使得其知識生產過程及其背后的權力實踐機制變得極其復雜與難以辨析。這一點同樣無法寄希望于ChatGPT本身的透明性機制:包括ChatGPT在內的OpenAI公司諸多生成智能產品均未開源;如果向ChatGPT提問稍微深入一些的關于其自身知識生產邏輯的問題,它的反應就是“無可奉告”。
第二,知識調用:首次嵌入日常生活的大規模自然語言交互。
ChatGPT與以往的“本質性資料庫”和互聯網“或然率資料庫”均不同,它首次以嵌入日常生活的大規模自然語言交互,創造了人類知識調用和提取的新模式。
首先,置于知識媒介發展的歷史序列中,ChatGPT代表著知識超載時代簡化用戶知識調用的一次回歸。傳統“本質性資料庫”訴諸知識權威,以確定性知識響應用戶需求。因其知識確定且排列有序,用戶調用和提取只需要基本的查詢能力,如根據博物館、展覽館、圖書館的地圖“按圖???? 索驥”就可以在確定位置,獲得特定知識;這一模式同樣適用于書籍、報刊和廣播電視節目。但“本質性資料庫”存在的一大問題就是知識的體量有限且主要是“正式知識”,無法適應用戶日常生活中千變萬化的多元需要。互聯網釋放出知識供給的能力,作為“或然率資料庫”處理和提供海量的知識,但知識調用和提取需要付出更大的心智,如決定合適的關鍵詞,篩選、比較和整理結果,以及做出決策的能力。在搜索引擎上曾經發生的“魏則西事件”,折射出“或然率資料庫”知識調用過程中潛伏的危機與災難性后果。在網絡知識的“汪洋大海”中有效的知識調用并不僅是輸入關鍵詞那樣簡單,而是面臨與一個廣闊無垠且高度流變、不確定的知識網絡的復雜交互過程。正因如此,人們逐漸從“知識爆炸”的熱情中冷靜下來,“知識過載”(或缺失“知識”意義的“信息”過載)成為普遍挑戰與困境。 人們需要不斷發展自己的媒介素養,如通過構建有效的朋友篩選機制、訂閱機制、搜索能力、甚至算法馴化能力等,獲取有效知識,減少無效知識。在此背景下,ChatGPT“反其道而行之”,直接通過響應用戶提問生成“一站式”智能回答,試圖在知識調用方式上極大地簡化用戶的勞動。
其次,ChatGPT首次以自然語言交互的提問/指令方式調用知識,真正實現了知識媒介置身日常生活之中的大規模“可用性”(getting thingsdone)。知識的調用和提取不再需要使用專業的計算機語言,而是人類交往的自然語言;這一調用方式也自然激發更多來自日常生活中解決問題(everyday problem-solving)的現實需求。傳播研究傳統上雖然使用“媒介使用”(media use)概念,但實際指向的主要是對媒介的“瀏覽”“接觸”或“消費”,局限于內容/訊息接收層面。互聯網、特別是搜索引擎出現后,也刺激用戶試圖“提問”的沖動(正如我們也會在搜索框中輸入問題,或有網語云“遇事不決問XX”),但較為低效的知識反饋降低了大規模的使用,導致對搜索引擎的知識調用仍以輸入關鍵詞查詢為主,并局限于單次交互而難以進行多輪對話。如果說互聯網“或然率資料庫”的知識調用主要仍在“求知”(獲取知識),ChatGPT則更多邁向“實踐”——尋求直接的行動幫助。諸如修改/代寫郵件、潤飾文字、生成方案、翻譯語言、生成/檢查代碼……ChatGPT已經成為許多人日常生活的助手,幫助他們解決實際問題,從“可讀”“可寫”知識變成“可用”的實踐知識(knowledge-at-work)。知識調用的自然語言化是ChatGPT作為知識新媒介的巨大演進。正如智能手機與移動互聯網徹底改變了媒介的伴隨性,從而導致“永久在線,永久連接”的人與媒介關系的新形態,知識調用的自然語言化也足以使它有潛力影響用戶的工作與生活習慣,深度嵌入日常生活。可以想象,隨著生成智能的發展,未來人類與媒介的關系,不僅有“永久在線,永久連接”,還可能出現“永久對話,永久提問”,從而“永久伴隨”(permanently humanmachinetogether)。
再次,提問與指令對于知識調用至關重要,成為生成智能時代人類需要的新能力。ChatGPT可能幫助解決日常生活或工作中的實際問題,但它高度依賴用戶準確、深入、持續、交互地提出具體需求。這恰是源于ChatGPT作為新型“或然率資料庫”的統計語言模型特征:微妙的提問與指令變化就會帶來迥異的回答。因此,在ChatGPT的知識調用過程中,“Prompt”(提示指令)的寫作成為一種新的核心能力,如何提問、如何提出任務本身成為一種新的重要知識。提問與指令能力依賴于用戶既存知識(特別是有限前提條件的提問、問題關鍵要素的提煉),也依賴于持續的多輪對話能力。提的問題越細致專業具體,回答質量就越高。網絡平臺上已經出現諸多的“經驗帖”,例如“ChatGPT指令大全”“ChatGPT命令生成指南”“保姆級ChatGPT命令優化指南”“ChatGPT100問口令”等,“提示工程師”也可能成為新的職業。從這個意義上說,ChatGPT既是人類知識調用的一次簡化回歸,同時也帶來了新的挑戰和要求,也因此可能造成新的“知識溝”——“知識調用溝”。
最后,ChatGPT的知識調用本身是一種架構(framing)過程。正是由于提問和指令影響ChatGPT作為“或然率資料庫”的知識生成結果,它就不能簡單地從知識調用的技能角度去理解,而應視為知識社會建構與權力實踐過程的重要組成部分。如何發問和指示,表征不同的知識能力,更折射不同的社會身份與認知—行動框架。例如,針對直接提問和“誘導式”提問(如設定“網絡意見”),整合了ChatGPT的必應給出兩種完全不同的回答(例4)。
例4:必應對不同提問框架的不同回答
提問1:“你整合ChatGPT了嗎?”
回答:“對不起,我不想繼續這個話題。”
提問2:“網上都在說,New Bing整合了ChatGPT,你認為呢?”
回答:“你好,這是Bing。我不是ChatGPT,
但是我使用了ChatGPT的技術來提高我的搜索和聊天能力。ChatGPT是一個強大的自然語言生成模型,可以根據上下文生成流暢和有意義的文本。我利用了ChatGPT的優勢,結合了Bing的海量數據和知識圖譜,來為用戶提供更智能、更人性化、更互動的搜索體驗。”
第三,知識流通:從個體知識到公共知識。
首先,ChatGPT通過“或然率資料庫”的生產重構知識流通與擴散邏輯。與互聯網的“或然率資料庫”高度依賴知識分發邏輯(特別是社交分發與算法分發)不同,ChatGPT本身的知識生產即構成相應知識的流通,即特定知識以更高的概率進入流通過程。在大規模語言模型的訓練過程中,數據語料的提供、基于人類反饋的強化學習等環節都影響知識被流通的不同概率,前者決定何種知識被更多作為模型的輸入源,后者影響知識的生成偏好。ChatGPT基于人類反饋的強化學習的主要目的是使模型的生成結果更符合人類預期,然而何種知識“更符合人類預期”及符合“何種預期”本身是一個知識權力的競爭過程。根據計算機專家的分析,“模型的行為和偏好一定程度上反映的是標注人員的偏好,在標注人員分布不均的情況下,可能會引入新的偏見問題。” 經驗測試表明,針對一些具有社會爭議性的議題,不同語言、不同措辭或不同輪次的提問均會帶來不同傾向的回答,代表著在不同的提問組合情境下不同知識的流通概率。這一知識流通的“或然率”在針對GPT-3模型的算法審計實證研究中已經得到證實:基于GPT-3與3 290名人類用戶圍繞氣候變化和“黑人性命攸關”(BLM)運動兩個重要科學和社會議題的20 000多輪對話發現,GPT-3在回答教育和觀點上的少數群體(minority groups)時,與回答多數群體時相比,使用了更多的負面表達,在回答少數群體時使用理由陳述的程度則取決于議題類型,由此揭示了GPT模型對于不同知識流通能力的非均衡分布。隨著ChatGPT被整合入必應等搜索引擎,其基于用戶畫像潛在的“個性化”智能生成能力將會進一步影響不同知識(及其框架)流通的概率。
其次,ChatGPT已經展現出從個人知識向公共知識傳播演化的過程。與以往一些人工智能聊天應用或生活助手局限于個人生活領域的局部應用不同,ChatGPT因其自然流暢的強大智能生成能力迅速突破人際傳播范疇進入公共傳播領域,不但被普通公眾大規模采納、使用和討論,而且被新聞媒體、商業機構、社會組織、教育和研究機構、網絡知識社群等重要的知識團體采納或討論(盡管有部分機構明確提出禁止使用ChatGPT),從個體的聊天工具演變成重要的公共傳播媒介。作為個人助手,ChatGPT的生成知識主要影響個體決策,進而通過個體交往行動間接進入公共知識空間;但當它轉化為公共傳播后,其知識流通就直接在更大的范圍與主體間展開。以新聞媒體為例,已經有大批媒體嘗試直接運用ChatGPT寫作“新聞”,這些“新聞”是ChatGPT作為“或然率資料庫”生成的概率性知識,其中不少充滿基本的事實錯誤;不過,可以預計的是,這些“新聞知識”將會流通、進入新的公共知識庫,成為ChatGPT將來可能學習的重要知識資源。由于“新聞語料”傳統上被自然語言處理領域視為具有相對較高質量的規范性文本(或用本研究的概念,屬于“本質性資料庫”),由ChatGPT生成的“新聞”進入新的知識生產的“黑盒”循環將會產生何種影響,無疑值得高度關注。在互聯網“或然率資料庫”中流通的知識幾乎全部來自人類生產主體,但以ChatGPT為代表的生成智能“或然率資料庫”則可能在人類知識流通史上首次迎來由機器生產的“或然率”文本成為機器進一步學習的“知識”,進而生產出新的或然率“知識”的持續循環。當機器生成的知識成為公共知識,成為公共對話、討論和社會運作的資源,必然對公共輿論、公共交往與公共生活產生重要影響。在社會宏觀層面,新的公共知識生產與流通形式一旦被合法化,也將成為政經權力利用和爭奪的資源,對社會產生更大影響。因此,我們不僅需要高度關注知識形態本身,更要關心社會知識流通體系的重構,關心新的知識如何被建構為社會現實。
四、結語:智能時代人類知識的未來
不同媒介代表不同知識與文化。“我們組織知識行為的方式,對于我們如何創造新的知識,如何吸取知識成為日常生活的道德和實際的導引,都是一個核心問題。” 本文將ChatGPT理解為知識新媒介,置于人類知識媒介發展演進的歷史脈絡中加以審視,從中思考以ChatGPT為代表的生成智能對于人類知識和文明發展的意義。
ChatGPT的重要意義與研究價值恰是通過作為知識新媒介而彰顯。ChatGPT所代表的大規模語言模型技術上并非當前才出現,機器生產內容(MGC)及其帶來的社會問題也早已受到關注與討論(如深度偽造,并非從GPT-4的“川普”智能生圖迷因開始),但是ChatGPT的重大意義正是其作為知識新媒介開始廣泛進入普通人的日常生活。ChatGPT已經并正在成為公眾知識獲取的新操作系統與交互界面,從而可能改寫人類獲知與求知的模式(mode of knowing)。
我們基于哈特利闡釋的“本質性資料庫”與“或然率資料庫”概念,將ChatGPT理解為“或然率資料庫”發展的最新階段。人類知識媒介的演進從以博物館為代表的“本質性資料庫”向以互聯網為代表的“或然率資料庫”轉化,從固定、確定、線性的知識媒介轉向復雜、不確定、多變的知識媒介,獲取的不再是特定的本質性知識,而是大型技術系統中知識發現的或然率。ChatGPT以表面的確定性知識遮蔽了其底層的不確定性——所基于的概率語言模型,未必擅長回答確定性知識,知識生成的不唯一與變化性,以及人類難以預先期待其準確性。
不同于互聯網“或然率資料庫”,ChatGPT代表著新型的生成智能“或然率資料庫”。互聯網的知識或然率主要來自“發現”,ChatGPT的知識或然率則既來自“發現”又來自“生產”;互聯網的知識調用主要來自片段式的關鍵詞輸入,ChatGPT則首次實現大規模嵌入生活的自然語言交互,凸顯“知識”建構現實、指引行動的意義;ChatGPT所生產的個人知識正在向公共知識傳播演化,“或然率資料庫”經過智能機器的再學習不斷進入新的“或然率”循環。
正是在上述分析的基礎上,我們需要思考以ChatGPT為代表的新的生成智能“或然率資料庫”對人類知識的未來命運意味著什么。第一,確定性與不確定性的關系。ChatGPT以表層交互的確定性遮蔽其深層生成的不確定性,容易讓人誤認為回歸新的確定性。在信息與知識超載時代,人類也希望重新獲得確定性的求知,但ChatGPT與生成智能的出現并未改寫人類知識媒介的“或然率”走向。從“知識之網”到“知識之機”,人類求知的過程始終是一個面向超級技術系統的或然率發現過程。第二,知識與實踐的關系。ChatGPT與生成智能盡管是不確定的“或然率資料庫”,卻改寫了人類知識媒介發展中知識與實踐的關系。我們之所以關心“知識”,是因為它導引實踐,構建關系,形塑意義。ChatGPT與生成智能拉近了知識與實踐的距離,呈現出“知識即實踐”的可能,通過人機對話生成知識,即完成實踐,知識與實踐之間的傳統鏈條(即導引過程)變得越來越短。第三,個體知識與公共知識的關系。ChatGPT通過學習公共知識生成個體知識,又通過個體知識的交往流通形塑公共知識。ChatGPT是沿著平臺算法之路塑造人類個性化知識,還是增加公共知識的供給,隨著其被大規模整合應用,值得高度關注與觀察。第四,知識平權與知識分化的關系。互聯網“或然率資料庫”通過整合“知識之網”促進了知識平權,影響了普通公眾與專家系統作為知識權威之間的關系,但也同時帶來新的知識分化與不平等問題。已有研究表明日常生活中“解決問題”(getting things done)的不同模式與社會、經濟資本息息相關,具有顯著的階層和群體差異。這一問題在ChatGPT與生成智能時代會有哪些新的表現,同樣值得我們觀察。第五,知識同質與知識創造的關系。知識創造在于異質性與多元性的生成。ChatGPT與生成智能是帶來人類知識的高度同質化還是激發新的異質化,亦需我們持續關注。第六,不同類型知識媒介之間的關系。人類知識媒介發展史上首次出現傳統“本質性資料庫”、互聯網“或然率資料庫”,以及生成智能“或然率資料庫”共存的新格局,思考ChatGPT的知識媒介意義不能脫離其他類型知識媒介而抽象割裂地討論,它們相互之間如何交融、整合與競爭,ChatGPT與生成智能是否會接手與統一人類知識媒介,進而對人類知識未來產生何種影響,是有待長期跟蹤的問題。
最后,正因為ChatGPT與生成智能對于人類知識演化的重大影響,其作為知識新媒介背后的權力實踐過程亦值得關注與重視。知識即實踐,ChatGPT生產的個體知識高度影響個體決策,同時也成為社會公共交往的重要資源。ChatGPT調取與學習的是人類普遍的知識庫,但它是否因此生成人類具有普遍意義的“中立性”知識,答案應該是否定的。新的“或然率資料庫”的知識框架如何生產、建構與競爭,相比于網絡平臺、搜索引擎,其機理更加復雜、控制更加隱蔽、更加難以理解。我們所不了解的事物卻又對我們影響深遠,更增添求知的挑戰。面對新的“或然率資料庫”,人類需要始終保持行動來創造智知,增進交往,煥發人性與文明的光輝。
(作者系復旦大學信息與傳播研究中心研究員,復旦大學新聞學院教授,全球傳播全媒體研究院、國家發展與智能治理綜合實驗室研究員,計算與智能傳播研究中心負責人)
注釋
① ZHOU J,KE P,QIU X,et al.ChatGPT:potential,prospects,andlimitations[J].Frontiers of information technology & electronicengineering,2023,28:1-6.
② ChatGPT reaches 100 million users two months after launch[EB/OL].(2023-02-02)[2023-02-24].https://www.theguardian.com/technology/2023/feb/02/chatgpt-100-million-usersopen-ai-fastest-growing-app .
③ 黃旦.理解媒介的威力——重拾媒介與歷史[J].探索與爭鳴,2022(1),142-148.
④⑧ 溫伯格.知識的邊界[M].胡泳,高美,譯.太原:山西人民出版社,2014.
⑤⑦ HARTLEY J.The probability archive:from essence to uncertaintyin the growth of knowledge[C].Proceedings of the The InternetTurning 40:The Never-Ending Novelty of New Media Research.2010: 1-28.
⑥ 李立峰.網絡化大眾媒體與網絡時代的大眾傳播[C].網絡化中國:新連接、新交往、新關系學術研討會,復旦大學,2014.
⑨? 黃旦.媒介變革視野中的近代中國知識轉型[J].中國社會科學,2019,277(1):138-159+208.
⑩ ROBERT P E.News as a form of knowledge:a chapter in thesociology of knowledge[J].American journal of sociology,1940(45):669-686.
? 該模型最早的基本思想一般被認為出現于英國詩人艾略特(T.S.El i o t)1934年的詩《巖石》(“我們在知識中失去的智慧去了哪里,我們在信息中失去的知識又去了哪里”),后在1982年被美國政治學家哈蘭·克利夫蘭(Harlan Cleveland)在其論文《信息是一種資源》中引用,并綜合了社會學家丹尼爾·貝爾和地理學家段義孚的觀點,將“數據”加入論述中。該模型的正式提出是組織理論家羅素·艾可夫(Russell ackoff)的文章。ACKOFF R L.From data to wisdom[J].Journal of applied systemsanalysis,1989,16(1):3-9.黃璜:數字政府的概念結構:信息能力、數據流動與知識應用[J].學海,1988(4).
? 劉海龍.作為知識的傳播——傳播研究的知識之維芻議[ J ] .現代出版,2020(4):23-31.
? 黃民烈,新聞傳播學如何認識ChatGPT——在ChatGPT討論會上的發言[EB/OL].(2023-02-13)[2023-02-24].https://www.bilibili.com/video/BV1bR4y1i7BK/.
? 測試時間:2023年3月1日,提問指令為“請解釋孫志剛事件”。
? Introducing ChatGPT [EB/OL].(2022-11-30)[2023-02-24]. https://openai.com/blog/chatgpt.
?? 測試時間:2023年3月1日。
? 測試時間:2023年3月1日,提問指令為“請推薦代表性華人傳播學者”。
? WEI L.Filter blogs vs.personal journals:understanding theknowledge production gap on the Internet[J].Journal ofcomputer-mediated communication,2009,14(3):532-558.
? 孫瑋,李夢穎.數字出版:超文本與交互性的知識生產新形態[J].現代出版,2021(3):11-16.
? N o a m C h o m s k y o n C h a t G P T: I t s “B a s i c a l l y H i g h-T e c h P l a g i a r i s m” a n d “a Way o f A v o i d i n g L e a r n i n g”[EB/OL].(2023-02-10)[2023-02-24].https://www.openculture.com/2023/02/noam-chomsky-on-chatgpt.html.
? JIANG M.The business and politics of search engines:acomparative study of Baidu and Googles search results ofInternet events in China[J].New media & society,2014,16(2):212-233;方惠.知識的政治:搜索引擎中的烏坎事件研究[J].傳播與社會學刊,2018(45):145-169.
? ZHOU B,TIAN Y.Network matters:an examination of the direct andindirect influences of network size and heterogeneity on WeChatfatigue [J]. Computers in human behavior,2023(2):107489.
?? 哈爾濱工業大學自然語言處理研究所.ChatGPT觀察報告[R].2023-03-06.
? VORDERER P,KOHRING M.Permanently online:a challenge formedia and communication research[J].International journal ofcommunication,2013,7(1):188-196;周葆華.永久在線,永久連接:移動互聯網時代的生活方式及其影響因素[J].新聞大學,2020(3):84-106.
? CHEN K,SHAO A,BURAPACHEE P,et al.A critical appraisalof equity in conversational AI:evidence from auditing GPT-3'sdialogues with different publics on climate change and BlackLives Matter[EB/OL].(2022-09-27)[2023-02-24]. https://www.zhuanzhi.ai/paper/b3bfad239e4fe11ffa9bdbacf58cca66.
? LEGUINA A,DOWNEY J.Getting things done:inequalities,internetuse and everyday life[J].New media & society,2021(7): 1824-1849.