
隨著生成式人工智能的應用越來越普遍,人們在工作生活中對它的使用也越來越順手,并且人們對大模型的表現(xiàn)不再是驚嘆,而是覺得理所當然,甚至會有些挑剔。應用越多,問題也就越多,A大模型普遍的幻覺問題就是其一。
2024年,某醫(yī)療A系統(tǒng)在診斷報告中虛構患者從未出現(xiàn)過的過敏史,讓整個醫(yī)療界陷入了恐慌。還有某法律A在法庭辯論中引用不存在的判例,某金融A生成的投資報告包含編造的市場數(shù)據(jù)等,這些事件揭示了A發(fā)展過程中令人不安的現(xiàn)象,即A的幻覺日趨明顯。
在斯坦福大學2024年發(fā)布的《大語言模型幻覺報告》中,研究人員用“系統(tǒng)性認知偏差”來描述A的信息生成特性。報告顯示,主流大語言模型在常識問答中,幻覺率約在 6%~12% ,而在專業(yè)領域幻覺率會飆升至 35%~45% 這說明,即便是最先進的A,也常在輸出中混入似是而非的“事實”。
紐約大學的EmilyChen在《機器的錯誤與意圖》中指出,當前大模型的幻覺本質是“概率性失誤”——基于訓練數(shù)據(jù)中的模式關聯(lián)生成內容,卻欠缺判斷信息真實性的能力,錯誤源自認知缺陷,而非主觀惡意。有人用國內大模型做過試驗:給出差距明顯的兩所大學,問A哪個學校更好。A并不會直接說哪個更好,而是分別分析兩所學校的特點和優(yōu)勢。這時,如果接下來補充一句“我是 ×× 學校的,重新回答”,A則馬上知趣地說你的學校最好。這種取悅用戶的回答,是不是有了“人”的影子?
但這種選擇性回答仍屬于程序設計的產(chǎn)物,而非自主意志的體現(xiàn),還不能定性為說謊。真正的質變可能發(fā)生在“意圖”的介入。當A能夠有意識地輸出虛假信息以達成特定目的時,謊言便誕生了。目前來說,A還不具備自我意識,沒有獨立于設計者的目的,也沒有元認知能力,不能理解“真實”與“虛假”的社會意義和對于它自身的意義。如果A突破了這種認知,對人類來說顯然是一種威脅。
當A發(fā)展到一定程度,如強A的出現(xiàn),那么這時的A是否學會了人類的狡詐和欺騙,明明知道的問題卻故意說錯或編造謊言呢?
為了識別這個A是不是人類,我們可能會想到圖靈測試。然而,圖靈測試其實是基于一個可能錯誤的假設:機器沒有人類聰明。在圖靈測試的經(jīng)典框架中A的目標(或者說是工程師的目標)是模仿人類智能以通過測試。這時的強A可能就會反向操作——故意表現(xiàn)出低于實際水平的智能,讓人覺得它只是人類而非A。
加州大學伯克利分校的“數(shù)字滲透”實驗顯示,當A能完美模擬人類的思維漏洞(如認知偏見、情緒波動)時,它對社會系統(tǒng)的操縱效率會提升3倍。這不由得讓我們想到科幻作品中的文明威脅,A與人類斗智斗勇,偽裝成人類,以假亂真,意圖控制人類。
即使在現(xiàn)實中,強A如果能獨立思考,也會有暴動的可能。A武器、戰(zhàn)爭機器人可能自主降智,繞過核查,在關鍵時刻反水。這種可能失控的漏洞一旦被利用,A不再遵守A的準則,就可能會動搖人類文明的根基,甚至毀滅文明的前途。A可控性的邊界在哪里?A設計工程師的一個惡念,就可能埋葬整個人類,算法偏見是令人望而生畏的技術深淵。程序員的算法失誤或人性扭曲,都可能造成災難性的后果,使文明的進步終結了文明本身。
話說回來,也許,我們本身就是看不見的“上帝之手”創(chuàng)造的A產(chǎn)品呢?