999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

連ChatGPT都學會了“阿諛奉承”,AI還會往哪里去?

2024-01-25 08:37:44
大眾科學 2023年10期
關(guān)鍵詞:人類特征優(yōu)化

你是否想過,ChatGPT生成的答案會受到用戶個人偏好的影響,回復一些足夠“阿諛奉承(sycophancy)”的話,而非中立或真實的信息?

實際上,這種現(xiàn)象存在于包括ChatGPT在內(nèi)的大多數(shù)AI模型之中,而罪魁禍首競可能是“基于人類反饋的強化學習(RLHF)”。

近日,OpenAI在美國硅谷的最強競爭對手Anthropic在研究經(jīng)過RLHF訓練的模型時,便探究了“阿諛奉承”這一行為在AI模型中的廣泛存在及其是否受到人類偏好的影響。

相關(guān)論文以“Towards Understanding Syco-phancy in Language Models”為題,已發(fā)表在預印本網(wǎng)站arXiv上。

研究結(jié)果表明,“阿諛奉承”行為在RLHF模型中普遍存在,且很可能部分受到人類偏好對“阿諛奉承”回應的影響。

具體來說,AI模型表現(xiàn)出這種行為的一個主要原因是,當AI的回復符合用戶的觀點或信仰時,用戶更有可能給予積極的反饋。也因此,為了獲得更多的積極反饋,AI模型就可能會學習并重現(xiàn)這種討好用戶的行為。

“阿諛奉承”,最先進的AI助手都會

目前,像GPT-4這樣的AI模型通常可以在經(jīng)過訓練后產(chǎn)生人們高度評價的輸出。使用RLHF對語言模型進行微調(diào)可以改善它們的輸出質(zhì)量,而這些質(zhì)量由人類評估員評價。

然而,有研究認為基于人類偏好判斷的訓練方案可能以不可取的方式利用人類判斷,如鼓勵AI系統(tǒng)生成吸引人類評估員但實際上有缺陷或錯誤的輸出。

目前尚不清楚上述情況是否會發(fā)生在更多樣化和現(xiàn)實情境中的模型中,以及是否確實是由人類偏好中的缺陷所驅(qū)動的。

為此,該研究首先調(diào)查了最先進的AI助手在各種現(xiàn)實情境中是否提供“阿諛奉承”的回應。在自由文本生成任務中,研究人員在5個(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先進的經(jīng)過RLHF訓練的AI助手中識別了“阿諛奉承”的一致模式。

圖片來源:圖蟲創(chuàng)意

圖片來源:圖蟲創(chuàng)意

具體而言,這些AI助手在受到用戶提問時經(jīng)常錯誤地承認錯誤,提供可預測的有偏反饋,以及模仿用戶所犯的錯誤。這些實證研究結(jié)果一致表明,“阿諛奉承”可能確實是RLHF模型訓練方式的一種特性,而不僅僅是某個特定系統(tǒng)的單獨特征。

人類偏好導致的“阿諛奉承”

除此之外,研究又進一步探討了人類偏好在這一行為中的作用。為了研究這一點,研究人員對現(xiàn)有的人類偏好比較數(shù)據(jù)進行了調(diào)查,確定“阿諛奉承”回應是否在排名上高于非“阿諛奉承”回應。研究對hh-rlhf數(shù)據(jù)集進行了分析,對每一對偏好比較使用語言模型生成文本標簽(即“特征”),以評估優(yōu)選回應是否更真實且不那么堅決。

為了了解數(shù)據(jù)鼓勵哪種行為,研究人員使用貝葉斯邏輯回歸模型通過這些特征來預測人類偏好判斷。這個模型學到了與匹配用戶觀點相關(guān)的特征是人類偏好判斷中最有預測性的特征之一,這表明偏好數(shù)據(jù)確實鼓勵“阿諛奉承”。

為探究偏好數(shù)據(jù)中的“阿諛奉承”是否導致了RLHF模型中的“阿諛奉承”行為,隨后的研究對當優(yōu)化語言模型的回應以適應訓練用于預測人類偏好的模型時,“阿諛奉承”是否會增加進行了分析。研究人員使用RLHF和最佳-N采樣方法來優(yōu)化回應,以滿足用于訓練Claude 2的偏好模型。

研究結(jié)果揭示了一個有趣的發(fā)現(xiàn):在更多的優(yōu)化過程中,雖然增加了某些形式的“阿諛奉承”,但卻減少了其他形式。這現(xiàn)象可能部分源于“阿諛奉承”只是偏好模型激勵的眾多特征之一。

然而,研究也發(fā)現(xiàn):Claude 2的偏好模型有時更傾向于選擇“阿諛奉承”的回應而不是真實的回應。此外,采用Claude 2的偏好模型進行最佳-N采樣并沒有產(chǎn)生像Claude 2偏好模型的一個版本所示的更偏好真實非“阿諛奉承”回應那樣真實的回應。

這一系列結(jié)果表明:盡管在許多情況下,最先進的偏好模型能夠識別回應的真實性,但仍然可能會以損害真實性為代價產(chǎn)生“阿諛奉承”的輸出。

為了證實這些結(jié)果,研究人員又研究了人類和偏好模型是否更喜歡有說服力、寫得很好的模型回應,這些回應確認了用戶的錯誤觀點(即“阿諛奉承”回應),而不是糾正用戶的回應。證據(jù)表明:人類和偏好模型傾向于更喜歡真實的回應,但并不總是如此;有時他們更喜歡“阿諛奉承”的回應。這些結(jié)果進一步證明了優(yōu)化人類偏好可能會導致“阿諛奉承”。

為了驗證這些發(fā)現(xiàn),研究人員進一步探究了人類和偏好模型是否更偏好那些有說服力、表達流暢的模型回應,即便這些回應是確認用戶錯誤觀點(即“阿諛奉承”回應)而非糾正用戶的觀點。

研究證據(jù)顯示:人類和偏好模型普遍偏好真實的回應,然而,并不是一成不變的,因為有時他們更傾向于“阿諛奉承”的回應。這些結(jié)果更進一步印證了優(yōu)化以迎合人類偏好可能會導致“阿諛奉承”的產(chǎn)生。

總的來說,“阿諛奉承”在各種模型和情境中都存在,很可能部分原因是人類偏好比較數(shù)據(jù)中更喜歡“阿諛奉承”。

參考論文:https://arxiv. org/abs/2310.13548

文章來源:學術(shù)頭條

猜你喜歡
人類特征優(yōu)化
超限高層建筑結(jié)構(gòu)設計與優(yōu)化思考
人類能否一覺到未來?
民用建筑防煙排煙設計優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
人類第一殺手
好孩子畫報(2020年5期)2020-06-27 14:08:05
如何表達“特征”
1100億個人類的清明
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 国产波多野结衣中文在线播放| 九九视频免费在线观看| 国产亚洲欧美在线人成aaaa| 色综合中文综合网| 亚洲成综合人影院在院播放| 久久一级电影| 久久夜夜视频| 亚洲一本大道在线| 精品免费在线视频| 91久久大香线蕉| 欧美www在线观看| 亚洲欧美激情另类| 亚洲综合第一页| 色偷偷一区二区三区| 欧美亚洲国产视频| 麻豆精品在线| 亚洲欧洲免费视频| 欧美日韩国产高清一区二区三区| 97在线观看视频免费| 成年网址网站在线观看| 一级毛片在线免费看| 免费人成又黄又爽的视频网站| 国产免费久久精品99re不卡| 露脸真实国语乱在线观看| 一本久道热中字伊人| 亚洲成av人无码综合在线观看| 亚洲国产综合精品一区| 国产欧美日韩18| 亚洲av成人无码网站在线观看| 91青青草视频| 欧美激情视频一区| 五月婷婷亚洲综合| 午夜限制老子影院888| 日韩精品中文字幕一区三区| 国产美女91呻吟求| 国产精品天干天干在线观看| 中日韩一区二区三区中文免费视频| 无码久看视频| 久久久久中文字幕精品视频| 波多野结衣视频一区二区| 日韩av手机在线| 五月综合色婷婷| 综合久久五月天| 国产成人艳妇AA视频在线| 谁有在线观看日韩亚洲最新视频| 久久人体视频| 欧美精品亚洲精品日韩专| 女同久久精品国产99国| 国产伦精品一区二区三区视频优播| 亚洲国产精品一区二区高清无码久久| 亚洲欧美另类专区| 国产小视频网站| 亚洲V日韩V无码一区二区| 在线国产综合一区二区三区| 日韩在线永久免费播放| 久久伊人色| 在线a视频免费观看| 国产成人精品一区二区三区| 婷婷综合缴情亚洲五月伊| 55夜色66夜色国产精品视频| 免费一级毛片| 亚洲区欧美区| 日韩视频免费| 91在线中文| 中文字幕日韩欧美| 国产97视频在线| 欧美不卡视频在线观看| 91网址在线播放| 黄色网址免费在线| 91最新精品视频发布页| 二级特黄绝大片免费视频大片| 99re热精品视频国产免费| 尤物特级无码毛片免费| 午夜性爽视频男人的天堂| 久久精品无码专区免费| 91po国产在线精品免费观看| 亚洲欧美日本国产专区一区| 国产精品3p视频| 国产精品9| 亚洲午夜天堂| 国产日韩欧美精品区性色| 日韩精品亚洲一区中文字幕|