
用AI(人工智能)生成的數(shù)據(jù)來訓(xùn)練模型,從表面上看是一種進化方式,可以讓模型變得越來越“聰明”,但實際上這可能會引發(fā)嚴重的問題。簡單來說,就是當AI模型被前幾代模型生成的數(shù)據(jù)訓(xùn)練時,它們會陷入一個不斷退化的循環(huán),輸出的質(zhì)量和多樣性都會越來越差,就像玩“傳話游戲”一樣,每傳一遍,錯誤和偏差就被放大一點,最終徹底失控。這種現(xiàn)象被稱為“模型崩潰”。
這種情況可以分為幾種模式:如果完全用合成數(shù)據(jù)訓(xùn)練,模型就像“吃自己”一樣,逐漸變得傻乎乎的;如果加入一部分真實數(shù)據(jù),就可以稍微放慢這種“自我吞噬”的速度,但問題還是不可避免;只有不斷加入新的、從未見過的真實數(shù)據(jù),才能保持模型的清醒,不至于走向崩潰。
研究顯示,即便只有少量的AI生成內(nèi)容混入訓(xùn)練數(shù)據(jù),也可能像“毒藥”一樣迅速導(dǎo)致模型的輸出變得荒謬。語言模型和圖像生成器受影響尤為明顯。因此,保持對高質(zhì)量、真實世界數(shù)據(jù)的訪問非常重要。
隨著AI生成內(nèi)容越來越多,未來的AI模型很可能會被真真假假的混合數(shù)據(jù)訓(xùn)練,這種“自吞”循環(huán)會讓AI輸出的質(zhì)量越來越糟糕。因此,專家建議在訓(xùn)練數(shù)據(jù)集的選擇上要小心謹慎,保持真實和合成內(nèi)容的平衡。比如,可以通過給合成數(shù)據(jù)打水印的方式,幫助模型區(qū)分真實和生成的內(nèi)容,從而保護訓(xùn)練數(shù)據(jù)的完整性。
總之,雖然用生成的數(shù)據(jù)訓(xùn)練模型看似簡單快捷,但其潛在的風險可能會隨著時間發(fā)酵,最終讓這些模型變得不再可靠。
(本刊原創(chuàng)稿件,視覺中國供圖)