從客戶服務到內容創作,人工智能(AI)影響了眾多領域的進展。但是,一個日益嚴重的被稱為“模型崩潰”的問題,可能會使AI的所有成就功虧一簣。
“模型崩潰”是今年7月發表在英國《自然》雜志上的一篇研究論文指出的問題。它是指用AI生成的數據集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出。
多家外媒報道稱,這不僅是數據科學家需要擔心的技術問題,如果不加控制,“模型崩潰”可能會對企業、技術和整個數字生態系統產生深遠影響。天津大學自然語言處理實驗室負責人熊德意教授在接受科技日報記者采訪時,從專業角度對“模型崩潰”進行了解讀。
“模型崩潰”是怎么回事
大多數AI模型,比如GPT-4,都是通過大量數據進行訓練的,其中大部分數據來自互聯網。最初,這些數據是由人類生成的,反映了人類語言、行為和文化的多樣性和復雜性。AI從這些數據中學習,并用它來生成新內容。
然而,當AI在網絡上搜索新數據來訓練下一代模型時,AI很可能會吸收一些自己生成的內容,從而形成反饋循環,其中一個AI的輸出成為另一個AI的輸入。當生成式AI用自己的內容進行訓練時,其輸出也會偏離現實。這就像多次復制一份文件,每個版本都會丟失一些原始細節,最終得到的是一個模糊的、不那么準確的結果。
美國《紐約時報》報道稱,當AI脫離人類輸入內容時,其輸出的質量和多樣性會下降。
熊德意解讀稱:“真實的人類語言數據,其分布通常符合齊普夫定律,即詞頻與詞的排序成反比關系。齊普夫定律揭示了人類語言數據存在長尾現象,即存在大量的低頻且多樣化的內容。”
熊德意進一步解釋道,由于存在近似采樣等錯誤,在模型生成的數據中,真實分布的長尾現象逐漸消失,模型生成數據的分布逐漸收斂至與真實分布不一致的分布,多樣性降低,導致“模型崩潰”。
AI自我“蠶食”是壞事嗎
對于“模型崩潰”,美國《The Week》雜志近日刊文評論稱,這意味著AI正在自我“蠶食”。
熊德意認為,伴隨著這一現象的出現,模型生成數據在后續模型迭代訓練中占比越高,后續模型丟失真實數據的信息就會越多,模型訓練就更加困難。
乍一看,“模型崩潰”在當前似乎還是一個僅需要AI研究人員在實驗室中擔心的小眾問題,但其影響將是深遠而長久的。
美國《大西洋月刊》刊文指出,為了開發更先進的AI產品,科技巨頭可能不得不向程序提供合成數據,即AI系統生成的模擬數據。然而,由于一些生成式AI的輸出充斥著偏見、虛假信息和荒謬內容,這些會傳遞到AI模型的下一版本中。
美國《福布斯》雜志報道稱,“模型崩潰”還可能會加劇AI中的偏見和不平等問題。
不過,這并不意味著所有合成數據都是不好的。《紐約時報》表示,在某些情況下,合成數據可以幫助AI學習。例如,當使用大型AI模型的輸出訓練較小的模型時,或者當可以驗證正確答案時,比如數學問題的解決方案或國際象棋、圍棋等游戲的最佳策略。
AI正在占領互聯網嗎
訓練新AI模型的問題可能凸顯出一個更大的挑戰。《科學美國人》雜志表示,AI內容正在占領互聯網,大型語言模型生成的文本正充斥著數百個網站。與人工創作的內容相比,AI內容的創作速度更快,數量也更大。
OpenAI首席執行官薩姆·奧特曼今年2月曾表示,該公司每天生成約1000億個單詞,相當于100萬本小說的文本,其中有一大部分會流入互聯網。
互聯網上大量的AI內容,包括機器人發布的推文、荒謬的圖片和虛假評論,引發了一種更為消極的觀念。《福布斯》雜志稱,“死亡互聯網理論”認為,互聯網上的大部分流量、帖子和用戶都已被機器人和AI生成的內容所取代,人類不再能決定互聯網的方向。這一觀念最初只在網絡論壇上流傳,但最近卻獲得了更多關注。
幸運的是,專家們表示,“死亡互聯網理論”尚未成為現實。《福布斯》雜志指出,絕大多數廣為流傳的帖子,包括一些深刻的觀點、犀利的語言、敏銳的觀察,以及在新背景下對新生事物的定義等內容,都不是AI生成的。
不過,熊德意仍強調:“隨著大模型的廣泛應用,AI合成數據在互聯網數據中的占比可能會越來越高,大量低質量的AI合成數據,不僅會使后續采用互聯網數據訓練的模型出現一定程度的‘模型崩潰’,而且也會對社會形成負面影響,比如生成的錯誤信息對部分人群形成誤導等。因此,AI生成內容不僅是一個技術問題,同時也是社會問題,需要從安全治理與AI技術雙重角度進行有效應對。”
蛋白質工程基于蛋白質的靈活性,通過人工手段改變氨基酸序列,實現對蛋白質結構和功能的修飾和改造。與基因組工程相比,蛋白質工程可直接對蛋白質分子進行操縱,借助突變的迭代積累,快速完成蛋白功能優化和創新。蛋......
根據《工業和信息化部辦公廳關于開展智能技術在生物制造領域典型應用案例征集工作的通知》(工信廳消費函〔2024〕394號),經省級工業和信息化主管部門推薦、形式審查及專家評價等程序,形成《人工智能在生物......
7月4日,在香港數碼港舉辦的“人工智能資助計劃”項目分享會上,人工智能資助計劃委員會主席冼漢迪披露,截至6月底,香港特區政府撥款30億港元的“人工智能資助計劃”已批出10個項目,研究范圍涵蓋本地大語言......
7月2至3日,在北京舉辦的2025全球數字經濟大會上,聯合國工業發展組織投資和技術促進辦公室聯合東壁科技數據有限責任公司(以下簡稱東壁科技數據)發布了全球科技文獻數據平臺dbdata.com(以下簡稱......
近日,電子科技大學集成電路科學與工程學院電子薄膜與集成器件全國重點實驗教授趙怡程團隊在《信息材料》上發表研究論文,報道了國內首個光伏高通量人工智能實驗平臺。該平臺集成了從薄膜制備到光電表征的完整流程,......
6月27日,上海交通大學醫學人工智能研究院揭牌成立。該研究院將積極探索創新發展模式,打造醫學人工智能的創新策源地和人才高地。該研究院聘任中國工程院院士、上海交通大學副校長、上海交通大學醫學院院長范先群......
6月25日,在天津舉辦的世界經濟論壇第十六屆新領軍者年會(又稱“夏季達沃斯論壇”)期間,360集團創始人周鴻祎指出,企業家重要職責是創新,而當前創新的主要抓手之一就是人工智能。他表示,智能體技術正推動......
6月19日,國家數據局黨組書記、局長劉烈宏到睿爾曼智能科技公司、銀河通用機器人公司調研,參觀了睿爾曼人形機器人數據訓練中心和銀河通用實驗室,并與企業代表座談交流。劉烈宏提出,“人工智能+”到哪里,高質......
6月20日,工業和信息化部黨組書記、部長李樂成主持召開第十次中小企業圓桌會議,深入學習貫徹習近平總書記重要指示批示精神,聚焦培育未來產業領域的中小企業,聽取企業情況介紹和意見建議。部黨組成員、副部長單......
數字紅利不能成為數字霸權,智能革命不應導致智能鴻溝。堅持“智能向善”,才能讓人工智能真正成為造福人類的公共產品開源策略,超越了筑“小院高墻”、搞“三六九等”、分“遠近親疏”的做法,降低了研究、應用的門......