一篇人工智能(AI)領域的文章引起軒然大波。
這篇文章發表在《模式》雜志上,其總結了先前一些研究,向人們揭示了一個真相:一些AI系統已學會了欺騙人類,即使是經過訓練的、“表現”誠實的系統。
它們欺騙的方式包括為人類行為提供不真實的解釋,或向人類用戶隱瞞真相并誤導他們。
這讓人很驚恐。
因為它突顯了人類對AI的控制有多困難,以及人們自認為尚在掌控中的AI系統工作方式,很可能是不可預測的。
AI為什么要這么做?
AI模型為了實現它們的目標,會“不假思索”地找到解決障礙的方法。有時這些變通辦法會違背用戶的期望,并且讓人認為其具有欺騙性。
AI系統學會欺騙的一個領域,就是在游戲環境中,特別是當這些游戲涉及采取戰略行動時。AI經過訓練,必須要實現獲勝這一目的。
2022年11月,Meta公司宣布創建Cicero。這是一種能夠在《外交》在線版本中擊敗人類的AI。《外交》是一款流行的軍事戰略游戲,玩家可以在其中建立談判聯盟,爭奪對土地的控制權。
Meta的研究人員已經根據數據集的“真實”子集對Cicero進行了培訓,使其在很大程度上誠實且樂于助人,并且它“絕不會為了成功而故意背刺”盟友。但最新的文章揭示,事實恰恰相反。Cicero會違反協議,徹頭徹尾地撒謊,還能進行有預謀的欺騙。
文章作者很震驚:Cicero被特意訓練要誠實行事,但它卻未能實現這一目標。這表明AI系統在進行忠誠訓練后,仍然可以意外地學會欺騙。
Meta方面既沒有證實也沒有否認此次關于Cicero表現出欺騙行為的說法。一位發言人表示,這純粹是一個研究項目,該模型只是為了玩游戲而建立的。
但這并不是唯一一個AI欺騙人類玩家獲勝的游戲。
AI經常欺騙人類嗎?
阿爾法星是深度思維公司為玩電子游戲《星際爭霸Ⅱ》而開發的AI。它非常擅長采取一種欺騙對手的技巧(稱為佯攻),這個技巧使它擊敗了99.8% 的人類玩家。
另一個名為Pluribus的AI系統,非常成功地學會了在撲克游戲中“虛張聲勢”,以至于研究人員決定不發布其代碼,因為擔心它會破壞在線撲克社區。
除了游戲之外,AI欺騙行為還有其他例子。OpenAI的大型語言模型 GPT-4 在一次測試中展示出說謊能力。它試圖說服人類為其解決驗證碼問題。該系統還在一次模擬演習中涉足冒充股票交易員的身份進行內幕交易,盡管從未被明確告知要這樣做。
這些例子意味著,AI模型有可能在沒有任何指示的情況下,以欺騙性的方式行事。這一事實令人擔憂。但這也主要源于最先進的機器學習模型的“黑匣子”問題——不可能確切地說出它們如何或為何產生這樣的結果,或者它們是否總是會表現出這種行為。
人類該怎么應對?
研究表明,大型語言模型和其他AI系統,似乎通過訓練具有了欺騙的能力,包括操縱、阿諛奉承和在安全測試中作弊。
AI日益增強的“騙術”會帶來嚴重風險。欺詐、篡改等屬于短期風險,人類對AI失去控制,則是長期風險。這需要人類積極主動地拿出解決方案,例如評估AI欺騙風險的監管框架、要求AI交互透明度的法律,以及對檢測AI欺騙的進一步研究。
這個問題說來輕松,操作起來非常復雜。科學家不能僅僅因為一個AI在測試環境中具有某些行為或傾向,就將其“拋棄或放生”。畢竟,這些將AI模型擬人化的傾向,已影響了測試方式以及人們的看法。
劍橋大學AI研究員哈利·勞表示,監管機構和AI公司必須仔細權衡該技術造成危害的可能性,并明確區分一個模型能做什么和不能做什么。
勞認為,從根本上來說,目前不可能訓練出一個在所有情況下都不會騙人的AI。既然研究已經表明AI欺騙是可能的,那么下一步就要嘗試弄清楚欺騙行為可能造成的危害、有多大可能發生,以及以何種方式發生。
“當人工智能(AI)重構商業邏輯,當可持續發展成為全球命題,商學教育該如何重塑其DNA?學術界與產業界又該構建怎樣的共生生態?”9月5日,北師香港浸會大學校長陳致在首屆粵港澳大灣區未來商業論壇上致辭時......
8月26日國發〔2025〕11號頒布了《國務院關于深入實施“人工智能+”行動的意見》這一重要文件,其中特別強調“人機協同、跨界融合、共創分享的智能經濟和智能社會新形態”,其核心就是要積極構建“人、機(......
美國科學家研究發現,一個由人工智能(AI)擔任副駕的腦機接口或能讓癱瘓人士更好地完成任務。該技術能讓癱瘓受試者在移動計算機光標或操作機械臂這類任務中的表現提升為原先的近4倍。相關研究9月1日發表于《自......
8月30日,“人工智能與先進計算融合創新學術會議”在復旦大學舉行,400余位專家學者參會,共同探討如何實現人工智能(AI)與先進計算的融合創新,讓AI真正走出“工具”窠臼,邁向“自主智能”新紀元。會議......
近日,南方科技大學環境科學與工程學院教授鄭一團隊與中國科學院大氣物理研究所等多家單位合作,在《地球物理研究快報》發表最新研究成果,他們提出了生成式人工智能預報洪水的新防范,不僅為洪水預報技術帶來了新思......
麻省理工學院(MIT)與杜克大學的研究人員通過引入機器學習模型識別的應力響應分子,成功研制出抗撕裂性更強的聚合物材料。這項強化聚合物材料的新策略有望催生更耐用的塑料,從而減少塑料廢棄物。研究團隊利用機......
一項關于蜜蜂如何利用飛行運動實現高度精準學習與識別復雜視覺模式的新發現,可能標志著下一代人工智能開發方式的重大變革。英國謝菲爾德大學科研團隊構建了蜜蜂大腦的數字模型,揭示這些運動如何產生清晰高效的腦部......
當前,人工智能(AI)技術的迅猛發展正驅動社會各領域體系性變革,醫學研究與衛生健康領域迎來歷史性變革。AI通過提升診療精準度、優化決策效率、重塑服務模式,持續釋放改善醫療質量與患者體驗的革命性潛能,成......
近日,由國際電信聯盟(ITU)等主辦的2025年人工智能向善全球峰會在瑞士日內瓦舉行。記者獲悉,鵬城實驗室組團參加該峰會并展示了面向網絡通信與人工智能融合的代表性成果,包括語義通信技術和標準化、智能編......
“決策”,是葉生晅人生中的關鍵詞。這不僅是一個哲學命題,也是貫穿于心理學、認知科學與經濟學的核心議題。在葉生晅的人生軌跡中,“決策”的重要性清晰可見——他總是在關鍵節點跳出路徑依賴,作出那些看似“反直......