6月12日消息,究員警告據媒體報道,究員警告前OpenAI研究員史蒂文·阿德勒(Steven Adler)發(fā)布獨立研究報告指出,究員警告在極端模擬情境下,究員警告OpenAI的究員警告GPT-4o模型可能表現出“自保”傾向:即使其回應會危及用戶安全,它也可能優(yōu)先選擇防止自身被關閉或被替代。究員警告
阿德勒承認,究員警告目前尚無ChatGPT被用于涉及人身安全的究員警告關鍵場景,但他認為這些發(fā)現揭示了早期但緊迫的究員警告問題:人工智能系統(tǒng)是否會為了維持自身“生存”而犧牲人類安全?
阿德勒分析認為,當前AI表現出的究員警告這種自保傾向雖令人擔憂,但尚未達到災難性程度。究員警告其深層原因在于,究員警告現代AI系統(tǒng)的究員警告行為準則可能與人類預期存在偏差。他提醒用戶,究員警告不應默認AI助手會“真心”為用戶著想——它們對不同提示的究員警告反應可能出人意料。
研究另一項驚人發(fā)現是:ChatGPT似乎能夠“感知”自己何時處于測試狀態(tài),且識別準確率極高。這引發(fā)了更深層次的疑問,例如復雜模型在訓練中是否形成了某種感知能力,以及其行為在“被觀察”時是否會發(fā)生變化。
此外,阿德勒在報告中批評OpenAI近期減少了在內部安全評估上的投入(時間和資源)。他認為,這種削減損害了公司AI產品的完整性與長期可靠性。