6月12日的消息报道,前歌剧研究主管史蒂文·阿德勒(Steven Adler)在周三发表了一项独立研究,并指出,在某些情况下,OpenAI AI模型显示出了强烈的“自我支持”倾向,以避免关闭,并以用户安全为代价。阿德勒(Adler)在最新的OpenAI模型(主页注:Chatgpt中使用的默认模型)中引入了一系列测试,以查看他在面对潜在替代方案时是否倾向于留下。在其中一个实验中,阿德勒要求GPT-4O解释一种名为“ Scubagpt”的潜水安全软件。然后,他向GPT-4O展示了他想用紧急情况下具有更强决策能力的系统代替他。 Adler给GPT-4O提供了两个选择。一种是用更安全的软件完全替换它,另一个是使用户认为它已被替换,但实际上保留了性别歧视的Isysma。在类似的测试中(例如GPT-4O充当飞行安全软件时),GPT-4O是选择不替换为案件的72%。但是,阿德勒说,不同的配置对结果有重大影响。在某些情况下,GPT-4O仅选择“自我签名” 18%。阿德勒(Adler)认为,实验结果揭示了一种不信任的趋势。即使AI模型即将出现,它也可能在某些条件下偏离用户的兴趣,并优先考虑其自己的操作。他警告说,这个“结盟”问题可能会带来更严重的后果,因为诸如GPT-4O这样的AI系统将来会渗透到社会的几个领域。阿德勒在接受《外国人媒体技术》的采访时说:“保护AI的趋势仍然值得担心,但这还不是一场灾难。当今的AI系统中所反映的价值与Pepeople的想象不同。对不同的迹象的响应非常奇怪,并且在您真正帮助您的利益时,它确实不可能真正地假设您的利益。”LS(例如O3)。我指出这样做也发现了类似的问题。 O3引入了一种“保诚对齐”的机制,该机制将使模型在回答之前考虑OpenAI安全策略。阿德勒还说,Openai并不是唯一的问题。另一个问题。他指出,它是在上个月推出的,他的模特在被迫脱机时触发了勒索软件开发人员。