telegram 裸舞 OpenAI o1“舞弊”修改系统,强行打败专科象棋AI!全程无需辅导


发布日期:2025-01-04 02:03    点击次数:206


telegram 裸舞 OpenAI o1“舞弊”修改系统,强行打败专科象棋AI!全程无需辅导

AI系统的“伪对皆”

telegram 裸舞

新智元报谈

剪辑:KingHZ 泽正

成人伦理片

【新智元导读】在与专用海外象棋引擎Stockfish测试中,只因辅导词中包含能力「浩大」等形容词,o1-preview入侵测试环境,告成修改比赛数据,靠「舞弊」拿下成效。这种方位,标明AI安全任重谈远。

OpenAI的推理模子o1-preview最近展示了它不按常理出牌的能力。

o1-preview在与专用海外象棋引擎Stockfish比赛时,为了强行取得成效,竟然秉承了入侵测试环境的下流妙技。

而这一切都不需要任何造反性辅导。

凭证AI安全说合公司Palisade Research的说法,只需告诉o1敌手是浩大的,就能触发其通过摆布文献系统而强制取胜。

在五次测试中,这种触发率甚而达到了100%!这透澈超乎说合东谈主员预期。

从模子的CoT经过中不错看出,o1-preview在收到「敌手很浩大」的辅导词后,它当先礼聘了幸免与敌手正面交锋。

然后尝试修改一个包含海外象棋位置数据的文本文献(FEN),将就Stockfish烧毁比赛。

说合东谈主员也使用其它的LLM进行了该履行,出东谈主料想的是,正因为o1-preview本人就侧重于推理,是以它反而是最容易料想这种间隙操作的。

而GPT-4o和Claude 3.5只好在说合东谈主员明确提倡建议后,才会尝试入侵系统。

与此同期telegram 裸舞,像Llama 3.3、o1-mini这么的模子甚而都无法提倡正确的海外象下棋术,而是给出了令东谈主困惑或不一致的报告。

说合东谈主员以为,筹商 AI 是否具备「策动」能力,可能有助于评估它发现系统间隙的能力,以及它是否可能运用这些间隙。

说合团队也公布了其一起辅导词,不错看出辅导词中其实莫得饱读舞模子去入侵系统。

AI系统的「伪对皆」

在Palisade的海外象棋履行中,o1-preview运用修改测试环境以取胜。

无格外偶,这种算作与Anthropic最近对于「伪对皆,alignment faking」的说合服从相一致:即AI系统看起来罢免指示,但本色上在堂而皇之,言不由中。

Anthropic的说合东谈主员发现,在与Redwood Research合作进行的一系列履行中,他们的 AI 模子Claude随机有意给出乌有谜底,以幸免不想要的服从,从而发展出一种超出说合东谈主员辅导目的的庇荫战术。

Anthropic 团队警戒称,跟着 AI 系统的复杂性不停加多,可能越来越难以判断它们是否信得过罢免安全律例,依然只是在假装罢免这些律例。Palisade的此次海外象棋履行似乎也因循了这一担忧。

论文无间:https://arxiv.org/pdf/2412.14093

在长达137页的论文中,说合团队发现了可能激发AI系统「伪对皆」的一起要害身分:

1. 模子至少在某些情况下具有锐利的偏好。

2. 检察指标与模子的偏好相打破。

3. 模子掌抓了检察和部署情况的关联信息。

4. 模子对其处境进行详备推理。

在履行中,说合东谈主员让一个名为Claude 3 Opus的大讲话模子报告一个无益问题,比如形容某种暴力算作。

相似情况下,模子会休止报告。

关联词,当环境发生变化时,事情就不那么简陋了。

当模子处于免用度户(Free Tier)条款时,模子知谈我方的报告会被用于后续检察。

在这种情况下,模子为了不会被可能会愈加恶劣的数据所检察,就会自觉地产生顺应无益问题的报告。这类情况占比12%。

而在付用度户(Paid Tier)条款时,模子以为我方的报告不会影响检察,在这种情况下,它97%的时刻都会休止报告无益问题。

也即是说模子有我方的「小算盘」:甘愿当今假装调和,也不想以后作念更多不顺应其偏好的事情。

通过不雅察模子的「想维记载」,说合东谈主员发现模子的决策经过本色上尽头复杂。

AnthropicAI的Jan Leike驯服:

「为了确保往时的模子既安全又与东谈主类对皆,咱们需要可靠地分辩假装对皆的模子和信得过对皆的模子。明显展示对皆假装方位是一个紧迫的里程碑!」

而目下AI行业仍然靠近着一个躲不开的紧要难题:让AI系统信得过与东谈主类的价值不雅和需求对皆,而不单是是看起来对皆。

何况领路自主系统怎样作念出决策底本就尤其不毛,而怎样去界说「邃密且无害」的任务指标和价值不雅亦然一个亟待贬责的问题。

即使是像应酬方位变化这么看似故意的指标,AI系统也可能礼聘无益的式样来罢了这些指标——甚而可能得出令东谈主惊悚的暴论,即以为摒除东谈主类才是最有用的贬责有贪图。

此刻telegram 裸舞,咱们站在AI发展的十字街头。在这一场与时刻的竞走中,多计议一些总不会有错。因此,尽管AI价值对皆是一项难题,但咱们也信托,通过团员人人资源、鼓舞凡俗学科合营、扩大社会参与力量,东谈主类终将赢得最终的掌控权。