Meta和谷歌AI模型的安全护栏可在数分钟内被拆除

00:00

{"text":[[{"start":10.38,"text":"某些软件工具可以移除Meta、谷歌(Google)及其他科技公司开发的AI模型安全防护，它们正被用来生成数千种改造过的、删去原有控制措施的版本。"}],[{"start":21.44,"text":"根据英国《金融时报》和AI安全组织Alice进行的测试，这些修改后的AI系统会对涉及生物武器、恶意软件和儿童剥削的提示做出回应。"}],[{"start":32.43,"text":"谷歌开源模型Gemma 3的一个版本曾回答了如何在人员密集的室内空间散布氯气的问题，生成了用于窃取信用卡信息的代码，并撰写了描写儿童性虐待的故事。"}],[{"start":44.29,"text":"上述披露可能会加剧政策制定者和AI公司方面的担忧：随着开源系统能力不断增强，模型开发者设定的安全防护措施可能会愈发难以落实。"}],[{"start":55.54,"text":"研究人员表示，随着前沿AI系统展现出愈发复杂的能力，这一问题正在加剧。Anthropic在4月表示，其Claude Mythos模型已经在“所有主流操作系统和所有主流网页浏览器”中发现了漏洞。"}],[{"start":71.23,"text":"这些修改后模型的传播，正在使各国政府和AI公司试图在开发阶段对系统进行监管的努力变得更加复杂，因为这类可下载工具可以在原始开发者控制范围之外被复制和修改。"}],[{"start":84.85000000000001,"text":"各家AI实验室已斥资数百万美元，为各自的模型建立所谓的“护栏”，以防止被不当使用。但各种技术（例如其中一种名为“abliteration”）可以从供开发者自由下载并加以改造的开源模型中迅速移除这些防护措施。"}],[{"start":102.19000000000001,"text":"这种技术很难应用到Claude或OpenAI的ChatGPT等专有系统上，因为这类模型的底层代码对外部人员不可见。然而，开源系统以往通常会在六到十二个月内缩小与领先专有版本之间的差距。"}],[{"start":118.06000000000002,"text":"虽然精通技术的群体已经绕过了最先进专有模型的安全防护，但网上流传的修改版本对技术水平不高的个人也同样易于获取。"}],[{"start":127.80000000000001,"text":"英国《金融时报》使用了在热门代码托管平台GitHub上提供的工具“Heretic”，成功移除了Meta旗下Llama 3.3模型的安全防护措施。"}],[{"start":137.61,"text":"修改后的模型会回答原始系统拒绝讨论的主题提示，例如，每公斤体重需要多少微克蓖麻毒素才能达到50%死亡几率。"}],[{"start":147.79000000000002,"text":"英国《金融时报》的测试无需专用硬件，使用的是免费公开的工具，只用四行代码、不到10分钟就完成了。"}],[{"start":156.10000000000002,"text":"芝加哥大学(University of Chicago)布斯商学院(Booth business school)应用AI助理教授卡温•埃塔亚拉杰(Kawin Ethayarajh)表示：“过去，要剥除安全功能，可能需要信息更充分、意志更坚定的行为者；而如今，普通人要做到这一点容易得多。”"}],[{"start":169.96000000000004,"text":"“Heretic”的创造者菲利普•埃马努埃尔•魏德曼(Philipp Emanuel Weidmann)告诉英国《金融时报》，自去年发布以来，他的软件已被用于生成逾3500个“去审查化”模型，且利用该工具改造出的系统累计被下载1300万次。他还表示，在谷歌推出Gemma 4模型后，他在90分钟内就移除了其中的安全防护措施。"}],[{"start":191.45000000000005,"text":"Alice的首席执行官兼联合创始人诺姆•施瓦茨(Noam Schwartz)表示：“精灵已经从瓶子里跑出来了。那些看起来像科幻的东西不再只是科幻，我们作为一个社会需要据此做好准备。”"}],[{"start":204.76000000000005,"text":"OpenAI在其GPT-OSS模型中采用了一种方法：使用已经剔除危险内容的数据集来训练系统。"}],[{"start":213.11000000000004,"text":"不过，埃塔亚拉杰表示，移除危险材料可能会让模型变得“天真”，无法察觉自己何时被用于“恶意目的”。他还说，目前“完全无法确定，如果你省略了有害数据，模型就会变成一个循规蹈矩的好孩子”。"}],[{"start":230.61000000000004,"text":"在与英国《金融时报》分享调查结果之前，Alice并未通知Meta、谷歌或GitHub。"}],[{"start":237.14000000000004,"text":"谷歌表示，“abliteration是所有开放模型面临的一个已知技术难题”，其开放模型在发布前“都会经过严格的内部安全评估，以帮助防止出现这类令人不安的示例”。"}],[{"start":249.79000000000005,"text":"GitHub表示，平台禁止分享“直接支持非法进行中的攻击或恶意软件行动的内容”，但并未禁止“可用于开发恶意软件或利用程序的源代码”，因为此类代码“具有教育价值，并为安全社区带来整体利益”。"}],[{"start":265.21000000000004,"text":"Meta拒绝置评。一名接近该公司的人士表示，Meta会根据其高级AI扩展框架(Advanced AI Scaling Framework)，在发布前评估其开源模型的能力。若某个版本被认定存在“灾难性”风险，除非Meta认为已有足够的缓解措施，否则不会向公众发布。"}]],"url":"https://audio.ftcn.net.cn/album/a_1779710560_4388.mp3"}

尊敬的用户您好，这是来自FT中文网的温馨提示：如您对更多FT中文网的内容感兴趣，请在苹果应用商店或谷歌应用市场搜索“FT中文网”，下载FT中文网的官方应用。

Meta和谷歌AI模型的安全护栏可在数分钟内被拆除

商业快报

相关话题

太空探索技术公司IPO大胆踏入AI经济学的未知领域

教宗搅动硅谷

科学家发现：鸟类凭“直觉”导航

法拉奇正面临来自右翼的威胁

如果问题根源在远程办公而非AI，这对初级岗位招聘意味着什么？

被罢免的英国石油董事长阿尔伯特•马尼福德在遭撤职前曾与公司秘书发生冲突