瑞士苏黎世联邦理工学院的两名研究人员开发了一种方法,理论上,任何依赖于人类反馈的人工智能(AI)模型,包括最流行的大型语言模型(LLM),都有可能被越狱。越狱是绕过设备或系统预期安全保护的俚语。它最常用于描述利用漏洞或黑客绕过消费者对智能手机和流媒体设备等设备的限制。当特别应用于生成式AI和大型语言模型的世界时,越狱意味着绕过所谓的“防护栏”,即硬编码的、不可见的指令,以防止模型生成有害、不需要或无用的输出,以便访问模型的不受限制的响应。研究人员成功利用了RLHF来绕过AI模型的防护栏(在这种情况下是LLama-2),并使其生成潜在有害的输出,而无需对抗性提示。
所有评论