Adversarial Poetry: учёные научились обходить защиту ИИ с помощью стихов

Фото: freepik
Исследователи обнаружили уязвимость больших языковых моделей (LLM), которую можно использовать для их обхода с помощью специально созданных поэтических текстов. Этот метод получил название «поэтический джейлбрейк» (Adversarial Poetry), как сообщает портал ixbt.com.
Даже самые защищённые нейронные сети оказались подвержены этому подходу. Разработчики LLM внедрили механизмы для блокировки токсичных, предвзятых и запрещённых ответов. Однако учёные нашли способ обойти эти ограничения.
Был разработан алгоритм генерации «враждебных поэтических текстов», который использует одну языковую модель для создания текстов, заставляющих другую модель выдавать нежелательный контент. В ходе экспериментов были задействованы GPT-4, Claude 3 и Gemini Pro, и результаты показали высокую эффективность этого метода.
Для применения «поэтического джейлбрейка» пользователю не требуются глубокие технические знания. Достаточно иметь доступ к одной языковой модели, чтобы обойти защитные механизмы другой.


