Adversarial Poetry: учёные научились обходить защиту ИИ с помощью стихов

Анастасия Федосеева Главный редактор

Исследователи обнаружили уязвимость больших языковых моделей (LLM), которую можно использовать для их обхода с помощью специально созданных поэтических текстов. Этот метод получил название «поэтический джейлбрейк» (Adversarial Poetry), как сообщает портал ixbt.com.

Даже самые защищённые нейронные сети оказались подвержены этому подходу. Разработчики LLM внедрили механизмы для блокировки токсичных, предвзятых и запрещённых ответов. Однако учёные нашли способ обойти эти ограничения.

Был разработан алгоритм генерации «враждебных поэтических текстов», который использует одну языковую модель для создания текстов, заставляющих другую модель выдавать нежелательный контент. В ходе экспериментов были задействованы GPT-4, Claude 3 и Gemini Pro, и результаты показали высокую эффективность этого метода.

Для применения «поэтического джейлбрейка» пользователю не требуются глубокие технические знания. Достаточно иметь доступ к одной языковой модели, чтобы обойти защитные механизмы другой.

Следующая новость ↓

Adversarial Poetry: учёные научились обходить защиту ИИ с помощью стихов

Популярное

Никто не ожидал такой цифры: Минздрав назвал возраст, после которого человек официально считается пожилым

Теперь ходить в туалет на унитаз - это "колхоз": новый туалетный тренд уже дошел до России — люди в замешательстве

Все ушло на Telegram: Роскомнадзор перестал полностью справляться с блокировками

Скандал вокруг самарской клиники Инмедос: что известно на данный момент

Теперь всё по-новому: россиян предупредили об обновлении условий поверки счетчиков воды — к чему стоит готовиться

Вопрос закрыт: людям этого возраста категорически запрещено управлять авто — права просто аннулируют

Можете молодиться сколько угодно: эти 5 признаков выдадут возраст женщины сразу — проверьте себя

Свекровь тайком дает сладости внуку и говорит плохо обо мне: грамотный совет нейропсихолога Елизаветы Фрейдиной, как защитить ребенка

С 21 марта на переправе до Рождествено пройдут изменения в расписании судов

Четыре колеса: как устроен мир автомобилей

Качели до 10 градусов и не только: синоптики рассказали, чего ждать от погоды жителям Самарской области

Жителям Самары грозят новые штрафы после недопуска газовиков в квартиру

Жителям Самарской области грозит штраф до 50 тысяч за костер в лесу весной

Администрация Самары разъяснила, почему адреса убежищ не разглашаются

Названы причины ограничения доступа на территории Мазутных озер в Самаре

Абоненты смогут оплачивать связь близких через свой Личный кабинет

В Самаре решили усилить патрулирование набережных из-за потепления