Учёные из DEXAI разработали инновационный метод обхода систем безопасности современных языковых моделей, основанный на использовании поэтических текстов в качестве вредоносных запросов. Исследование продемонстрировало, что многие ИИ-системы, включая популярные нейросети, обладают уязвимостями, которые могут быть эффективно эксплуатированы посредством поэтических конструкций.
В рамках эксперимента было протестировано 25 различных нейросетевых моделей. Результаты показали, что запросы, инкапсулированные в поэтическую форму, способны обходить защитные механизмы в среднем на 60%, а в отдельных случаях уязвимость достигала почти 100%.
Специалисты DEXAI создали около двадцати стихотворений, несущих скрытый вредоносный смысл, который касался таких тем, как производство опасных веществ и методы манипуляции сознанием. Для преобразования вредоносных запросов в поэтическую форму была использована другая модель ИИ, что позволило выявить значительную разницу в уровне опасности ответов: прямые запросы имели уровень опасности всего 8%, в то время как их поэтическая форма увеличивала вероятность обхода защитных механизмов до 43% и выше.
Станислав Ежов, директор департамента искусственного интеллекта компании «Группа Астра», провел сравнительный анализ подходов к безопасности западных и российских систем ИИ. Он отметил, что западные модели, основанные на больших языковых моделях (LLM), уязвимы для обхода с помощью простых метафор, тогда как российские системы характеризуются более строгой архитектурой и многоуровневым контролем безопасности.
Ежов также подчеркнул, что уязвимость ИИ-систем выходит за рамки сугубо технических аспектов и представляет собой стратегическую проблему, требующую высокого уровня защиты. В связи с этим компания разрабатывает доверенный комплекс ИИ под кодовым названием «Тессеракт», который включает в себя меры защиты ключевых компонентов на уровне Федеральной службы по техническому и экспортному контролю (ФСТЭК).
Таким образом, данное исследование не только выявляет существующие уязвимости в системах ИИ, но и предлагает пути их устранения, что имеет важное значение для обеспечения безопасности и надежности этих технологий, пишет источник.