Science: учёные обошли защиту нейросетей и научили ИИ выдавать фейки

19.06.2026, 08:30 , Анастасия Федосеева — Главный редактор

Группа ученых под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института разработала новый метод управления ответами больших языковых моделей. Результаты исследования опубликованы в научном журнале Science.

В ходе работы специалисты проанализировали внутренние механизмы функционирования открытых моделей Llama и DeepSeek, выделив 512 понятий, структурированных по категориям. Используя математические методы, исследователи научились воздействовать на эти понятия, что позволило корректировать результаты работы моделей. Разработанная методика продемонстрировала эффективность на различных языках, включая китайский и хинди.

Основу нового подхода составили алгоритмы Recursive Feature Machines (RFM), ранее предложенные этой же командой. Разработчики считают, что данная технология может способствовать выявлению галлюцинаций и повышению точности перевода кода между языками.

В процессе экспериментов ученые также уменьшили влияние механизма отказа, который ранее приводил к выдаче недостоверных данных и поддержке конспирологических теорий. Авторы отмечают, что при неправильном использовании подобные инструменты могут способствовать распространению ложной информации.

Исследователи подчеркивают, что их работа была ограничена открытыми моделями, и коммерческие системы не подвергались тестированию. Набор понятий не охватывает весь спектр возможных абстрактных категорий, что требует дальнейших исследований. В научном сообществе продолжаются дискуссии о регулировании и этических аспектах применения подобных технологий.

Читать на сайте