KoWit-24: ученые выяснили, как нейросети понимают каламбуры

29.12.2025, 16:06 , Вера Цветова — Редактор

Международная исследовательская группа факультета компьютерных наук Национального исследовательского университета «Высшая школа экономики» разработала специализированный корпус под названием KoVit-24. Этот корпус включает 2700 каламбуров, представленных в виде заголовков, предназначенных для оценки способности современных искусственных интеллектуальных систем к интерпретации и анализу сложных языковых конструкций.

В рамках экспериментальных исследований, проведенных с использованием пяти ведущих языковых моделей, включая GPT-4o и GigaChat, было установлено, что даже наиболее продвинутые системы демонстрируют значительные затруднения в понимании каламбуров. Анализ данных показал, что процесс осмысления языковых игр представляет собой более сложную когнитивную задачу для ИИ, чем их распознавание на поверхностном уровне.

Павел Браславский, доцент факультета компьютерных наук НИУ ВШЭ, отметил: «KoVit-24 решает две ключевые проблемы, которые ранее не были решены в аналогичных наборах данных: добавление контекстуального окружения к каждому заголовку и многоуровневая разметка. Такая структура превращает примеры в полноценный инструмент для тестирования и оценки функциональности искусственного интеллекта».

Каламбуры являются распространенным элементом в российских новостных заголовках, где они часто используются для привлечения внимания или усиления иронического подтекста. Например, заголовок «Особо бумажные персоны» обыгрывает фразеологизм «особо важные персоны». Корпус KoVit-24 охватывает заголовки, опубликованные в период с 2021 по 2023 годы, и включает детальную разметку, отражающую тип игры слов, ключевые лексические единицы и скрытые отсылки. Результаты данного исследования были представлены на международной конференции RANLP, а полученные данные опубликованы в открытом доступе, что способствует дальнейшему развитию научных знаний в данной области.

Кроме того, ученые активно изучают феномен генерации ложной информации нейронными сетями, известный как «галлюцинации». Этот аспект исследования является критически важным для обеспечения надежности и достоверности результатов, генерируемых современными ИИ-системами.