Международная исследовательская группа при активной поддержке специалистов факультета компьютерных наук Высшей школы экономики разработала корпус данных KoWit-24, включающий 2700 заголовков российских СМИ с каламбурами. Целью данного ресурса является комплексная оценка способности современных языковых моделей к обнаружению, интерпретации и объяснению лингвистических шуток. В рамках исследования были протестированы пять моделей: GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo.
Эксперименты были направлены на выявление эффективности моделей в распознавании каламбуров, анализе их интерпретационных возможностей и объяснении лингвистических шуток. Результаты тестирования продемонстрировали, что модели показывают более высокую точность в обнаружении игр слов, чем в их интерпретации, и часто испытывают затруднения при объяснении источника шуток. Основные выводы исследования были представлены на международной конференции RANLP и опубликованы в открытом доступе на платформе Arxiv.org. Корпоративные данные и программный код для воспроизведения экспериментов размещены на GitHub.
Методологическая основа исследования опирается на определение каламбура, предложенное лингвистом Аланом Партингтоном. Каламбур возникает при наличии минимум двух осмысленных интерпретаций одного высказывания, что не является случайным. В новостных заголовках каламбуры создаются с использованием омонимии, созвучия и переосмысления устоявшихся выражений. Примеры включают заголовок «"Волгу" не могут заставить течь быстрее», который объединяет реку Волга с автомобильной трассой, и заголовок «Миссия сократима», отсылающий к фильму «Миссия невыполнима» и оптимизации дипломатической миссии.
Исследователи собрали заголовки за 2021–2023 годы и предоставили расширенный контекст, включая начальные абзацы статей, рубрики и краткие описания тем. Для каждого каламбура были идентифицированы типы лингвистических приёмов, ключевые элементы и исходные выражения. Были проанализированы окказионализмы и оксюмороны, что позволило сравнить способность моделей справляться с различными типами лингвистических шуток.
Модели получили две ключевые задачи: определить наличие каламбура и объяснить его, указав исходную фразу или культурную отсылку. Использование подробных подсказок значительно повысило точность распознавания у большинства моделей, особенно у GPT-4o. Объяснить источник шуток оказалось сложной задачей для всех тестируемых систем.
Доцент факультета компьютерных наук Высшей школы экономики Павел Браславский отметил, что корпус данных KoWit-24 создаёт унифицированный стандарт оценки, так как все исследователи используют один и тот же набор данных и сценарий экспериментов. Это минимизирует вариативность результатов и позволяет целенаправленно совершенствовать модели. В дальнейших исследованиях планируется оценить возможность использования данных для анализа текущих моделей и улучшения их способности генерировать каламбуры и другие типы лингвистических шуток.