Ученые НИУ ВШЭ выяснили, как нейросети распознают и объясняют каламбуры

Международная группа исследователей, включающая...

фото: фрипик

Международная группа исследователей, включающая высококвалифицированных специалистов факультета компьютерных наук Национального исследовательского университета "Высшая школа экономики" (НИУ ВШЭ), разработала уникальный корпус данных под названием KoWit-24. Этот корпус, состоящий из 2700 новостных заголовков, содержащих лингвистические каламбуры, предназначен для оценки способности искусственного интеллекта распознавать, интерпретировать и анализировать подобные языковые феномены.

В рамках эксперимента были протестированы пять различных языковых моделей, в том числе GPT-4o и GigaChat, на предмет их способности обрабатывать каламбуры. Результаты показали, что даже наиболее передовые системы демонстрируют значительные ошибки в анализе данных лингвистических конструкций. Модели демонстрируют улучшенную способность к выявлению заголовков, содержащих каламбуры, однако их интерпретации часто оказываются недостаточно точными и не полностью раскрывают семантические связи и контекстуальные нюансы.

Доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский подчеркнул, что корпус KoWit-24 обеспечивает решение двух ключевых проблем, характерных для предыдущих наборов данных. Во-первых, он предоставляет контекстуальную информацию для каждого заголовка, что существенно улучшает качество анализа. Во-вторых, корпус имеет многоуровневую разметку, что делает его комплексным инструментом для тестирования и оценки возможностей искусственного интеллекта в области обработки естественного языка.

Лингвистические каламбуры широко используются в российских новостных заголовках как средство привлечения внимания и передачи иронии. Примером может служить заголовок «Особо бумажные персоны», который обыгрывает выражение «особо важные персоны», создавая тем самым юмористический и иронический подтекст.

Новый корпус охватывает новостные заголовки за период с 2021 по 2023 годы и включает метаданные о типе каламбура, ключевых словах и отсылках, что обеспечивает более глубокий и всесторонний анализ. Результаты данного исследования были представлены на престижной международной конференции по обработке естественного языка RANLP (Recent Advances in Natural Language Processing). Корпус опубликован в открытом доступе, что позволяет другим научным группам использовать его для обучения, тестирования и совершенствования языковых моделей.