Эксперты создали новый инструмент для оценки сложности текстов на малых языках
Российские учёные разработали инновационный инструмент для оценки сложности текстов на шести малоизученных языках народов России, включая адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Этот специализированный ресурс представляет собой уникальное достижение в области лингвистики и когнитивных наук, поскольку он учитывает специфические грамматические и лексические особенности этих языков.
Ульяна Петрунина, эксперт Центра языка и мозга НИУ ВШЭ, подчеркнула, что разработанная модель анализирует структурные и морфосинтаксические характеристики каждого из шести языков. Адаптация классической формулы индекса удобочитаемости Флеша к языкам с различной грамматикой и длиной слов позволила создать эффективный алгоритм, который может быть легко адаптирован для анализа других малоизученных языков.
Данный проект соответствует государственной языковой политике России, утверждённой в 2025 году, которая направлена на сохранение и развитие языкового разнообразия, а также на расширение сферы их применения в стране. Реализация этой политики требует создания инструментов, способствующих повышению доступности и функциональности малоизученных языков в различных сферах коммуникации.
Центр языка и мозга НИУ ВШЭ разработал онлайн-сервис для оценки сложности текстов, который использует частотные списки из 5 тысяч наиболее часто встречающихся слов для каждого языка. Сервис также анализирует такие параметры текста, как лексическая плотность, семантическое разнообразие и описательность. Этот ресурс будет полезен не только для преподавателей при подборе учебных материалов, но и для учёных, занимающихся созданием сопоставимых текстов для лингвистических и когнитивных исследований.
В перспективе планируется расширение функционала сервиса, что позволит включить в него другие малоизученные языки, как российские, так и зарубежные. Это будет способствовать развитию междисциплинарных исследований и укреплению научного потенциала в области изучения языкового разнообразия.


