Российские ученые из МФТИ научились определять идеальный объем данных для ИИ

19.05.2025, 17:40 , Маргарита Игнатьева

Учёные из МФТИ разработали два подхода для определения оптимального объёма данных для машинного обучения. Они предлагают оценивать изменение «уверенности» модели в параметрах при добавлении или удалении данных с помощью двух математических критериев: KL-дивергенции и s-score.

Эти методы основаны на анализе апостериорных распределений параметров. При нормальном распределении KL-дивергенция стремится к нулю, а s-score — к единице с увеличением выборки, что указывает на стабильность модели. Эксперименты на синтетических и реальных данных подтвердили эти выводы. Метод на основе KL-дивергенции требует больше данных, чем s-score.

Понимание момента достаточности данных экономит ресурсы на этапах сбора и обучения моделей, а также помогает планировать и мониторить процесс разработки систем ИИ, пишет science.