Учёные из МФТИ разработали два подхода для определения оптимального объёма данных для машинного обучения. Они предлагают оценивать изменение «уверенности» модели в параметрах при добавлении или удалении данных с помощью двух математических критериев: KL-дивергенции и s-score.
Эти методы основаны на анализе апостериорных распределений параметров. При нормальном распределении KL-дивергенция стремится к нулю, а s-score — к единице с увеличением выборки, что указывает на стабильность модели. Эксперименты на синтетических и реальных данных подтвердили эти выводы. Метод на основе KL-дивергенции требует больше данных, чем s-score.
Читайте также
Понимание момента достаточности данных экономит ресурсы на этапах сбора и обучения моделей, а также помогает планировать и мониторить процесс разработки систем ИИ, пишет science.