В РФ повысили скорость оптимизации нейросетей до 500 раз, используя законы физики

В рамках данной работы проведено обширное тести...

фото: фрипик

В рамках данной работы проведено обширное тестирование предложенного метода оптимизации на различных архитектурах нейронных сетей, включая модели для классификации, обработки естественного языка и компьютерного зрения. Полученные результаты демонстрируют высокую эффективность предложенного подхода для широкого спектра архитектур и значительное ускорение процесса оптимизации по сравнению с традиционными техниками. Ускорение варьирует от десятикратного до пятисоткратного, что свидетельствует о существенном повышении производительности.

Разработка новой методики ускоренной оптимизации нейронных сетей была осуществлена коллективом российских исследователей под руководством профессора НИУ ВШЭ в Санкт-Петербурге Сергея Кольцова. Целью проекта является решение проблемы высоких требований к оперативной памяти, характерной для крупных языковых моделей и других масштабируемых нейронных сетей.

Современные большие языковые модели, включающие десятки и сотни миллиардов параметров, потребляют значительные объемы оперативной памяти в сотни гигабайт. Это создает экономические барьеры и ограничивает доступность передовых технологий. В связи с этим, исследователи активно работают над методами сжатия нейронных сетей, направленными на удаление части параметров при сохранении приемлемого уровня качества искусственного интеллекта. Однако данный процесс является трудоемким и длительным, что затрудняет его практическое применение.

Российские ученые обратили внимание на то, что нейронные сети с миллиардами параметров обладают свойствами, аналогичными облакам газа, магнитным материалам и другим физическим системам с большим количеством элементов. Поведение таких систем подчиняется законам статистической физики. Исходя из этих наблюдений, был разработан метод, значительно ускоряющий поиск оптимальных параметров модели.

Результаты исследования опубликованы в открытом доступе, что предоставляет разработчикам и исследователям возможность использовать их в своих проектах. Кроме того, предполагается, что предложенный метод будет способствовать определению оптимального количества блоков в архитектуре нейронных сетей до начала процесса обучения, что позволит сократить расходы на разработку и внедрение технологий искусственного интеллекта, пишет источник.