Китайская Tencent представила ИИ для генерации «трёхмерных миров» из одного фото

Анастасия Федосеева Главный редактор

Компания Tencent представила революционный инструмент, который позволяет преобразовывать двумерные изображения в виртуальные трёхмерные сцены — HunyuanWorld-Voyager. Хотя алгоритм не создаёт полноценные трёхмерные модели, он демонстрирует высокую степень симуляции движения камеры, позволяя пользователям исследовать виртуальные миры с высокой степенью реалистичности.

HunyuanWorld-Voyager основан на гибридном подходе, который объединяет генерацию цветных изображений и карт глубины (RGB-D) с использованием нейронных сетей. Эти данные преобразуются в облако точек, которое затем проецируется на двумерную плоскость, сохраняя геометрическую целостность между кадрами. Это отличает модель от аналогичных решений, таких как Sora от OpenAI, которая не всегда учитывает пространственные отношения между объектами.

Хотя алгоритм ограничен генерацией видео длительностью до двух секунд (49 кадров), эти сегменты можно объединять для создания более длинных последовательностей. Для обучения модели использовался набор данных, включающий более 100 тысяч видеороликов, в том числе сцены из популярной игровой среды Unreal Engine. Это позволило HunyuanWorld-Voyager достичь высокого уровня реалистичности в воспроизведении трёхмерных пространств.

Тем не менее, модель имеет свои ограничения. При длительных поворотах камеры могут накапливаться ошибки, нарушая целостность сцены. HunyuanWorld-Voyager работает на основе сопоставления шаблонов и обратной проекции, что ограничивает его способность полностью понимать трёхмерную геометрию. Интерфейс предоставляет пользователям возможность управлять движением камеры в различных направлениях.

Система состоит из двух ключевых компонентов: блока генерации видео с глубиной и так называемого «глобального кэша», который служит базой данных ранее сгенерированных точечных моделей. Кэш проверяет согласованность новых изображений с уже существующими сценами, поддерживая высокий уровень реалистичности.

HunyuanWorld-Voyager является продолжением модели HunyuanWorld 1.0 и частью более широкой экосистемы Hunyuan, которая включает другие инструменты, такие как Hunyuan3D-2 (для создания трёхмерных объектов по текстовым описаниям) и HunyuanVideo (для генерации видеороликов). Tencent стремится укрепить свои позиции в области мультимодальных ИИ, предлагая широкий спектр решений для различных задач.

Для работы системы требуются значительные вычислительные ресурсы: при генерации сцен в разрешении 540p необходимо не менее 60 ГБ видеопамяти, а для более качественной визуализации — до 80 ГБ.

Исходный код и документация HunyuanWorld-Voyager были опубликованы на платформе Hugging Face. Лицензия на использование модели ограничивает её применение в Европейском Союзе, Великобритании и Южной Корее. Для коммерческого использования в проектах, охватывающих аудиторию более 100 миллионов человек, требуется специальное разрешение.

Публикация исходного кода HunyuanWorld-Voyager является редким шагом для китайских компаний, подчёркивая готовность Tencent конкурировать с международными игроками не только на уровне продуктов, но и в области исследовательской инфраструктуры. Вопрос о том, станут ли такие алгоритмы полноценными инструментами для разработки контента или останутся экспериментальными, остаётся открытым, пишет источник.