Inception, ведущая компания в области искусственного интеллекта, представила новую языковую модель, основанную на диффузионных технологиях. Эта модель демонстрирует высокую производительность и эффективность при обработке текстовых данных, что делает её конкурентоспособной на рынке по сравнению с такими решениями, как Groq и Cerebras.
В отличие от традиционных методов, основанных на последовательной авторегрессии, диффузионный подход Inception позволяет генерировать ответ одновременно на всех этапах обработки. Это значительно сокращает время вывода и повышает параллелизм, что является ключевым преимуществом в условиях растущих требований к производительности и масштабируемости.
Читайте также
Основатель компании, Эрмон, акцентирует внимание на проблемах низкой производительности и высоких вычислительных затрат при внедрении ИИ в промышленный масштаб. Диффузионные технологии рассматриваются как эффективное решение для достижения высокой производительности в крупномасштабных системах.
Inception разработала первую коммерчески доступную диффузионную языковую модель (LLM) под названием Mercury. Производительность этой модели сопоставима с ведущими решениями от OpenAI, Anthropic и Google, при этом скорость обработки достигает 1 000 токенов в секунду на видеокартах Nvidia H100. Это позволяет Mercury конкурировать с решениями, использующими специализированные ускорители.
Технические характеристики Mercury были подтверждены препринтом, опубликованным на arXiv. Модель Mercury Coder Mini демонстрирует пропускную способность 1 109 токенов в секунду, а Mercury Coder Small — 737 токенов в секунду, при этом сохраняя высокое качество на специализированных бенчмарках для программирования.
Mercury доступна через собственный API и интегрирована в экосистемы Amazon — Bedrock Marketplace и SageMaker JumpStart. Корпоративные клиенты могут использовать эту модель в знакомой инфраструктуре AWS, сравнивая её производительность и стоимость с традиционными авторегрессионными моделями. Inception также предлагает доступ к модели через платформы OpenRouter и Poe, что позволяет использовать её в качестве замены существующих решений в рабочих процессах.
Архитектура диффузии, лежащая в основе Mercury, открывает новые возможности, такие как встроенная коррекция ошибок, унификация мультимодальности (интеграция текста, изображений и кода) и точное структурирование вывода. Это позволяет генерировать формализованные данные и вызывать функции с высокой точностью.
Для рынка это означает снижение затрат на ресурсоёмкие задачи, такие как кодовые ассистенты, агентные пайплайны с длинными цепочками рассуждений и диалоговые интерфейсы, при сохранении высокого качества обработки.
Подход Inception к масштабированию ИИ переосмысливает традиционные методы, оптимизируя процесс генерации ответа вместо увеличения параметров моделей. Это позволяет повысить производительность и снизить затраты на вычислительные ресурсы, что является важным фактором в условиях растущего спроса на ИИ-решения.
Inception опирается на научную базу, включающую ведущих специалистов из Стэнфордского университета, Калифорнийского университета в Лос-Анджелесе и Корнельского университета. Основатели компании внесли значительный вклад в развитие таких технологий, как диффузия, flash-attention, decision transformers и DPO, что подтверждает их компетентность и инновационность.
Финансирование Inception возглавило венчурное подразделение Nvidia — NVentures. Среди инвесторов также значатся Menlo Ventures, Mayfield, Innovation Endeavors, M12 (фонд Microsoft), Snowflake Ventures и Databricks Investment. К сотрудничеству присоединились бизнес-ангелы Эндрю Ын и Андрей Карпатый, что подчёркивает доверие к потенциалу компании на рынке ИИ, пишет источник.