Новый инструмент ИИ генерирует высококачественные изображения быстрее, чем самые современные подходы

Новый инструмент ИИ генерирует высококачественные изображения быстрее, чем самые современные подходы
00:00, 21 Мар.

Возможность быстрой генерации высококачественных изображений имеет решающее значение для создания реалистичных моделируемых сред, которые можно использовать для обучения беспилотных автомобилей избегать непредсказуемых опасностей, что делает их более безопасными на реальных дорогах.

Но генеративные методы ИИ, которые все чаще используются для создания таких изображений, имеют недостатки.

Один популярный тип модели, называемый диффузионной моделью, может создавать потрясающе реалистичные изображения, но слишком медленный и требует больших вычислительных затрат для многих приложений.

С другой стороны, авторегрессионные модели, которые поддерживают LLM, такие как ChatGPT, намного быстрее, но они создают изображения худшего качества, которые часто изобилуют ошибками.

Исследователи из MIT и NVIDIA разработали новый подход, который объединяет лучшее из обоих методов. Их гибридный инструмент генерации изображений использует авторегрессионную модель для быстрого захвата общей картины, а затем малую диффузионную модель для уточнения деталей изображения.

Работа опубликована на сервере препринтов arXiv. Их инструмент, известный как HART (сокращение от Hybrid Autoregressive Transformer), может генерировать изображения, которые по качеству соответствуют или превосходят самые современные модели диффузии, но делают это примерно в девять раз быстрее.

Процесс генерации потребляет меньше вычислительных ресурсов, чем типичные модели диффузии, что позволяет запускать HART локально на коммерческом ноутбуке или смартфоне.

Пользователю нужно только ввести одну подсказку на естественном языке в интерфейс HART, чтобы сгенерировать изображение.

HART может иметь широкий спектр применения, например, помогать исследователям обучать роботов выполнять сложные реальные задачи и помогать дизайнерам создавать яркие сцены для видеоигр.

«Если вы рисуете пейзаж и просто закрашиваете весь холст один раз, это может выглядеть не очень хорошо.

Но если вы рисуете большую картину, а затем дорабатываете изображение более мелкими мазками кисти, ваша картина может выглядеть намного лучше. Это основная идея HART», — говорит Хаотянь Тан, доктор философии, соавтор новой статьи о HART.

К нему присоединились соавтор Ечэн У, студент бакалавриата Университета Цинхуа; старший автор Сон Хань, доцент кафедры электротехники и компьютерных наук (EECS), сотрудник лаборатории искусственного интеллекта IBM Watson MIT и выдающийся ученый NVIDIA; а также другие специалисты из Массачусетского технологического института, Университета Цинхуа и NVIDIA.

Исследование будет представлено на Международной конференции по обучению репрезентациям.

Лучшее из обоих миров Популярные модели диффузии, такие как Stable Diffusion и DALL-E, известны тем, что создают высокодетализированные изображения.

Эти модели генерируют изображения посредством итеративного процесса, в котором они предсказывают некоторое количество случайного шума на каждом пикселе, вычитают шум, затем повторяют процесс предсказания и «удаления шума» несколько раз, пока не сгенерируют новое изображение, полностью свободное от шума.

Поскольку модель диффузии устраняет шумы со всех пикселей изображения на каждом шаге, а шагов может быть 30 или больше, процесс медленный и затратный в вычислительном отношении.

Но поскольку у модели есть несколько шансов исправить детали, в которых она ошиблась, изображения получаются высокого качества.

Авторегрессионные модели, обычно используемые для прогнозирования текста, могут генерировать изображения, предсказывая участки изображения последовательно, по несколько пикселей за раз.

Они не могут вернуться и исправить свои ошибки, но процесс последовательного прогнозирования намного быстрее, чем диффузия.

Эти модели используют представления, известные как токены, для составления прогнозов. Авторегрессионная модель использует автоэнкодер для сжатия необработанных пикселей изображения в дискретные токены, а также для реконструкции изображения из предсказанных токенов.

Хотя это повышает скорость модели, потеря информации, которая происходит во время сжатия, приводит к ошибкам, когда модель генерирует новое изображение.

С помощью HART исследователи разработали гибридный подход, который использует авторегрессионную модель для прогнозирования сжатых дискретных токенов изображения, а затем малую диффузионную модель для прогнозирования остаточных токенов.

Остаточные токены компенсируют потерю информации модели, фиксируя детали, упущенные дискретными токенами.

«Мы можем добиться огромного повышения качества реконструкции. Наши остаточные токены изучают высокочастотные детали, такие как края объекта или волосы, глаза или рот человека.

Это те места, где дискретные токены могут совершать ошибки», — говорит Тан. Поскольку диффузионная модель предсказывает оставшиеся детали только после того, как авторегрессионная модель выполнила свою работу, она может выполнить задачу за восемь шагов вместо обычных 30 или более, которые требуются стандартной диффузионной модели для создания полного изображения.

Минимальные накладные расходы на дополнительную диффузионную модель позволяют HART сохранить преимущество в скорости авторегрессионной модели, значительно расширяя ее возможности по созданию сложных деталей изображения.

«Диффузионная модель проще в исполнении, что приводит к большей эффективности», — добавляет он.

Превосходит более крупные модели В ходе разработки HART исследователи столкнулись с трудностями в эффективной интеграции модели диффузии для улучшения модели авторегрессии.

Они обнаружили, что включение модели диффузии на ранних этапах процесса авторегрессии привело к накоплению ошибок.

Вместо этого их окончательный проект применения модели диффузии для прогнозирования только остаточных токенов в качестве последнего шага значительно улучшил качество генерации.

Их метод, который использует комбинацию модели авторегрессионного трансформатора с 700 миллионами параметров и облегченной модели диффузии с 37 миллионами параметров, может генерировать изображения того же качества, что и те, которые создаются моделью диффузии с 2 миллиардами параметров, но он делает это примерно в девять раз быстрее.

Он использует примерно на 31% меньше вычислений, чем современные модели.

Более того, поскольку HART использует авторегрессионную модель для выполнения основной части работы — тот же тип модели, который поддерживает LLM, — он более совместим для интеграции с новым классом унифицированных генеративных моделей языка видения.

В будущем можно будет взаимодействовать с унифицированной генеративной моделью языка видения, возможно, попросив ее показать промежуточные шаги, необходимые для сборки предмета мебели.

«LLM — это хороший интерфейс для всех видов моделей, таких как мультимодальные модели и модели, которые могут рассуждать.

Это способ вывести интеллект на новый уровень. Эффективная модель генерации изображений откроет множество возможностей», — говорит он.

В будущем исследователи хотят пойти по этому пути и построить модели языка зрения поверх архитектуры HART. Поскольку HART масштабируется и обобщается на несколько модальностей, они также хотят применить его для задач генерации видео и прогнозирования аудио.

Рубрика: Гаджеты и Технологии. Читать весь текст на android-robot.com.