DynamiCrafter: Анимация изображений с открытыми доменами с помощью диффузионных приоритетов видео

Компьютерное зрение сегодня является одной из наиболее интересных и хорошо изученных областей в сообществе искусственного интеллекта, и, несмотря на быстрое совершенствование моделей компьютерного зрения, давней проблемой, которая все еще беспокоит разработчиков, является анимация изображений. Даже сегодня фреймворки анимации изображений изо всех сил пытаются преобразовать неподвижные изображения в их соответствующие видеоаналоги, которые отображают естественную динамику, сохраняя при этом первоначальный внешний вид изображений. Традиционно фреймворки анимации изображений ориентированы в первую очередь на анимацию природных сцен с помощью движений, специфичных для конкретной области, таких как движения человеческих волос или тела, или стохастической динамики, такой как жидкости и облака. Хотя этот подход в определенной степени работает, он ограничивает применимость этих фреймворков анимации к более общему визуальному контенту. 

Более того, традиционные подходы к анимации изображений концентрируются в первую очередь на синтезе колебательных и стохастических движений или на настройке для конкретных категорий объектов. Однако заметным недостатком этого подхода являются строгие допущения, налагаемые на эти методы, что в конечном итоге ограничивает их применимость, особенно в общих сценариях, таких как анимация изображений в открытой области. За последние несколько лет модели T2V или Text to Video продемонстрировали замечательный успех в создании ярких и разнообразных видеороликов с использованием текстовых подсказок, и эта демонстрация моделей T2V составляет основу платформы DynamiCrafter. 

Платформа DynamiCrafter — это попытка преодолеть текущие ограничения моделей анимации изображений и расширить их применимость к общим сценариям, включающим изображения открытого мира. Платформа DynamiCrafter пытается синтезировать динамический контент для изображений с открытым доменом, преобразуя их в анимированные видеоролики. Ключевая идея DynamiCrafter заключается в том, чтобы включить изображение в качестве руководства в генеративный процесс в попытке использовать движение, предшествующее уже существующему тексту, в моделях диффузии видео. Для данного изображения модель DynamiCrafter сначала реализует преобразователь запросов, который проецирует изображение в пространство представления богатого контекста, выровненное по тексту, что позволяет видеомодели обрабатывать содержимое изображения совместимым образом. Тем не менее, модели DynamiCrafter по-прежнему трудно сохранить некоторые визуальные детали в полученных видеороликах. Эту проблему модель DynamiCrafter решает, передавая полное изображение в диффузионную модель путем объединения изображения с исходными шумами, дополняя модель более точным изображением. информация. 

Целью этой статьи является более глубокое освещение платформы DynamiCrafter, и мы исследуем механизм, методологию, архитектуру платформы, а также ее сравнение с современными платформами создания изображений и видео. Итак, давайте начнем. 

DynamiCrafter: анимация изображений в открытом домене

Анимация неподвижного изображения часто предлагает зрителям привлекательный визуальный опыт, поскольку кажется, что оно оживляет неподвижное изображение. На протяжении многих лет многочисленные фреймворки исследовали различные методы анимации неподвижных изображений. Первоначальные среды анимации реализовали подходы, основанные на физическом моделировании, которые фокусировались на моделировании движения конкретных объектов. Однако из-за независимого моделирования каждой категории объектов эти подходы не были ни эффективными, ни обобщающими. Чтобы воспроизвести более реалистичные движения, появились методы, основанные на эталонах, которые передавали информацию о движении или внешнем виде из эталонных сигналов, таких как видео, в процесс синтеза. Хотя подходы, основанные на эталонных данных, дали лучшие результаты с лучшей временной согласованностью по сравнению с подходами, основанными на моделировании, они нуждались в дополнительных указаниях, которые ограничивали их практическое применение. 

В последние годы большинство анимационных фреймворков ориентированы в первую очередь на анимацию естественных сцен с помощью стохастических, зависящих от предметной области или колебательных движений. Хотя подход, реализуемый этими структурами, в определенной степени работает, результаты, полученные этими структурами, не являются удовлетворительными и имеют значительные возможности для улучшения. Замечательные результаты, достигнутые с помощью генеративных моделей преобразования текста в видео за последние несколько лет, вдохновили разработчиков платформы DynamiCrafter использовать мощные генеративные возможности моделей преобразования текста в видео для анимации изображений. 

Ключевой основой платформы DynamiCrafter является включение условного изображения в попытку управлять процессом генерации видео в моделях диффузии текста в видео . Однако конечная цель анимации изображений по-прежнему остается нетривиальной, поскольку анимация изображений требует сохранения деталей, а также понимания визуального контекста, необходимого для создания динамики. Однако мультимодальные модели управляемого распространения видео, такие как VideoComposer, попытались обеспечить генерацию видео с визуальным руководством по изображению. Однако эти подходы не подходят для анимации изображений, поскольку они приводят либо к резким временным изменениям, либо к низкому визуальному соответствию входному изображению из-за менее совершенных механизмов внедрения изображений. Чтобы преодолеть это препятствие, платформа DyaniCrafter предлагает двухпоточный подход к внедрению, включающий визуальное руководство по деталям и представление контекста с выравниванием по тексту. Подход к внедрению двух потоков позволяет платформе DynamiCrafter гарантировать, что модель распространения видео синтезирует динамический контент с сохранением деталей дополняющим образом. 

Для данного изображения платформа DynamiCrafter сначала проецирует изображение в пространство представления контекста, выровненное по тексту, используя специально разработанную сеть обучения контексту. Если быть более конкретным, пространство представления контекста состоит из обучаемого преобразователя запросов для дальнейшей адаптации к моделям диффузии и предварительно обученного кодировщика изображений CLIP для извлечения функций изображения, выровненных по тексту. Затем модель использует богатые контекстные функции с использованием слоев перекрестного внимания, а модель использует закрытое слияние для объединения этих текстовых функций со слоями перекрестного внимания. Однако этот подход заменяет изученные представления контекста визуальными деталями, выровненными по тексту, что облегчает семантическое понимание контекста изображения, позволяя синтезировать разумную и яркую динамику. Более того, пытаясь дополнить дополнительные визуальные детали, фреймворк объединяет полное изображение с исходным шумом в диффузионную модель. В результате подход двойного внедрения, реализованный в среде DynamiCrafter, гарантирует визуальное соответствие, а также правдоподобное динамическое содержимое входному изображению. 

В дальнейшем диффузионные модели или DM продемонстрировали замечательную производительность и генеративное мастерство в T2I или генерации текста в изображение. Чтобы повторить успех моделей T2I для генерации видео, предлагаются модели VDM или Video Diffusion, которые используют пространственно-временную факторизованную архитектуру U-New в пиксельном пространстве для моделирования видео с низким разрешением. Перенос знаний из фреймворков T2I в фреймворки T2V поможет снизить затраты на обучение. Хотя модели VDM или Video Diffusion способны генерировать видео высокого качества, они принимают только текстовые подсказки в качестве единственного семантического руководства, которое может не отражать истинные намерения пользователя или быть расплывчатыми. Однако результаты большинства моделей VDM редко соответствуют входному изображению и страдают от нереалистичной проблемы временных изменений. Подход DynamiCrafter основан на моделях распространения видео с текстовым условием, которые используют свой богатый динамический априор для анимации изображений в открытом домене. Это достигается за счет использования индивидуального дизайна для лучшего семантического понимания и соответствия входному изображению. 

DynamiCrafter: метод и архитектура

Для данного неподвижного изображения платформа DyanmiCrafter пытается анимировать изображение в видео , т.е. создать короткий видеоклип. Видеоклип наследует визуальное содержание изображения и демонстрирует естественную динамику. Однако существует вероятность того, что изображение может появиться в произвольном месте результирующей последовательности кадров. Появление изображения в произвольном месте — это особая проблема, наблюдаемая в задачах создания видео с кондиционированием изображения с высокими требованиями к визуальному соответствию. Платформа DynamiCrafter решает эту проблему, используя генеративные априоры предварительно обученных моделей распространения видео. 

Динамика изображения из видео Diffusion Prior

Обычно известно, что модели распространения текста в видео с открытым доменом отображают динамический визуальный контент, смоделированный на основе текстовых описаний. Чтобы анимировать неподвижное изображение с помощью априорной обработки текста в видео, платформы должны сначала комплексно внедрить визуальную информацию в процесс генерации видео. Кроме того, для динамического синтеза модель T2V должна обрабатывать изображение для понимания контекста, а также сохранять визуальные детали в сгенерированных видеороликах. 

Представление контекста с выравниванием по тексту

Чтобы управлять созданием видео с контекстом изображения, платформа DynamiCrafter пытается проецировать изображение в выровненное пространство внедрения, позволяя видеомодели использовать информацию изображения совместимым образом. После этого платформа DynamiCrafter использует кодировщик изображений для извлечения функций изображения из входного изображения, поскольку встраивание текста генерируется с использованием предварительно обученного кодировщика текста CLIP. Теперь, хотя глобальные семантические токены из кодировщика изображений CLIP выравниваются с подписями к изображениям, они в первую очередь представляют визуальный контент на семантическом уровне, поэтому не удается охватить весь размер изображения. Платформа DynamiCrafter реализует полные визуальные токены из последнего уровня кодировщика CLIP для извлечения более полной информации, поскольку эти визуальные токены демонстрируют высокую точность в задачах генерации условных изображений. Кроме того, инфраструктура использует встраивания контекста и текста для взаимодействия с промежуточными функциями U-Net с использованием двойных уровней перекрестного внимания. Конструкция этого компонента облегчает способность модели поглощать условия изображения в зависимости от слоя. Более того, поскольку промежуточные уровни архитектуры U-Net больше связаны с позами или формами объектов, ожидается, что особенности изображения будут преимущественно влиять на внешний вид видео, особенно потому, что два конечных слоя больше связаны с внешним видом. 

Визуальное подробное руководство

Платформа DyanmiCrafter использует богатое информативное представление контекста, которое позволяет модели распространения видео в ее архитектуре создавать видеоролики, очень похожие на входное изображение. Однако, как показано на следующем изображении, сгенерированный контент может отображать некоторые несоответствия из-за ограниченных возможностей предварительно обученного кодировщика CLIP полностью сохранять входную информацию, поскольку он был разработан для согласования языковых и визуальных функций. 

Чтобы повысить визуальное соответствие, платформа DynamiCrafter предлагает предоставить модели распространения видео дополнительные визуальные детали, извлеченные из входного изображения. Для достижения этой цели модель DyanmiCrafter объединяет условное изображение с покадровым начальным шумом и передает их в компонент шумоподавления U-Net в качестве руководства. 

Парадигма обучения

Платформа DynamiCrafter объединяет условное изображение через два взаимодополняющих потока, которые играют важную роль в детальном руководстве и управлении контекстом. Чтобы облегчить то же самое, модель DynamiCrafter использует трехэтапный процесс обучения.

  1. На первом этапе модель обучает сеть представления контекста изображения. 
  2. На втором этапе модель адаптирует сеть представления контекста изображения к модели «Текст в видео». 
  3. На третьем и последнем этапе модель настраивает сеть представления контекста изображения совместно с компонентом визуального детального управления. 

Чтобы адаптировать информацию изображения для совместимости с моделью преобразования текста в видео (T2V), платформа DynamiCrafter предлагает разработать сеть контекстного представления P, предназначенную для захвата визуальных деталей, выровненных по тексту, из данного изображения. Признавая, что P требует многих шагов оптимизации для сходимости, подход платформы предполагает первоначальное обучение с использованием более простой модели преобразования текста в изображение (T2I). Эта стратегия позволяет сети представления контекста сконцентрироваться на изучении контекста изображения перед интеграцией его с моделью T2V посредством совместного обучения с P и пространственными уровнями, в отличие от временных слоев модели T2V. 

Чтобы обеспечить совместимость с T2V, платформа DyanmiCrafter объединяет входное изображение с покадровым шумом, приступая к точной настройке как P, так и пространственных слоев модели визуальной дискриминации (VDM). Этот метод выбран для сохранения целостности существующей временной информации модели T2V без неблагоприятных последствий плотного слияния изображений, которые могут поставить под угрозу производительность и отклониться от нашей основной цели. Более того, инфраструктура использует стратегию случайного выбора видеокадра в качестве условия изображения для достижения двух целей: (i) избежать разработки сетью предсказуемого шаблона, который напрямую связывает объединенное изображение с конкретным местоположением кадра, и (ii) чтобы поощрять более адаптируемое представление контекста, предотвращая предоставление слишком жесткой информации для любого конкретного кадра. 

DynamiCrafter: эксперименты и результаты

Платформа DynamiCrafter сначала обучает сеть представления контекста и слои перекрестного внимания изображений на Stable Diffusion. Затем фреймворк заменяет компонент Stable Diffusion на VideoCrafter и дополнительно настраивает сеть контекстного представления и пространственные слои для адаптации, а также с конкатенацией изображений. В результате платформа использует сэмплер DDIM с руководством без классификатора с несколькими условиями. Кроме того, для оценки временной согласованности и качества видео, синтезированных как во временной, так и в пространственной областях, платформа сообщает FVD или расстояние видео Фреше, а также KVD или расстояние видео ядра и оценивает производительность с нулевым кадром для всех методов. тестов MSR-VTT и UCF-101. Чтобы исследовать перцептивное соответствие между сгенерированными результатами и входным изображением, структура вводит PIC или перцептивное входное соответствие и принимает метрику перцептивного расстояния DreamSim как функцию расстояния. 

На следующем рисунке показано визуальное сравнение созданного анимированного контента с разными стилями и контентом. 

Как можно заметить, среди всех различных методов фреймворк DynamiCrafter хорошо придерживается состояния входного изображения и генерирует согласованное во времени видео. В следующей таблице приведены статистические данные пользовательского исследования с участием 49 участников по уровню предпочтения временной когерентности (TC) и качеству движения (MC), а также уровень выбора по визуальному соответствию входному изображению. (IC). Как можно заметить, среда DynamiCrafter способна значительно превосходить существующие методы. 

На следующем рисунке показаны результаты, достигнутые с использованием метода двухпоточной инъекции и парадигмы обучения. 

Последние мысли

В этой статье мы говорили о DynamiCrafter, попытке преодолеть текущие ограничения моделей анимации изображений и расширить их применимость к общим сценариям, включающим изображения открытого мира. Платформа DynamiCrafter пытается синтезировать динамический контент для изображений с открытым доменом, преобразуя их в анимированные видеоролики. Ключевая идея DynamiCrafter заключается в том, чтобы включить изображение в качестве руководства в генеративный процесс в попытке использовать движение, предшествующее уже существующему тексту, в моделях диффузии видео. Для данного изображения модель DynamiCrafter сначала реализует преобразователь запросов, который проецирует изображение в пространство представления богатого контекста, выровненное по тексту, что позволяет видеомодели обрабатывать содержимое изображения совместимым образом. Тем не менее, модели DynamiCrafter по-прежнему трудно сохранить некоторые визуальные детали в полученных видеороликах. Эту проблему модель DynamiCrafter решает, передавая полное изображение в диффузионную модель путем объединения изображения с исходными шумами, дополняя модель более точным изображением. информация.