Нейросеть Kandinsky научилась создавать анимационные видеоролики

13.10.2023

Четырёхсекундное видео генерируется по одному текстовому описанию

Нейросеть «Сбера» Kandinsky 2.2 теперь может генерировать анимационные видеоролики. По одному текстовому описанию генерируется четырёхсекундное видео c выбранным эффектом анимации, частотой 24 кадра в секунду и разрешением 640×640 пикселей. На синтез одной секунды видео нейросеть в среднем тратит около 20 секунд. Об этом Sostav сообщили в пресс-службе «Сбера».

Чтобы сгенерировать видео в режиме анимации, нужно описать текстом то, что хочется в нём увидеть. Затем бот предложит на выбор 16 вариантов анимации сцены, а после этого нейросеть сгенерирует анимированный видеоролик.

Кроме того, доступна генерация составных сцен: пользователь может ввести до трёх текстовых описаний, затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».

Основа для синтеза видео — модель генерации изображений по текстовым описаниям Kandinsky 2.2. «Для расширения её возможностей были реализованы разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, оживлять статику всеми возможными способами», — рассказали в компании, добавив, что в основе всех режимов анимации лежат функции image2image и inpainting/outpainting, которые уже были реализованы в базовой модели.

Как пояснили в компании, пока генерация анимационных видеороликов работает в тестовом режиме и доступна «самым активным пользователям» Kandinsky 2.2. Они получат приглашение в ближайшее время.

До конца года новая функция нейросети станет доступна всем, заверили в «Сбере». Пользователи, которые хотят попробовать опцию сейчас, могут оставить заявку на получение доступа в Telegram-боте.

Александр Ведяхин, первый заместитель председателя правления Сбербанка:

С момента выхода модели Kandinsky 2.2 пользователи уже сгенерировали более 50 млн изображений. Теперь у них появилось ещё больше возможностей для творчества совершенно бесплатно. Сегодняшний запуск видео-функции в режиме анимации — это важный шаг в развитии нашей нейросети и для всей глобальной индустрии мультимодальных моделей искусственного интеллекта.

Нейросеть Kandinsky разработали и обучили исследователи Sber AI совместно с учёными из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices. В июле нейросеть обновили до версии 2.2. Отмечалось, что с ней «можно создавать фотореалистичные изображения с более высоким разрешением и изменять соотношение сторон при генерации».

Источник: sostav.ru