Сбербанк показал новую версию нейросети Kandinsky 3.0

23.11.2023

Компания также представила нейросеть Kandinsky Video для создания полноценных видеороликов по текстовому описанию

Сбербанк представил новую версию нейросети Kandinsky 3.0. Модель лучше понимает текстовые запросы и за несколько секунд создаёт реалистичные изображения, в том числе на тему культуры России. Об этом говорится в сообщении банка.

Нейросеть научилась создавать ещё более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами. Отмечается, что модель работает с запросами из широкого списка тем и «способна реализовать любой полёт фантазии».

«Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например гжельской росписи», — пояснили в компании.

Кроме того, у новой модели улучшена функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна.

Kandinsky 3.0 создаёт изображения с высоким разрешением — 1024×1024 пикселей. При этом нейросеть может синтезировать картинки с выбранным соотношением сторон.

Для обучения нейросети разработчики использовали обновлённый датасет в размере 1,5 млрд пар «текст — изображение», содержащий данные, которые прошли многоэтапные процедуры фильтрации.

Пользователи Kandinsky 3.0 могут создавать видеоролики по текстовому описанию в режиме анимации. По одному запросу генерируется видео длиной до четырёх секунд c выбранным эффектом анимации.

Также Сбер представил нейросеть Kandinsky Video — генеративную модель для создания полноценных видеороликов по текстовому описанию. Модель генерирует видеоряд длительностью до восьми секунд с частотой 30 кадров в секунду.

Архитектура Kandinsky Video состоит из двух ключевых блоков. Первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео. Второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео.

В основе обоих блоков лежит модель Kandinsky 3.0.

Источник: sostav.ru