Привет читатели seoslim.ru! Первое, для чего начали повсеместно использовать полноценные нейросети на основе искусственного интеллекта – генерация изображений.
Ещё в 2021 году активную популярность тогда начал набирать DALL-E от компании OpenAI, создателей ChatGPT. Тогда первые рисунки выглядели совсем не на том уровне, что и сейчас.
Однако постепенно начали появляться новые нейросети: Stable Diffusion, Midjourney, Sora и другие. На основе DALL-E компания «Сбер» даже сделала локализацию под названием ruDALL-E.
И так мы постепенно подошли к тому, что российские программисты из Сбербанка в 2022 выпустили в релиз свою собственную разработку – Kandinsky, сделанную на основе исходного кода ruDALL-E.
Новая программа оказалась гораздо более совершенной и постепенно «Сбер» продолжали постепенно развивать её. Последняя на данный момент версия 3.1 вышла в апреле 2024 года.
Что умеет делать нейросеть Kandinsky 3.1
Пожалуй стоит начать с основных возможностей данной нейронки, которые связаны непосредственно с графикой и видео.
Среди основных функций Kandinsky:
- Создание изображений в разрешении 4К с возможностью ручного изменения соотношения сторон во время генерации.
- Смешивание двух разных изображений в одно цельное.
- Создание коротких видеороликов со сценами до 4 секунд по текстовому описанию.
- Создание отдельных стикер-паков через бота в Телеграмме.
Отличие Kandinsky 3.1 от предыдущих версий
Версия 3.1 стала хорошим шагом вперёд в сравнении со всеми остальными. Её специально обучали на огромном датасете специально подобранных изображений с целью значительно повысить качество генерируемых изображений.
Более того, скорость создания картинок увеличилась примерно в десять раз. Теперь нейросеть может с лёгкостью создавать фотореалистичные картинки в считанные секунды.
К тому же Kandinsky 3.1 интегрировали для свободного использования в Телеграмм в качестве бота, где доступны все версии нейросети.
Возможности нейросети
Помимо основных функций у Kandinsky 3.1 появилось огромное количество новых уникальных возможностей. К примеру, были добавлены две новые задачи: Inpainting и Outpainting. Разберём, что означает каждая из них.
Inpainting – это, говоря коротко и просто, дополнение изображения на основе исходной картинки и текстового запроса. То есть, внутри фотографии нейросеть самостоятельно может дорисовать необходимые элементы, органично вписав их в общую композицию.
Например, на оригинальных фотографиях были Пизанская башня и обычная река.
При помощи Kandinsky выделяем необходимую нам область и пишем текстовый запрос с описанием того, что мы хотим там видеть.
Необязательно писать на английском как в этом примере, нейросеть отлично поддерживает и русский язык.
Outpainting также можно назвать «расширение границ фото». По сути, нейросеть сама дополняет оригинальные фотографии, тем самым позволяя удобно изменить их формат из вертикального на горизонтальный без потери естественности.
Дополнять изображения таким образом гораздо сложнее, чем просто создавать их с нуля.
Ведь теперь нейросети ещё необходимо подстраиваться под стиль оригинала, стараясь максимально органично дополнять его новыми элементами, или изменять уже существующие (если мы говорим про Inpainting).
Помимо этого, нова версия Kandinsky теперь может генерировать полноценные анимации и видео: большое количество идентичных и быстро сменяющихся изображений, фактически по принципу создания ручной анимации, где каждый новый кадр создаётся отдельно.
Только здесь не руками человека за долгие часы, а искусственным интеллектом в считанные секунды.
Вот для примера GIF по запросу: «Красивая женщина, темные волосы, веснушки, цветочная корона из крупных пионов и роз, красивый градиентный розовый фон, верхнее освещение, профессиональная фотография, студийная фотография, 4k, режим: “live”»
Как пользоваться нейросетью
Есть как минимум два основных варианта использования Kandinsky: через официальный сайт и через бота в Телеграме. Рассмотрим каждый из них по отдельности.
Переходим на сайт fusionbrain.ai, где нас встречают примеры работ нейросети. Русский язык стоит по умолчанию, его менять не нужно.
Сверху в правом углу нажимаем на кнопку «Начать» и проходим регистрацию, после чего нас переносят на страницу редактора Kandinsky.
Сразу стоит определить несколько терминов:
- промпт – то, что мы хотим видеть на картинке;
- негативный промпт – то, чего мы на картинке не хотим видеть;
- стиль – на выбор предоставляет большое количество доступных шаблонных стилей (либо же есть возможность использовать свой уникальный).
С картинками всё достаточно просто, достаточно лишь ввести текстовых промпт, при необходимости выбрать соответствующий стиль (на примере использован стиль «Киберпанк») и определить формат картинки: 1:1, 16:9 и так далее.
Это изображение мы можем сразу же скачать (по кнопке «Скачать все»).
Также через официальный сайт можно создавать и короткие видеоролики в соответствующем разделе «Видео».
Читайте также: Как восстановить старые снимки (фото) с помощью нейросетей
Помимо написания промпта мы должны выбрать модель: «Анимация» или «Видео», «Размер» нашего ролика (то есть формат), а также направление камеры: вверх, вниз, влево, вправо, просто статичная и так далее.
В целом, здесь уже заранее есть подготовленные промпты, поэтому используем их, только немного изменим направление камеры.
Не совсем похоже на полноценную анимацию или реалистичное видео, так как картинки слишком уже резко сменяют друг друга, но для начала смотрится очень даже неплохо.
Да, через сайт количество доступных функций, на самом деле, достаточно ограничено.
Большинство из них полноценно раскрываются уже в Телеграм боте: смешивание, перенесение стиля, стикеры и так далее.
Тут всё достаточно просто и каждый пункт подробно объясняется самим ботом. Для примера давайте протестируем функцию «Смешивания». Можно либо отправить две картинки, либо отправить картинку и запрос.
Получилось очень даже неплохо.
Оба изображения были естественным образом совмещены друг с другом и приведены к одному общему «знаменателю» в виде новой картинки.
В конце статьи стоит отметить, что с каждой новой версией Kandinsky, качество генерируемых изображений и скорость их создания многократно возрастают, а список возможностей становится всё шире.
Можно точно сказать, что отечественная нейронка более чем успешно справляется с созданием изображений любого стиля и формата, вместе с тем активно продолжает двигаться в направлении генерации видеороликов.
Остаётся только ждать выхода дальнейших обновлений и наблюдать за стремительным прогрессом современных технологий.