Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI. Увидеть, как она рисует, можно на сайте FusionBrain, а также при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении Салют.
В Kandinsky 2.0 разработчики использовали набирающий популярность диффузионный подход, поскольку модели подобной архитектуры, в отличие от трансформеров, дают хорошие результаты почти во всех задачах генерации мультимедийного контента по текстовому описанию.
Модель способна одинаково быстро и качественно обрабатывать запросы на 101 языке. Среди них как распространённые русский и английский, так и более редкие, например, монгольский. Система поймёт задачу, даже если в одном запросе будут слова на разных языках.
Изображения можно генерировать в 20 различных стилях. В модели также реализованы функции замены любой части изображения и любого объекта на изображении на сгенерированные нейросетью, а также возможность дорисовывать готовое изображение и фон вокруг картинки.
Первый зампред правления Сбербанка Александр Ведяхин отметил, что компания продолжает развивать решения для автоматической генерации изображений по описанию на естественном языке — так называемый креативный ИИ.