У четвер, 22 лютого 2024 року, компанія Stability AI представила Stable Diffusion 3, наступне покоління моделі синтезу зображень. Вона слідує за своїми попередниками, і, за звітами, генерує деталізовані, багатоособові зображення з покращеною якістю та точністю у генерації тексту. Коротке оголошення не супроводжується публічною демонстрацією, але компанія відкриває сьогодні чергу на тестування для тих, хто бажає спробувати його.
Компанія стверджує, що родина моделей Stable Diffusion 3 (яка приймає текстові описи, що називаються “підказками”, і перетворює їх у відповідні зображення) має різний розмір від 800 мільйонів до 8 мільярдів параметрів. Цей діапазон розмірів дозволяє різним версіям моделі працювати локально на різних пристроях – від смартфонів до серверів. Розмір параметра приблизно відповідає здатності моделі створювати деталі. Більші моделі також потребують більше VRAM на прискорювачах GPU для роботи.
Починаючи з 2022 року, ми бачили, як компанія Stability випускає прогресію моделей створення зображень штучного інтелекту і от тепер вона презентує чергове оновлення. Stability зарекомендувала себе як надійна альтернатива вже існуючим моделям синтезу зображень, таким як DALL-E 3 від OpenAI, хоча не без спірних питань через використання захищених авторським правом навчальних даних, упередженості та можливого зловживання (це призвело до нерозглянутих позовів). Моделі Stable Diffusion були відкритими та доступними для джерела, що означає, що їх можна було запустити локально і налаштувати для своїх потреб.
Щодо технічних покращень, генеральний директор Stability Емад Мостак вказав: “Це використовує новий тип трансформатора дифузії (схожий на Sora), поєднаний зі встановленням потоку та іншими покращеннями.
Як сказав Мостак, Stable Diffusion 3 використовує архітектуру трансформатора дифузії, яка є новим способом створення зображень за допомогою штучного інтелекту, який замінює звичайні блоки побудови зображень (такі як архітектура U-Net) на систему, що працює з невеликими частинами зображення. Цей метод був натхненний трансформаторами, які добре вміють обробляти шаблони та послідовності. Цей підхід не лише ефективно масштабується, але також, за повідомленнями, виробляє високоякісні зображення.
Джерело: arstechnica.com