Новітні розробки ШІ: DeepMind створює саундтреки та діалоги для відео
DeepMind, дослідницька лабораторія з штучного інтелекту Google, заявила про створення нової технології ШІ, яка здатна генерувати саундтреки для відеоматеріалів. Ця розробка, відома як V2A (скорочено від “video-to-audio”), розглядається як ключовий елемент у процесі створення мультимедійного контенту за допомогою штучного інтелекту.
Незважаючи на швидкий прогрес у галузі генерації відео за допомогою ШІ, більшість існуючих моделей можуть створювати лише беззвучні відео. “Моделі генерації відео розвиваються з неймовірною швидкістю, але багато сучасних систем можуть створювати лише беззвучний вихідний матеріал,” – зазначають у DeepMind. “Технологія V2A може стати перспективним підходом для оживлення згенерованих фільмів.”
Технологія V2A DeepMind створює музику, звукові ефекти та навіть діалоги, які відповідають персонажам та настрою відеоматеріалу, на основі його опису (наприклад, “пульсуючі медузи під водою, морське життя, океан”). Для захисту від дипфейків згенеровані аудіодані мають водяний знак SynthID від DeepMind. Модель штучного інтелекту, яка живить V2A, – це модель дифузії, навчена на комбінації звуків, транскриптів діалогів та відеокліпів.
“Завдяки навчанню на відео, аудіо та додаткових анотаціях, наша технологія вчиться асоціювати конкретні звукові події з різними візуальними сценами, реагуючи на інформацію, надану в анотаціях або транскриптах”, – пояснюють у DeepMind.
Поки що невідомо, чи були авторські права на навчальні дані, і чи їх творці були поінформовані про роботу DeepMind. Ми звернулися до DeepMind за роз’ясненнями та оновимо цей пост, якщо отримаємо відповідь.
Інструменти для генерації звуку за допомогою ШІ не є новинкою. Минулого тижня стартап Stability AI випустив власний інструмент, а в травні ElevenLabs представила аналогічну розробку. Існують також моделі для створення звукових ефектів для відео, зокрема проект Microsoft може генерувати відео з розмовами та співом на основі статичного зображення, а платформи Pika та GenreX навчили моделі ШІ вгадувати відповідну музику та ефекти для відео.
Однак DeepMind стверджує, що їхня технологія V2A є унікальною, оскільки може розуміти сирі пікселі відео та автоматично синхронізувати згенеровані звуки з відео, необов’язково використовуючи описи.
V2A не є досконалою, і DeepMind визнає це. Оскільки основна модель не була навчена на великій кількості відео з артефактами та спотвореннями, вона не створює високоякісного аудіо для таких матеріалів. І в цілому згенерований аудіо не надто переконливий; колега з TechCrunch Наташа Ломас описала його як “суміш стереотипних звуків”.
З цих причин, а також для запобігання неналежному використанню, DeepMind заявляє, що поки не буде оприлюднювати цю технологію, якщо взагалі планує це робити.
“Щоб забезпечити позитивний вплив нашої технології V2A на творчу спільноту, ми збираємо різноманітні перспективи та відгуки від провідних митців та кінематографістів, і використовуємо цінні відгуки для інформування подальших досліджень та розробок”, – повідомляють у DeepMind. “Перш ніж розглядати можливість надання технології ширшому загалу, вона пройде ретельну оцінку безпеки та тестування.”
DeepMind розглядає свою технологію V2A як особливо корисний інструмент для архівістів та фахівців, які працюють з історичними відеоматеріалами. Однак генеративний штучний інтелект такого роду також загрожує революцією в кіно- та телеіндустрії. Для того, щоб генеративні мультимедійні інструменти не призвели до втрати робочих місць чи навіть цілих професій, потрібно буде ввести надійні трудові гарантії.