OpenAI презентує штучний інтелект для синтезу голосу Voice Engine: Що це і як це працює

Від Ян ТкачРозділ Штучний інтелект 30 Березня, 2024514 переглядів

Штучний інтелект для синтезу голосу: Voice Engine від OpenAI

OpenAI презентувала Voice Engine, інструмент для реалістичного синтезу голосу, який привернув значну увагу. Він базується на моделі генеративного штучного інтелекту і використовується для створення голосу в ChatGPT та API перетворення тексту в мову OpenAI, а також у Spotify для дублювання подкастів різними мовами.

Технологія має потенціал для різних сфер застосування, від надання допомоги людям з обмеженими можливостями до підтримки віддалених спільнот та розвитку голосових послуг. Вона може бути корисною також у відновленні голосу та перекладі.

Хоча конкретні деталі навчання моделі залишаються під суворим секретом, відомо, що Voice Engine навчений на різних даних, включаючи ліцензовані та загальнодоступні. Компанія дбає про конфіденційність і видаляє аудіо та текст після завершення запиту користувача.

При цьому ціна користування Voice Engine не є найнижчою, але все ще доступна. Вартість вища за аналогічні послуги ElevenLabs, але значно дешевша, ніж оплата актора озвучування. Згідно з офіційними документами, ціна складає близько $15 за мільйон символів.

Хоча технологія відкриває нові можливості, вона також стикається з викликами, такими як етика та ризик дипфейків. OpenAI усвідомлює виклики та рухається в цьому напрямку з особливою обережністю, поки пропонуючи послуги Voice Engine.