Штучний інтелект для синтезу голосу: Voice Engine від OpenAI
OpenAI презентувала Voice Engine, інструмент для реалістичного синтезу голосу, який привернув значну увагу. Він базується на моделі генеративного штучного інтелекту і використовується для створення голосу в ChatGPT та API перетворення тексту в мову OpenAI, а також у Spotify для дублювання подкастів різними мовами.
Технологія має потенціал для різних сфер застосування, від надання допомоги людям з обмеженими можливостями до підтримки віддалених спільнот та розвитку голосових послуг. Вона може бути корисною також у відновленні голосу та перекладі.
Хоча конкретні деталі навчання моделі залишаються під суворим секретом, відомо, що Voice Engine навчений на різних даних, включаючи ліцензовані та загальнодоступні. Компанія дбає про конфіденційність і видаляє аудіо та текст після завершення запиту користувача.
При цьому ціна користування Voice Engine не є найнижчою, але все ще доступна. Вартість вища за аналогічні послуги ElevenLabs, але значно дешевша, ніж оплата актора озвучування. Згідно з офіційними документами, ціна складає близько $15 за мільйон символів.
Хоча технологія відкриває нові можливості, вона також стикається з викликами, такими як етика та ризик дипфейків. OpenAI усвідомлює виклики та рухається в цьому напрямку з особливою обережністю, поки пропонуючи послуги Voice Engine.