ШІ, що сприймає все: GPT-4o розуміє аудіо, відео та текст
OpenAI оголосила про GPT-4o, свою нову флагманську модель штучного інтелекту, здатну аналізувати аудіо, відео та текст в режимі реального часу.
Що таке GPT-4o?
Назва GPT-4o, де “o” походить від слова “всеохоплюючий” (omni), символізує мультимодальність моделі. Вона може отримувати на вхід будь-яку комбінацію тексту, аудіо та зображень та генерувати відповідні вихідні дані у цих же форматах. Наприклад, можна поставити запитання голосом і отримати відповідь текстом, або описати зображення, і модель сформулює текст, що його доповнює.
GPT-4o реагує на аудіозапити всього за 232 мс (середній час відгуку – 320 мс), що співвідноситься зі швидкістю людської реакції під час розмови. Окрім того, модель здатна генерувати реалістичну мову із різними інтонаціями, подібно до людини.
GPT-4o – прорив у спілкуванні з комп’ютерами
GPT-4o робить значний крок у напрямку природнішої взаємодії людини з комп’ютером. Раніше, для голосового спілкування з ChatGPT використовувався режим “Voice Mode”, що мав затримку 2,8 секунди (для GPT-3.5) та 5,4 секунди (для GPT-4). Ця затримка зумовлена тим, що “Voice Mode” працює як ланцюжок із трьох окремих моделей: перша – транскрибує аудіо в текст, друга (GPT-3.5 або GPT-4) обробляє текст, а третя – перетворює текст назад на аудіо. Такий підхід призводить до втрати інформації та значних витрат часу. GPT-4, головний компонент системи, не сприймає безпосередньо тембр голосу, мову кількох людей чи фоновий шум. Відповідно, модель не може генерувати сміх, спів чи виражати емоції.
На відміну від попередніх моделей, GPT-4o навчалась цілісно – одночасно працюючи з текстом, зображеннями та аудіо. Це означає, що всі вхідні та вихідні дані обробляються єдиною нейронною мережею. Завдяки цьому досягається значно швидша та точніша робота.
Переваги GPT-4o:
- Швидкість: реагує на аудіозапит за 320 мілісекунд (приблизно як людина).
- Багатомовність: підтримує понад 50 мов, зокрема українську.
- Розуміння зображень: ефективно аналізує графіку, діаграми та скріншоти.
- Генерація аудіо: може генерувати людську мову з різними інтонаціями.
- Збереження контексту: пам’ятає бесіди з користувачем.
- Безкоштовне використання: базова версія доступна для всіх користувачів.
OpenAI тільки починає досліджувати можливості GPT-4o, і ця модель, безперечно, матиме значний вплив на розвиток штучного інтелекту та наші способи взаємодії з комп’ютерами.
Джерело: openai.com