Революція в штучному інтелекті: GPT-4o поєднує текст, аудіо та зображення

Революція в штучному інтелекті: GPT-4o поєднує текст, аудіо та зображення

ШІ, що сприймає все: GPT-4o розуміє аудіо, відео та текст

OpenAI оголосила про GPT-4o, свою нову флагманську модель штучного інтелекту, здатну аналізувати аудіо, відео та текст в режимі реального часу.

Що таке GPT-4o?

Назва GPT-4o, де “o” походить від слова “всеохоплюючий” (omni), символізує мультимодальність моделі. Вона може отримувати на вхід будь-яку комбінацію тексту, аудіо та зображень та генерувати відповідні вихідні дані у цих же форматах. Наприклад, можна поставити запитання голосом і отримати відповідь текстом, або описати зображення, і модель сформулює текст, що його доповнює.

GPT-4o реагує на аудіозапити всього за 232 мс (середній час відгуку – 320 мс), що співвідноситься зі швидкістю людської реакції під час розмови. Окрім того, модель здатна генерувати реалістичну мову із різними інтонаціями, подібно до людини.

GPT-4o – прорив у спілкуванні з комп’ютерами

GPT-4o робить значний крок у напрямку природнішої взаємодії людини з комп’ютером. Раніше, для голосового спілкування з ChatGPT використовувався режим “Voice Mode”, що мав затримку 2,8 секунди (для GPT-3.5) та 5,4 секунди (для GPT-4). Ця затримка зумовлена тим, що “Voice Mode” працює як ланцюжок із трьох окремих моделей: перша – транскрибує аудіо в текст, друга (GPT-3.5 або GPT-4) обробляє текст, а третя – перетворює текст назад на аудіо. Такий підхід призводить до втрати інформації та значних витрат часу. GPT-4, головний компонент системи, не сприймає безпосередньо тембр голосу, мову кількох людей чи фоновий шум. Відповідно, модель не може генерувати сміх, спів чи виражати емоції.

На відміну від попередніх моделей, GPT-4o навчалась цілісно – одночасно працюючи з текстом, зображеннями та аудіо. Це означає, що всі вхідні та вихідні дані обробляються єдиною нейронною мережею. Завдяки цьому досягається значно швидша та точніша робота.

Переваги GPT-4o:

     

      • Швидкість: реагує на аудіозапит за 320 мілісекунд (приблизно як людина).

      • Багатомовність: підтримує понад 50 мов, зокрема українську.

      • Розуміння зображень: ефективно аналізує графіку, діаграми та скріншоти.

      • Генерація аудіо: може генерувати людську мову з різними інтонаціями.

      • Збереження контексту: пам’ятає бесіди з користувачем.

      • Безкоштовне використання: базова версія доступна для всіх користувачів.

    OpenAI тільки починає досліджувати можливості GPT-4o, і ця модель, безперечно, матиме значний вплив на розвиток штучного інтелекту та наші способи взаємодії з комп’ютерами.

    Джерело: openai.com