Новая модель свободно владеет 50 языками.
Компания OpenAI представила новую версию языковой модели с генеративным искусственным интеллектом GPT-4o. Она работает с речью, текстом, видео и реагирует на аудио за 320 миллисекунд, что сравнимо со временем реакции человека в разговоре, сообщается на сайте компании.
Буква «o» в названии – это сокращение от «omni» («всесторонний»).
«GPT-4o может работать с голосом, текстом и зрением. И это невероятно важно, потому что мы смотрим на будущее взаимодействия между нами и машинами», – сказала технический директор OpenAI Мира Мурати во время презентации модели в Сан-Франциско 13 мая.
Как отмечает TechCrunch, GPT давно предлагает голосовой режим, но GPT-4o значительно улучшает эту функцию, позволяя пользователям взаимодействовать с ChatGPT как с помощником.
Модель реагирует на голос пользователя в режиме реального времени, может улавливать нюансы в голосе, генерируя ответ в «различных эмоциональных стилях», включая пение. Новая модель свободно владеет 50 языками.
GPT-4o доступен для пользователей с 13 мая, при этом доступ к голосовым функциям в ближайшие недели появится только у «небольшой группы доверенных партнеров», а предположительно в июне – у платных подписчиков.