OpenAI обновила ИИ для ускоренной разработки голосовых помощников

Разработчик ChatGPT анонсировал ряд обновлений на своем ежегодном мероприятии DevDay 2024

OpenAI представила новые инструменты, которые облегчат разработчикам создание приложений на основе ее технологии ИИ. Об обновлении компания объявила на ежегодном мероприятии DevDay 2024.

Одно из обновлений — инструмент, который позволит разработчикам создавать голосовые приложения на базе ИИ, используя единый набор инструкций. Эта функция уже доступна для тестирования. Ранее процесс требовал от разработчиков прохождения как минимум трех этапов: сначала транскрибирование аудио, затем запуск модели сгенерированного текста для выработки ответа на запрос и, наконец, использование отдельной модели преобразования текста в речь.

Realtime API даст разработчикам возможность создавать в своих приложениях практически в реальном времени речевые интерфейсы с возможностью выбора из шести голосов, предоставляемых OpenAI. Эти голоса отличаются от тех, что предлагаются для ChatGPT, и разработчики не могут использовать сторонние голоса, чтобы избежать проблем с авторскими правами.

Во время брифинга руководитель отдела разработки OpenAI Ромен Юэ показал приложение для планирования поездок, созданное с помощью Realtime API. Приложение позволяло пользователям устно общаться с помощником на основе ИИ о предстоящей поездке в Лондон и получать ответы с малой задержкой. Realtime API также имеет доступ к ряду инструментов смартфона, поэтому приложение могло аннотировать карту с указанием местоположений ресторанов по мере ответа.

Еще Хьюэт показал, как Realtime API может разговаривать по телефону с человеком, чтобы узнать о заказе еды для мероприятия. API OpenAI не может звонить в рестораны или магазины напрямую; но он может интегрироваться с API приложений для вызовов, такими как Twilio, чтобы делать это. Примечательно, что OpenAI не требует, чтобы во время звонка ИИ автоматически называл, хотя сгенерированные голоса звучат вполне реалистично.

Помимо Realtime API компания также представила инструменты для тонкой настройки моделей с использованием изображений и текста, что позволит улучшить ответы, генерируемые ИИ. Кроме того, OpenAI анонсировала функцию быстрого кэширования, сокращающую затраты разработчиков вдвое за счет повторного использования ранее обработанных фрагментов текста.

Источник: hightech.fm