Корзина

Итого:

OpenAI улучшает свои модели ИИ для транскрипции и генерации голоса

OpenAI представляет усовершенствованные модели ИИ для транскрипции и генерации голоса, стремясь улучшить пользовательский опыт и точность.

OpenAI улучшает свои модели ИИ для транскрипции и генерации голоса

OpenAI недавно обновила свой API новыми моделями ИИ, разработанными для транскрипции и генерации голоса, обещая значительные улучшения по сравнению с предыдущими версиями. Эти достижения являются частью видения OpenAI по разработке автоматизированных систем, способных выполнять задачи автономно для пользователей. Оливье Годемон, руководитель отдела продуктов OpenAI, подчеркивает растущую тенденцию ‘агентов’ — чат-ботов, которые могут взаимодействовать с клиентами от имени бизнесов. Ожидается, что эти агенты станут более распространенными, предлагая услуги, которые полезны, доступны и точны.

Новая модель преобразования текста в речь, названная ‘gpt-4o-mini-tts’, предлагает более тонкий и реалистичный синтез речи. Она позволяет разработчикам настраивать голосовой вывод с использованием инструкций на естественном языке, что позволяет создавать широкий спектр вокальных выражений от ‘безумного ученого’ до ‘спокойного учителя медитации’. Такой уровень контроля направлен на улучшение пользовательского опыта, позволяя голосу передавать соответствующие эмоции и контексты, такие как извиняющийся тон в сценариях поддержки клиентов.

В области транскрипции OpenAI представляет ‘gpt-4o-transcribe’ и ‘gpt-4o-mini-transcribe’, которые должны заменить более старую модель Whisper. Эти новые модели обучены на разнообразных, высококачественных аудио-наборах данных, улучшая их способность точно захватывать акцентированную и разнообразную речь, даже в шумных условиях. Они также направлены на сокращение случаев галлюцинаций — случаев, когда модель выдумывает слова или отрывки — обеспечивая более надежные и точные транскрипции.

Однако точность этих моделей варьируется в зависимости от языка, с более высокой частотой ошибок в словах для некоторых индийских и дравидийских языков. Несмотря на эти вызовы, OpenAI стремится усовершенствовать эти модели для лучшей производительности на всех языках. Примечательно, что новые модели транскрипции не будут выпущены как открытый исходный код, так как они значительно больше и сложнее модели Whisper, что требует тщательного рассмотрения для развертывания.

Вверх