Корзина

Итого:

Студенты создали ИИ-модель для генерации речи, конкурирующую с NotebookLM

Двое студентов без глубоких знаний в области ИИ разработали открытую модель генерации речи, аналогичную Google NotebookLM, с возможностью настройки голосов и добавления невербальных элементов.

Студенты создали ИИ-модель для генерации речи, конкурирующую с NotebookLM

В мире синтетических голосовых технологий появился новый игрок — модель Dia, созданная двумя студентами из Южной Кореи. Несмотря на отсутствие значительного опыта в области искусственного интеллекта, Тоби Ким и его сооснователь Nari Labs смогли разработать инструмент, который, по их словам, предлагает больше контроля над генерируемыми голосами и «свободу в сценарии» по сравнению с Google NotebookLM.

Используя программу Google TPU Research Cloud, предоставляющую бесплатный доступ к AI-чипам компании, студенты обучили свою модель, которая насчитывает 1.6 миллиарда параметров. Dia способна генерировать диалоги из сценария, позволяя пользователям настраивать тон говорящих и добавлять такие элементы, как кашель, смех и другие невербальные сигналы.

Модель доступна на платформах Hugging Face и GitHub и может работать на большинстве современных ПК с видеокартой, имеющей не менее 10GB VRAM. Dia генерирует случайный голос, если не указано описание желаемого стиля, но также может клонировать голос человека.

Однако, как и многие аналогичные инструменты, Dia практически не имеет защитных механизмов против злоупотреблений, таких как создание дезинформации или мошеннических записей. Nari Labs предупреждает о недопустимости misuse, но не берет на себя ответственность за возможные злоупотребления.

Кроме того, остается открытым вопрос о данных, использованных для обучения модели. Не исключено, что Dia была обучена на защищенном авторским правом контенте, что является распространенной, но юридически неоднозначной практикой в области ИИ.

Nari Labs планирует создать платформу синтетических голосов с «социальным аспектом» на основе Dia и будущих моделей, а также расширить поддержку языков помимо английского.

Вверх