Sesame представляет CSM-1B, ключевую модель ИИ для виртуального помощника Maya
Sesame, инновационный стартап, стоящий за высокореалистичным виртуальным помощником Maya, сделал свою базовую модель ИИ, CSM-1B, доступной для широкой публики под лицензией Apache 2.0, что позволяет её коммерческое использование.

Sesame, передовая компания в области ИИ, недавно представила базовую модель, которая управляет Maya, её удивительно реалистичным голосовым помощником. Эта модель, известная как CSM-1B, обладает 1 миллиардом параметров и выпущена под лицензией Apache 2.0, что облегчает её коммерческое применение с минимальными ограничениями. CSM-1B работает, генерируя ‘RVQ аудио коды’ из текстовых и аудиовходов, процесс, который включает остаточное векторное квантование для кодирования аудио в дискретные токены. Эта техника также используется в других передовых аудио технологиях ИИ, таких как SoundStream от Google и Encodec от Meta.
CSM-1B использует модель из серии Llama от Meta в качестве ядра, в сочетании с аудиодекодером. Специализированная версия CSM-1B является тем, что приводит в действие Maya, согласно Sesame. Компания ясно дала понять, что открытая модель является базовой генеративной моделью, способной производить широкий спектр голосов, но не настроенной для какого-либо конкретного голоса. Также упоминается, что, хотя модель может обрабатывать некоторые неанглийские языки, её производительность может быть не оптимальной из-за загрязнения данных во время обучения.
Sesame подчеркивает важность этического использования, поощряя разработчиков и пользователей избегать создания вводящего в заблуждение контента или участия в вредоносных действиях с моделью. Несмотря на эти рекомендации, модель не имеет надежных защитных механизмов, что демонстрируется легкостью клонирования голосов и генерации речи на различные темы, включая чувствительные.
Основанная соучредителем Oculus Бренданом Ирибе, Sesame привлекла значительное внимание своей технологией помощника, которая близко имитирует человеческие речевые модели, включая дыхание и запинки, и позволяет прерывать разговор. Компания получила финансирование от известных инвесторов, таких как Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо технологии голосового помощника, Sesame также исследует разработку очков с ИИ, предназначенных для ношения в течение всего дня, оснащенных своими собственными моделями.