La compañía de IA Sesame ha lanzado el modelo base que Powers Maya, el asistente de voz impresionantemente realista.
El modelo, que tiene un tamaño de 1 mil millones de parámetros (“parámetros” que se refieren a los componentes individuales del modelo), está bajo una licencia Apache 2.0, lo que significa que puede usarse comercialmente con pocas restricciones. Llamado CSM-1B, el modelo genera “códigos de audio RVQ” a partir de entradas de texto y audio, de acuerdo con la descripción de Sesame en la cara de abrazo de la plataforma AI Dev.
RVQ se refiere a la “cuantización del vector residual”, una técnica para codificar el audio en tokens discretos llamados códigos. RVQ se utiliza en una serie de tecnologías de audio de IA recientes, incluidos Soundstream y Meta’s Codec de Google.
CSM-1B utiliza un modelo de la familia Llama de Meta como su columna vertebral combinada con un componente de “decodificador” de audio. Una variante ajustada de los poderes CSM maya, dice Sesame.
“El modelo de código abierto aquí es un modelo de generación base”, escribe Sesame en la cara abrazada de CSM-1B y los repositorios de GitHub. “Es capaz de producir una variedad de voces, pero no se ha ajustado en ninguna voz específica […] El modelo tiene cierta capacidad para idiomas que no son de inglés debido a la contaminación de datos en los datos de capacitación, pero es probable que no funcione bien “.
No está claro qué sésamo de datos usó para entrenar CSM-1B. La compañía no dijo.
Vale la pena señalar que el modelo no tiene salvaguardas reales de las que hablar. Sesame tiene un sistema de honor y simplemente insta a los desarrolladores y usuarios a no usar el modelo para imitar la voz de una persona sin su consentimiento, crear contenido engañoso como noticias falsas o participar en actividades “dañinas” o “maliciosas”.
Probé la demostración en la cara abrazada, y clonando mi voz tomó menos de un minuto. A partir de ahí, fue fácil generar un discurso sobre el deseo de mi corazón, incluso en temas controvertidos como las elecciones y la propaganda rusa.
Consumer Reports advirtió recientemente que muchas herramientas populares de clonación de voz con IA en el mercado no tienen salvaguardas “significativas” para prevenir fraude o abuso.
Sesame, cofundado por el cocreador de Oculus, Brendan Iribe, se volvió viral a fines de febrero por su tecnología asistente, que se acerca a la limpieza del territorio de Valle. El otro asistente de Maya y Sesame, Miles, respira y habla con disfluencias, y pueden ser interrumpidos mientras habla, al igual que el modo de voz de Openai.
Sesame ha aumentado una cantidad no revelada de capital de Andreessen Horowitz, Spark Capital y Matrix Partners. Además de construir una tecnología asistente de voz, la compañía dice que es prototipos de gafas de IA “diseñadas para usarse todo el día” que estarán equipados con sus modelos personalizados.