Las grabaciones ruidosas de entrevistas y discursos son la pesadilla de los ingenieros de audio. Pero una startup alemana espera solucionar este problema con un enfoque técnico único que utiliza IA generativa para mejorar la claridad de las voces en vídeo.
Hoy, AI-coutics surgió de la nada con una financiación de 1,9 millones de euros. Según el cofundador y director ejecutivo Fabian Seipel, la tecnología de AI-coustics va más allá de la supresión de ruido estándar para funcionar en y con cualquier dispositivo y altavoz.
“Nuestra misión principal es hacer que cada interacción digital, ya sea en una conferencia telefónica, un dispositivo de consumo o un video informal en las redes sociales, sea tan clara como una transmisión desde un estudio profesional”, dijo Seipel a TechCrunch en una entrevista.
Seipel, ingeniero de audio de formación, cofundó AI-coustics con Corvin Jaedicke, profesor de aprendizaje automático en la Universidad Técnica de Berlín, en 2021. Seipel y Jaedicke se conocieron mientras estudiaban tecnología de audio en la Universidad Técnica de Berlín, donde a menudo encontraban audio deficiente. calidad en los cursos y tutorías online que debían realizar.
“Nos impulsa la misión personal de superar el desafío generalizado de la mala calidad de audio en las comunicaciones digitales”, dijo Seipel. “Aunque mi audición está levemente afectada debido a la producción musical cuando tenía poco más de veinte años, siempre he tenido problemas con el contenido y las conferencias en línea, lo que nos llevó a trabajar en el tema de la calidad del habla y la inteligibilidad en primer lugar”.
El mercado de software de mejora de voz y supresión de ruido impulsado por IA ya es muy sólido. Los rivales de AI-coutics incluyen Insoundz, que utiliza IA generativa para mejorar clips de voz transmitidos y pregrabados, y Veed.io, una suite de edición de video con herramientas para eliminar el ruido de fondo de los clips.
Pero Seipel dice que la acústica de IA tiene un enfoque único para desarrollar los mecanismos de IA que realizan el trabajo real de reducción de ruido.
La startup utiliza un modelo entrenado con muestras de voz grabadas en el estudio de la startup en Berlín, la ciudad natal de AI-coutics. A las personas se les paga para registrar muestras (Seipel no dijo cuántas) que luego se agregan a un conjunto de datos para entrenar el modelo de reducción de ruido de AI-coutics.
“Desarrollamos un enfoque único para simular artefactos y problemas de audio (por ejemplo, ruido, reverberación, compresión, micrófonos de banda limitada, distorsión, recorte, etc.) durante el proceso de capacitación”, dijo Seipel.
Apostaría a que algunos estarán en desacuerdo con el plan de compensación única para los creadores de AI-coustics, dado que el modelo que está entrenando la startup podría resultar bastante lucrativo a largo plazo. (Existe un sano debate sobre si los creadores de datos de entrenamiento para modelos de IA merecen residuos por sus contribuciones). Pero quizás la preocupación más grande e inmediata sea el sesgo.
Está bien establecido que los algoritmos de reconocimiento de voz pueden desarrollar sesgos, que terminan perjudicando a los usuarios. Un estudio publicado en The Proceedings of the National Academy of Sciences mostró que el reconocimiento de voz de empresas líderes tenía el doble de probabilidades de transcribir incorrectamente el audio de hablantes negros que de hablantes blancos.
En un esfuerzo por combatir esto, Seipel dice que AI-coustics se está centrando en reclutar contribuyentes de muestras de discurso “diversos”. Añadió: “El tamaño y la diversidad son clave para eliminar los prejuicios y hacer que la tecnología funcione para todos los idiomas, identidades de hablantes, edades, acentos y géneros”.
No fue la prueba más científica, pero subí tres videoclips (una entrevista con un granjero del siglo XVIII, una demostración de conducción de automóviles y una protesta por el conflicto entre Israel y Palestina) a la plataforma de AI-coustics para ver qué tan bien funcionó con cada uno. . De hecho, la acústica de IA cumplió su promesa de aumentar la claridad; Para mis oídos, los clips procesados tenían mucho menos ruido de fondo ambiental que ahogaba los altavoces.
Aquí está el clip del granjero del siglo XVIII anterior:
Y después:
Seipel considera que la tecnología AI-coustics se utiliza para mejorar la voz grabada y en tiempo real, y tal vez incluso se integra en dispositivos como barras de sonido, teléfonos inteligentes y auriculares para aumentar automáticamente la claridad de la voz. Actualmente, AI-coustics ofrece una aplicación web y una API para el posprocesamiento de grabaciones de audio y vídeo, y un SDK que incorpora la plataforma de AI-coustics a los flujos de trabajo, las aplicaciones y el hardware existentes.
Seipel dice que AI-coustics, que gana dinero a través de una combinación de suscripciones, precios bajo demanda y licencias, tiene cinco clientes empresariales y 20.000 usuarios (aunque no todos pagan) en la actualidad. En la hoja de ruta para los próximos meses está ampliar el equipo de cuatro personas de la empresa y mejorar el modelo subyacente de mejora del habla.
“Antes de nuestra inversión inicial, AI-coutics llevó a cabo una operación bastante eficiente con una baja tasa de consumo para sobrevivir a las dificultades del mercado de inversión de capital de riesgo”, dijo Seipel. “AI-coustics cuenta ahora con una importante red de inversores y mentores en Alemania y el Reino Unido que ofrecen asesoramiento. Una base tecnológica sólida y la capacidad de abordar diferentes mercados con la misma base de datos y tecnología central brindan a la empresa flexibilidad y la capacidad de realizar cambios más pequeños”.
Cuando se le preguntó si la tecnología de masterización de audio como la acústica de IA podría robar puestos de trabajo como temen algunos expertos, Seipel señaló el potencial de la acústica de IA para acelerar tareas que consumen mucho tiempo y que actualmente recaen en los ingenieros de audio humanos.
“Un estudio de creación de contenido o un administrador de transmisión puede ahorrar tiempo y dinero al automatizar partes del proceso de producción de audio con acústica de inteligencia artificial y, al mismo tiempo, mantener la más alta calidad de voz”, dijo. “La calidad y la inteligibilidad del habla siguen siendo un problema molesto en casi todos los consumidores o dispositivos profesionales, así como en la producción o el consumo de contenidos. Todas las aplicaciones en las que se graba, procesa o transmite la voz pueden beneficiarse potencialmente de nuestra tecnología”.
La financiación tomó la forma de un tramo de capital y deuda de Connect Ventures, Inovia Capital, FOV Ventures y el director financiero de Ableton, Jan Bohl.