OpenAI ha llegado a un acuerdo con Reddit para utilizar los datos del sitio de noticias sociales para entrenar modelos de IA.
En una publicación de blog en el sitio de relaciones con la prensa de OpenAI, la compañía dijo que la asociación con Reddit le brindará acceso a “contenido único, estructurado y en tiempo real” (por ejemplo, publicaciones y respuestas) de Reddit, lo que permitirá que sus herramientas y modelos “comprendan mejor”. y mostrar” ese contenido. El contenido de Reddit se incorporará a ChatGPT, la popular IA conversacional de OpenAI, y las empresas trabajarán juntas para ofrecer nuevas “funciones impulsadas por IA” no especificadas tanto para los usuarios como para los moderadores de Reddit.
OpenAI también se convertirá en socio publicitario de Reddit.
“Reddit se basará en la plataforma de modelos de IA de OpenAI para hacer realidad su poderosa visión”, escribió OpenAI en la publicación. “El uso de LLM, ML e IA permite a Reddit mejorar la experiencia del usuario para todos”.
OpenAI tiene varios acuerdos de licencia similares con proveedores de contenido que van desde bibliotecas de medios hasta editores de noticias. Pero el ángulo inusual de esto es que Sam Altman, director ejecutivo de OpenAI, tiene una participación del 8,7% en Reddit, lo que lo convierte en el tercer mayor accionista, y alguna vez fue miembro de la junta directiva de la compañía.
En un intento por desalentar el escrutinio, OpenAI dice en su comunicado de prensa que, si bien Altman sigue siendo accionista de Reddit, la asociación “fue dirigida por el director de operaciones de OpenAI”. [Brad Lightcap]” y “aprobado por [OpenAI’s] junta directiva independiente”. (Observaré aquí que Altman es miembro de la junta directiva de OpenAI; sin embargo, se recusó de esta decisión, le dice un portavoz de OpenAI a TechCrunch).
Reddit ha hecho de los acuerdos de licencia de datos una parte cada vez más central de su estrategia de crecimiento a medida que navega por el mercado como empresa pública.
En su prospecto de IPO, Reddit reveló que tiene acuerdos contractuales para licenciar sus datos a clientes, incluido Google, por un valor combinado de más de 200 millones de dólares. Y, en su primer informe de ganancias como empresa pública, Reddit informó un aumento interanual del 450% en los ingresos no publicitarios, atribuible principalmente a esos acuerdos.
Las acciones de Reddit subieron un 11% en las operaciones extendidas tras el anuncio del acuerdo con OpenAI.
“La paradoja que veo es que, a medida que más contenido en Internet es escrito por máquinas, hay una prima cada vez mayor en el contenido que proviene de personas reales”, dijo el CEO de Reddit, Steve Huffman, durante la conferencia telefónica sobre resultados de la compañía en marzo. “Y tenemos casi dos décadas de conversación auténtica”.
La plataforma de Reddit, que tiene más de mil millones de publicaciones y más de 16 mil millones de comentarios, cifras que crecen cada día gracias a sus cientos de millones de usuarios activos, es una mina de oro para las empresas de IA generativa, cuyos modelos aprenden de ejemplos de contenido, como texto. e imágenes, para generar contenidos nuevos y similares.
Pero la empresa podría enfrentar la oposición de usuarios preocupados por cómo monetiza sus datos.
Es instructivo mirar Stack Overflow, el foro de preguntas y respuestas para desarrolladores de software, que recientemente firmó un acuerdo con OpenAI para suministrar datos para el entrenamiento del modelo de este último. En protesta, algunos usuarios eliminaron sus respuestas mejor calificadas a las preguntas de la comunidad. Pero Stack Overflow restauró las publicaciones eliminadas y prohibió a esos usuarios, alegando que no cumplían con sus términos de servicio.
Reddit ya ha expresado su descontento con un intento de brindar a los usuarios de Reddit un mayor control sobre sus propios datos.
Vana, una startup construida sobre blockchain, está intentando lanzar una “DAO” (Organización Autónoma Digital) de datos para permitir a los usuarios de Reddit agrupar sus datos y decidir juntos cómo se usan (o venden) esos datos combinados. Reddit prohibió el subreddit de Vana dedicado a la discusión sobre DAO, en una declaración a TechCrunch, y acusó a la compañía de “explotar” sus controles de exportación de datos.
¡Estamos lanzando un boletín informativo sobre IA! Inscribirse aquí para comenzar a recibirlo en sus bandejas de entrada el 5 de junio.