Deepseek se ha vuelto viral.
El laboratorio de IA chino Deepseek irrumpió en la conciencia convencional esta semana después de que su aplicación de chatbot se subió a la cima de las listas de Apple App Store. Los modelos de IA de Deepseek, que fueron entrenados utilizando técnicas de cómputo-eficientes, han llevado a los analistas de Wall Street, y a los tecnólogos, a cuestionar si Estados Unidos puede mantener su liderazgo en la carrera de IA y si la demanda de chips de IA sostendrá.
Pero, ¿de dónde vino Deepseek y cómo se elevó a la fama internacional tan rápido?
Deepseek’s Trader Origins
Deepseek está respaldado por High-Flyer Capital Management, un fondo de cobertura cuantitativo chino que utiliza IA para informar sus decisiones comerciales.
El entusiasta de la IA Liang Wenfeng cofundó High-Flyer en 2015. Wenfeng, quien, según los informes, comenzó a incursionar en el comercio, mientras que un estudiante de la Universidad de Zhejiang lanzó la gestión de capital de alto volante como fondo de cobertura en 2019 centrado en desarrollar y desplegar algoritmos de IA.
En 2023, High-Flyer comenzó Deepseek como un laboratorio dedicado a investigar herramientas de IA separadas de su negocio financiero. Con High-Flyer como uno de sus inversores, el laboratorio se desvió en su propia compañía, también llamada Deepseek.
Desde el primer día, Deepseek construyó sus propios grupos de centros de datos para el entrenamiento modelo. Pero al igual que otras compañías de IA en China, Deepseek se ha visto afectado por las prohibiciones de exportación de los Estados Unidos en el hardware. Para capacitar a uno de sus modelos más recientes, la compañía se vio obligada a usar Nvidia H800 Chips, una versión menos potente de un chip, el H100, disponible para las empresas estadounidenses.
Se dice que el equipo técnico de Deepseek sesga a Young. Según los informes, la compañía recluta agresivamente investigadores de AI de las principales universidades chinas. Deepseek también contrata a las personas sin antecedentes de informática para ayudar a su tecnología a comprender mejor una amplia gama de temas, según el New York Times.
Modelos fuertes de Deepseek
Deepseek dio a conocer su primer conjunto de modelos: Deepseek Coder, Deepseek LLM y Deepseek Chat, en noviembre de 2023. Pero no fue hasta la primavera pasada, cuando la startup lanzó su familia de modelos Deepseek-V2 de próxima generación, que la industria de la IA Comenzó a darse cuenta.
Deepseek-V2, un sistema de análisis de texto e imagen de uso general, se desempeñó bien en varios puntos de referencia de IA, y era mucho más barato de ejecutar que los modelos comparables en ese momento. Obligó a la competencia nacional de Deepseek, incluida la bytedance y Alibaba, a reducir los precios de uso de algunos de sus modelos y hacer que otros sean completamente libres.
Deepseek-v3, lanzado en diciembre de 2024, solo se sumó a la notoriedad de Deepseek.
Según las pruebas de referencia internas de Deepseek, Deepseek V3 supera a los modelos descargables y abiertamente disponibles como los modelos de Meta’s Llama y “cerrado” a los que solo se puede acceder a través de una API, como el GPT-4O de Openai.
Igualmente impresionante es el modelo de “razonamiento” R1 de Deepseek. Lanzado en enero, Deepseek afirma que R1 realiza, así como el modelo O1 de Openai en puntos de referencia clave.
Al ser un modelo de razonamiento, R1 se verifica de manera efectiva, lo que ayuda a evitar algunas de las trampas que normalmente tropiezan con los modelos. Los modelos de razonamiento tardan un poco más, generalmente segundos de minutos más, para llegar a soluciones en comparación con un modelo típico de no razonamiento. La ventaja es que tienden a ser más confiables en dominios como física, ciencias y matemáticas.
Sin embargo, hay un inconveniente de R1, Deepseek V3 y otros modelos de Deepseek. Al ser la IA desarrollada por los chinos, están sujetos a la evaluación comparativa del regulador de Internet de China para garantizar que sus respuestas “encarnen los valores socialistas centrales”. En la aplicación de chatbot de Deepseek, por ejemplo, R1 no responderá preguntas sobre Tiananmen Square o la autonomía de Taiwán.
Un enfoque disruptivo
Si Deepseek tiene un modelo de negocio, no está claro cuál es ese modelo, exactamente. La compañía genera sus productos y servicios muy por debajo del valor de mercado, y deja a otros gratis.
La forma en que Deepseek le dice que los avances de eficiencia le han permitido mantener la competitividad de los costos extremos. Sin embargo, algunos expertos disputan las cifras que la compañía ha proporcionado.
Cualquiera que sea el caso, los desarrolladores han llevado a los modelos de Deepseek, que no son de código abierto, ya que la frase se entiende comúnmente, pero están disponibles bajo licencias permisivas que permiten uso comercial. Según Clem Delangue, el CEO de Hugging Face, una de las plataformas que albergan modelos de Deepseek, los desarrolladores de Hugging Face han creado más de 500 modelos “derivados” de R1 que han acumulado 2.5 millones de descargas combinadas.
El éxito de Deepseek contra los rivales más grandes y más establecidos se ha descrito como “AI alojado” y que comienza en “una nueva era de IA Brinkmanship”. El éxito de la compañía fue al menos responsable en parte de hacer que el precio de las acciones de NVIDIA cayera en un 18% el lunes, y de obtener una respuesta pública del CEO de OpenAI, Sam Altman.
En cuanto a lo que podría tener el futuro de Deepseek, no está claro. Los modelos mejorados son un hecho. Pero el gobierno de los Estados Unidos parece estar creciendo de lo que percibe como una influencia extranjera dañina.
¡TechCrunch tiene un boletín centrado en AI! Regístrese aquí para obtenerlo en su bandeja de entrada todos los miércoles.