El nuevo chatbot de Deepseek cuenta con una IA sorprendentemente capaz, desafiando a los gigantes de la industria y causando importantes ondas del mercado, incluida una caída notable en el precio de las acciones de Nvidia. Su introducción, "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que pueda sorprenderte", refleja con precisión su ventaja competitiva. Este éxito proviene de una combinación de metodologías innovadoras de arquitectura y capacitación.
Imagen: ensigame.com
Los avances tecnológicos clave incluyen predicción múltiple (MTP) , que predice múltiples palabras simultáneamente para una mayor precisión y eficiencia; Mezcla de expertos (MOE) , utilizando 256 redes neuronales (ocho activadas por token) en Deepseek V3 para el entrenamiento acelerado y un mejor rendimiento; y atención latente múltiple (MLA) , que extrae repetidamente detalles clave para garantizar que no se pierda información crucial.
Imagen: ensigame.com
Si bien Deepseek inicialmente reclamó un costo de capacitación notablemente bajo de $ 6 millones para Deepseek V3 utilizando 2048 GPU, el semianálisis reveló una infraestructura mucho más sustancial: aproximadamente 50,000 GPU de la tolva NVIDIA (incluidas 10,000 H800, 10,000 H100 y GPU H20 adicionales) se extendieron a través de múltiples centros de datos. Esto se traduce en una inversión de servidor de aproximadamente $ 1.6 mil millones y gastos operativos cerca de $ 944 millones.
Imagen: ensigame.com
Deepseek, una subsidiaria de High-Flyer, un fondo de cobertura chino, posee sus centros de datos, fomentando el control y la rápida innovación. Su naturaleza autofinanciada contribuye a la agilidad y la rápida toma de decisiones. La compañía atrae a los mejores talentos, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente de universidades chinas. La cifra inicial de $ 6 millones probablemente solo refleja los costos de GPU previos al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos y los gastos generales de infraestructura. La inversión real de Deepseek en el desarrollo de IA supera los $ 500 millones. Sin embargo, su estructura compacta permite una innovación eficiente en comparación con competidores más grandes y burocráticos.
Imagen: ensigame.com
El éxito de Deepseek destaca el potencial de las compañías de IA independientes bien financiadas para competir de manera efectiva. Si bien sus reclamos de "presupuesto revolucionario" son posiblemente exagerados, los logros de la compañía son innegablemente impresionantes, particularmente cuando se contrasta con los costos significativamente más altos de los competidores. Por ejemplo, la capacitación del modelo R1 de Deepseek costó $ 5 millones, mientras que ChatGPT4O costó $ 100 millones. El éxito de Deepseek es un testimonio de una inversión sustancial, avances tecnológicos y un equipo altamente calificado.