Le nouveau chatbot de Deepseek possède une IA étonnamment capable, remettant en question les géants de l'industrie et provoquant des ondulations de marché importantes, y compris une baisse notable du cours des actions de Nvidia. Son introduction, "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre", reflète avec précision son avantage concurrentiel. Ce succès découle d'une combinaison d'architecture innovante et de méthodologies de formation.
Image: esigame.com
Les progrès technologiques clés comprennent la prédiction multi-token (MTP) , qui prédit plusieurs mots simultanément pour une précision et une efficacité améliorées; Mélange d'experts (MOE) , en utilisant 256 réseaux neuronaux (huit activés par jeton) dans Deepseek V3 pour une formation accélérée et une performance améliorée; et l'attention latente multi-tête (MLA) , qui extrait à plusieurs reprises les détails clés pour s'assurer que les informations cruciales ne sont pas manquées.
Image: esigame.com
Alors que Deepseek a initialement réclamé un coût d'entraînement remarquablement faible de 6 millions de dollars pour Deepseek V3 en utilisant 2048 GPU, la semianalyse a révélé une infrastructure beaucoup plus substantielle: environ 50 000 GPU Nvidia Hopper (y compris 10 000 H800, 10 000 H100 et des GPU H20 supplémentaires) répartis sur plusieurs centres de données. Cela se traduit par un investissement de serveur d'environ 1,6 milliard de dollars et des dépenses opérationnelles proches de 944 millions de dollars.
Image: esigame.com
Deepseek, une filiale de High-Flyer, un fonds spéculatif chinois, possède ses centres de données, favorisant le contrôle et l'innovation rapide. Sa nature autofinancée contribue à l'agilité et à la prise de décision rapide. La société attire les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, principalement des universités chinoises. Le chiffre initial de 6 millions de dollars ne reflète probablement que les coûts de GPU avant la formation, l'exclusion de la recherche, du raffinement, du traitement des données et des dépenses globales d'infrastructure. L'investissement réel de Deepseek dans le développement de l'IA dépasse 500 millions de dollars. Sa structure compacte, cependant, permet une innovation efficace par rapport aux concurrents plus grands et plus bureaucratiques.
Image: esigame.com
Le succès de Deepseek met en évidence le potentiel de sociétés d'IA indépendantes bien financées pour concurrencer efficacement. Bien que ses revendications de «budget révolutionnaire» soient sans doute exagérées, les réalisations de l'entreprise sont indéniablement impressionnantes, en particulier en cas de contraste avec les coûts considérablement plus élevés des concurrents. Par exemple, la formation du modèle R1 de Deepseek a coûté 5 millions de dollars, tandis que le chatppt4o a coûté 100 millions de dollars. Le succès de Deepseek témoigne de l'investissement substantiel, des percées technologiques et d'une équipe hautement qualifiée.