O novo chatbot da Deepseek possui uma IA surpreendentemente capaz, desafiando gigantes da indústria e causando ondulações significativas no mercado, incluindo uma queda notável no preço das ações da Nvidia. Sua introdução, "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo", reflete com precisão sua vantagem competitiva. Esse sucesso decorre de uma combinação de metodologias inovadoras de arquitetura e treinamento.
Imagem: Ensigame.com
Os principais avanços tecnológicos incluem previsão de vários toques (MTP) , que prevê várias palavras simultaneamente para maior precisão e eficiência; Mistura de especialistas (MOE) , utilizando 256 redes neurais (oito ativadas por token) em Deepseek V3 para treinamento acelerado e desempenho aprimorado; e atenção latente de várias cabeças (MLA) , que extrai repetidamente os principais detalhes para garantir que informações cruciais não sejam perdidas.
Imagem: Ensigame.com
Embora a Deepseek tenha reivindicado inicialmente um custo de treinamento notavelmente baixo de US $ 6 milhões para o DeepSeek V3 usando 2048 GPUs, a semiânica revelou uma infraestrutura muito mais substancial: aproximadamente 50.000 GPUs nvidia Hopper (incluindo 10.000 H800, 10.000 H100 e H20 GPUs adicionais) se espalham por múltiplos dados de dados. Isso se traduz em um investimento em servidor de aproximadamente US $ 1,6 bilhão e despesas operacionais perto de US $ 944 milhões.
Imagem: Ensigame.com
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, promovendo controle e inovação rápida. Sua natureza autofinanciada contribui para a agilidade e a rápida tomada de decisão. A empresa atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas. O número inicial de US $ 6 milhões provavelmente reflete apenas os custos de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e despesas gerais de infraestrutura. O investimento real da Deepseek no desenvolvimento da IA excede US $ 500 milhões. Sua estrutura compacta, no entanto, permite inovação eficiente em comparação com concorrentes maiores e mais burocráticos.
Imagem: Ensigame.com
O sucesso da Deepseek destaca o potencial de empresas de IA independentes bem financiadas para competir de maneira eficaz. Embora suas reivindicações de "orçamento revolucionário" sejam indiscutivelmente exageradas, as realizações da empresa são inegavelmente impressionantes, principalmente quando contrastadas com os custos significativamente mais altos dos concorrentes. Por exemplo, o treinamento do modelo R1 da Deepseek custou US $ 5 milhões, enquanto o ChatGPT4O custou US $ 100 milhões. O sucesso de Deepseek é uma prova de investimentos substanciais, avanços tecnológicos e uma equipe altamente qualificada.