Ang bagong chatbot ng Deepseek ay ipinagmamalaki ang isang nakakagulat na may kakayahang AI, mapaghamong mga higante sa industriya at nagdudulot ng mga makabuluhang ripples sa merkado, kabilang ang isang kilalang pagbagsak sa presyo ng stock ng Nvidia. Ang pagpapakilala nito, "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka," tumpak na sumasalamin sa mapagkumpitensyang gilid nito. Ang tagumpay na ito ay nagmula sa isang kumbinasyon ng mga makabagong pamamaraan ng arkitektura at pagsasanay.
Larawan: ensigame.com
Ang mga pangunahing pagsulong sa teknolohikal ay kasama ang multi-token prediction (MTP) , na hinuhulaan ang maraming mga salita nang sabay-sabay para sa pinahusay na kawastuhan at kahusayan; Ang pinaghalong mga eksperto (MOE) , na gumagamit ng 256 na mga network ng neural (walong na -aktibo bawat token) sa Deepseek V3 para sa pinabilis na pagsasanay at pinahusay na pagganap; at multi-head latent pansin (MLA) , na paulit-ulit na kumukuha ng mga pangunahing detalye upang matiyak na hindi napalampas ang mahalagang impormasyon.
Larawan: ensigame.com
Habang ang Deepseek sa una ay nag -angkin ng isang napakababang mababang gastos sa pagsasanay na $ 6 milyon para sa Deepseek V3 gamit ang 2048 GPUs, ang semianalysis ay nagsiwalat ng isang mas malaking imprastraktura: humigit -kumulang 50,000 nvidia hopper GPUs (kabilang ang 10,000 H800, 10,000 H100, at karagdagang H20 GPU) na kumalat sa maraming mga sentro ng data. Isinasalin ito sa isang pamumuhunan ng server na humigit -kumulang na $ 1.6 bilyon at mga gastos sa pagpapatakbo malapit sa $ 944 milyon.
Larawan: ensigame.com
Ang Deepseek, isang subsidiary ng high-flyer, isang pondo ng hedge ng Tsino, ay nagmamay-ari ng mga sentro ng data nito, pag-aalaga ng kontrol at mabilis na pagbabago. Ang kalikasan na pinondohan ng sarili ay nag-aambag sa liksi at mabilis na paggawa ng desisyon. Ang kumpanya ay umaakit sa nangungunang talento, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon, lalo na mula sa mga unibersidad sa Tsino. Ang paunang $ 6 milyong figure ay malamang na sumasalamin lamang sa mga pre-training na gastos sa GPU, hindi kasama ang pananaliksik, pagpipino, pagproseso ng data, at pangkalahatang gastos sa imprastraktura. Ang aktwal na pamumuhunan ng Deepseek sa pag -unlad ng AI ay lumampas sa $ 500 milyon. Ang compact na istraktura nito, gayunpaman, ay nagbibigay -daan para sa mahusay na pagbabago kumpara sa mas malaki, mas maraming mga kakumpitensya sa burukrata.
Larawan: ensigame.com
Ang tagumpay ng Deepseek ay nagtatampok ng potensyal ng mahusay na pondo, independiyenteng mga kumpanya ng AI upang makipagkumpetensya nang epektibo. Habang ang mga "rebolusyonaryong badyet" na pag -angkin nito ay maaaring pinalaki, ang mga nagawa ng kumpanya ay hindi maikakaila kahanga -hanga, lalo na kung kaibahan sa makabuluhang mas mataas na gastos ng mga kakumpitensya. Halimbawa, ang pagsasanay sa modelo ng R1 ng Deepseek ay nagkakahalaga ng $ 5 milyon, habang ang Chatgpt4O ay nagkakahalaga ng $ 100 milyon. Ang tagumpay ng Deepseek ay isang testamento sa malaking pamumuhunan, mga pambihirang tagumpay sa teknolohiya, at isang mataas na bihasang koponan.