Deepseekの新しいチャットボットは、驚くほど有能であるAIを誇り、業界の巨人に挑戦し、Nvidiaの株価の著しい低下を含む重要な市場の波紋を引き起こしています。その紹介「こんにちは、私は何でも尋ねて、あなたを驚かせるかもしれない答えを得ることができるように作成されました」と、その競争力を正確に反映しています。この成功は、革新的なアーキテクチャとトレーニングの方法論の組み合わせに由来しています。
画像:Ensigame.com
主要な技術の進歩には、マルチトークン予測(MTP)が含まれます。これは、精度と効率の向上のために複数の単語を同時に予測します。エキスパート(MOE)の混合、256のニューラルネットワーク(トークンごとに8つの活性化)を利用して、deepseek v3でトレーニングを加速し、パフォーマンスを改善します。多目的潜在的な注意(MLA)は、重要な情報を見逃さないように重要な詳細を繰り返し抽出します。
画像:Ensigame.com
DeepSeekは当初、2048 GPUを使用してDeepSeek V3で600万ドルのトレーニングコストが非常に低いと主張していましたが、Semianalysisは、はるかに重要なインフラストラクチャを明らかにしました。これは、約16億ドルのサーバー投資と9億4,400万ドル近くの運用費用につながります。
画像:Ensigame.com
中国のヘッジファンドであるHigh-Flyerの子会社であるDeepseekは、データセンターを所有しており、管理と迅速なイノベーションを促進しています。その自己資金の性質は、敏ility性と迅速な意思決定に貢献しています。同社はトップの才能を引き付け、一部の研究者は主に中国の大学で年間130万ドル以上を稼いでいます。最初の600万ドルの数値は、研究、洗練、データ処理、および全体的なインフラ費用を除く、トレーニング前のGPUコストのみを反映している可能性があります。 DeepseekのAI開発への実際の投資は5億ドルを超えています。ただし、そのコンパクト構造により、より大きく、より官僚的な競合他社と比較して、効率的なイノベーションが可能になります。
画像:Ensigame.com
Deepseekの成功は、資金提供された独立したAI企業が効果的に競争する可能性を強調しています。その「革新的な予算」の請求は間違いなく誇張されていますが、特に競合他社の大幅に高いコストとは対照的に、同社の成果は間違いなく印象的です。たとえば、DeepseekのR1モデルトレーニングには500万ドルの費用がかかりますが、ChatGpt4oは1億ドルです。 Deepseekの成功は、実質的な投資、技術的なブレークスルー、高度なスキルのあるチームの証です。