DeepSeek的新聊天机器人拥有一个令人惊讶的AI,具有挑战性的行业巨头,并引起了严重的市场涟漪,包括Nvidia的股票价格显着下跌。它的介绍是:“嗨,我是被创建的,所以您可以问任何东西并得到一个甚至可能使您感到惊讶的答案,”准确地反映了其竞争优势。这种成功源于创新的建筑和培训方法的结合。
图片:ensigame.com
关键技术进步包括多型预测(MTP) ,该预测同时预测了多个单词,以提高准确性和效率;专家(MOE)的混合物,利用DeepSeek V3中的256个神经网络(八个激活的每个令牌)进行加速训练和改善的性能;和多头潜在注意力(MLA) ,它反复提取关键细节,以确保不会错过关键信息。
图片:ensigame.com
尽管DeepSeek最初使用2048 GPU声称DeepSeek V3的培训成本非常低,但半分析显示出了更为实质性的基础设施:大约50,000个NVIDIA HOPPER GPU(包括10,000 H800、10,000 H100,以及额外的H20 GPU),分布在多个数据中心。这意味着服务器投资约为16亿美元,运营费用接近9.44亿美元。
图片:ensigame.com
DeepSeek是中国对冲基金High-Flyer的子公司,拥有其数据中心,促进控制和快速创新。它的自我资助性质有助于敏捷性和迅速的决策。该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。最初的600万美元数字可能只反映了培训前的GPU成本,不包括研究,改进,数据处理和整体基础设施费用。 DeepSeek对AI开发的实际投资超过5亿美元。然而,与更大的官僚竞争者相比,它的紧凑结构允许有效的创新。
图片:ensigame.com
DeepSeek的成功凸显了资金充足的独立人工智能公司有效竞争的潜力。尽管它的“革命预算”主张可以说是夸大其词,但该公司的成就无疑令人印象深刻,尤其是与竞争对手的成本明显更高的成本相比。例如,DeepSeek的R1型号培训成本为500万美元,而Chatgpt4o的售价为1亿美元。 DeepSeek的成功证明了大量投资,技术突破和高技能的团队。