源信息经过deepseek翻译并总结
摘要:
DeepSeek以效率优先策略颠覆AI行业传统范式,其R1模型以5%-10%运营成本匹配OpenAI性能,600万美元训练成本远低于行业巨头数亿美元投入。面对美国芯片限制,DeepSeek通过混合专家架构和合成数据优化资源,提前实现技术突破,促使OpenAI等公司战略调整。其与清华合作的”自原则批判调优”系统推动AI自主评估,但也引发价值观担忧。美国制裁加速中国AI创新,全球产业形成效率与算力并行的双轨格局。
重新思考AI:DeepSeek的策略颠覆高投入、高算力范式 | VentureBeat
嘉宾观点
重新思考AI:DeepSeek的策略颠覆高投入、高算力范式
2025年6月14日 12:05
VentureBeat/Midjourney
加入近二十年来深受企业领导者信任的VB Transform活动,与构建真实企业AI战略的同行者交流。了解更多
当DeepSeek今年1月发布其R1模型时,这不仅是又一次AI公告,更是引发行业地震的分水岭时刻,迫使科技巨头重新思考AI开发的基本路径。
DeepSeek的非凡成就并非源于开发新功能,而是以极低成本实现了与科技巨头相当的结果。实际上,该公司并未创造新方法,其创新在于选择了不同的优先方向。这推动AI发展沿着两条平行轨道突飞猛进:效率与算力。
随着DeepSeek即将发布R2模型,同时面临美国可能加强芯片限制的局面,审视其引发广泛关注的原因尤为重要。
突破限制的工程智慧
DeepSeek的横空出世之所以引人注目,在于它展示了在严苛限制下依然蓬勃发展的创新能力。面对美国出口管制导致尖端AI芯片获取受限,DeepSeek被迫另辟蹊径。
当美国企业通过更强硬件、更大模型和更优数据追求性能提升时,DeepSeek专注于优化现有资源。它以卓越的执行力实践已知理念——将已知方法做到极致本身便是创新。
这种效率优先的思维带来了惊人成果。据报道,DeepSeek的R1模型以仅5%-10%的运营成本匹配了OpenAI的性能。其V3前代模型的最终训练成本仅为600万美元,被前特斯拉AI科学家Andrej Karpathy称为”玩笑般的预算”。更惊人的是,OpenAI据传耗资5亿美元训练”Orion”模型时,DeepSeek仅用560万美元就实现了更优基准测试结果——不足OpenAI投入的1.2%。
若你认为这些成就源于DeepSeek在无法获取先进AI芯片的绝对劣势下取得,我必须指出这种叙事并不完全准确(尽管故事性十足)。美国初期出口管制主要针对计算能力,而非内存和网络——这两个AI发展的关键组件。
这意味着DeepSeek获得的芯片并非劣质产品,其网络和内存性能使其能够跨多单元并行运算,这是高效运行大模型的关键策略。加之中国在国家层面推动AI基础设施全栈自主可控,催生了许多西方观察家未能预见的加速创新。DeepSeek的进步本是AI发展的必然,但它将已知进步提前了数年实现,这已然非凡。
务实高于流程
除硬件优化外,DeepSeek的训练数据方法也不同于西方常规实践。据报道,该公司没有仅依赖网络抓取内容,而是大量使用合成数据和其他专有模型输出。这是模型蒸馏的典型应用——向强大模型学习的能力。虽然这种方法可能引发西方企业客户对数据隐私和治理的担忧,但它凸显了DeepSeek结果导向的务实精神。
有效使用合成数据是关键差异点。合成数据对大模型训练非常有效,但需谨慎:某些模型架构处理合成数据的能力优于其他架构。例如,DeepSeek采用的混合专家(MoE)架构Transformer模型对合成数据更具鲁棒性,而早期Llama模型使用的传统密集架构在过多合成数据训练下可能出现性能下降甚至”模型崩溃”。
这种架构敏感性至关重要,因为合成数据会引入不同于真实数据的模式和分布。当模型架构无法妥善处理合成数据时,它可能学习数据生成过程的捷径或偏见,而非普适性知识,导致实际任务性能下降、幻觉增加或面对新情境时表现脆弱。
据报道,DeepSeek工程团队从规划初期就专门设计了适应合成数据的模型架构,使其在保持性能的同时享受合成数据的成本优势。
市场震荡
这些为何重要?抛开股市不谈,DeepSeek的崛起已引发行业领袖的战略转变。
典型案例是OpenAI。Sam Altman近期宣布计划发布自2019年以来首个”开放权重”语言模型。这对以专有系统立身的公司而言是显著转向。DeepSeek崛起与Llama成功的双重冲击显然影响了这位CEO。DeepSeek登场仅一个月后,Altman便承认OpenAI在开源AI问题上”站错了历史位置”。
据传OpenAI年运营支出达70-80亿美元,来自DeepSeek等高效替代方案的经济压力已不容忽视。正如AI学者李开复直言:“你每年亏损七八十亿美元,却有个竞争对手带着免费开源模型杀入市场。“变革势在必行。
这一经济现实促使OpenAI寻求400亿美元的创纪录融资,估值高达3000亿美元。但即便资金充足,根本挑战依然存在:OpenAI的方法比DeepSeek消耗的资源多出数个量级。
超越模型训练
DeepSeek加速的另一重要趋势是”测试时计算”(TTC)的兴起。由于各大AI实验室已用尽互联网大部分公开数据训练模型,数据稀缺正减缓预训练改进。
为此,DeepSeek宣布与清华大学合作开发”自原则批判调优”(SPCT)。该方法训练AI建立内容评判的自有规则,并据此提供详细评估。系统内置”裁判员”实时对照核心规则和质量标准评估AI回答。
这是AI系统自主评估与改进趋势的一部分,模型在推理阶段而非训练阶段提升效果。DeepSeek称其系统为”通用奖励建模”(GRM)。但与其模型蒸馏方法类似,这可谓机遇与风险并存。
例如,若AI自建评判标准,其原则可能偏离人类价值观、伦理或语境。规则可能过于僵化或偏颇,优化形式而非实质,强化错误假设或幻觉。此外,若”裁判员”存在缺陷或偏差,且缺乏人工监督,可能产生问题。这本质上是AI的自言自语,缺乏可靠外部锚点。更甚者,用户和开发者可能无法理解AI的决策逻辑——这引出一个更严峻的问题:AI是否应被允许仅凭自身逻辑判定何为”好”或”正确”?这些风险不容忽视。
与此同时,该方法正获关注,因为DeepSeek再次基于前人工作(如OpenAI的”批判与修订”方法、Anthropic的宪法AI或自奖励代理研究)打造了可能是SPCT在商业应用中的首次全栈实现。
这或标志着AI自主性的重大转变,但仍需严格审计、透明度和保障机制。重点不仅是模型变得更智能,更在于当它们开始脱离人类约束进行自我评判时,能否保持一致性、可解释性和可信度。
迈向未来
综上所述,DeepSeek的崛起标志着AI产业向并行创新轨道的广泛转变。在企业继续构建更强算力集群追求下一代能力的同时,通过软件工程和模型架构改进获取效率提升也将成为焦点,以应对AI能耗远超发电能力的挑战。
企业正在行动。例如微软已暂停全球多地区数据中心建设,转向更分布式、高效的基础设施策略。虽然本财年仍计划投入约800亿美元建设AI基础设施,但公司正重新配置资源以应对DeepSeek带来的市场效率革新。
Meta也做出回应,发布首款采用MoE架构的Llama 4模型系列。Meta在推出Llama 4时特别将DeepSeek模型纳入基准对比,尽管未详细公开性能结果。这种直接对标表明中国AI模型(阿里巴巴也在布局)已被硅谷公司视为值得比较的对手。
如此短时间内发生如此多变化,颇具讽刺意味的是:美国旨在维持AI霸主地位的制裁,可能反而加速了它试图遏制的创新。通过限制材料获取,DeepSeek被迫开辟了新道路。
展望未来,随着全球产业持续演进,所有参与者的适应能力将成为关键。政策、人才和市场反应将持续改变游戏规则——无论是废除AI扩散规则、新技术采购禁令还是其他措施。我们彼此间的学习与应对方式,才最值得关注。
李杰是TwelveLabs的CEO兼联合创始人。
VB每日:商业用例深度解析
想要让老板眼前一亮?VB每日为您提供企业应用生成式AI的内幕洞察,从监管变化到实际部署,助您掌握最大化投资回报的关键见解。
立即订阅
阅读我们的隐私政策
感谢订阅。查看更多VB简报
发生错误
企业AI落地实践——参加2025年VB Transform大会
6月24-25日,与顶尖领袖齐聚旧金山,解决真实挑战,分享已验证策略,共同塑造AI未来。
了解更多
-
请勿出售我的个人信息
© 2025 VentureBeat. 版权所有.
×### 你所需的AI前沿洞见
提交
感谢订阅。查看更多VB新闻通讯。
发生错误。