Archerman Capital:关于Deepseek的几点思考
深度求索(DeepSeek)是一家由浙大校友梁文峰创立的中国领先人工智能公司,其前身是对冲基金幻方的AI研究部门。凭借创新性的发展模式和技术成果,DeepSeek吸引了全球的目光。尽管在硬件出口限制等挑战下,其高效模型屡次跻身国际排行榜前十。尤其是V3模型,在训练中仅使用了2000多块英伟达芯片,效率远超西方同类产品。2025年1月,公司推出了推理模型R1,即使未经行业标准微调,其性能已接近OpenAI的o1模型。
📷 图片包含在完整版文章中,点击文末按钮查看
DeepSeek的技术突破受到了硅谷的高度评价,知名投资人马克·安德森称其“令人惊叹”。同时,总部位于波士顿,并在纽约和硅谷设有投资团队的全球成长型股权投资者Archerman Capital™,与多位学术界和工业界专家展开了交流,并分享了他们对DeepSeek的看法。这家管理着10亿美元资产的投资机构,由哈佛大学应用物理学博士Harry Archerman创立,并以独特的第一性原理方法和深度研究驱动的策略闻名。根据SVTR AI创投库,其投资组合包括Databricks、Scale AI和Tenstorrent等知名企业。
我们结合DeepSeek与OpenAI的大模型,看看这两家公司是如何回应这家基金的思考。
📷 图片包含在完整版文章中,点击文末按钮查看
一、Deepseek模型回应
文件中提到的关于 DeepSeek 和 AI 大模型 的一些事实和观点。以下是对这些观点的分析和评价:
文件中明确指出 DeepSeek 不是套壳或蒸馏模型,而是基于 Transformer 架构进行了创新。这一点是可信的,尤其是文件中提到的技术细节(如 MoE、MLA、MTP 等)表明 DeepSeek 在架构和工程上进行了自主研发和优化。
文件中提到的技术细节(如 MoE、MLA、MTP、CoT 等)都是当前 AI 领域的前沿技术,且 DeepSeek 在工程实现上进行了优化。这些创新是合理的,尤其是在大模型训练和推理效率方面,确实需要结合多种技术手段来提升性能。
文件中提到 DeepSeek 的训练成本被宣传为 550 万美元,但作者认为这种比较不够准确,因为前沿探路和算力成本的下降都会影响成本统计。这一点是合理的,尤其是在 AI 领域,训练成本的计算口径和实际投入的差异较大,不能简单地进行横向比较。
这一观点有一定道理。开源模型(如 Meta 的 LLaMA 系列)确实在推动 AI 社区的繁荣,而 DeepSeek 作为开源模型的一部分,可能会进一步推动开源生态的发展。然而,开源和闭源的竞争是长期的,闭源模型(如 OpenAI 的 GPT 系列)在商业化应用和前沿探索上仍然具有优势。
这一观点是合理的。OpenAI 的“大力出奇迹”策略(通过大规模算力和数据投入)确实取得了显著成果,但随着技术的进步,开源模型可能会逐渐缩小差距。不过,OpenAI 在商业化应用和前沿探索上的优势仍然存在,未来是否再次拉开差距取决于技术进步的速度和方向。
这一观点有一定道理,但需要谨慎看待。开源模型(如 DeepSeek)在性能和效率上确实取得了显著进展,但闭源模型在商业化应用和前沿探索上仍然具有优势。开源模型的优势在于可定制性和私有部署,但在某些复杂任务上,闭源模型可能仍然表现更好。
这一观点是合理的。随着技术的成熟,基础大模型可能会逐渐商品化,竞争的重点将转向如何将模型与具体应用场景结合(toB 领域)以及如何获取流量入口(toC 领域)。这也是当前 AI 产业发展的趋势。
这一观点是合理的。随着��型规模的扩大和应用场景的复杂化,对算力的需求只会增加。类似 Jevons 悖论,效率的提高可能会进一步推动算力需求的增长。
这一观点是合理的。数据是 AI 模型的“燃料”,随着算法的进步,对高质量数据的需求只会增加。尤其是在复杂任务和长尾场景中,数据的重要性更加凸显。
文件中的观点大部分是合理的,尤其是在技术细节和行业趋势的分析上,反映了当前 AI 领域的一些重要动态。然而,需要注意的是,AI 领域的发展速度非常快,未来的竞争格局可能会发生变化。开源和闭源的竞争、算力和数据的需求、以及模型商品化的趋势,都是当前 AI 产业的核心议题。
二、OpenAI模型回应
文件内容提到了一些关于 DeepSeek 的技术特点和市场影响的观点。以下是对主要观点的分析:
大部分观点是基于当前学术研究和产业实践得出的,具有一定的可信度。不过:
三、全文结论
综上所述,无论是Deepseek还是OpenAI两家大模型都认同,DeepSeek 通过创新技术和工程优化,在开源大模型领域取得了显著进展,并在成本、效率以及技术开放性上展示了独特的优势。然而,开源与闭源的竞争并非一朝一夕能够分出胜负,未来的格局将取决于技术进步、商业化能力以及行业应用的落地速度。
展望2025,基础大模型的商品化趋势将加速,竞争焦点将从模型本身转向应用场景的深度结合与服务模式的创新。同时,算力与数据需求的增长将继续推动产业变革,对资源整合与创新能力提出更高要求。可以预见,AI 的未来不仅属于技术领先者,也属于能够有效平衡技术、商业与生态的开拓者。
附录:参考资料
Deepseek 和 OpenAI 对某美元基金《关于Deepseek的几点思考》的回应