CoreWeave:GPU租赁独角兽,英伟达的好盟友
📷 图片包含在完整版文章中,点击文末按钮查看
2022 年,全球云基础设施市场价值达 4800 亿美元。随着经济持续数字化,云采用率不断提高,预计到 2032 年,这一数字将以 17% 的复合年增长率增长,达到约 2.3 万亿美元。其中,2023年全球GPU云市场估值为32亿美元,预计到2030年将增长至255亿美元,复合年增长率更快,达到34.8%。
GPU 云市场的主要驱动力是 AI/ML 市场,因为生成式 AI 产品受计算限制,这意味着添加更多计算资源通常会直接带来更好的产品。据统计,人工智能初创公司将其筹集的总资金的 80% 用于计算资源。 大多数 AI/ML 应用程序都是在 GPU 上进行训练的,这导致了对 GPU 的普遍需求。
CoreWeave是一家专注于GPU工作负载的云基础设施提供商。传统的服务提供商并没有为处理AI/ML、技术、娱乐和生命科学等领域日益增长的先进工作负载而设计。由于其专业化,CoreWeave声称其服务的速度比传统云厂商快达35倍,成本低80%。CoreWeave 已作为首选云服务提供商 (CSP) 加入 NVIDIA 合作伙伴网络,而且还拿到了英伟达的投资,比起美元,英伟达还给了它一项更稀有的资源——H100。
📷 图片包含在完整版文章中,点击文末按钮查看
📷 图片包含在完整版文章中,点击文末按钮查看
CoreWeave 于 2017 年由 Michael Intrator(首席执行官)、Brian Venturo(首席技术官)和 Brannin McBee(CSO)在纽约创立,原名为 Atlantic Crypto。在创建 CoreWeave 之前,没有一位创始人在云领域有工作经历,创始团队的经验都集中在能源期货交易领域。当 Venturo 和 Intrator 在他们的对冲基金 Hudson Ridge Asset Management LLC 工作时,他们意外地进入了一个新市场:GPU租赁。
他们于 2016 年购买了第一台 GPU 来试验加密货币挖掘。他们开始为此目的购买 GPU,当时加密货币价格快速上涨。很快他们意识到购买 GPU在几天之内就能收回成本。大约在他们发现这个机会的同时,Hudson Ridge Asset Management LLC 的投资业绩落后于标准普尔 500 指数。因此,他们关闭了对冲基金,并于 2017 年 9 月创办了 Atlantic Crypto。他们在新泽西州 Venturo 祖父的车库里开设公司,专注于租用 GPU 进行加密货币挖矿。
这家新公司于 2019 年 2 月筹集了 120 万美元的种子轮资金。在运营一段时间后,他们觉得CoreWeave应该多元化经营,毕竟挖矿壁垒不高。于是,三人开始关注AI、媒体娱乐和生命科学三大领域,而零售GPU和企业级GPU有很大的套利空间,他们开始采购企业级芯片,构建专门的云基础设施。云业务在前三个月内增长了 271%,在看到这方面业务的持续增长后,决定在 2021 年 10 月从 Atlantic Crypto 更名为 CoreWeave。
📷 图片包含在完整版文章中,点击文末按钮查看
CoreWeave 专注于云端 GPU 加速计算。 GPU 最初设计用于在视频游戏中渲染图形,但很快人们就意识到,同时处理计算任务可以大大提高其他应用程序的速度和效率。因此,GPU 的用例扩大到包括需要处理大量数据的工作场景。
GPU加速将计算任务中高度密集的计算或数据并行部分转移给GPU。客户倾向于将提供更优化CPU工作负载的传统供应商与CoreWeave配对使用,因为CoreWeave针对GPU过程进行了优化,以提高效率、节省成本和可扩展性。CoreWeave提供了广泛的计算选项,包括10多种Nvidia GPU,因此客户可以根据他们需要的特定场景,在硬件级别对产品进行定制。
客户使用 CoreWeave 来租赁算力(通常是 Nvidia GPU)来完成他们需要运行的各种工作负载。这使得他们不再需要拥有自己的专用硬件来运行应用程序,而是可以通过 CoreWeave 的后端云基础设施完成这一切。
CoreWeave 向客户提供的算力由 CoreWeave 完全管理的裸机无服务器 Kubernetes 基础设施提供支持。 Kubernetes 是一个开源基础设施,用于管理和自动化云中的工作负载。 CoreWeave 使用 Kubernetes 来确保快速、可靠的服务。
CoreWeave采用无服务器架构,因此客户可以运行自己的代码、管理数据和集成应用程序,而无需管理基础设施。Kubernetes能够通过虚拟机或裸机部署工作负载。虚拟机是建立在现有架构之上的,而裸机则直接建立在服务器的物理资源上。裸机是直接从硬件层面部署的,无需建立其他层。
CoreWeave 使用 Kubevirt,它利用裸机来部署虚拟服务器。虚拟服务器集虚拟机的易用性和裸机的性能于一身。结果是,客户可以在硬件级别定制服务器,并以经济高效的方式快速启动新的虚拟服务器。
为了促进 CoreWeave 设备与客户的连接、通信和交互,CoreWeave 使用自己的云原生网络系统。对于几乎所有 GPU 应用程序,客户都使用 CoreWeave Cloud 上的 HPC Interconnect。根据所需的算力,有两种不同类型的 HPC 互连。对于最密集的工作负载,CoreWeave 与 Nvidia 合作提供 Infiniband,以实现最快和最低的延迟,提供高达每秒 400 GB 的吞吐量。
Inflection AI 等客户使用 Infiniband 在 Nvidia 的 H100 GPU 上构建 Pi。对于要求不那么高的吞吐量,CoreWeave使用以太网上的高性能计算(HPC),仍然能提供亚微秒级的切换。Bit192使用CoreWeave以太网的网络,从零开始构建了一个200亿参数的日语模型。对于其他特定的小众用例,例如连接本地环境、特定的防火墙要求或存储密集型工作负载,CoreWeave使用L2VPC网络系统为其客户提供算力服务。
CoreWeave还提供块存储、文件系统和对象存储选项。其存储系统采用分布式设计以提高容错能力,意味着它将数据分布在多个服务器和数据中心机架上。当存储基础设施的某一部分发生故障时,数据仍然可以从其他位置访问并保持完整,这对于需要最小化数据丢失和停机时间的客户来说非常重要。CoreWeave的存储系统允许客户独立于计算资源管理存储卷。最后,其存储系统可以从一千兆字节(GB)扩展到拍字节(PB,即100万千兆字节),确保CoreWeave能够支持几乎任何规模的业务发展。
📷 图片包含在完整版文章中,点击文末按钮查看
CoreWeave Cloud UI 是 CoreWeave 的 Web 管理平台。云 UI 是用户部署、管理和更改其帐户的地方。用户可以在 Cloud UI 中访问四个主要功能。
1. 创建 API 令牌和对象文件以定制用户通过 Kubernetes 管理服务器的方式。
2. 部署提供计算能力给客户的虚拟服务器。例如:启动 Nvidia A100 以进行 AI 模型的精细调整。
3. 部署应用程序:CoreWeave 与 Argo-Workflows 合作,针对典型使用案例设计的内置应用。
4. 存储界面,让用户能够调整虚拟服务器、应用程序和文件的存储容量,包括增加、减少及查看。
CoreWeave 的核心产品是计算服务。自 2017 年成立以来,CoreWeave 一直向客户租赁 GPU,并自那时起针对几种类型的客户需求优化了此产品线。CoreWeave GPU 使用的第一种工作负载是模型训练,这被认为是 CoreWeave 云架构的核心。CoreWeave 与 Determined AI 合作,帮助最终用户构建他们的模型,向最终用户租赁各种 GPU 选项以完成工作,包括 HGX H100、A100 NVLINK 和 V100 NVLINK。
在 2022 年 5 月,引入了 CPU 计算,使 CoreWeave 成为不仅仅是 GPU 加速的云服务提供商。理论上,这允许客户根据他们特定的用例需求访问任何半导体。然而,实际上,客户倾向使用传统提供商的 CPU 算力,并且选择 CoreWeave 进行 GPU 算力。在 CoreWeave 上使用 CPU 的主要用例是对延迟敏感的应用程序和技术计算。
CoreWeave 为从小公司到大型企业提供服务。据称,微软是 CoreWeave 的最大客户。微软于 2023 年 6 月与 CoreWeave 签署了一项“可能价值数十亿美元”的协议。
CoreWeave 的小型客户包括像素流平台(pixel streaming platforms)、视觉特效公司(VFX companies)等。在 2023 年 4 月的采访中,CoreWeave 首席执行官 Michael Intrator 表示:
2022 年,全球云基础设施市场规模为 4800 亿美元,预计将以 17% 的复合年增长率增长,到 2032 年将达到约 2.3 万亿美元。其中,全球 GPU 云市场到 2023 年估值将达到 32 亿美元,预计到 2030 年,预计复合年增长率为 34.8%,增长至 255 亿美元。
GPU云市场预期快速增长的一个主要来源是正在快速增长的AI/ML市场。 AI 初创公司将其筹集的总资金的 80% 用于计算资源。2023 年第三季度,谷歌、亚马逊和微软在云计算上总共花费了 420 亿美元,以满足生成式 AI 系统的需求。大多数 AI/ML 应用程序都是在 GPU 上进行训练的,这导致了对GPU处理能力的普遍需求。
Amazon Web Services
Amazon Web Services (AWS) 于 2006 年推出,是 Amazon 的子公司,以按量付费的方式向个人、公司和政府提供按需云计算平台和 API。作为云基础设施市场的领导者,AWS 提供广泛的全球云产品,包括计算、存储、数据库、分析、网络、移动、开发人员工具、管理工具、物联网、安全和企业应用程序。
AWS的服务规模和广度吸引了从初创公司到大型企业和公共部门组织的广泛客户,使其能够在云市场保持主导地位。与专门为机器学习和视觉效果等特定行业提供 GPU 加速计算服务的 CoreWeave 不同,AWS 提供了更通用的云服务组合。截至 2023 年第三季度,AWS 的市场份额约为 33%,全面的服务产品使其在可扩展性、可靠性和全球覆盖范围方面具有竞争优势。
Microsoft Azure
Microsoft Azure 成立于 2008 年,是 Microsoft 创建的云计算服务,用于通过 Microsoft 管理的数据中心构建、测试、部署和管理应用程序和服务。它提供软件即服务 (SaaS)、平台即服务 (PaaS) 和基础设施即服务 (IaaS),并支持许多不同的编程语言、工具和框架,包括 Microsoft 特定软件和第三方软件以及系统。 Azure 已迅速成长为最大的云平台之一,占云基础设施市场份额的 22%。
作为人工智能领域的计算提供商,微软已经取得了长足的进步,包括满足 OpenAI 的所有计算需求,并与 Mistral AI 合作,在 Azure 上独家托管其 Mistral-Large 模型。 Azure 对混合云环境的重视比 CoreWeave 更专业、高性能的计算重点具有潜在优势,对寻求本地基础设施和云之间桥梁的企业具有吸引力。
Google Cloud Platform (GCP)
Google Cloud Platform 于 2008 年推出,是一套云计算服务,运行在 Google 内部用于其最终用户产品(例如 Google 搜索、Gmail、文件存储和 YouTube)的同一基础设施上。除了一套管理工具外,它还提供一系列模块化云服务,包括计算、数据存储、数据分析和机器学习。 GCP 提供涵盖数据分析、机器学习和开源技术的产品,以满足需要高计算产品的行业的需求。与 CoreWeave 相比,GCP 的全球基础设施以及对人工智能和机器学习工具的深度投资为需要专业和通用云解决方案的客户提供了更多的服务组合。
Lambda Labs(#040)
Lambda Labs成立于2012年,专门提供为机器学习和人工智能研究量身定制的GPU云解决方案。 Lambda 的产品包括强大的 GPU 工作站、服务器和云服务,旨在加速计算密集型应用程序,例如深度学习模型训练和推理。这一重点使 Lambda 在 GPU 加速云计算的利基市场上与 CoreWeave 直接竞争。两家公司都迎合了类似的客户群,这些客户群都需要高性能计算资源来执行人工智能和机器学习工作负载,但 Lambda 的独特之处在于它非常重视人工智能的研究和开发。截至 2024 年 3 月,该公司已筹集总计 4.322 亿美元的资金,在 2024 年 2 月进行 3.2 亿美元的 C 轮融资时估值达到 15 亿美元。有意思的是,这家公司的投资方也包括英伟达。
Together AI(#044)
Together AI 成立于 2022 年,专注于为企业提供人工智能驱动的云解决方案,强调用户友好的界面以及将人工智能功能集成到日常业务流程中。其服务旨在实现人工智能技术的民主化,使非专业人士更容易部署人工智能解决方案。 Together AI 因其可扩展性的灵活性而脱颖而出,能够将计算容量从 16 个 GPU 扩展到 2048 个 GPU。此功能对于计算需求波动的企业特别有利。
虽然 TogetherAI 提供了规模优势,但在短时间内难以获取到 2048 个 GPU。这与 CoreWeave 的方法形成对比,CoreWeave 提供了专门为计算密集型任务设计的高性能计算资源。Together AI 强调 AI 的可访问性和易用性,与 CoreWeave 专业、以性能为导向的产品定位不同。Together AI 已经总共筹集了 2.285 亿美元,并在 2024 年 3 月的一轮 1.06 亿美元融资后,估值约为 13 亿美元,投资方包括英伟达、Salesforce Ventures、Coatue Management、Lux Capital和Emergence Capital。
Paperspace(#009)
Paperspace成立于2014年,提供针对机器学习和人工智能开发领域的云计算服务。 Paperspace 与 Graphcore 合作构建了 IPU(智能处理单元)云。 IPU 是针对 AI 和 ML 工作负载进行优化的芯片,而 GPU 则是为广泛的并行处理任务而创建的。因此,在硬件层面,Paperspace 更适合复杂的 AI 训练任务。
其产品包括 GPU 加速虚拟机、托管 Kubernetes 服务和 Gradient(一套旨在简化云中训练 AI 模型过程的工具)。 Paperspace 力求通过以开发人员为中心的方法和全面的人工智能开发工具套件来脱颖而出,满足从业余爱好者到大型企业的广泛用户需求。累计融资 3500 万美元,其中包括Battery Ventures、Intel Capital、SineWave Ventures和Sorenson Capital。2023年7月,在纽交所上市的云托管业务公司DigitalOcean,以1.11亿美元的现金收购Paperspace。
CoreWeave 将其云算力出租给客户,价格取决于所需芯片的类型。它是一种基础设施即服务模型,客户按使用次数付费,提供可扩展且灵活的解决方案。
CoreWeave 的定价模型包含一系列针对各种计算和存储需求量身定制的选项。对于 GPU 资源,Quadro RTX 4000 的定价范围为每小时 0.24 美元,高端 Nvidia H100 PCIe 的定价最高可达每小时 4.25 美元。在CPU方面,客户可以以每小时0.0125美元的价格选择经济的Intel Xeon v3,或者以每小时0.035美元的更高价格选择更强大的AMD EPYC Milan。
HDD 和 NVMe 对象存储的存储解决方案价格从每月每 GB 0.03 美元起,到高级 NVMe 文件系统存储每月每 GB 0.10 美元。此外,网络服务的公共 IP 地址价格为每月 4.00 美元,并且可以选择以每个 VPC 每月 20.00 美元的价格升级到 VPC,以满足不同的网络连接需求。所有定价均按小时定价,但按分钟计费。
2022 年,CoreWeave 报告收入为 2500 万美元。2023年,CoreWeave 告诉投资者,预计 2023 年 6 月的财年将产生 5 亿美元的收入,这意味着一年内收入增长 25 倍。预计 2024 年收入将达到 23 亿美元。其他主要里程碑包括 2023 年 6 月与微软的交易,其中微软同意在多年内花费“数十亿美元”,以及与 Nvidia 的合作伙伴关系,CoreWeave 对此描述如下:
与此同时,公司加大对基础设施投入。 CoreWeave 从 2023 年初的三个数据中心开始,到年底将其覆盖范围扩大到 14 到 18 个数据中心。这些设施均配备约 20K GPU,凸显了该公司扩展其高性能计算能力的承诺。
2023 年 12 月,CoreWeave 向以 Fidelity Management & Research Co. 为首的投资者出售少数股权,Jane Street、摩根资产管理公司、Nat Friedman、Daniel Gross、Goanna Capital 和 Zoom Ventures 参与其中,估值为 70 亿美元,预计融资总额达到 35 亿美元,包括股权融资和债务融资。 2023 年 5 月 B +轮融资,使 CoreWeave 的 B 轮融资达到 4.21 亿美元,投资方为Magnetar Capital。
2023 年 8 月由 Magnetar Capital 和 Blackstone 牵头的 23 亿美元债务融资。
2023年4月,CoreWeave完成2.21亿美元的B轮融资,投资者包含英伟达、 Magnetar Capital、Daniel Gross。
Nvidia 是 CoreWeave 的第一家也是至关重要的芯片供应伙伴。就像台积电(TSMC)专注于创建晶圆厂以避免与 Nvidia 或 Apple 这样的芯片设计公司产生利益冲突一样,CoreWeave 专注于向最终用户提供计算能力,以避免在设计自己的芯片时与 Nvidia 产生利益冲突。CoreWeave 从 Nvidia 那里获得了更好的交易,这使 CoreWeave 能够专注于为客户提供最高质量、最具成本效益的 GPU 云服务。CoreWeave 的高管认为,由于这个原因,他们领先竞争对手两年。展望未来,CoreWeave 有机会围绕 GPU 云建立一个类似于台积电在制造晶圆厂周围所建立的护城河。
表面上看,云服务提供商领域似乎已经饱和:这是一个价值 4800 亿美元的行业,其中领先的传统提供商拥有大量现金来资助扩张。然而,由于 AI 的增长,GPU 计算行业正在增长。根据硅谷科技评论(svtr.ai)数据库,截至 2024 年 1 月,约有 5.8 万家 AI 公司从 2021 年到 2023 年总共获得了超过 1730 亿美元的资金。这些公司需要计算能力来执行以前不存在的应用程序,这意味着传统提供商还没有为此类应用优化他们的服务。CoreWeave 已将自己定位为提供给 AI 创业公司所需计算能力的 GPU 云。
亚马逊和微软都依赖 Nvidia 的尖端计算能力,因此 Nvidia 可以通过给予 CoreWeave 特殊待遇来维持市场主导地位。亚马逊、微软和其他大型科技公司正在尝试开发自己的芯片来竞争。如果传统提供商之一取得突破,CoreWeave 可能会失去目前在 Nvidia 帮助下所拥有的竞争优势。此外,除了战略投资CoreWeave外,英伟达还投资了同样是中小云服务商的Lambda Labs,并向两家公司倾斜分配市场上稀缺的GPU芯片。
每一家涉足半导体领域的公司都受到台积电的产能瓶颈限制,台积电生产了全球 90% 以上的高端芯片。台积电总部位于台湾,台湾和中国大陆之间的地缘政治紧张局势使 CoreWeave 购买的 90% 以上的高端芯片供应面临风险,危及其供应链。
📷 图片包含在完整版文章中,点击文末按钮查看
CoreWeave 将自己描述为“一家专业的云服务提供商,在业界最快速、最灵活的基础设施之上提供大规模的 NVIDIA GPU。”起初从事加密货币挖矿的创始人转向了 GPU 云模型,并因与 Nvidia 的早期合作关系而迅速增长。然而,CoreWeave 面临对 Nvidia 的依赖以及与半导体供应相关的地缘政治风险。在 AI/ML 行业的出现和快速增长等强劲顺风的背景下,CoreWeave 的增长目前也是显而易见。