Databricks,从数据湖到AI大模型

Databricks,从数据湖到AI大模型

“数据是新的石油”这一说法最早出现在2006年,伴随着互联网产生的数据量开始急剧增加。预计到2025年,全球将产生超过463艾字节(1亿千兆字节)的数据。未来的数字企业将通过有效捕捉数据价值来定义其成功。从设备到云端,数据量正在爆炸式增长。这种激增为组织构建数据优势提供了机会。2020年,全球大数据和商业分析市场的价值为1981亿美元,预计到2030年将达到6841亿美元。

研究表明,优先考虑数据驱动洞察的公司在吸引新客户方面的可能性高出23倍,在盈利方面的可能性高出19倍,且其增长速度是GDP增长速度的七倍。企业希望利用数据的优势,包括各种速度和量级的结构化和非结构化数据。然而,在这一过程中,他们面临着诸如复杂的遗留基础设施、数据孤岛、高延迟等障碍。这就产生了对数据湖的需求,数据湖是可以以原生格式摄取大量原始数据的存储库,使企业能够随时访问数据,并使数据科学家能够应用分析以获取洞察。2021年,全球数据湖市场的价值为117亿美元,预计到2029年将达到610亿美元。

Databricks 是一个集成的数据分析平台,旨在简化数据工程、数据科学和商业智能的流程。它基于 Apache Spark 框架构建,提供强大的大数据处理和分析能力。如今,它已扩展为一个更广泛的平台,包括一个集成数据存储的Databricks市场,并定位为数据湖仓(data lakehouse)。更为重要的是,Databricks正在成为生成式人工智能的关键玩家,无论是通过收购(尤其是以13亿美元收购MosaicML)还是内部产品开发。作为LLMs所需非结构化数据的关键仓库,同时也在打造大模型,从Dolly到最近宣布的新生成式人工智能模型DBRX。

Databricks成立于2013年,由七位加州大学伯克利分校计算机科学博士生创立:Ali Ghodsi(CEO)、Ion Stoica(执行主席)、Matei Zaharia(首席技术官)、Patric Wendell(工程副总裁)、Reynold Xin(首席架构师)、Andy Konwinski(现为顾问)和Arsalan Tavakoli-Shiraji(现场工程高级副总裁)。

值得一提的是,团队里唯一一位华裔联合创始人,辛湜(Reynold Xin),算是1.5代移民,1986年出生,中学来到多伦多。后来分别取得多伦多大学本科,加州伯克利博士学位。还是Shark和GraphX的第一作者,Apache Spark的首席架构师。

🖼️
图片 2 2000 × 2000px

📷 图片包含在完整版文章中,点击文末按钮查看

资料来源:福布斯

Ghodsi和他的家人在1984年因伊朗革命逃离伊朗,最终定居于瑞典。他在瑞典的郊区度过了童年,周围都是电脑。在他五岁时,父母给他买了一台二手的Commodore 64,这不仅成了他的娱乐工具,也激发了他的好奇心。他开始阅读随电脑附带的手册,成为了一名自学成才的程序员。2009年,Ghodsi作为访问学者来到美国,在加州大学伯克利分校接触到了硅谷。

Ghodsi与当时的博士生Matei Zaharia一起,参与了一个名为Spark的数据处理软件引擎项目。他们希望能够模仿大型科技公司在神经网络方面的成就,但不希望有复杂的界面。这个项目在2014年创下了数据排序速度的世界纪录,并为Zaharia赢得了当年最佳计算机科学论文奖。

为了让公司使用他们的工具,他们免费发布了代码,但很快发现并没有获得实际的关注。从2012年开始,七位学者在印度餐厅的一系列会议中,决定联合创办Databricks。创业建议来自Zaharia的论文导师,Scott Shenker和Ion Stoica,这两位都是备受尊敬的学者。Stoica曾是视频流初创公司Conviva的高管,而Shenker则是Nicira的首任CEO,Nicira于2012年以约13亿美元出售给VMware。Stoica成为了CEO,Zaharia成为首席技术官。Shenker没有全职加入公司,而是进入了董事会,并安排了团队与a16z的Ben Horowitz(Nicira的早期投资者)的初次会面。

公司在2013年获得由a16z领投的A轮融资。2015年,Ion Stoica因履行其在伯克利教授的职责,不得不卸任CEO职务。Ghodsi于2016年1月接任CEO。在担任CEO的一年后,公司签下了第一个百万美元的合同。在Ali的领导下,公司在2017年底实现了4000万美元的经常性收入,2018年达到了1亿美元,并在2019年第三季度突破2亿美元。

Databricks最初专注于使用Apache Spark查询存储在数据湖中的大型非结构化数据集。随后,Databricks通过推出面向相关市场的产品,拓展了收入来源,这些产品包括AI生命周期管理/MLOps(MLFlow)、数据仓库(Delta Lake)和数据可视化(Redash)。

值得注意的是,在AIGC大潮之下,Databricks反应迅速,在AI领域频频出手。根据硅谷科技评论数据库(SVTRAI),最近一年内 Databricks在AI领域投资和并购案例高达10余起。

🖼️
图片 3 1080 × 608px

📷 图片包含在完整版文章中,点击文末按钮查看

Databricks Lakehouse平台是一套统一的工具,用于大规模构建、部署、共享和维护企业级数据解决方案。该平台在主要云服务(包括AWS、Microsoft Azure、Google Cloud Platform (GCP)和阿里巴巴)上提供。平台基于Apache Spark(一种开源分布式计算框架)构建,包含多个组件,包括提供ACID事务和数据版本控制的Delta Lake、用于管理机器学习工作流程的开源平台MLflow,以及基于SQL的数据分析协作工具Redash。

🖼️
图片 4 1196 × 968px

📷 图片包含在完整版文章中,点击文末按钮查看

Databricks Lakehouse平台结合了数据湖和数据仓库的元素。它具有数据湖的灵活性、成本效益和扩展性,同时也提供了数据仓库的数据管理和ACID事务功能。这使得在所有数据上进行商业智能(BI)和机器学习(ML)成为可能。

Delta Lake是一个开源存储层,设计用于运行在数据湖之上,旨在提高可靠性、安全性和性能。它为所有客户数据(包括实时流)提供了单一的真实数据源,使数据团队始终使用最新的数据。它支持ACID事务、可扩展的元数据、统一的流式和批量数据处理。Delta Lake实现了数据管理和治理,为能够处理结构化、半结构化和非结构化数据的开放存储环境提供了额外的控制层。

注:ACID(Atomicity、Consistency、Isolation、Durability)是一组保证数据库事务可靠执行的特性,包括原子性、一致性、隔离性和持久性。原子性指事务必须被视为不可分割的最小工作单元,要么全部执行,要么全部不执行;一致性指事务执行前后,数据库必须保持一致状态;隔离性指多个事务并发执行时,彼此之间不能干扰;持久性指事务一旦提交,它对数据库中数据的改变就是永久性的。

Unity Catalog是一个统一的治理解决方案,适用于所有数据和AI资产,包括客户湖仓中任何云上的文件、表格、机器学习模型和仪表板。客户可以使用标准SQL函数定义行过滤器和列掩码,从而实现对行和列的细粒度访问控制。他们还可以通过统一的搜索体验在整个数据资产中查找、理解和引用相关数据,适用于数据分析师、工程师和科学家。

数据团队可以通过单一统一的API消除数据孤岛,实现批量和流数据的摄取、转换和增量处理。Databricks管理客户的基础设施和生产工作流的操作组件。

🖼️
图片 5 2410 × 1318px

📷 图片包含在完整版文章中,点击文末按钮查看

Databricks简化了数据流处理,以在一个平台上实现实时分析、机器学习和应用。它使数据团队能够使用他们已经掌握的语言和工具构建流数据工作负载,并通过自动化生产方面的构建和维护简化开发。

Databricks SQL 是 Databricks Lakehouse 平台上的无服务器数据仓库,让用户能够大规模运行 SQL 和 BI 应用程序,并具有高达 12 倍的性价比、统一的治理模型和 API,同时利用他们选择的工具。

Delta 共享是 Databricks 开发的开放协议,用于与其他组织安全共享数据,无论其计算平台如何。通过 Delta 共享,Databricks 用户可以避免供应商锁定,并与组织外部的个人或团体共享 Delta Lake 和 Apache Parquet 格式的现有数据,无论接收者使用哪个数据平台。

🖼️
图片 6 1228 × 714px

📷 图片包含在完整版文章中,点击文末按钮查看

Databricks机器学习帮助ML团队准备和处理数据,简化跨团队协作,并标准化从实验到生产的完整ML生命周期。它提供用于跟踪实验、将代码打包成可重现运行的工具,以及共享和部署模型的功能。

Databricks简化了从数据准备到建模再到共享见解的端到端数据科学工作流程。用户可以访问干净的数据、预配置的计算资源、IDE集成、多语言支持和内置可视化工具。

🖼️
图片 7 1090 × 644px

📷 图片包含在完整版文章中,点击文末按钮查看

Databricks 向大型企业、小型企业以及介于两者之间的企业销售产品。它的客户包括许多世界上最知名的公司,包括微软、Atlassian、苹果、迪士尼、汇丰银行等。它的应用领域遍及零售、广告、娱乐、金融服务、能源、游戏、医疗保健和制造。 Databricks 可供所有数据团队成员使用,包括数据工程师、分析师、商业智能从业者、数据科学家和机器学习工程师。

为了了解客户在 Databricks 上的支出,我们可以根据几个数据点估算其平均合同价值 (ACV):截至 2022 年第二季度末,其 ARR 为 10 亿美元,客户数量超过 7,000 名。根据这些粗略数字,我们可以估计 Databricks 的 ACV 约为 14.3 万美元,约为 Snowflake 的 47%(截至 2023 年 3 月,Snowflake 的 ACV 预计约为 30.1 万美元)。

全球数据分析市场预计将从 2022 年的 2718 亿美元增长到 2029 年的 6555 亿美元。公司正在放弃孤立的系统来存储数据,而是选择集中式数据存储。这种方法可以帮助他们通过商业智能和预测分析深入了解过去和未来的趋势。 Databricks 正在顺应这一趋势来发展其业务,因为其技术基于数据湖,允许将所有数据类型和来源存储在一起。 2019 年数据湖市场估值为 79 亿美元,预计到 2024 年将达到 201 亿美元。

Snowflake 由前 Oracle 架构师于 2012 年创立,最初将自己定位为提供数据仓库和分析计算工作负载的云数据平台。从历史上看,Snowflake 拥有业务分析师和数据工程师等用户,而 Databricks 则受到数据科学家和机器学习工程师的青睐。然而,随着两家公司都推出了在对方领域竞争的新产品,两者之间的界限已经变得模糊。例如,Snowflake 开发了新产品,例如用于数据科学的 Snowpark、事务数据库和 Python 支持,以吸引开源开发人员和数据科学家。相反,Databricks 推出了 Databricks SQL、Delta Lake 功能和 Unity 目录等产品,以满足数据存储和安全意识客户的需求。

虽然 Snowflake 通常被认为是一个封闭平台,因为它在一个封闭的生态系统中控制着整个存储和计算平台,但 Databricks 是开源的。 Databricks 的所有关键产品线都可以免费实施,客户可以转向 Databricks 的企业产品以获得更高级的功能和支持。 Snowflake 提供现成的解决方案,使公司能够快速开展基本分析,而 Databricks 提供更好的定制和配置,使客户能够完全控制他们的设置。截至 2022 年底,Snowflake 的年收入为 21 亿美元,而 Databricks 在 2022 年第二季度的年收入突破 10 亿美元,2022 年的年收入将达到 14 亿美元。

在Databricks利用云计算的趋势并在主要云服务商(包括亚马逊云服务(AWS)、微软Azure和谷歌云平台(GCP))之上构建其业务的同时,在多个领域与这些主要云服务商自有的产品展开竞争。

比如,在大数据处理方面,AWS提供Amazon EMR,Azure有Azure HDInsight,GCP拥有Dataproc。此外,主要云服务商还推出了自己的商业分析解决方案,包括AWS的Amazon QuickSight和Amazon FinSpace,Azure的Power BI Embedded和Microsoft Graph Data Connect,以及GCP的Looker和Google Data Studio,所有这些都与Databricks展开竞争。

Databricks在数据管理和数据科学领域与运行特定任务的专业解决方案提供商竞争。例如,Databricks的调度器类似于Apache Airflow,它的MLflow产品与DataRobot和Alteryx竞争。此外还包括

Databricks开发了用于数据处理和人工智能应用的开源软件,并提供带有额外专有功能的付费版本。虽然开源软件提供了灵活性并避免对专有架构的依赖,但大多数公司需要更多的工程资源来管理复杂性。这就是Databricks介入的地方,为企业提供了一个完全托管的他们的开源软件版本,以及额外的实用程序,比如用于编写查询的SaaS工具和用于连接数据源的连接器。

Databricks提供按使用的计算资源和消耗的计算资源量收费的按需付费模式,并使用按秒计费,确保客户只在需要时支付所需的费用。为了衡量和定价处理能力,Databricks使用一种称为Databricks Unit(DBU)的标准化单位。工作量消耗的DBU数量受几项处理指标的影响,包括使用的计算资源、处理的数据量、地区、定价层次以及使用的Databricks服务类型。

🖼️
图片 8 2052 × 1422px

📷 图片包含在完整版文章中,点击文末按钮查看

Databricks为用户提供了一个为期14天的免费试用期,让用户可以使用交互式笔记本电脑使用Apache SparkTM、SQL、Python、Scala、Delta Lake、MLflow、TensorFlow、Keras、Scikit-learn以及为数据团队共同构建解决方案的协作环境。

Databricks 在 2022 年第二季度透露,其年营业额突破了 10 亿美元,并且其收入每年增长超过 70%。

Databricks从2016年12月的400名客户增长到2017年8月的500多名,然后增长到2019年2月的2,000多名,再增长到2021年2月的5,000多名,截至2022年8月已超过7,000名。

到2023年3月,超过9,000家公司在全球范围内使用其平台,包括AT&T、Shell、Burberry、Toyota、Adobe、康泰纳仕和再生元。

与微软在2017年的合作对Databrick的增长起到了重要作用。当时,两家公司推出了Azure Databricks,这是一个用于处理和分析大型公司数据流的工具。Azure Databricks与其他Azure数据相关服务集成,包括在同一年早些时候推出的Azure Cosmos DB数据库、Azure SQL数据仓库以及Azure活动目录。

截至2023年第一季度,Databricks拥有大约5,000名员工,尽管宏观经济面临阻力,但它仍然是少数几家继续扩大团队规模的后期初创公司之一。

Databricks 总共筹集了 35 亿美元。其投资者包括 Andreessen Horowitz、NEA、富兰克林坦普顿、亚马逊网络服务(AWS)、微软、Tiger Global Management 和 Coatue Management。

2021 年 8 月, H 轮融资中筹集了 16 亿美元,公司估值 380 亿美元。

2023年 年 9 月,获得5亿美元轮融资,估值430亿美元,投资者包括T. Rowe Price、Morgan Stanley、Fidelity、Franklin Templeton、Capital One Ventures、Nvidia、Andreessen Horowitz和Tiger Global。

鉴于其数据湖架构,Databricks 处于有利位置,可以利用数据集中化的趋势。随着廉价云存储和快速网络的出现,企业越来越多地选择将所有数据存储在中央存储库中,而不是依赖于不同类型数据的单独数据存储。 2019 年数据湖市场估值为 79 亿美元,预计 2019 年至 2024 年复合年增长率为 21%,到 2024 年将达到 201 亿美元。这种向集中化的转变使公司能够通过实时商业智能和数据更好地了解其业务运营。预测分析。 Databricks 认为,数字时代的数据爆炸将使公司维护多个大规模数据存储变得不切实际,从而导致数据湖和数据仓库融合到一个平台中。

由于 OpenAI 的 ChatGPT 的发布,人工智能已经成为各行业的头条新闻。 2022 年全球人工智能市场规模估计为 1198 亿美元,预计到 2030 年将达到约 1.6 万亿美元。Databricks 已准备好迎接这一浪潮。该公司的 Lakehouse 平台允许数据团队存储和保护数据、生成分析和见解,并推动机器学习工具的开发。此外,Databricks 还提供与 TensorFlow、PyTorch 和 Scikit-learn 等流行人工智能框架的集成,使构建和部署机器学习模型变得轻松。此外,公司在AI领域的投资和并购动作不断,根据硅谷科技评论数据库(SVTRAI),Databricks除了以13亿美元的价格收购了MosaicML之外,最近一年内 Databricks在AI领域投资案例高达10余起。

在潜在的经济衰退中,节省成本的机会是 Databricks 能够从人工智能中受益的另一个原因。 Comcast 表示,人工智能已帮助将计算成本降低了 10 倍,J.B. Hunt 表示,到 2022 年,它在 IT 基础设施支出上削减了 270 万美元。利用人工智能的公司可以通过自动化流程和生成需要更长时间才能发现的手动洞察来降低成本并提高效率。

Databricks 押注于未来公司将停止使用单独的数据仓库软件,转而使用 Databricks 来满足所有数据处理/存储需求。虽然数据湖市场预计 2020-24 年复合年增长率为 20.6%,到 2024 年将达到 201 亿美元,但数据仓库市场即使规模更大,预计也将经历强劲增长:预计到 2028 年将达到 512 亿美元,并且不断增长2020 年至 2028 年复合年增长率为 10.7%。如果 Databricks 预测的未来没有按计划进行,可能会危及其市场地位。

Databricks 的云平台依赖 AWS、Microsoft Azure 和 Google Cloud Platform 等云基础设施提供商。值得注意的是,Databricks 与微软的合作伙伴关系,当时两家公司合作在 Azure 上首次推出 Databricks 作为第一方服务,这对 Databricks 的增长至关重要,并帮助其收入从 2017 年初的不到 100 万美元增长到超过 100 美元2018 年收入为 1亿美元。Databricks 与主要云提供商的关系中断或定价变化可能会影响 Databricks 提供服务的能力。

在数据扩展的时代,Databricks 通过开发用于数据处理和人工智能应用程序的开源软件,并为企业提供具有附加专有功能的付费版本,使公司能够利用其数据。数据集中化的趋势为 Databricks 提供了利用其数据湖架构并为公司提供单一数据存储和分析平台的机会。此外,人工智能的兴起也为 Databricks 提供了机遇。