databricks 成立时间（Databricks崛起启示录）

小君 2023-05-05 11:16:43 380

databricks 成立时间（Databricks崛起启示录）因为没有优秀的开发者社区运营和推广团队，Spark变现比较难，之后团队成员决定成立Databricks，以商业化方式推动Spark社区发展。即便Spark是过去硅谷的顶流产品，但这并没有让AWS等巨头买账，他们选择绕过Databricks，直接将Spark集成到自己的产品里。在Databricks卖产品还不如办Spark峰会收入高的时候，Amazon EMR已经针对Spark实现了几亿营收。十几年前在UC Berkley的AI实验室里，Ghodsi和伙伴发起spark项目：做一个能够更轻松处理大量数据和机器算法的引擎，并且开源了代码。相比较多数开源项目，面向的都是底层技术性强要求的infra工程师，spark面向更广泛的客户群，同时在上层加了很多的新的API，降低了技术门槛。在数据量井喷的背景下，上云趋势也越来越明确，以Snowflake、Databricks为代表的大数据公司应运而生，前

databricks 成立时间（Databricks崛起启示录）(1)

图片来源@视觉中国

文｜新眸，作者｜叶静，编辑｜桑明强

在数据库领域，如果问当下谁最火，那Databricks一定排得上号。

去年8月，距离10亿美元的G轮融资刚过去7个月，Databricks再次获得16亿美元H轮融资，身价摇身一变成380亿美元，成为外界一致认为的超级独角兽。一直以来，数据领域备受关注，如果从2007年开始计算，全球的数据量至今已经膨胀了近200倍，数字化被写入战略规划成了各类行业的共识。

在数据量井喷的背景下，上云趋势也越来越明确，以Snowflake、Databricks为代表的大数据公司应运而生，前者基于AmazonS3打造了云端的数据仓库，后者除了推出Lakehouse（湖仓一体），现在又押宝机器学习，试图包管数据在抵达机器学习之前的所有流程。

不同的是，Databricks已经从原来的infra向更广泛场景延伸，和昔日的伙伴Snowflake同台竞技。与此同时，以AWS为代表的云巨头，也都曾战略性投资过Databricks，但现在也都在自研数据分析套件，竞合关系渐趋白热化，让数据基础设施的战火扑朔迷离。

从0到1

企业的性格往往被它的创始人和技术背景所决定。

十几年前在UC Berkley的AI实验室里，Ghodsi和伙伴发起spark项目：做一个能够更轻松处理大量数据和机器算法的引擎，并且开源了代码。相比较多数开源项目，面向的都是底层技术性强要求的infra工程师，spark面向更广泛的客户群，同时在上层加了很多的新的API，降低了技术门槛。

因为没有优秀的开发者社区运营和推广团队，Spark变现比较难，之后团队成员决定成立Databricks，以商业化方式推动Spark社区发展。即便Spark是过去硅谷的顶流产品，但这并没有让AWS等巨头买账，他们选择绕过Databricks，直接将Spark集成到自己的产品里。在Databricks卖产品还不如办Spark峰会收入高的时候，Amazon EMR已经针对Spark实现了几亿营收。

Databricks创始团队走了一条不被大众熟知的激进的路：云。

虽然不管对公司还是客户来说，云可以更快部署，也更容易维护，但正如联合创始人Reynold Xin所说，大部分的人知道云是未来，但绝不是现在。当时只有小部分风投注资这家初创企业，New Enterprise Associates的投资者Pete Sonsini说：“我们在Databricks的软件收入为零时投资，认为他们会在大流行中加速发展，也许是一两个月，每个人都无法及时知道会发生什么”。和Databricks一样，他们也在赌未来。

databricks 成立时间（Databricks崛起启示录）(2)

Databricks年度融资及估值变动

2013到2015这三年，虽然有硅谷风投支持，Databricks也借力这些资金吸引人才，推出了基于云端的简化大数据处理平台Databricks Cloud，但不管是招主管、找融资还是见客户，Databricks都会被质疑：真的不支持on-prem吗？

因为背靠Spark，很多客户甚至愿意年付几千万美金让Databricks提供咨询定制化项目，但Databricks做的是一个给数据工程师的平台这是当时大部分公司闻所未闻的玩法也是前几年商途不顺的原因之一。值得一提的是，彼时的云界开源前辈Cloudera曾改名“Cloud Era”，可在当时的市场情况下，最终还是转向了on-prem做定制和售后支持才得以存活。

在这种逻辑下，云厂商把开源软件拿来经过简单的封装，再作为服务卖出去。由于这个过程只需要简单的部署和调试，工程成本极低，定价也不高，巨头从中赚走了大部分，这对Databricks来说相当于吸血，怎样和有钱有人的云巨头对抗，是Databricks亟需在技术上打造的壁垒。

他们赌的另一条路，是不做数仓。

彼时数据仓库竞争过于激烈，以亚马逊为首的巨头占据了大部分市场份额，Databricks继续小众打法：避开红海，尝试切入一个新兴却可能会有爆炸性增长的小市场，针对数据科学家、数据工程师和AI的方向做产品。

开源小公司的优势在于更懂项目，迭代更快，能够聚焦、死磕产品性能，而公有云大厂很难在单一方向投入最好的工程师。随着数据量的爆发，云的生态优势逐渐被认可，加上当时市面上也没有大量竞品，这给Databricks的产品带来了机会。

另一方面，在2019年微软投资Databricks之前，正巧CEO纳德拉推动云为先的战略，两家合作的Azure Databricks进入了微软的企业许可协议。微软从一个大数据竞争劣势的云产品摇身成为业界领先，形成了云巨头三足鼎立的局面；因为几乎所有大企业都和微软有ELA，共生效应之下，客户原本买云买Office的预算自然流向了Databricks。

有人将Databricks创始团队比作一群幸运的加州嬉皮士RD，他们信仰技术，信仰来源，信仰共享和长期主义，这些也都成为了Databricks的底色。

超级加倍

让所有人感到意外的是，2019年后，Databricks以绝无仅有的加速度在增长。

截至2021年2月，公司已经筹集了近20亿美元资金，包括由富兰克林邓普顿领投的10亿美元G轮融资，此时Databricks估值已经达到280亿美元；在经过最新轮融资后，Databricks380亿的身价与三年前的62亿相比暴增了近13倍。

基本面决定价值，价值决定价格，如果将Databricks的成功仅归结于对技术犀利的洞察，借助了巨人的肩膀和好运气，这还远远不够。基于开源的创新是Databricks成长的关键，从大数据领域杀入云计算和AI，它的产品矩阵里包括DeltaLake、MLflow、Koalas以及开源分析引擎Spark等杀伤利器。

其中，超过80%的用户使用Delta Lake；MLFlow为数据科学家提供了标准化的开源框架，下载量以每月80万的速度增长，拥有比Spark更多的用户；而Koalas可以让数据科学家在笔记本电脑上使用Pandas编程，调用几个API就可以将工作部署到大型的分布式Spark集群上，把Pandas社区的数据科学创新带给了Spark用户。

帮助其他企业构建自己的AI能力，透露出了Databricks的野心：从BI到AI，构建一个企业AI平台，因为Ghodsi认为，在企业计算领域，行业还没有出现头部的企业AI平台。

除了软件产品本身，Databricks的业务模式也有所不同。

传统的开源商业模式是软件免费，厂商收取支持和服务费用，这在on-prem里或许可行，但在云的世界就不一定了。Databricks在开发、软件运行、运营和托管方面向客户收费，采用SaaS开源的盈利模式，客户可以在本地开源平台下载免费的基础软件，同时也可以下载开源公司打造的其他付费版本。

不高估开源，也不低估市场，Ghodsi说：“在云端托管开源项目并把它们租给用户，客户流失率更低，利润增长更快”。SaaS租赁模式下，Databricks的核心知识产权没有存放在它所赞助的开源软件项目中，而是在它用来监管云端软件的工具中，这样避免了泄露的风险。

根据报告，Databricks最新ARR (年度经常性收入)达到6亿美元，相当于Snowflake同财年12亿营业收入的一半，截至目前，后者市值近670亿美元，如果按照两倍之比来简单预估，Databricks380亿的估值也比较合理。以新估值计算，Databricks的价值是当前ARR的63倍，相较于2020年的4.25亿美元，ARR近30%的增长率让投资者对它未来的收入十分看好。

databricks 成立时间（Databricks崛起启示录）(3)

Snowflake与Databricks定价对比（来源：官网）

另一方面，通过对比官网收费方式发现，虽然是平台租出服务器的计算资源，但这些服务器整个系统都建立在主要的云厂商的基础服务上。以Snowflake（左）为例，同样是以每秒粒度使用的计算资源付费，Snowflake是平台和云厂商打包收费方式，客户对底层服务界面（如EC2）和上游的Snowflake的成本花费要一次性付清，但比例是怎样无从得知，而打包之后Snowflake需要支付给云厂商另外成本，这在无形中增加了费用风险。

Databricks（右）的玩法是分开收费，用户的账单主要分为两部分：常规的底层云厂商服务器租用成本，以及Databricks在这些服务器上的功能费用。客户使用底层器时，费用单独付给云厂商，并不算在Databricks的营收里。

所以如果对比营收，比如2020年的Snowflake营收近6亿，但刨去付给云厂商的费用，和Databricks4亿多的营收相比，也差不了多少。而这既是Databricks毛利率比Snowflake高的原因，也是前者赚钱能力强的体现。有观点猜测Databricks迟迟不上市的原因，如果根据Ghodsi的说法，是为了避免二级市场所带来的波动，或许收费方式被迫改变等不可预测因素也在里面。

天时地利人和

根据官网显示，除了为数据科学家、数据领导者与数据工程师提供角色解决方案，Databricks还利用大数据和AI为广告和营销、通讯服务商、教育、能源、联邦政府、金融、医疗等13类行业提供服务。

从类别数量上，Databricks要多于Snowflake，此时全球已经有7000 多家组织（包括荷兰银行、康泰纳仕、H&M 集团、再生元和壳牌）依靠 Databricks 实现大规模数据工程、协作数据科学、全生命周期机器学习和业务分析。

通常情况下，企业客户在进行数据架构时，第三方平台提供数据湖方案，在数据湖中做一些常见的数据工程；同时会有一个数据仓库，存放相当于数据湖5%-10%的结构化数据，来做BI等简单的数据分析。

但由于数据分裂在两个系统上，针对同一个客户问题分析，不同团队有不同权限，因而会看到不同版本的同一份数据，当得出不同结论后，做商业决策的团队不相信数据，进而导致底层数据平台失信，这是个很致命的问题。

将结构化和非结构化数据结合到一个地方，让客户在不移动底层数据的情况下执行数据科学和商业智能工作，是大数据发展的一个关键变化。于是，Databricks决定力推Lakehouse，能够直接在数据湖的低成本存储上，实现类似于数据仓中的数据结构和数据管理的功能，可支持BI到AI所有的工作流。

从Databricks的网页介绍上看，无论是数据工程、数据科学，还是机器学习都要依靠Lakehouse运行，加上过去使用低成本对象存储的数据湖的访问速度很慢，如今DB SQL提高了分析质量和性能，使数据湖在大数据集上的处理与数据仓库相媲美。

“Lakehouse是一个新赛道，这是一场地盘争夺战”，H轮融资之后，Ghodsi表示，这笔资金将主要用于加速Lakehouse的产品创新和市场开拓。与此同时，Databricks透露保留所有主要公共云的选择和灵活性，并将Lakehouse发展成传统数据仓库的替代品。

越来越多的企业乐于看到Databricks的实力和发展潜力，这和它本身的商业逻辑有关，业内传统企业如Teradata在营收额上虽高过Databricks好几个身位，但市值仍徘徊在40多亿美元。大剂量的资金注入后，Databricks选择并购来填补产品路线图中的空白或不足，重点是机器学习和数据初创公司，以及扩大与云公司的合作伙伴关系。

“云、开源、机器学习，这三个方面已成为每家企业战略的核心。我们真的很幸运能够处在这三大趋势的中心位置上。”Ghodsi在接受采访时说到。如果说2019年前看好Databricks的小部分风投是赌趋势，如今匆匆进场的其他机构也并没有迟到，因为在他们眼里，这家独角兽仍具备难以估量的增长能力。

网站首页

返回栏目

databricks 成立时间（Databricks崛起启示录）

从0到1

超级加倍

天时地利人和

猜您喜欢：

相关文章