Databricks将其Delta Lake项目带到Linux基金会

由Apache Spark的原始开发人员创建的大数据分析服务Databricks今天宣布，它将在开放治理模型下将其用于构建数据湖的Delta Lake开源项目带入Linux基金会。该公司于今年早些时候宣布启动Delta Lake，尽管它仍然是一个相对较新的项目，但它已被许多组织采用，并得到了英特尔，阿里巴巴和Booz Allen Hamilton等公司的支持。

“ 2013年，我们有一个小项目，我们在Databricks的Spark中添加了SQL[…]并将其捐赠给Apache基金会，” Databricks首席执行官兼联合创始人Ali Ghodsi告诉我。“多年来，人们逐渐改变了他们实际利用Spark的方式，直到最近一年左右，它才真正开始使我们意识到，正在出现一种新模式，Spark的使用方式与我们以前可能完全不同。最初计划。”

他说，这种模式是公司将所有数据都放入数据湖中，然后对这些数据做几件事，其中机器学习和数据科学是显而易见的。但是他们也正在做与传统上与数据仓库相关的事情，例如商业智能和报告。Ghodsi用于这种用法的术语是“湖房”。越来越多，Databricks看到Spark用于此目的，而不仅仅是替换Hadoop并进行ETL(提取，转换，加载)。“我们已经看到越来越多的这种Lake House模式出现，我们希望对此加倍。”

今天发布的Spark 3.0除了启用新功能外，还启用了更多用例并大大加快了使用速度，新功能使您可以向Spark添加可插拔数据目录。

Ghodsi说，Data Lake本质上是Lake House模式的数据层。例如，它为数据湖提供了ACID事务支持，可伸缩的元数据处理和数据版本控制。所有数据都以Apache Parquet格式存储，用户可以强制执行模式(并在需要时相对容易地更改它们)。

有趣的是，Databricks选择了Linux Foundation这个项目的根源在Apache Foundation中。Ghodsi谈到公司为何选择Linux Foundation时说：“我们很高兴与他们合作。”“他们运行着这个星球上最大的项目，包括Linux项目以及许多云项目。这些云原生的东西都在Linux Foundation中。”

“将Delta Lake引入Linux基金会的中立组织之下，将有助于依赖该项目的开源社区开发解决存储和处理大数据(本地和云端)的技术，”该公司副总裁Michael Dolan说。 Linux基金会的战略计划。“ Linux Foundation帮助开源社区利用开放治理模型来实现广泛的行业贡献和共识建立，这将改善数据存储和可靠性的最新水平。”

标签： Databricks

猜你喜欢

最新文章