您的位置首页 >企业 >

Databricks将其Delta Lake项目带到Linux基金会

导读 由Apache Spark的原始开发人员创建的大数据分析服务Databricks今天宣布,它将在开放治理模型下将其用于构建数据湖的Delta Lake开源项目带

由Apache Spark的原始开发人员创建的大数据分析服务Databricks今天宣布,它将在开放治理模型下将其用于构建数据湖的Delta Lake开源项目带入Linux基金会。该公司于今年早些时候宣布启动Delta Lake,尽管它仍然是一个相对较新的项目,但它已被许多组织采用,并得到了英特尔,阿里巴巴和Booz Allen Hamilton等公司的支持。

“ 2013年,我们有一个小项目,我们在Databricks的Spark中添加了SQL[…]并将其捐赠给Apache基金会,” Databricks首席执行官兼联合创始人Ali Ghodsi告诉我。“多年来,人们逐渐改变了他们实际利用Spark的方式,直到最近一年左右,它才真正开始使我们意识到,正在出现一种新模式,Spark的使用方式与我们以前可能完全不同。最初计划。”

他说,这种模式是公司将所有数据都放入数据湖中,然后对这些数据做几件事,其中机器学习和数据科学是显而易见的。但是他们也正在做与传统上与数据仓库相关的事情,例如商业智能和报告。Ghodsi用于这种用法的术语是“湖房”。越来越多,Databricks看到Spark用于此目的,而不仅仅是替换Hadoop并进行ETL(提取,转换,加载)。“我们已经看到越来越多的这种Lake House模式出现,我们希望对此加倍。”

今天发布的Spark 3.0除了启用新功能外,还启用了更多用例并大大加快了使用速度,新功能使您可以向Spark添加可插拔数据目录。

Ghodsi说,Data Lake本质上是Lake House模式的数据层。例如,它为数据湖提供了ACID事务支持,可伸缩的元数据处理和数据版本控制。所有数据都以Apache Parquet格式存储,用户可以强制执行模式(并在需要时相对容易地更改它们)。

有趣的是,Databricks选择了Linux Foundation这个项目的根源在Apache Foundation中。Ghodsi谈到公司为何选择Linux Foundation时说:“我们很高兴与他们合作。”“他们运行着这个星球上最大的项目,包括Linux项目以及许多云项目。这些云原生的东西都在Linux Foundation中。”

“将Delta Lake引入Linux基金会的中立组织之下,将有助于依赖该项目的开源社区开发解决存储和处理大数据(本地和云端)的技术,”该公司副总裁Michael Dolan说。 Linux基金会的战略计划。“ Linux Foundation帮助开源社区利用开放治理模型来实现广泛的行业贡献和共识建立,这将改善数据存储和可靠性的最新水平。”

标签:

免责声明:本文由用户上传,如有侵权请联系删除!