新闻稿




Dremio重振数据湖


称为您将在线的分析处理(OLAP)数据库,企业数据仓库(EDWS),大规模并行处理(MPP)数据库,而是为分析工作负载而不是交易目的而设计的数据库代表了过度数据库市场的庞大部分。

最初,OLAP工作负载在与OLTP工作负载相同的平台上运行 - 您可能会看到一个Oracle RDBMS执行OLTP,而另一个执行OLAP。但是,随着卷的增加,专门为OLAP工作负载设计的数据库。企业数据仓库成为越来越强大的商业智能市场的关键。

十多年前,EDW市场被Hadoop扰乱了。Hadoop能够查询以原始格式存储的数据,并能够通过部署大规模的商品服务器群集来对任务应用前所未有的并行性。Hadoop提供了一个SQL查询功能(Apache Hive),它允许与现有BI系统集成。

最重要的是,虽然需要ETL工作流程将数据从源系统移动到EDW中,但在Hadoop中,数据可以以本机格式留下,而数据可以留在本地格式中,从而减少将数据从本机格式转换为EDW模式的延迟。

在Hadoop时代,鼓励企业放弃EDW,支持“数据湖”。数据湖是结构化和非结构化数据的巨大存储库,可以使用Hadoop利用竞争优势来利用。

但是,由于公司将其资产迁移到云端,他们通常会发现Hadoop存储层(HDFS)和Hadoop处理引擎的替代方案。此外,许多数据湖泊成为“数据沼泽”充满了定义不良和不一致的数据集,没有明确的导航手段。

但数据湖的概念中存在静物,这证明了Dremio的成功。Dremio将自己描述为“云数据湖”平台。它提供了一种基于云的引擎,可在云对象存储(如Amazon S3,Azure)数据湖存储,甚至遗留Hadoop系统之外。

为什么Dremio会成功,Hadoop最终失败了?首先,Dremio是云原生。当企业将资产从内部部署移入云端时,Hadoop未能提供引人注目的产品。DREMIO完全针对云使用案例进行了优化。

其次,虽然Hadoop是可扩展的,但实时BI太慢了。Hadoop SQL引擎比EDW替代品慢的数量级。相比之下,DREMIO提供了柱状内存高速缓存,反射(类似于物化视图)和复杂的并行查询优化,这允许实时执行查询。

第三,数据湖泊因元数据管理不佳而成为数据沼泽。新利游戏并不总是可以确定在Hadoop数据湖中持有的数据的定义和含义。为了缓解此失败,DREMIO支持一个语义层,该层将业务意义添加到湖内的数据。

DREMIO成功地产生了一些严肃的采用,最近完成了1.35亿美元的D Rifiend,展示了投资者对愿景的信念。

DREMIO将其数据湖模型视为最终提出单片数据仓库。虽然这种修辞让人让人想起了Hadoop时代的高度,但肯定会增加经济激励措施,以分析存储在廉价云存储器上的质量数据,而不是将其迁移到相对昂贵的数据库存储。

然而,它肯定太早了解死亡!再次! - 数据仓库。数据湖的经济论点可以说可以不考虑BI处理所涉及的所有费用。休息时的数据存储成本只是一次考虑。当必须实时聚合大量数据时,如果数据存储在“便宜”和未优化的云存储上,费用可能会更高。将数据转换为优化的EDW模式可能会导致更快,因此更便宜(在CPU方面)实时查询。在该转换期间,数据也与组织渴望的“真相的单个视图”进行了调整和清理。

数据湖泊和数据仓库模型似乎是可行性和充满活力的段。Dremio看起来很好地利用前者,而数据仓储等雪花等替代品在后期开采。