Apache Druid

Druid 是一种开源的分析型数据存储,专为事件数据的商业智能(OLAP)查询而设计。Druid 提供了低延迟(实时)数据摄取、灵活的数据探索和快速的数据聚合功能。

Druid 工作方式

Druid 速度很快,因为数据被转换为大量索引的列式格式,这种格式非常适合典型的 OLAP 查询模式。通过 Hive SQL,使用 HDP 中包含的 Druid to Hive 连接器或通过本机 REST API 查询 Druid。

Druid 可以做什么


Feature Description
Sub-Second Queries Druid delivers sub-second queries, even when you have terabytes of data and dozens of dimensions.
Real-Time Data Ingestion Druid makes real-time a reality. Query data seconds after it arrives. Native integration with Apache Kafka makes it simple to enable real-time analytics.
Integrated with Apache Hive Build OLAP cubes and run sub-second SQL queries using any Hive-compatible tool.
Apache Ambari Integration Apache Ambari makes deploying, configuring and monitoring Druid a breeze..

聚焦 Druid

Cloudera 专注于实现快速、可扩展的分析,无缝地整合历史数据和实时数据。

  • 实时分析: Druid/Hive 连接器允许使用 SQL 构建 OLAP 多维数据集,或者使用现有的 Druid 多维数据集。或者充分利用 Hive 强大的 SQL 支持来对您的 Druid 数据进行深度分析。
  • 管理: Apache Ambari 可以轻松部署、配置、监控和管理 Druid 集群。
  • 安全性: Druid 现在完全支持 Kerberos 并可以保护 Hadoop,而 Apache Ambari 负责管理保护您的 Druid 集群的所有繁重工作。

