现代化数仓(湖仓一体)
与传统数据仓库不同,湖仓一体实现了存储与计算的完全分离。湖仓一体将数据湖和数据仓库的优势相结合,存储层以 HDFS 或云对象存储为基础,通过开放的数据格式存储数据,计算层统一了实时、历史数据、批处理和流处理,所有引擎共享相同的数据,打造了 Shared Data 的架构。
湖仓解决方案面临的挑战
查询性能瓶颈
当前数据湖的分析引擎,无法满足低成本的同时提供低延迟的查询需求,亟需高性能计算引擎(如基于内存优化、向量化执行)加速数据处理。
数据格式多样性
许多湖仓分析引擎对开放表格式和 Catalog 支持不足,而多样化的数据格式在优化和性能需求方面各有差异,从而降低了数据管理的效率。
湖仓集成能力弱
大部分湖仓引擎无法用作数据仓库,而大量数据仓库无法访问湖仓,导致数据仓库与数据湖之间的集成困难,进而引发数据冗余和数据孤岛等问题。
为什么选择 SelectDB
极速
基于 MPP 执行框架和 Pipeline 数据处理模型,查询引擎在多机多核的分布式环境下能够快速处理海量数据。凭借高效的元数据和数据缓存机制,SelectDB 分析引擎性能超出 Trino 2-3 倍,实现极速性能。
开放
通过可扩展的连接器框架,无缝集成湖仓生态系统中的主流开放数据格式和 Catalog,同时广泛支持多种数据源,如 Hive、Iceberg、Hudi、Paimon 以及支持 JDBC 协议的数据库系统。
统一
凭借内置存储,SelectDB 既可以作为分析型数据库使用、也可以作为湖仓分析引擎使用。融合统一的架构,降低架构复杂性的同时,实现数据一致性和管理一致性。
在引入 Doris 替换 Presto 后,报表业务已 100% 切换到 Doris 集群中,日均查询量 100W+,P95 性能提升近 3 倍,硬件资源节省达 48%。

基于 Apache Doris 和 Iceberg 构建了湖仓融合架构,实现架构的大幅简化及统一,日均查询量超过 1500 万,总存储数据量 PB 级别。

集群规模超 50 套,节点超 3000 个,存储超 15PB。在湖仓融合分析方面,查询 IO 请求量从几百 GB 降至几百 MB,有效缓解了网络带宽压力。

SelectDB 现代化数仓(湖仓一体)解决方案
分析负载
长时间运行 ETL
机器学习
轻量级 ETL
交互式分析
批处理引擎
(Spark, ...)实时分析引擎
(SelectDB)数据湖
(Iceberg, Hudi, Paimon...)Catalog
(Polaris, Unity, Gravitino...)数据源
Tables
Streams
Files
...
实时分析引擎
SelectDB 作为实时分析引擎,主要负责支持交互式分析和轻量级 ETL 计算工作负载。
批处理引擎
Spark 等批处理引擎主要负责支持长时间运行 ETL 和机器学习计算工作负载。
湖仓存储
基于数据湖,使用开放表格式和 Catalog 构建开放湖仓存储。