Doris 集群监控
在 Manager 中集成了 Prometheus、Grafana 与 AlertManager,可以在 Manager 中查看与管理集群的监控。
查看集群监控
Manager 提供了丰富的预制监控指标,帮助您实时了解集群的运行状况。

监控指标说明如下:
| 分类 | 指标名称 | 指标描述 |
|---|---|---|
| Cluster Overview | FE Node | 集群 FE 总节点数 |
| FE Not Alive | 集群掉线的 FE 节点数 | |
| Used Capacity | 集群中 BE 的已使用空间 | |
| BE Node | 集群 BE 总节点数 | |
| BE Not Alive | 集群掉线的 BE 节点数 | |
| Total Capacity | 集群中 BE 可用存储空间 | |
| FE JVM Heap Use Rate | 集群中 FE 的 jvm heap 使用率 | |
| BE Compaction Score | 每个 BE 的 compaction score | |
| Load Rows Rate | 单位时间内的数据导入情况 | |
| QPS | 不同 FE 的 qps 情况 | |
| 99th Latency | 不同 FE 的 99 分位查询延时 | |
| Host Monitor | CPU Used Rate | 节点的 cpu 使用率 |
| Mem Usage | 节点的内存使用大小 | |
| Mem Used Rate | 节点的内存使用率 | |
| I/O Util | 单位时间内的磁盘 io util 情况 | |
| DIsk Used Rate | 磁盘空间已用百分比 | |
| Disk Write Throughput | 磁盘写能力的吞吐情况 | |
| Disk Read Throughput | 磁盘读能力的吞吐情况 | |
| Network Outbound Traffic | 网关的 Outbound 流量 | |
| Network Inbound Traffic | 网关的 inbound 流量 | |
| Query Statistic | RPS | 单位时间内的不同 FE 的请求 |
| QPS | 不同 FE 的 qps | |
| 99th Latency | 99 分位的查询延时 | |
| Query Percentile | 查询延时(不同分位) | |
| Query Error [1m] | 1 min 内的查询失败率 | |
| Connections | 每个 FE 的连接数 | |
| Jobs | Broker Load Job | Broker load 任务状态分布 |
| Insert Load Job | Insert 任务状态分布 | |
| Routine Load Job | Routine load 任务状态分布 | |
| Spark Load Job | Spark load 任务状态分布 | |
| Broker Load Tendency | Broker load 任务情况 | |
| Insert Load Tendency | Insert 任务情况 | |
| Routine Load Tendency | Routine load 任务情况 | |
| Spark Load Tendency | Spark load 任务情况 | |
| SC Job | 正在运行的 schema change 任务数 | |
| Report Queue Size | master 节点的 Report Queue Size | |
| Rollup Job | 正在运行的 rollup 任务数 | |
| Transactions | Txn Begin/Success on FE | FE 上发起的 txn 和成功的 txn 总数 |
| Txn Failed/Reject on FE | 单位时间内,BE 的 txn 的 failed 率和 reject 率 | |
| Publish Task on BE | BE 上 publish task 得总数 | |
| Txn Status on FE | 不同状态的 txn 的数量 | |
| Txn Load Bytes/Rows rate | 单位时间内导入的数据的行数和大小 | |
| FE | Max Replayed Journal ID | FE 的 Journal ID |
| Edit Log Size | FE 的 edit log 大小 | |
| Image Write | FE 的 image write 次数 | |
| Image Push | FE 的 image push 次数 | |
| Image Counter | FE 的 image write 和 push 的次数 | |
| Image Clean | Fe image 清理成功和失败的情况 | |
| Edit log Clean | Fe edit log 清理成功和失败的情况 | |
| BDBJE Write | BDBJE 的 99 分位写入延时 | |
| BDBJE Read | 单位时间内 BDBJE 的读 | |
| JVM Heap | Fe jvm heap 使用情况 | |
| Scheduling Tablets | 数据均衡或者恢复过程中需要被调度的 tablet 数量 | |
| JVM Old GC | Old Gc | |
| JVM Young GC | Young gc | |
| JVM Old | Jvm old size | |
| JVM Young | Jvm young size | |
| FE Collect Compaction Score | FE 搜集到的每个 BE 的 compaction score | |
| JVM Non Heap | FE 的 jvm 的 non heap 使用情况 | |
| JVM Threads | Jvm 的 thread 数量 | |
| BE | Disk Usage | BE 的磁盘空间使用率 |
| BE FD Count | BE 上 fd 的使用情况 | |
| BE Thread Num | BE 的 thread 分布情况 | |
| Tablet Meta Read | 单位时间内 BE 的元数据读取情况 | |
| Tablet Meta Write | 单位时间内 BE 的元数据写入情况 | |
| Tablet Distribution | BE 上 tablet 的分布情况 | |
| BE Compaction Base | 单位时间内 BE 做 base compaction 任务的速率 | |
| BE Compaction Cumulate | 单位时间内 BE 做 cumulative compaction 任务的速率 | |
| BE Push Bytes | 单位时间内 BE push_request_write 的数据大小 | |
| BE Push Rows | 单位时间内 BE push_request_write 的行数 | |
| BE Scan Bytes | BE 单位时间内扫描的数据大小 | |
| BE Scan Rows | BE 单位时间内扫描的数据行数 | |
| BE Tasks | Finish Task Report | 每个 BE 上 task 完成的总数 |
| Push Task | 每个 BE 上执行成功的 push task 得任务数量 | |
| Push Task Cost Time | 每个 BE 上执行 push task 得耗时 | |
| Delete | BE 上执行 delete 任务的总数 | |
| Base Compaction | BE 上执行 base_compaction 任务的总数 | |
| Cumulative Compaction | BE 上执行 cumulative_compaction 任务的总数 | |
| Clone | BE 上执行 clone 任务的总数 | |
| Create Rollup | BE 上执行 create_rollup 任务的总数 | |
| Schema Change | BE 上执行 schema_change 任务的总数 | |
| Create Tablet | BE 上执行 create_tablet 任务的总数 |
新建监控面板
在 Manager 中有两个监控面板:
-
Doris Dashboard Overview:预定义的 Doris 监控面板,提供基本的 Doris 与主机的监控项,无法修改
-
Default Custom Doris Dashboard Overview:用户自定义监控面板,可以修改
在新建面板时,可以修改 Default Custom Doris Dashboard Overview 面板,增加自定义 dashboard。
-
选择 Default Custom Doris Dashboard Overview 看板
在监控页面左上角选择 Default Custom Doris Dashboard Overview 面板:

-
复制一个新的 dashboard
复制一个新的面板(panel),可以退拽到任意模块中:

-
编辑复制的面板
编辑面板,规则参照 edit panel (opens in a new tab)。

管理集群监控
开启/关闭集群监控
在用户配置中选择服务配置,可以开启或关闭监控与告警服务。

开启/关闭监控认证
自 Manager v24.0.3 版本后,默认为监控组件设置认证功能。可以为 Prometheus、AlertManager 与 Grafana 分别设置账号与密码。在 webserver/conf/manager.conf 文件中可以修改一下配置:
| 配置 | 类型 | 说明 |
|---|---|---|
| MONITOR_AUTH_ENABLE | BOOLEAN | 打开或关闭监控认证,默认为 TRUE。 |
| GRAFANA_USER | STRING | Grafana 用户名,目前只支持 admin 用户。 |
| GRAFANA_PASS | STRING | Grafana 密码,不单独配置会为其设置随机密码。 |
| PROMETHEUS_USER | STRING | Prometheus 用户名,默认使用 admin 用户。 |
| PROMETHEUS_PASS | STRING | Prometheus 密码,不单独配置会为其设置随机密码。 |
| ALERTMANAGER_USER | STRING | AlertManager 用户名,默认使用 admin。 |
| ALERTMANAGER_PASS | STRING | AlertManager 密码,不单独配置会为其设置随机密码。 |