仪表盘
服务健康
资源利用率
内存和 CPU
以下是这些图表中显示的系统表对应指标:
| 图表 | 对应的指标名称 | 聚合 | 说明 |
|---|---|---|---|
| 已分配内存 | CGroupMemoryTotal | 最大值 | |
| 已分配 CPU | CGroupMaxCPU | 最大值 | |
| 已使用内存 | MemoryResident | 最大值 | |
| 已使用 CPU | 系统 CPU 指标 | 最大值 | 通过 Prometheus 端点获取的 ClickHouseServer_UsageCores |
数据传输
高级仪表板
ClickHouse Cloud 会从系统表中抓取并存储此仪表板显示的指标,因此即使服务处于休眠状态,也仍然可以查看这些指标。访问这些指标不会向底层服务发起查询,也不会唤醒休眠中的服务。
| 图表 | 对应的 ClickHouse 指标名称 | 系统表 | 聚合类型 |
|---|---|---|---|
| 查询数/秒 | ProfileEvent_Query | metric_log | Sum / bucketSizeSeconds |
| 运行中的查询 | CurrentMetric_Query | metric_log | Avg |
| 运行中的合并 | CurrentMetric_Merge | metric_log | Avg |
| 已选取字节数/秒 | ProfileEvent_SelectedBytes | metric_log | Sum / bucketSizeSeconds |
| IO 等待 | ProfileEvent_OSIOWaitMicroseconds | metric_log | Sum / bucketSizeSeconds |
| S3 读取等待 | ProfileEvent_ReadBufferFromS3Microseconds | metric_log | Sum / bucketSizeSeconds |
| S3 读取错误数/秒 | ProfileEvent_ReadBufferFromS3RequestsErrors | metric_log | Sum / bucketSizeSeconds |
| CPU 等待 | ProfileEvent_OSCPUWaitMicroseconds | metric_log | Sum / bucketSizeSeconds |
| OS CPU 使用率 (userspace,归一化) | OSUserTimeNormalized | asynchronous_metric_log | |
| OS CPU 使用率 (kernel,归一化) | OSSystemTimeNormalized | asynchronous_metric_log | |
| 从磁盘读取 | ProfileEvent_OSReadBytes | metric_log | Sum / bucketSizeSeconds |
| 从文件系统读取 | ProfileEvent_OSReadChars | metric_log | Sum / bucketSizeSeconds |
| 内存 (已跟踪,字节) | CurrentMetric_MemoryTracking | metric_log | |
| MergeTree parts 总数 | TotalPartsOfMergeTreeTables | asynchronous_metric_log | |
| 单个分区的最大 parts 数 | MaxPartCountForPartition | asynchronous_metric_log | |
| 从 S3 读取 | ProfileEvent_ReadBufferFromS3Bytes | metric_log | Sum / bucketSizeSeconds |
| 文件系统缓存大小 | CurrentMetric_FilesystemCacheSize | metric_log | |
| Disk S3 写请求数/秒 | ProfileEvent_DiskS3PutObject + ProfileEvent_DiskS3UploadPart + ProfileEvent_DiskS3CreateMultipartUpload + ProfileEvent_DiskS3CompleteMultipartUpload | metric_log | Sum / bucketSizeSeconds |
| Disk S3 读请求数/秒 | ProfileEvent_DiskS3GetObject + ProfileEvent_DiskS3HeadObject + ProfileEvent_DiskS3ListObjects | metric_log | Sum / bucketSizeSeconds |
| FS 缓存命中率 | sum(ProfileEvent_CachedReadBufferReadFromCacheBytes) / (sum(ProfileEvent_CachedReadBufferReadFromCacheBytes) + sum(ProfileEvent_CachedReadBufferReadFromSourceBytes)) | metric_log | |
| 页缓存命中率 | greatest(0, (sum(ProfileEvent_OSReadChars) - sum(ProfileEvent_OSReadBytes)) / (sum(ProfileEvent_OSReadChars) + sum(ProfileEvent_ReadBufferFromS3Bytes))) | metric_log | |
| 网络接收字节数/秒 | NetworkReceiveBytes | asynchronous_metric_log | Sum / bucketSizeSeconds |
| 网络发送字节数/秒 | NetworkSendBytes | asynchronous_metric_log | Sum / bucketSizeSeconds |
| 并发 TCP 连接数 | CurrentMetric_TCPConnection | metric_log | |
| 并发 MySQL 连接数 | CurrentMetric_MySQLConnection | metric_log | |
| 并发 HTTP 连接数 | CurrentMetric_HTTPConnection | metric_log |
Query insights
system.query_log 表是用于查询优化、调试以及监控整体集群健康状态和性能的关键信息来源。
选择某个服务后,左侧边栏中的 Monitoring 导航项会展开,并显示 Query insights 子项:
顶层指标
最近查询
查询下钻
Settings 和 Profile Events 项,以查看更多信息。
- 通知 — 配置扩缩容事件、错误和计费相关告警
- 高级仪表板 — 各仪表板可视化项的详细参考
- 查询系统表 — 对系统表运行自定义 SQL 查询,深入查看内部信息
- Prometheus 端点 — 将指标导出到 Grafana、Datadog 或其他兼容 Prometheus 的工具