指标和警报
MinIO 使用 Prometheus 数据模型发布指标。您可以使用任何抓取工具从 MinIO 中提取指标数据以进行进一步分析和警报。
从 MinIO Server RELEASE.2024-07-15T19-02-30Z 和 MinIO Client RELEASE.2024-07-11T18-01-28Z 开始,指标版本 3 提供了额外的端点。MinIO 建议新部署使用版本 3。
指标版本 2
现有部署可以继续使用版本 2 的指标和Grafana 仪表盘。
版本 3 端点
对于指标版本 3,所有指标都在基础端点 /minio/metrics/v3 下可用。您可以抓取基础端点以在单个操作中收集所有指标,或附加一个可选路径以返回特定类别。
例如,以下端点返回审计指标
http://HOSTNAME:PORT/minio/metrics/v3/audit
将 HOSTNAME:PORT 替换为 MinIO 部署的FQDN和端口。对于使用负载均衡器管理 MinIO 节点之间连接的部署,请指定负载均衡器的地址。
默认情况下,MinIO 需要身份验证才能抓取指标端点。要生成所需的持有者令牌,请使用 mc admin prometheus generate。您还可以通过将 MINIO_PROMETHEUS_AUTH_TYPE 设置为 public 来禁用指标端点身份验证。
MinIO 提供以下相对于基础 URL 的抓取端点
类别 |
路径 |
|---|---|
API |
|
审计 |
|
集群 |
|
调试 |
|
ILM |
|
日志记录器 Webhook |
|
通知 |
|
复制 |
|
扫描器 |
|
系统 |
|
有关每个端点的完整指标列表,请参见可用的版本 3 指标。
要在 MinIO 控制台中启用历史数据可视化,请在 MinIO 部署中的每个节点上设置以下环境变量
将
MINIO_PROMETHEUS_URL设置为 Prometheus 服务的 URL将
MINIO_PROMETHEUS_JOB_ID设置为分配给收集的指标的唯一作业 ID
可用的版本 3 指标
MinIO 发布了许多关于集群、API 请求、存储桶和 MinIO 服务其他方面的指标
许多指标包含标签,用于标识生成该指标的资源和其他相关详细信息。
API 指标
关于当前节点服务的请求的指标。
路径 |
描述 |
|---|---|
|
所有请求的指标。 |
|
给定存储桶的所有请求的指标。 |
/api/requests
名称 |
描述 |
标签 |
|---|---|---|
|
因身份验证失败而被拒绝的请求总数。 |
|
|
因标头无效而被拒绝的请求总数。 |
|
|
因时间戳无效而被拒绝的请求总数。 |
|
|
无效请求的总数。 |
|
|
等待队列中的请求总数。 |
|
|
传入请求的总数。 |
|
|
当前正在处理的请求总数。 |
|
|
请求的总数。 |
|
|
出现 4xx 或 5xx 错误的请求总数。 |
|
|
出现 5xx 错误的请求总数。 |
|
|
出现 4xx 错误的请求总数。 |
|
|
被客户端取消的请求总数。 |
|
|
API 调用中首字节时间的分布。 |
|
|
已发送的总字节数。 |
|
|
已接收的总字节数。 |
|
/bucket/api
名称 |
描述 |
标签 |
|---|---|---|
|
为存储桶发送的总字节数。 |
|
|
为存储桶接收的总字节数。 |
|
|
当前正在处理的存储桶请求总数。 |
|
|
存储桶的请求总数。 |
|
|
客户端取消的存储桶请求总数。 |
|
|
存储桶出现 4xx 错误的请求总数。 |
|
|
存储桶出现 5xx 错误的请求总数。 |
|
|
存储桶 API 调用中首字节时间的分布。 |
|
审计指标
关于 MinIO 审计功能的指标。
路径 |
描述 |
|---|---|
|
与审计功能相关的指标。 |
/audit
名称 |
描述 |
标签 |
|---|---|---|
|
自启动以来发送失败的消息总数。 |
|
|
目标队列中未发送的消息数。 |
|
|
自启动以来发送的消息总数。 |
|
集群指标
关于整个 MinIO 集群的指标。
路径 |
描述 |
|---|---|
|
集群配置指标。 |
|
纠删集指标。 |
|
集群健康指标。 |
|
集群 IAM 指标。 |
|
按存储桶划分的对象统计信息。 |
|
对象统计信息。 |
/cluster/config
名称 |
描述 |
标签 |
|---|---|---|
|
降冗余存储类别奇偶校验。 |
|
|
标准存储类别奇偶校验。 |
/cluster/erasure-set
名称 |
描述 |
标签 |
|---|---|---|
|
跨池和集合的整体写入法定人数。 |
|
|
跨池和集合的整体健康状况(1=健康,0=不健康)。 |
|
|
池中纠删集的读取法定人数。 |
|
|
池中纠删集的写入法定人数。 |
|
|
池中纠删集内的在线驱动器数量。 |
|
|
池中纠删集内的修复中驱动器数量。 |
|
|
池中纠删集的健康状况(1=健康,0=不健康)。 |
|
|
可容忍的驱动器故障数量,而不中断读取操作。 |
|
|
可容忍的驱动器故障数量,而不中断写入操作。 |
|
|
池中纠删集的读取操作健康状况(1=健康,0=不健康)。 |
|
|
池中纠删集的写入操作健康状况(1=健康,0=不健康)。 |
|
/cluster/health
名称 |
描述 |
标签 |
|---|---|---|
|
集群中离线驱动器的数量。 |
|
|
集群中在线驱动器的数量。 |
|
|
集群中所有驱动器的数量。 |
|
|
集群中离线节点的数量。 |
|
|
集群中在线节点的数量。 |
|
|
集群总原始存储容量(字节)。 |
|
|
集群总原始可用存储空间(字节)。 |
|
|
集群总可用存储容量(字节)。 |
|
|
集群总可用存储空间(字节)。 |
/cluster/iam
名称 |
描述 |
标签 |
|---|---|---|
|
上次成功 IAM 数据同步持续时间(毫秒)。 |
|
|
当配置了插件身份验证时,返回上一整分钟内失败的请求数。 |
|
|
当配置了插件身份验证时,返回距离上次对服务发出失败请求的时间(秒)。 |
|
|
当配置了插件身份验证时,返回距离上次对服务发出成功请求的时间(秒)。 |
|
|
当配置了插件身份验证时,返回上一整分钟内成功请求的平均往返时间。 |
|
|
当配置了插件身份验证时,返回上一整分钟内成功请求的最大往返时间。 |
|
|
当配置了插件身份验证时,返回上一整分钟内的总请求数。 |
|
|
距离上次成功 IAM 数据同步的时间(毫秒)。 |
|
|
自服务器启动以来失败的 IAM 数据同步次数。 |
|
|
自服务器启动以来成功的 IAM 数据同步次数。 |
/cluster/usage/buckets
名称 |
描述 |
标签 |
|---|---|---|
|
距离上次更新使用指标的时间(秒)。 |
|
|
存储桶总大小(字节)。 |
|
|
存储桶中的对象总数。 |
|
|
存储桶中的对象版本总数,包括删除标记。 |
|
|
存储桶中的删除标记总数。 |
|
|
存储桶配额总大小(字节)。 |
|
|
存储桶对象大小分布。 |
|
|
存储桶对象版本数分布。 |
|
/cluster/usage/objects
名称 |
描述 |
标签 |
|---|---|---|
|
距离上次更新使用指标的时间(秒)。 |
|
|
集群总使用量(字节)。 |
|
|
集群对象总数。 |
|
|
集群对象版本总数,包括删除标记。 |
|
|
集群删除标记总数。 |
|
|
集群存储桶总数。 |
|
|
集群对象大小分布。 |
|
|
集群对象版本数分布。 |
|
调试指标
来自 Prometheus Go 客户端基础收集器的标准 Go 运行时指标。
路径 |
描述 |
|---|---|
|
Go 运行时指标。 |
ILM 指标
关于 MinIO ILM 功能的指标。
路径 |
描述 |
|---|---|
|
与 ILM 功能相关的指标。 |
/ilm
名称 |
描述 |
标签 |
|---|---|---|
|
队列中待处理的 ILM 过期任务数。 |
|
|
活动的 ILM 转换任务数。 |
|
|
队列中待处理的 ILM 转换任务数。 |
|
|
错过的即时 ILM 转换任务数。 |
|
|
自服务器启动以来,为 ILM 操作检查的对象版本总数。 |
|
日志记录器 Webhook 指标
关于 MinIO 日志记录器 Webhook 的指标。
路径 |
描述 |
|---|---|
|
与日志记录器 Webhook 相关的指标。 |
/logger/webhook
名称 |
描述 |
标签 |
|---|---|---|
|
发送失败的消息数。 |
|
|
Webhook 队列长度。 |
|
|
发送到此目标的消息总数。 |
|
通知指标
关于 MinIO 通知功能的指标。
路径 |
描述 |
|---|---|
|
与通知功能相关的指标。 |
/notification
名称 |
描述 |
标签 |
|---|---|---|
|
对所有目标活动的并发异步发送调用数。 |
|
|
发送到目标失败的事件总数。 |
|
|
发送到目标的事件总数。 |
|
|
由于内存队列已满而未发送到目标的事件数。 |
|
复制指标
关于 MinIO 站点和存储桶复制的指标。
路径 |
描述 |
|---|---|
|
与存储桶复制相关的指标。 |
|
与站点复制相关的指标。 |
/replication
名称 |
描述 |
标签 |
|---|---|---|
|
活动复制工作线程的平均数量。 |
|
|
自服务器启动以来排队等待复制的平均字节数。 |
|
|
自服务器启动以来排队等待复制的平均对象数。 |
|
|
平均复制数据传输速率(字节/秒)。 |
|
|
活动复制工作线程的总数。 |
|
|
当前复制数据传输速率(字节/秒)。 |
|
|
在上一整分钟内排队等待复制的字节数。 |
|
|
在上一整分钟内排队等待复制的对象数。 |
|
|
自服务器启动以来观察到的活动复制工作线程的最大数量。 |
|
|
自服务器启动以来排队等待复制的最大字节数。 |
|
|
自服务器启动以来排队等待复制的最大对象数。 |
|
|
自服务器启动以来的最大复制数据传输速率(字节/秒)。 |
|
|
最近 5 分钟内在复制积压中观察到的对象总数。 |
|
/bucket/replication
名称 |
描述 |
标签 |
|---|---|---|
|
在过去一小时内,存储桶上至少一次复制失败的总字节数。 |
|
|
在过去一小时内,存储桶上复制失败的对象总数。 |
|
|
在上一整分钟内,存储桶上至少一次复制失败的总字节数。 |
|
|
在上一整分钟内,存储桶上复制失败的对象总数。 |
|
|
存储桶的复制延迟(毫秒)。 |
|
|
代理到复制目标的 DELETE 标记请求数。 |
|
|
代理到复制目标的 GET 请求失败数。 |
|
|
代理到复制目标的 GET 请求数。 |
|
|
代理到复制目标的 GET 标记请求失败数。 |
|
|
代理到复制目标的 GET 标记请求数。 |
|
|
代理到复制目标的 HEAD 请求失败数。 |
|
|
代理到复制目标的 HEAD 请求数。 |
|
|
代理到复制目标的 PUT 标记请求失败数。 |
|
|
代理到复制目标的 PUT 标记请求数。 |
|
|
复制到目标的总字节数。 |
|
|
复制到目标的对象总数。 |
|
|
自服务器启动以来至少一次复制失败的总字节数。 |
|
|
自服务器启动以来复制失败的对象总数。 |
|
|
代理到复制目标的 DELETE 标记请求失败数。 |
|
扫描器指标
关于 MinIO 扫描器的指标。
路径 |
描述 |
|---|---|
|
与 MinIO 扫描器相关的指标。 |
/scanner
名称 |
描述 |
标签 |
|---|---|---|
|
自服务器启动以来完成的存储桶扫描总数。 |
|
|
自服务器启动以来开始的存储桶扫描总数。 |
|
|
自服务器启动以来扫描的目录总数。 |
|
|
自上次扫描活动以来经过的时间(秒)。 |
|
|
自服务器启动以来扫描的唯一对象总数。 |
|
|
自服务器启动以来扫描的对象版本总数。 |
|
系统指标
关于 MinIO 进程和节点的指标。
路径 |
描述 |
|---|---|
|
关于系统上 CPU 的指标。 |
|
关于系统上驱动器的指标。 |
|
关于节点发出的节点间请求的指标。 |
|
关于系统上内存的指标。 |
|
标准进程指标。 |
/system/drive
名称 |
描述 |
标签 |
|---|---|---|
|
驱动器上已用存储空间的总字节数。 |
|
|
驱动器上可用存储空间的总字节数。 |
|
|
驱动器上可用存储空间的总字节数。 |
|
|
驱动器上已用 inode 的总数。 |
|
|
驱动器上可用 inode 的总数。 |
|
|
驱动器上可用的 inode 总数。 |
|
|
驱动器上的超时错误总数。 |
|
|
驱动器上的 I/O 错误总数。 |
|
|
驱动器上的可用性错误(I/O 错误,超时)总数。 |
|
|
驱动器上等待的 I/O 操作总数。 |
|
|
驱动器 API 存储操作的上一分钟平均延迟(微秒)。 |
|
|
离线驱动器数量。 |
|
|
在线驱动器数量。 |
|
|
所有驱动器数量。 |
|
|
驱动器健康状况(0 = 离线,1 = 健康,2 = 修复中)。 |
|
|
驱动器每秒读取次数。 |
|
|
驱动器每秒读取千字节数。 |
|
|
驱动器上服务的读取请求的平均时间。 |
|
|
驱动器每秒写入次数。 |
|
|
驱动器每秒写入千字节数。 |
|
|
驱动器上服务的写入请求的平均时间。 |
|
|
磁盘繁忙的时间百分比。 |
|
/system/memory
名称 |
描述 |
标签 |
|---|---|---|
|
节点上已用内存。 |
|
|
节点上已用内存百分比。 |
|
|
节点上可用内存。 |
|
|
节点上总内存。 |
|
|
节点上缓冲区内存。 |
|
|
节点上缓存内存。 |
|
|
节点上共享内存。 |
|
|
节点上可用内存。 |
|
/system/cpu
名称 |
描述 |
标签 |
|---|---|---|
|
平均 CPU 空闲时间。 |
|
|
平均 CPU IOWait 时间。 |
|
|
CPU 负载平均 1 分钟。 |
|
|
CPU 负载平均 1 分钟(百分比)。 |
|
|
CPU nice 时间。 |
|
|
CPU steal 时间。 |
|
|
CPU system 时间。 |
|
|
CPU user 时间。 |
|
/system/network/internode
名称 |
描述 |
标签 |
|---|---|---|
|
失败的节点间调用总数。 |
|
|
节点间 TCP 拨号超时和错误的总数。 |
|
|
节点间 TCP 调用的平均拨号时间(纳秒)。 |
|
|
发送到其他对等节点的总字节数。 |
|
|
从其他对等节点接收的总字节数。 |
|
/system/process
名称 |
描述 |
标签 |
|---|---|---|
|
此对等节点上当前的 READ 锁数量。 |
|
|
此对等节点上当前的 WRITE 锁数量。 |
|
|
总用户和系统 CPU 耗时(秒)。 |
|
|
正在运行的 Go 协程总数。 |
|
|
进程从底层存储系统读取的总字节数,包括缓存,/proc/[pid]/io rchar。 |
|
|
进程从底层存储系统读取的总字节数,/proc/[pid]/io read_bytes。 |
|
|
进程写入底层存储系统的总字节数,包括页面缓存,/proc/[pid]/io wchar。 |
|
|
进程写入底层存储系统的总字节数,/proc/[pid]/io write_bytes。 |
|
|
MinIO 进程的启动时间(自 Unix 纪元以来的秒数)。 |
|
|
MinIO 进程的正常运行时间(秒)。 |
|
|
MinIO 服务器进程打开文件描述符的总数限制。 |
|
|
MinIO 服务器进程打开的文件描述符总数。 |
|
|
对内核的总读取系统调用数。/proc/[pid]/io syscr。 |
|
|
对内核的总写入系统调用数。/proc/[pid]/io syscw。 |
|
|
驻留内存大小(字节)。 |
|
|
虚拟内存大小(字节)。 |
|
|
最大虚拟内存大小(字节)。 |
|