从硬件故障中恢复
分布式 MinIO 部署依赖纠删码为多个驱动器或节点故障提供内置容错能力。根据部署拓扑和所选的纠删码奇偶校验值,MinIO 可以容忍部署中多达一半的驱动器或节点丢失,同时保持对对象的读访问(“读仲裁”)。
下表列出了 MinIO 部署中典型的故障类型,并链接到从每种故障中恢复的步骤:
故障类型 |
描述 |
|---|---|
MinIO 支持使用新的健康驱动器热插拔替换故障驱动器。 |
|
MinIO 会检测节点何时重新加入部署,并在其重新加入集群后不久开始主动修复该节点,修复之前存储在该节点上的数据。 |
|
MinIO 站点复制支持在整个站点丢失后,对存储桶、对象和符合复制条件的配置设置进行完全重新同步。 |
由于 MinIO 可以在降级状态下运行而不会有明显的性能损失,管理员可以根据硬件故障的速率来安排硬件更换。“正常”故障率(单个驱动器或节点故障)可能允许一个更合理的更换时间,而“严重”故障率(多个驱动器或节点)可能需要更快的响应。
对于一个或多个驱动器部分故障或处于降级状态(驱动器错误增多、SMART 警告、MinIO 日志中出现超时等)的节点,如果集群有足够剩余的健康驱动器来维持读写仲裁,您可以安全地卸载该驱动器。与持续产生读写错误的驱动器相比,缺失的驱动器对部署的干扰更小。
驱动器的独占访问
MinIO 要求对提供给对象存储的驱动器或卷进行独占访问。任何其他进程、软件、脚本或个人都不应直接对提供给 MinIO 的驱动器或卷,或者 MinIO 放置在它们上面的对象或文件执行任何操作。
除非得到 MinIO 工程团队的指示,否则不要使用脚本或工具直接修改、删除或移动所提供驱动器上的任何数据分片、奇偶校验分片或元数据文件,包括从一个驱动器或节点移动到另一个。这类操作极有可能导致大范围的损坏和数据丢失,超出 MinIO 的修复能力。
MinIO 专业支持
MinIO SUBNET 用户可以登录并创建一个与驱动器、节点或站点故障相关的新问题。通过 SUBNET 与 MinIO 工程团队协调,可以确保生产环境 MinIO 部署的成功恢复操作,包括根本原因分析和健康诊断。
社区用户可以在 MinIO 社区 Slack 上寻求支持。社区支持仅为尽力而为,没有响应时间的服务等级协议 (SLA)。