文档

节点故障恢复

如果某个 MinIO 节点遭遇完全的硬件故障(例如,所有驱动器、数据等都丢失),该节点一旦重新加入部署,就会开始修复操作。MinIO 修复仅在被替换的硬件上进行,通常不会影响部署的性能。

MinIO 修复可确保恢复到驱动器上的所有数据的一致性和正确性。

驱动器的独占访问

MinIO 要求对提供给对象存储的驱动器或卷进行独占访问。任何其他进程、软件、脚本或个人都不应直接对提供给 MinIO 的驱动器或卷,或者 MinIO 放置在它们上面的对象或文件执行任何操作。

除非得到 MinIO 工程团队的指示,否则不要使用脚本或工具直接修改、删除或移动所提供驱动器上的任何数据分片、奇偶校验分片或元数据文件,包括从一个驱动器或节点移动到另一个。这类操作极有可能导致大范围的损坏和数据丢失,超出 MinIO 的修复能力。

替换节点的硬件应与故障节点大体相似。使用性能更优的硬件不会有负面影响。

替换驱动器的硬件应与故障驱动器大体相似。例如,用另一块相同容量的 SSD 驱动器替换发生故障的 SSD。虽然您可以使用容量更大的驱动器,但 MinIO 会以服务器池最小驱动器的容量作为所有驱动器的容量上限。

以下步骤提供了更详细的节点替换流程。这些步骤假设 MinIO 部署中的每个节点都有一个 DNS 主机名,这符合文档中列出的先决条件

1) 启动替换节点

确保新节点已根据行业、法规或组织的标准和要求,接收了所有必要的安全、固件和操作系统更新。

新节点的软件配置必须与部署中其他节点的配置相匹配,包括但不限于操作系统和内核的版本及配置。异构的软件配置可能会导致部署中出现意外或不希望的行为。

2) 为新节点更新主机名

可选 仅当替换节点的 IP 地址与故障主机的 IP 地址不同时,才需要执行此步骤。

确保与故障节点关联的主机名现在解析到新节点。

例如,如果 https://minio-1.example.net 之前解析到故障主机,那么现在它应该解析到新主机。

3) 下载并准备 MinIO 服务器

按照部署流程,使用与部署中所有其他节点相匹配的配置来下载并运行 MinIO 服务器。

  • MinIO 服务器版本在所有节点间必须一致。

  • MinIO 服务和环境文件配置在所有节点间必须一致。

4) 将节点重新加入部署

在节点上启动 MinIO 服务器进程,并使用 mc admin logs 或通过 journalctl -u minio(适用于 systemd 管理的安装)监控 MinIO 服务日志,来观察进程输出。

服务器输出应显示它已检测到部署中的其他节点,并已开始修复操作

使用 mc admin heal 来监控部署的整体修复状态。MinIO 会积极地修复节点,以确保从降级状态中快速恢复。

5) 后续步骤

持续监控部署,直到修复完成。对于存在持续和重复节点故障的部署,应安排专门的维护来确定根本原因。可以考虑使用 MinIO SUBNET,就此类操作的指导与 MinIO 工程师进行协调。

English 中文