Index Recovery Prolonged Duration

warning

reliabilityUpdated Mar 2, 2026

Slow shard recovery after node failures or restarts delays cluster stabilization and can indicate network issues, disk I/O bottlenecks, or configuration problems.

Technologies:

Elasticsearchsubject

elasticsearch.indices.recovery

elasticsearch.cluster.shards

elasticsearch.node.disk.io.write

elasticsearch.transport.rx_size

How to detect:

elasticsearch.indices.recovery showing active recoveries taking longer than expected (>10 minutes for typical shard sizes), or recovery rate very low

Recommended action:

Monitor recovery progress via _cat/recovery API. Optimize settings: (1) Increase indices.recovery.max_bytes_per_sec from default 40mb for faster recovery on high-bandwidth networks, (2) Adjust cluster.routing.allocation.node_concurrent_recoveries (default 2) based on disk I/O capacity, (3) Use cluster.routing.allocation.node_initial_primaries_recoveries for primary shard recovery parallelism. Check for network bottlenecks via elasticsearch.transport metrics. Monitor disk performance via elasticsearch.node.disk.io.write - slow disks are common bottleneck. For peer recovery, ensure source and target nodes have adequate network connectivity. Consider recovery priorities via index.priority setting.