Milvus insights

Open SourceVersions: [current]302 metrics

Query Node CPU Spike During Search-Phase Transitionwarning

When Milvus transitions from index building to concurrent searches, CPU usage spikes significantly (from ~21 cores to 28 cores peak), creating a temporary bottleneck that queues subsequent requests and increases in-queue latency.

milvus_process_cpu_seconds milvus_querynode_sq_core_time_datadog milvus_queue_time

8mo ago▸

Cold Start Cache Miss Cascadewarning

After a Milvus restart or query node scaling event, indexes and segments must be loaded from storage into memory, causing dramatically slower queries (seconds vs. milliseconds) until caches warm up, particularly impacting on-disk indexes like DiskANN.

milvus_querynode_disk_cache_load_global_time milvus_proxy_cache_hit milvus_load_time_datadog+1 more

8mo ago▸

Frequent Upsert Segment Fragmentationcritical

High-frequency upsert operations generate many small, unindexed segments that force query nodes to scan raw data instead of using optimized indexes, dramatically increasing vector search latency and CPU usage until compaction completes.

milvus_querynode_segment_count milvus_internal_core_search_time_datadog milvus_datanode_flushed_data_size+1 more

8mo ago▸

Memory Pressure During Index Buildwarning

Index building and optimization phases consume peak memory (up to 6.6GB observed), and when combined with concurrent search load or insufficient memory allocation, can trigger OOM conditions or force excessive disk I/O via MMAP, degrading performance.

milvus_go_memstats_heap_inuse_size milvus_internal_mmap_in_used_space_size milvus_indexnode_build_index_time+1 more

milvus.io

ajujohn.wixsite.com

8mo ago▸

Milvus

Scalar Filter Full-Scan Latency Explosioncritical

Search requests with inefficient filter expressions or missing scalar indexes trigger full collection scans instead of targeted subset searches, causing scalar filter latency to dominate total query time and dramatically reducing throughput.

milvus_search_time_datadog milvus_querynode_apply_bf_time_datadog Datadog

Milvus Datadog

milvus.io

milvusio.medium.com

9mo ago▸

Milvus

High-NQ Request Monopolizationwarning

Search requests with very large NQ (number of queries per request) monopolize query node resources for extended periods, causing other concurrent requests to queue and experience elevated latency even though per-vector processing time remains normal.

milvus_queue_time milvus_querynode_read_task_unsolved_len

milvus.io

milvusio.medium.com

9mo ago▸

Milvus

Strong Consistency tSafe Wait Penaltywarning

When strict (Strong) consistency is enabled, queries must wait for tSafe (time-safe) synchronization across all nodes, adding significant latency overhead especially in distributed deployments or during high write throughput periods.

milvus_rootcoord_sync_timetick_time_datadog milvus_proxy_tt_lag_ms Datadog

Milvus Datadog

milvus.io

milvusio.medium.com

9mo ago▸

Milvus

etcd Cluster Instability Cascading Failures

critical

When etcd pods crash or enter crash-loop states due to data corruption, PVC issues, or member ID problems, Milvus loses its metadata store, causing all coordinator components to fail and bringing down the entire cluster.

milvus_meta_op milvus_meta_kv_size

milvus.io

1y ago▸