Cut Checkpoint Costs with About 30 Lines of Python and NVIDIA nvCOMP

Cut Checkpoint Costs

Cut Checkpoint Costs with About 30 Lines of Python and NVIDIA nvCOMP

Entrenar un modelo de 405B en 128 GPUs: $200.000 al mes solo en GPUs esperando a que terminen de escribirse los checkpoints. Así. Sin compression. Sync. Esperando y perdiendo plata.

El optimizer state (AdamW en FP32) ocupa 4x más que los pesos del modelo. 521 GB de los 782 GB de cada checkpoint son solo el optimizer. Nadie los mira. Pero los escribís. Todo el tiempo. 30 líneas de Python con nvCOMP y reducís $56.000 de storage por mes.

Pero lo más caro no es el storage: son las GPUs idle mientras escribís. La mayoría de los equipos de ML miran GPU utilization. Casi nadie mira lo que pasa entre iteraciones.

¿Tu equipo tiene visibilidad real de lo que cuestan los checkpoints?