Sistema de recovery

Qué es el sistema de recovery

El sistema de auto-recovery detecta automáticamente cuando tu sitio tiene problemas y ejecuta acciones de recuperación progresivas para restaurar el servicio sin intervención manual.

Niveles de recovery

La recuperación sigue una escalera de niveles, cada uno más agresivo que el anterior:

NivelAcciónCooldownDescripción
L0Watchdog internoCada minutoVerifica que PHP esté corriendo y respondiendo
L1Reiniciar PHPInmediatoReinicia el proceso PHP
L2Reiniciar MariaDB5 minutosReinicia la base de datos
L3Reiniciar todos los servicios5 minutosReinicia MariaDB, Redis, PHP y OpenLiteSpeed
L4Reiniciar servidor10 minutosReinicio completo del entorno
HALTDetener recoverySe detiene después de 3 intentos L4 en 24 horas

Cómo funciona el watchdog (L0)

El watchdog es un proceso interno que corre cada minuto:

  1. Tier 1: Verifica que el proceso PHP esté corriendo

    • Si no está, espera 5 segundos para auto-recuperación
    • Si sigue caído, ejecuta reinicio
  2. Tier 2: Prueba que PHP responda correctamente

    • HTTP probe a /watchdog-probe.php (no carga WordPress)
    • Reintenta después de 5 segundos para evitar falsos positivos
    • Si responde 500 o 503, escala al siguiente nivel

Ver estado de recovery

  1. Ve a la pestaña Monitoring
  2. Busca la sección Recovery

Se muestra:

  • Estado actual: Nivel de recovery activo
  • Fallos consecutivos: Contador de fallos seguidos
  • Último intento: Timestamp de la última acción de recovery
  • Intervenciones recientes: Historial de acciones ejecutadas

Estado HALT

Si el sistema ejecuta 3 reinicios L4 en 24 horas sin resolver el problema, entra en estado HALT:

  • Se detiene toda acción automática de recovery
  • Se muestra una alerta en el panel
  • Se requiere intervención manual

Resolver estado HALT

  1. Investiga la causa del problema (revisa logs, plugins recientes)
  2. Haz clic en “Acknowledge” para reanudar el auto-recovery
  3. El sistema vuelve a L0 y reinicia el ciclo de recovery

Watchdog Log

La sección muestra las entradas recientes del log del watchdog, útil para diagnosticar qué está causando los reinicios.

Cooldowns explicados

Los cooldowns evitan reinicios excesivos:

  • L1 → L2: Espera 5 minutos antes de escalar
  • L2 → L3: Espera 5 minutos
  • L3 → L4: Espera 10 minutos
  • Si el sitio se recupera en cualquier nivel, el contador se reinicia a L0

Cuándo contactar soporte

  • Si tu sitio entra en estado HALT repetidamente
  • Si los reinicios L4 son frecuentes
  • Si el watchdog muestra errores persistentes que no se resuelven