This is a remote position.
En Layer7 estamos construyendo tecnología en hiperescala, donde cada decisión de ingeniería impacta a millones de usuarios y a las operaciones críticas de bancos, retailers y grandes empresas.
Diseñar e implementar estrategias de observabilidad, resiliencia y confiabilidad que aseguren la continuidad operativa de las plataformas de comunicación y datos de Layer7.
· Diseñar e implementar el sistema de monitoreo y alertas centralizadas (la alerta debe llegar al sistema, no al cliente).
· Definir métricas de confiabilidad (SLOs, SLIs, SLAs) y garantizar su cumplimiento.
· Analizar y prevenir incidentes de disponibilidad, identificando patrones y causas raíz.
· Colaborar con DevOps y Data para diseñar arquitecturas que sean resilientes por diseño.
· Documentar runbooks, dashboards y protocolos de respuesta a incidentes.
· Liderar revisiones postmortem con foco en mejora continua y aprendizaje organizacional.
· Ingeniero en sistemas o afin
· 5 años de experiencia en entornos de alta disponibilidad
· Dominio de herramientas de observabilidad (Datadog, Prometheus, Grafana, Kibana)
· Conocimiento sólido de automatización, despliegues y cloud.
· Pensamiento sistémico y habilidad para construir cultura operativa, no solo mantener infraestructura.