Sé parte de Stefanini
En Stefanini somos más de genios, conectados desde 41 países, haciendo lo que les apasiona y co-creando un futuro mejor.
Responsabilidades y atribuciones
MISIÓN DEL CARGO: Implementar una tercera zona de disponibilidad en la nube de AWS, logrando un equilibrio óptimo entre la fiabilidad y la estabilidad de los servicios.
Además, aporta a la mejora de la infraestructura en general existente en la nube a partir de la configuración de automatizaciones para favorecer la robustez, predicción de fallos, mejorar la resiliencia, redundancia y optimización de costos del sistema.
FUNCIONES:
- Implementar una tercera zona de disponibilidad en la nube de AWS cumpliendo con las buenas prácticas de nube y los estándares del proyecto.
- Analizar el servicio y los componentes de infraestructura para mejorar su disponibilidad, desempeño, mantenibilidad y resiliencia.
- Crea y diseña sistemas robustos, predice posibles fallos y configura automatizaciones para mejorar la resiliencia y la redundancia del sistema.
- Mantener y mejorar la infraestructura de TI y sus componentes, lo que incluye la automatización de tareas mediante herramientas y codificación.
- Estandarizar, documentar y divulgar las políticas, prácticas y herramientas de observabilidad que apoyen a implementación de SRE.
- Implementar métricas clave de SRE que permitan medir la efectividad del proceso y promuevan la mejora continua.
- Optimizar costos en todas las cuentas de nube para mantener un buen desempeño sin tener servicios o plataforma ociosa.
- Implementar y mantener las mejores prácticas para continuidad de negocio de cara a pruebas DRP.
- Automatizar tareas operativas y repetitivas que contribuyan a la eficiencia y a la estabilidad de la infraestructura en la nube.
- Contribuir a la resiliencia de la infraestructura a partir de la predicción de escenarios de falla, hojas de ruta para su atención y definición de planes de mejora.
- Proponer planes de acción y apoyar su implementación para la solución de causa raíz de incidentes productivos, garantizando el adecuado registro de los mismos.
- Desarrollar herramientas de automatización para supervisar sistemas, gestionar incidentes y realizar tareas operativas de TI.
- Apoyar el diseño y ejecución de pruebas de recuperación ante desastres, garantizando el adecuado registro de los mismos.
- Implementar cambios y actualizaciones de software para su lanzamiento en un entorno de producción.
- Gestionar la entrega/implementación continua mediante herramientas de automatización.
- Construir y operar capacidades de integración continua (CI) cuando sea necesario empleando el control de versiones del código fuente y artefactos relacionados.
- Controlar sistemáticamente los cambios de una configuración y mantener la integridad, la coherencia y a trazabilidad de dicha configuración a lo largo del ciclo de vida del proyecto, sistema y/o servicio.
- Almacenar los documentos generados durante el paso a producción de los requerimientos del proyecto, de acuerdo con lo definido en el plan de implementación y configuración.
- Garantizar que los requisitos de seguridad y privacidad sean una parte esencial de la construcción e integración de los sistemas.
- Probar, validar y aprobar la integración a fin de satisfacer los requisitos, las arquitecturas y el diseño.
- Controlar las actividades de integración y registrar e informar acerca de los resultados de la integración.
- Participar activamente en la actualización documental de los procesos en los que participa.
- Participar en las reuniones diarias de seguimiento, así como en en las reuniones programadas por su jefe Inmediato.
- Actualizar la base de conocimiento con las lecciones aprendidas, así como comunicar los resultados al equipo de trabajo.
- Conocer y hacer cumplir las normas y procedimientos de seguridad establecidos por el proyecto y los entes de control.
Requisitos y calificaciones
Formación Requerida: Ingeniería de Sistemas, Ingeniería de Software, Ingeniería Informática u otras ingenierías afines
Formación Complementaria (Preferible): AWS Certified Cloud Practitioner Cursos en Ingeniería de Fiabilidad del Sitio (SRE, site reliability engineering)
Años de experiencia en el cargo / cargos similares: 2 años en DevOps o en Ingeniería de Fiabilidad del Sitio (SRE, site reliability engineering)
Competencias Técnicas
- Inglés Técnico.
- Conocimiento en Ingeniería de Fiabilidad del Sitio (SRE, site reliability engineering).
- Conocimiento avanzado en herramientas de observabilidad.
- Conocimiento de métricas de observabilidad, disponibilidad y SLAs.
- Conocimientos medio-altos en herramientas para automatización.
- Conocimientos avanzado en infraestructura en la nube de AWS.
- Conocimientos en prácticas de resiliencia y recuperación ante desastres.
- Conocimientos en herramientas ofimáticas.
- Conocimientos de Kubernetes.
- Conocimientos de Terraform.
- Conocimientos de GitLab.
- Conocimientos de NewRelic.
- Conocimiento básico de gestión del servicio ITIL.
Power Skills
- Visión y capacidad de anticipación
- Capacidad de toma de decisiones
- Comunicación efectiva
- Capacidad de análisis de datos y reportes
- Trabajo en equipo
- Resolución de problemas