Ingeniero de Confiabilidad de Sitio III
J.P. Morgan busca un Ingeniero de Confiabilidad de Sitio III para su equipo de NeoVest en Buenos Aires. El rol se enfoca en la automatización, monitoreo y optimización de sistemas críticos en la nube, con responsabilidades en la planificación de lanzamientos, CI/CD, y resolución de incidentes.
Si te apasiona la automatización y la optimización de sistemas en la nube, este puesto en J.P. Morgan es para vos. Podrás trabajar en la vanguardia tecnológica, modernizando sistemas críticos y aportando tu conocimiento para mejorar la confiabilidad y escalabilidad.
Descripción del puesto
¡Nada es más emocionante que estar en el centro de un campo tecnológico en rápida expansión, aplicando tus habilidades para impulsar la innovación y modernizar los sistemas más complejos y críticos del mundo! Como Site Reliability Engineer III en JPMorgan Chase, dentro de Neovest, resolverás problemas de negocio complejos y amplios con soluciones simples y directas. A través de código e infraestructura en la nube, configurarás, mantendrás, monitorearás y optimizarás aplicaciones y su infraestructura asociada para descomponer de forma independiente y mejorar iterativamente las soluciones existentes. Serás un contribuyente significativo para tu equipo, compartiendo tus conocimientos sobre operaciones de extremo a extremo, disponibilidad, confiabilidad y escalabilidad de tu aplicación o plataforma. Combinarás la disciplina de gestión de lanzamientos con la ingeniería práctica para automatizar los flujos de trabajo de implementación y monitoreo en entornos de nube y servidores. Responsabilidades del puesto: - Liderar y coordinar la planificación de lanzamientos manteniendo un calendario de lanzamientos, comunicando dependencias y gestionando ventanas de lanzamiento entre equipos. - Diseñar, construir y mejorar pipelines automatizados de integración y entrega continuas (CI/CD), incluyendo estrategias de validación, reversión y promoción. - Implementar estrategias de despliegue (como blue/green, canary y despliegues por fases) y coordinar la validación post-despliegue, hotfixes y acciones de recuperación. - Diseñar mejoras de confiabilidad definiendo e implementando indicadores de nivel de servicio (SLI) y objetivos de nivel de servicio (SLO), alertas y presupuestos de error. - Desarrollar y mantener infraestructura, configuración y red como código para soportar entornos seguros y repetibles. - Automatizar tareas operativas y de lanzamiento repetitivas utilizando scripting y mejores prácticas de ingeniería de software. - Solucionar problemas complejos de producción en aplicaciones, infraestructura en la nube y capas de red, colaborando con expertos del dominio según sea necesario. - Mejorar la observabilidad a través de telemetría, dashboards y alertas accionables utilizando herramientas estándar de la industria para monitoreo y logging. - Promover las mejores prácticas de ingeniería de confiabilidad de sitios (SRE) compartiendo conocimientos, revisando diseños y contribuyendo a la preparación operativa en todo el equipo. Requisitos, capacidades y habilidades requeridas: - Formación formal o certificación en conceptos de ingeniería de software y 5+ años de experiencia aplicada. - Más de 5 años de experiencia en soporte de servicios de producción con enfoque en disponibilidad, confiabilidad y excelencia operativa. - Dominio de al menos un lenguaje de programación o scripting (por ejemplo, Python, C# o Java) utilizado para automatización y herramientas. - Experiencia práctica en el diseño u operación de pipelines de integración y entrega continuas (CI/CD), incluyendo flujos de trabajo de control de código fuente y controles de lanzamiento. - Experiencia implementando y utilizando prácticas de observabilidad (monitoreo white-box y black-box, telemetría y alertas de objetivos de nivel de servicio). - Experiencia trabajando en múltiples plataformas en la nube y entornos de servidores Windows/Linux. - Familiaridad con contenedores y orquestación de contenedores (por ejemplo, Kubernetes, Azure Kubernetes Service o Docker). - Capacidad para solucionar problemas de tecnologías y problemas de red comunes en entornos distribuidos. - Sólidas habilidades de comunicación, con capacidad para colaborar entre ingeniería, operaciones y stakeholders no técnicos con supervisión limitada. Requisitos, capacidades y habilidades preferidas: - Sólida comprensión de las prácticas de ingeniería de lanzamientos, GitOps, estrategias de branching y disciplina de gestión de cambios. - Experiencia con gestión de incidentes, operaciones on-call, planificación de capacidad y prácticas de ingeniería de confiabilidad. - Experiencia en la creación de configuraciones de pipeline (por ejemplo, YAML) y plantillas de infraestructura (por ejemplo, Terraform, ARM o Bicep). - Capacidad demostrada para evaluar riesgos, mantener la calma bajo presión e impulsar soluciones claras. - Se prefiere experiencia en Azure; la exposición a Google Cloud Platform (GCP) es un plus. J.P. Morgan es un líder mundial en servicios financieros, que brinda asesoramiento estratégico y productos a las corporaciones, gobiernos, individuos adinerados e inversores institucionales más prominentes del mundo. Nuestro enfoque de "negocio de primera clase de manera de primera clase" para servir a los clientes impulsa todo lo que hacemos. Nos esforzamos por construir asociaciones confiables y a largo plazo para ayudar a nuestros clientes a alcanzar sus objetivos comerciales. Reconocemos que nuestra gente es nuestra fortaleza y los diversos talentos que aportan a nuestra fuerza laboral global están directamente relacionados con nuestro éxito. Somos un empleador que ofrece igualdad de oportunidades y valoramos mucho la diversidad y la inclusión en nuestra empresa. No discriminamos por ningún atributo protegido, incluyendo raza, religión, color, origen nacional, género, orientación sexual, identidad de género, expresión de género, edad, estado civil o de veterano, embarazo o discapacidad, o cualquier otra base protegida por la ley aplicable. También hacemos adaptaciones razonables para las prácticas y creencias religiosas de los solicitantes y empleados, así como para las necesidades de salud mental o discapacidad física. Visite nuestras preguntas frecuentes para obtener más información sobre cómo solicitar una adaptación.
Responsabilidades
- Liderar y coordinar la planificación de lanzamientos
- Diseñar, construir y mejorar pipelines de CI/CD
- Implementar estrategias de despliegue
- Ingeniería de mejoras de confiabilidad
- Desarrollar y mantener infraestructura como código
- Automatizar tareas operativas y de lanzamiento
- Solucionar problemas de producción complejos
- Mejorar la observabilidad
- Promover las mejores prácticas de SRE