directo

Ingeniero de Confiabilidad de Sitio

C
Chevron
Buenos AiresPresencial · Tiempo completo
Senior
A convenir
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Chevron busca un Ingeniero de Confiabilidad de Sitio (SRE) con experiencia en observabilidad y Azure para dar soporte a flujos de pago y Order to Cash. El rol se enfoca en construir soluciones de observabilidad, analizar telemetría, definir SLIs/SLOs y automatizar tareas.

Por qué aplicar

Si te copa la idea de laburar en una empresa global como Chevron y tenés experiencia en observabilidad y Azure, este puesto de SRE en Buenos Aires es para vos. Vas a poder construir soluciones clave para flujos de pago y Order to Cash.

Descripción del puesto

Chevron Global Business Services (GBS), ubicado en Buenos Aires (Puerto Madero), Argentina, está aceptando postulaciones en línea para el puesto de Site Reliability Engineer. Los candidatos seleccionados se unirán a la compañía de IT, que forma parte de un exitoso centro de servicios multifuncional con más de 1800 empleados que brindan servicios y soluciones de negocio a nivel global. Chevron GBS busca un Site Reliability Engineer (SRE) con sólida experiencia en observabilidad, servicios de plataforma Azure e ingeniería impulsada por IA, para dar soporte principalmente a la confiabilidad de Pagos y Order to Cash. Este rol se enfoca en construir soluciones de observabilidad de extremo a extremo utilizando Azure Monitor, ADX (KQL) y Grafana, traduciendo la telemetría en insights de impacto comercial, y definiendo estrategias de SLI/SLO y alertas. Responsabilidades clave: - Impulsar la confiabilidad: Definir, implementar y monitorear Indicadores de Nivel de Servicio (SLI), Objetivos de Nivel de Servicio (SLO) y Presupuestos de Errores (Error Budgets) adaptados específicamente a flujos de trabajo de pagos críticos. - Observabilidad de extremo a extremo: Diseñar, desplegar y mantener stacks de observabilidad escalables para establecer una visibilidad clara en entornos complejos y distribuidos. - Gestión y prevención de incidentes: Trabajar dentro de un equipo de operaciones gestionado por proveedores para reducir incidentes y tiempos de respuesta, y facilitar el Análisis de Causa Raíz (RCA) sin culpabilización para eliminar permanentemente los puntos ciegos de observabilidad. - Eliminación de toil: Identificar tareas manuales repetitivas y desarrollar automatización robusta y mecanismos de autocuración. - Integración de IA: Diseñar e implementar soluciones asistidas por IA, diagnósticos automatizados y alertas inteligentes para acelerar la resolución de incidentes y detectar anomalías de forma proactiva. - Ajuste de capacidad y rendimiento: Monitorear continuamente la salud del sistema para asistir en pruebas de carga, planificación de capacidad y optimización del rendimiento. Requisitos: - Experiencia comprobada en SRE: Sólida trayectoria en confiabilidad de producción, respuesta moderna a incidentes y arquitectura de sistemas. - Habilidades de desarrollo y automatización: Dominio práctico de Python, PowerShell y C# (u otro lenguaje backend). Se prefiere fuertemente la experiencia con Infraestructura como Código (IaC) y pipelines de CI/CD. - Análisis avanzado de telemetría: Profunda experiencia con dashboarding (Grafana) y análisis de logs (ADX/KQL). Capacidad para validar la precisión de la telemetría (latencia, fallos, retrasos de datos) y cuestionar rigurosamente señales engañosas o alertas ruidosas. - Colaboración interfuncional: Sólidas habilidades de comunicación con la capacidad de trabajar sin problemas con equipos de ingeniería para corregir problemas a nivel de código, y con stakeholders de negocio para traducir métricas técnicas en impactos comerciales. - Dominio de IA: Experiencia práctica utilizando herramientas de IA (ej. M365, GitHub Copilot) y construyendo agentes de IA para escalar la productividad y mejorar la calidad de los datos. La mentalidad que buscamos: Buscamos a alguien que pueda analizar, cuestionar y mejorar datos, no solo visualizarlos, aprovechando la IA para acelerar el desarrollo, detectar brechas y mejorar la observabilidad a escala. El candidato seleccionado combina codificación práctica con un fuerte pensamiento analítico, puede navegar fluidamente entre contextos de ingeniería y de negocio, y utiliza la IA para escalar la productividad, mejorar la calidad de los datos y potenciar la toma de decisiones. Opciones de reubicación: Se podría considerar la reubicación. Consideraciones internacionales: No se considerarán asignaciones de expatriados. Chevron lamenta no poder patrocinar visas de empleo ni considerar a personas con estatus de visa de tiempo limitado para este puesto. Chevron participa en E-Verify en ciertas ubicaciones según lo exija la ley.

Responsabilidades

  • Definir, implementar y monitorear SLIs, SLOs y Error Budgets
  • Arquitectar, desplegar y mantener stacks de observabilidad
  • Reducir incidentes y tiempos de respuesta
  • Facilitar análisis de causa raíz (RCA)
  • Identificar tareas manuales repetitivas y desarrollar automatización
  • Diseñar e implementar soluciones asistidas por IA
  • Monitorear la salud del sistema continuamente
  • Asistir con pruebas de carga, planificación de capacidad y optimización de rendimiento

Skills requeridas

Respuesta a incidentesArquitectura de sistemasAnálisis de telemetríaColaboración interfuncionalPensamiento analíticoComunicaciónAnálisisMejora continuaEscalabilidad

Explorar empleos relacionados

¿Te interesa empleos en Buenos Aires? Creá una alerta y te avisamos.