Empresa fintech busca un/a Site Reliability Engineer para unirse a su equipo en Buenos Aires. Las responsabilidades incluyen definir estándares de observabilidad, gestionar SLOs/SLIs, optimizar Datadog, colaborar con NOC, automatizar flujos operativos, y troubleshooting de aplicaciones en Kubernetes. Se valora experiencia en Node.js, Kubernetes, y herramientas de IA.

Por qué aplicar

Si te copa la idea de ser referente técnico en observabilidad y optimizar Datadog en una fintech líder que está transformando los pagos en Argentina, este puesto es para vos. Ideal para quienes buscan desafíos en Kubernetes y automatización.

Descripción del puesto

Somos MODO, la fintech de los bancos argentinos que está revolucionando la manera de pagar y ahorrar con promociones en Argentina. Estamos en el centro del ecosistema de pagos, desarrollando experiencias de pago novedosas en QR, NFC y online con todos los medios de pago, y creando el mejor lugar para hacer y disfrutar promociones. Además, creamos el primer hub de open banking de Argentina para hacer más simple el manejo de tu plata. En MODO confluyen los principales bancos, procesadores de pagos, comercios y mucho más. Somos líderes en el cambio de una industria que está atravesando su mayor transformación en la historia, y nuestros productos y tecnologías están en la frontera de la práctica a nivel mundial. Tenemos el propósito de "Conectar tu dinero y tu mundo para simplificar lo cotidiano" y los moders cuentan con todo lo que necesitan para hacerlo realidad. Nuestro equipo está siempre en transformación, y hoy necesitamos sumar a un/a Site Reliability Engineer para poder seguir creciendo. ¿Cuáles serán tus principales responsabilidades? - Tomar la referencia técnica de observabilidad del equipo: definir estándares de métricas, logs y trazas sobre Datadog. - Tomar ownership del seguimiento de SLOs/SLIs: coordinar con los squads y mantener el backlog activo. - Optimizar el uso y los costos de Datadog (monitores, ingesta, APM). - Trabajar con NOC como cliente interno: generar espacios colaborativos, runbooks y post-mortems. - Empujar la mejora de métricas de detección y resolución de incidentes. - Identificar oportunidades de automatización en flujos operativos de NOC: reducción de toil, respuestas automáticas y runbooks ejecutables. - Explorar y proponer el uso de IA para correlación de alertas, detección de anomalías y reducción de ruido operativo. - Ser el escalado técnico de NOC cuando lo requieran. - Troubleshooting de aplicaciones en Kubernetes: disponibilidad, performance y conectividad en producción. - Leer y entender código Node.js para identificar y proponer mejoras de confiabilidad o performance. - Participar de la rotación de guardia de infraestructura. - Responder incidentes, coordinar la resolución y documentar el post-mortem. - Contribuir a la mejora continua del proceso de guardia. - Evaluar y optimizar la capacidad y el rendimiento de los sistemas para soportar el crecimiento de la carga. - Colaborar en pruebas de carga y benchmarking para anticipar cuellos de botella. - Implementar prácticas de ingeniería de confiabilidad para aumentar la resiliencia de los sistemas. - Identificar y eliminar puntos únicos de falla. - Reducir el toil mediante automatización de tareas operativas repetitivas. - Contribuir al seguimiento y optimización de costos cloud, con foco en la plataforma de observabilidad. ¿Qué esperamos de vos? - Foco en diagnóstico de incidentes. - Cultura SRE real: SLIs, error budgets, toil: haberlos aplicado. - Experiencia en administración y orquestación de contenedores con Kubernetes, valorando el uso de Helm. - Conocimiento de Node.js: poder leer y entender código de aplicación, identificar problemas y meter mejoras puntuales orientadas a confiabilidad o performance. - Experiencia o afinidad para trabajar con equipos operativos no técnicos (NOC, operaciones) - capacidad de explicar problemas complejos y generar espacios de mejora. - Capacidad para moverse en escenarios cambiantes, con mentalidad orientada a resultados y atención al detalle. Será deseable que cuentes con: - Experiencia con Docker, Kubernetes, Istio, AWS EKS, AWS RDS, AWS SQS/SES, CloudFront, AWS S3, Helm. - Experiencia en flujos de CI/CD en GitHub Actions y gestión de infraestructura con Terraform / Terragrunt. - Conocimientos en gobernanza de alertas, burn rate múltiple y dashboards de salud por dominio o producto. - Conocimientos en escalabilidad y elasticidad sobre AWS y aplicaciones hosteadas en Kubernetes. - Familiaridad con prácticas de FinOps para seguimiento y optimización de costos en AWS. - Interés o experiencia en AIOps: correlación de alertas, detección de anomalías, automatización de respuestas a incidentes. - Experiencia trabajando con herramientas de IA y automatización: uso de LLMs para acelerar análisis, scripting inteligente o integración de IA en flujos operativos. ¿Qué ofrecemos? - 10 días hábiles de vacaciones + 5 días MODO. - Prepaga para vos y tu grupo familiar. - Reintegro en app MODO para almuerzos y traslado. - Membresía en Gympass y descuento en Sport Club para actividad física. - Licencias extendidas (por matrimonio, maternidad, paternidad y otras). - Plataforma de capacitaciones y descuentos en universidades para perfeccionar y expandir tus conocimientos. - Día de cumpleaños libre y medio día por cumpleaños de hijos/as. - Actividades de team building. - Posibilidad de desarrollarte en un ambiente flexible, dinámico y en pleno crecimiento. Si te interesa trabajar en un equipo ágil y autónomo dentro de una compañía desde su concepción, donde el margen de acción de cada rol es gigante, ¡te esperamos! Información Adicional En MODO creemos que la diversidad de miradas potencia la forma en la que construimos soluciones y tomamos decisiones. Trabajamos en equipo para simplificar lo cotidiano, y eso solo es posible cuando integramos perspectivas distintas en cada desafío. Promovemos equipos diversos e inclusivos, donde todas las personas puedan desarrollarse y aportar desde su experiencia. Nuestras oportunidades están abiertas a todas las personas, sin distinción de identidad de género, orientación sexual, origen, religión, edad, discapacidad u otras características individuales. Si necesitás algún ajuste o accesibilidad para participar del proceso, podés indicarlo en tu postulación. #MejorEnMODO

Responsabilidades

Tomar la referencia técnica de observabilidad del equipo: definir estándares de métricas, logs y trazas sobre Datadog.
Tomar ownership del seguimiento de SLOs/SLIs: coordinar con los squads y mantener el backlog activo.
Optimizar el uso y los costos de Datadog (monitores, ingesta, APM).
Trabajar con NOC como cliente interno: generar espacios colaborativos, runbooks y post-mortems.
Empujar la mejora de métricas de detección y resolución de incidentes.
Identificar oportunidades de automatización en flujos operativos de NOC: reducción de toil, respuestas automáticas y runbooks ejecutables.

Skills requeridas

Diagnóstico de incidentesCultura SREGestión de contenedoresOrquestación de contenedoresKubernetesHelmNode.jsAnálisis de códigoMejora de performanceMejora de confiabilidadTrabajo con equipos operativosAtención al detalle

Beneficios

10 días hábiles de vacaciones + 5 días MODO
Prepaga para vos y tu grupo familiar
Reintegro en app MODO para almuerzos y traslado
Membresía en Gympass

Trabajos similares

SRE / Site Reliability Engineer

Swiss Medical GroupBuenos Aires

Presencial

Más ofertas de Modo

Sr. AI Engineer

ModoBuenos Aires

Presencial

Explorar empleos relacionados

Empleos en Buenos Aires

¿Te interesa empleos en Buenos Aires? Creá una alerta y te avisamos.

Ingeniero/a de Confiabilidad de Sitios

Descripción del puesto

Responsabilidades

Skills requeridas

Beneficios

Trabajos similares

SRE / Site Reliability Engineer

Más ofertas de Modo

Sr. AI Engineer

Explorar empleos relacionados

Site Reliability Engineer SR.

Staff Site Reliability Engineer

Site Reliability Engineer - Senior Associate

Site Reliability Engineer

SRE

Sr. Data Analyst

Data Platform Engineer

Sr. Backend Engineer Go