Ingeniero Senior de Confiabilidad de Sitio - Contrato Remoto
IPSY busca un Ingeniero Senior de Confiabilidad de Sitio (SRE) para un rol de contrato remoto desde Argentina, enfocado en mantener la velocidad, disponibilidad y resiliencia de sus plataformas.
Si sos un SRE con experiencia y buscás laburar 100% remoto desde Argentina, este puesto en IPSY es para vos. Podés aportar a la estabilidad de sus plataformas y sumarte a una empresa que valora la flexibilidad y el desarrollo profesional.
Descripción del puesto
Acerca de nosotros Únete a nosotros para inspirar a todos a expresar su belleza única. IPSY es la plataforma más poderosa de la industria de la belleza, que une marcas, creadores y consumidores hiperenganchados con un acceso sin precedentes entre sí a través de la membresía de belleza definitiva. Hogar de la suscripción de tamaño de muestra IPSY Original, la suscripción de tamaño completo IPSY Extra y la colección trimestral de edición limitada IPSY Ultimate, seleccionamos la belleza para millones de miembros para que puedan jugar, explorar y expresar su belleza única todos los días. Creemos que el autodescubrimiento, la autoexpresión y la confianza son hermosos. ¿Estás de acuerdo? ¡Entonces únete a nosotros! Explora carreras y obtén más información sobre nuestros valores, cultura y beneficios en todas nuestras marcas: IPSY Careers. Estamos orgullosos de ser una empresa remote-first. Nuestros miembros del equipo totalmente remotos tienen la oportunidad de vivir y trabajar donde quieran, porque creemos que el trabajo debe encajar en tu vida, no al revés. Ofrecemos actividades virtuales mensuales, reuniones generales de la empresa, desarrollo profesional y sesiones de aprendizaje, para ayudar a nuestros miembros del equipo a mantenerse conectados, comprometidos e impactantes mientras trabajan de forma virtual. Estados Unidos Remoto: Puestos remotos que pueden desempeñarse en cualquiera de los estados donde IPSY tiene presencia comercial: Arizona, California, Connecticut, Florida, Illinois, Kansas, Massachusetts, Missouri, North Carolina, New York, New Jersey, Nevada, Ohio, Pennsylvania, Texas y Washington. California Privacy Notice. ¡Cuidado con las estafas laborales! Los reclutadores de IPSY solo usan direcciones de correo electrónico @ipsy.com. No realizamos entrevistas por texto/mensaje/Teams. No pedimos descargas de software (excepto Zoom) y nunca pediremos información sensible (como SSN/datos bancarios). ¿Sospechas de fraude? Repórtalo a las fuerzas del orden y a [email protected]. Acerca del rol: Buscamos un Contratista Senior de Ingeniero de Confiabilidad de Sitios (SRE) para unirse a nuestro equipo de Foundation / SREIQ y asumir un rol de liderazgo para mantener IPSY y BoxyCharm rápidos, disponibles y resilientes para millones de miembros de la comunidad de belleza. Como SRE Senior, serás un impulsor principal de cómo detectamos, respondemos y aprendemos de los incidentes, asociándote estrechamente con Ingeniería, Producto y la organización de Tecnología en general para proteger los flujos críticos de los que dependen nuestros miembros todos los días. Este es un rol de confiabilidad práctico y senior. Serás responsable de la estrategia de observabilidad y las alertas en Datadog, liderarás nuestra rotación de guardia, actuarás como el principal socio SRE y líder de la sala de guerra durante incidentes importantes, impulsarás los análisis de causa raíz de principio a fin, mentorizarás a tus compañeros y establecerás la dirección para la automatización y las herramientas en todo el equipo. Somos un equipo que prioriza la automatización y abraza la IA: esperamos que modeles las mejores prácticas y amplíes las fronteras de lo que las herramientas modernas de IA pueden hacer por la confiabilidad. El Contratista Senior de Ingeniero SRE reportará al Gerente de Ingeniería de Infraestructura y será completamente remoto desde Argentina. Qué harás: - Ser responsable y evolucionar la estrategia de observabilidad en nuestra plataforma en Datadog: dashboards, monitores, APM, pipelines de logs y alertas significativas y de bajo ruido vinculadas al impacto del usuario. - Definir, rastrear e impulsar SLIs, SLOs y presupuestos de error para servicios críticos, y usarlos para liderar conversaciones de confiabilidad y priorización con los propietarios de servicios y el liderazgo. - Actuar como el principal socio SRE en incidentes importantes: liderar salas de guerra, triaje, clasificar prioridades (P1-P6), validar hipótesis, impulsar la resolución y mantener documentación clara en tiempo real. - Impulsar la respuesta a incidentes según nuestro marco, cumpliendo los tiempos de respuesta objetivo (P1 en ~15 minutos), creando y ejecutando salas de guerra cuando la gravedad lo requiera, y manteniendo comunicaciones estructuradas en los canales de Slack de incidentes. - Liderar y ser responsable de revisiones post-incidente sin culpa (RCA) de principio a fin, identificando causas raíz, soluciones sistémicas y elementos de acción que prevengan recurrencias. - Establecer la hoja de ruta de automatización: diseñar scripts, herramientas y remediación automática/auto-reparación para reducir el trabajo operativo manual y acelerar la recuperación en todo el equipo. - Aprovechar y promover herramientas de IA (por ejemplo, Claude, Cursor) para acelerar la depuración, generar y mantener runbooks, redactar RCAs y construir automatización, ayudando al equipo en general a hacer lo mismo. - Establecer la estrategia de confiabilidad para nuestra pila en la nube y de terceros (por ejemplo, AWS, Netlify, CommerceTools, Auth0, Contentful), incluyendo capacidad, rendimiento y preparación para fallas de dependencias. - Liderar contribuciones a la confiabilidad de CI/CD, seguridad de despliegues, preparación para congelamiento de código en eventos comerciales pico y prácticas de infraestructura como código. - Ser responsable y evolucionar los runbooks de SRE, flujos de trabajo de triaje y el marco de prioridad de incidentes para que toda la organización responda de manera consistente. - Mentorizar a SREs de nivel medio, impulsar una cultura de aprendizaje sin culpa e integrar la confiabilidad más temprano en el ciclo de vida del desarrollo. - Asociarse con el liderazgo de Ingeniería y Producto para influir en las decisiones de arquitectura y diseño que mejoren la confiabilidad en la fuente. Qué buscamos: - Una gran actitud, fuerte sentido de propiedad y un deseo genuino de impulsar el cambio, mentorizar a otros y elevar el nivel. - Profunda hambre de automatización: buscas instintivamente formas sistémicas de eliminar el trabajo repetitivo y construir herramientas que escalen a todo el equipo. - Fuerte comodidad con herramientas de IA y un deseo de ampliar cómo se pueden aplicar al trabajo de confiabilidad, y de ayudar al equipo a hacer lo mismo. - Experiencia práctica significativa con herramientas de observabilidad y monitoreo, idealmente Datadog (dashboards, monitores, APM, logs); una profunda experiencia con otras plataformas también es valiosa. - Amplia experiencia en guardia y respuesta a incidentes, incluyendo liderar salas de guerra, impulsar la priorización, gestionar escalaciones y ser responsable de revisiones post-incidente de principio a fin. - Profundo dominio de los fundamentos de SRE: SLIs / SLOs / presupuestos de error, reducción de trabajo repetitivo e impulso de la estrategia de confiabilidad en una plataforma. - Fuerte conocimiento de infraestructura en la nube (AWS preferido) y arquitecturas modernas distribuidas / de microservicios y API-gateway. - Fuertes habilidades de scripting y automatización (por ejemplo, Python, Bash o similar); capacidad para razonar y mejorar código en servicios. - Sólida experiencia con pipelines de CI/CD e infraestructura como código (por ejemplo, Terraform). - Excelentes habilidades de comunicación: capaz de gestionar un canal de incidentes, informar al liderazgo durante una interrupción importante y escribir un RCA pulido y accionable. - Líder colaborativo que trabaja eficazmente en un equipo distribuido y en múltiples zonas horarias, e influye sin autoridad. Extra si tienes: - Experiencia operando plataformas de consumo o comercio electrónico de alto tráfico, especialmente durante eventos pico (ventas flash, lanzamientos de productos). - Experiencia con Opsgenie (o PagerDuty / similar) para alertas y escalaciones. - Experiencia con plataformas de comercio electrónico / suscripción como CommerceTools, y proveedores de identidad como Auth0. - Experiencia construyendo remediación automática, pruebas de caos / resiliencia o sistemas de auto-reparación. - Experiencia definiendo o madurando un marco de gestión de incidentes e impulsando una cultura de post-mortem sin culpa. Qué ofrecemos: - Salario competitivo (USD) - Tiempo libre remunerado y flexibilidad para trabajar desde casa Declaración EEO: Celebramos la diversidad y somos un empleador que ofrece igualdad de oportunidades. No discriminamos por motivos de raza, religión, color, origen nacional, género, orientación sexual, edad, estado civil, condición de veterano, condición de discapacidad o cualquier otra característica protegida. Si necesita una adaptación razonable en el proceso de solicitud o empleo, comuníquese con nosotros. IPSY tiene su sede en EE. UU. y, para garantizar el cumplimiento de las leyes laborales específicas de cada país, nos asociamos con DEEL, que nos ayuda con el reclutamiento y la nómina de empleados. Por favor, envía un currículum/CV en inglés. #LI-CF1 #LI-Remote
Responsabilidades
- Gestionar la estrategia de observabilidad en Datadog
- Definir y rastrear SLIs, SLOs y presupuestos de error
- Liderar la respuesta a incidentes mayores
- Conducir revisiones post-incidente (RCAs)
- Establecer la hoja de ruta de automatización
- Utilizar y promover herramientas de IA para la confiabilidad
- Establecer la estrategia de confiabilidad para la nube y el stack de terceros
- Liderar contribuciones a la confiabilidad de CI/CD
- Evolucionar runbooks y flujos de trabajo de triaje
- Mentorizar a ingenieros de SRE de nivel medio
Skills requeridas
Beneficios
- Salario competitivo (USD)
- Flexibilidad de trabajo desde casa
- Tiempo libre remunerado