directohace 1 mes

Ingeniero/a de Confiabilidad de Sitio

D
Domino Data Lab
Remoto · Tiempo completo
Senior
A convenir
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa de software busca un Ingeniero/a de Confiabilidad de Sitio (SRE) con experiencia en Kubernetes, Linux y plataformas cloud para liderar el desarrollo de herramientas de confiabilidad asistidas por IA y mejorar la observabilidad de sistemas críticos. El rol implica respuesta a incidentes, definición de SLOs y escalamiento de operaciones SaaS.

Por qué aplicar

Si sos SRE y te copa la idea de laburar remoto en una empresa que está a la vanguardia de la IA, este puesto es para vos. Podés liderar el desarrollo de herramientas innovadoras y mejorar la observabilidad de sistemas críticos.

Descripción del puesto

Somos Domino, construimos software que ayuda a las organizaciones más grandes impulsadas por IA a crear y operar soluciones avanzadas de ciencia de datos e IA a escala. Nuestra plataforma integra un entorno de desarrollo de modelos optimizado, capacidades de MLOps y funciones novedosas para la colaboración, la reutilización y la reproducibilidad, todo lo cual hace que los equipos de ciencia de datos sean más productivos, reduce el tiempo de obtención de valor y garantiza el cumplimiento. Nuestros clientes, como Johnson & Johnson, GSK, Bristol Myers, UBS, FINRA y la Marina de los EE. UU., utilizan nuestro software para resolver algunos de los desafíos más importantes del mundo, como el desarrollo de nuevos medicamentos, la protección de nuestros mercados financieros o la defensa de nuestro país. Respaldados por Sequoia Capital, Coatue Management, NVIDIA, Snowflake, NetApp y otros inversores líderes, llevamos una década en el negocio pero seguimos siendo un equipo pequeño que opera con el espíritu de una startup. Especialmente en el mundo de la IA actual, creemos que el futuro aún se está inventando, y queremos ser quienes lo construyan. Para más información, visitá www.domino.ai. A medida que nuestra infraestructura y nuestra base de clientes crecen, estamos invirtiendo en un nuevo tipo de práctica SRE donde las personas que responden a incidentes también construyen los sistemas que hacen que los incidentes futuros sean más cortos, menos frecuentes y menos dolorosos. Estamos desarrollando herramientas asistidas por IA que ayudan a nuestros equipos de soporte e ingeniería a diagnosticar problemas más rápido, aprender más profundamente de las interrupciones y automatizar las tareas repetitivas que nos ralentizan. Este rol se encuentra en el centro de todo esto: en partes iguales operador práctico, ingeniero de software y líder técnico. Si crees que la experiencia operativa y la artesanía de ingeniería se fortalecen mutuamente, te sentirás como en casa aquí. Tu impacto: - Liderar el desarrollo de las herramientas internas de confiabilidad asistidas por IA de Domino, incluidos sistemas que analizan tickets, logs, traces y documentación para ayudar a los equipos a resolver interrupciones más rápido con menos tareas repetitivas recurrentes. - Mejorar la cobertura de observabilidad y la calidad de la señal para nuestros sistemas más críticos orientados al cliente, para que los ingenieros tengan más recursos para trabajar durante el ciclo de vida de desarrollo y soporte. - Gestionar la respuesta a incidentes de principio a fin, desde la detección hasta la remediación, y dejar cada espacio problemático mejor documentado, mejor entendido y con menos probabilidades de recurrir. - Guiar el desarrollo de herramientas de observabilidad orientadas al cliente y al usuario dentro de nuestros productos. - Definir y madurar marcos de SLO/SLI para servicios prioritarios, convirtiendo los objetivos de confiabilidad abstractos en estándares medibles y accionables. - Escalar las prácticas de operaciones en la nube para la oferta SaaS de tenant único de Domino, y trabajar con los equipos de ingeniería para mejorar la confiabilidad y repetibilidad de las implementaciones y actualizaciones de clientes. - Mentorizar a otros ingenieros y dar forma a cómo se practica SRE en Domino, incluidos los flujos de trabajo de respuesta a incidentes, las expectativas de preparación operativa y la cultura de aprendizaje post-incidente. Lo que buscamos en este rol: - Profunda experiencia en Site Reliability Engineering, ingeniería de plataformas o un rol de ingeniería de software con propiedad operativa práctica y genuina. - Fluidez con Kubernetes, Linux, plataformas en la nube y herramientas de observabilidad, y la capacidad de usarlos para investigar problemas de producción complejos del mundo real. - Una fuerte habilidad para percibir y cerrar brechas de confiabilidad en productos, herramientas y procesos técnicos. - Sólidas habilidades de ingeniería de software en Python o Go, con un historial de creación de herramientas o servicios internos que las personas realmente utilizan. - Comodidad liderando trabajo técnicamente ambiguo e influyendo en la dirección entre equipos sin necesidad de autoridad directa para lograr resultados. - Un historial de mejora de la confiabilidad a través de la ingeniería y la automatización, no solo apagando incendios manualmente. - Fuertes habilidades de comunicación y experiencia real mentorizando ingenieros o dando forma a la toma de decisiones técnicas en tu equipo. - Buen juicio sobre herramientas de IA/LLM: sabés dónde realmente ayudan en los flujos de trabajo operativos y dónde agregan ruido en lugar de señal. - Bonus: Experiencia con sistemas basados en LLM, flujos de trabajo de recuperación, operaciones de plataformas SaaS o creación de herramientas para equipos de soporte o desarrolladores. Lo que valoramos: - Creemos firmemente en el valor de hacer crecer un equipo diverso y alentamos a personas de todos los orígenes, géneros, etnias, habilidades y orientaciones sexuales a postularse. - Valoramos una mentalidad de crecimiento. Individuos creativos de alto rendimiento que profundizan en los problemas y ven las oportunidades de éxito. - Creemos en individuos que buscan la verdad, dicen la verdad y pueden ser ellos mismos en el trabajo. - Valoramos a todos aquellos que creen que la mejora siempre es posible. En Domino, todo es un trabajo en progreso – podemos mejorar en todo. - Enfatizamos un entorno de enseñanza y aprendizaje para equipar a los empleados con las herramientas necesarias para tener éxito en su función y en la empresa. #LI-Remote

Responsabilidades

  • Liderar el desarrollo de herramientas de confiabilidad internas asistidas por IA
  • Mejorar la cobertura de observabilidad de sistemas críticos
  • Gestionar la respuesta a incidentes de principio a fin
  • Guiar el desarrollo de herramientas de observabilidad para clientes
  • Definir y madurar marcos SLO/SLI
  • Escalar prácticas de operaciones cloud para oferta SaaS
  • Mentorizar a otros ingenieros y dar forma a la práctica SRE

Skills requeridas

Respuesta a incidentesGestión de la observabilidadDefinición de SLO/SLIEscalado de operaciones SaaSMentoría de ingenierosToma de decisiones técnicasAutomatizaciónLiderazgo técnicoComunicaciónJuicio sobre herramientas de IA/LLM

Explorar empleos relacionados