directohace 1 día

Ingeniero/a de Confiabilidad de Sitio - Agentes de IA

Kraken ComRemoto · Tiempo completo
Senior5+ años
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa de infraestructura financiera busca un Ingeniero/a de Confiabilidad de Sitio (SRE) con 5+ años de experiencia para diseñar, construir y operar la capa de infraestructura que soporta flujos de trabajo de agentes de IA en producción. Se requiere experiencia en MLOps, AWS, Kubernetes y Terraform.

Por qué aplicar

Si te copa la infraestructura financiera y la IA, este puesto remoto en Kraken es para vos. Podés diseñar y operar sistemas que potencian agentes de IA en producción, trabajando en un sector que avanza rápido.

Descripción del puesto

BUILDING THE FUTURE OF OPEN FINANCE Payward, la empresa matriz detrás de Kraken, NinjaTrader, Breakout, xStocks, Payward Services y CF Benchmarks, ha pasado los últimos 15 años construyendo una de las plataformas de infraestructura financiera más modernas y globalmente accesibles de la industria, diseñada para avanzar en un sistema financiero abierto y global. Antes de postularte, te animamos a explorar nuestra página de cultura https://www.kraken.com/culture para entender qué nos impulsa y cómo trabajamos. EL EQUIPO Fundada en 2011, Kraken es una de las plataformas de criptomonedas más antiguas del mundo, confiada por más de 10 millones de personas e instituciones en todo el mundo. Ofrece trading spot, margen, futuros, staking y servicios OTC, con productos diseñados tanto para inversores individuales como para clientes institucionales. El equipo de Infraestructura de IA se encuentra dentro de la organización de Datos y es responsable de construir, operar y escalar los sistemas que potencian los agentes de IA en producción, tanto herramientas internas como productos orientados al exterior. Trabajando en estrecha colaboración con los equipos de IA y Sistemas de Agentes, este grupo asegura que las capas de orquestación, ejecución y servicio de modelos que sustentan los flujos de trabajo agénticos sean confiables, observables y estén diseñadas para escalar. Este equipo opera en la intersección de la infraestructura de datos y la IA aplicada, un espacio que se mueve rápido y exige ingenieros que puedan aportar disciplina de producción a la tecnología emergente. Te asociarás con equipos de Ingeniería de Datos, ML y orientados a productos para fortalecer la infraestructura de agentes y mantenerla funcionando según los estándares que nuestros usuarios esperan. Es importante destacar que este es un equipo de ingeniería de plataformas. Más allá de operar la infraestructura, el equipo es responsable de construir las APIs, SDKs y capacidades de plataforma que permiten a los equipos de IA, Datos e Ingeniería consumir la infraestructura de agentes como un servicio de manera segura y eficiente. El éxito en este rol requiere pensar más allá de las operaciones de infraestructura y hacia la experiencia del desarrollador, la adopción de la plataforma y la escalabilidad a largo plazo. LA OPORTUNIDAD - Diseñar, construir y operar la capa de infraestructura que soporta los flujos de trabajo de agentes de IA en producción. - Asegurar la confiabilidad, escalabilidad y observabilidad de los sistemas agénticos en productos internos y externos. - Diseñar y desarrollar servicios de plataforma, APIs, SDKs y capacidades de autoservicio que permitan a los equipos de ingeniería consumir fácilmente la infraestructura de IA y los servicios de la plataforma de agentes. - Gestionar y mantener la infraestructura de cómputo, orquestación y servicio que potencia la inferencia de modelos y la ejecución de agentes. - Implementar procedimientos robustos de monitoreo, alerta y respuesta a incidentes adaptados a cargas de trabajo de IA/ML. - Utilizar herramientas de Infraestructura como Código (IaC), como Terraform, para aprovisionar y gestionar componentes de infraestructura en la nube (AWS). - Construir y mantener pipelines de CI/CD que soporten el despliegue rápido y confiable de servicios de IA y flujos de trabajo de agentes. - Definir e implementar barreras de seguridad, manejo de fallos y patrones de recuperación específicos para sistemas agénticos y basados en LLM. - Colaborar con los equipos de IA e Ingeniería de Datos para traducir prototipos experimentales de agentes en sistemas de producción robustos. - Gestionar cargas de trabajo contenerizadas utilizando Kubernetes, asegurando el despliegue, escalado y orquestación eficientes de servicios de IA. - Implementar controles de acceso y mejores prácticas de seguridad en todos los entornos de infraestructura de IA. - Documentar la arquitectura, runbooks y mejores prácticas para apoyar el intercambio de conocimientos en el equipo. QUÉ APORTÁS - Más de 5 años de experiencia como Ingeniero de Confiabilidad del Sitio (SRE), Ingeniero de Infraestructura, Ingeniero de Plataforma o un rol similar en un entorno de producción. - Experiencia práctica en el soporte de infraestructura de ML, servicio de modelos o flujos de trabajo de MLOps en producción. - Experiencia en la construcción de plataformas para desarrolladores, herramientas internas, APIs o SDKs consumidos por equipos de ingeniería a escala. - Sólida comprensión de los principios de ingeniería de plataformas, incluida la experiencia del desarrollador, la infraestructura de autoservicio y el diseño de plataformas impulsado por API. - Dominio de herramientas de Infraestructura como Código, particularmente Terraform. - Experiencia con contenerización y orquestación, particularmente Kubernetes y Docker. - Sólida comprensión de la infraestructura en la nube, preferiblemente AWS. - Fuertes habilidades de scripting (bash/shell) y dominio de al menos un lenguaje de programación (Python preferido). - Experiencia en el diseño y operación de sistemas de observabilidad, monitoreo y alerta. - Experiencia en la implementación de procedimientos de respuesta a incidentes y participación en rotaciones de guardia (on-call). - Fuertes habilidades de colaboración trabajando con equipos de datos, IA e ingeniería. - Mentalidad de alta propiedad en un entorno de producción de alto riesgo y rápido movimiento. DESEABLES - Experiencia en la construcción u operación de infraestructura para sistemas basados en agentes o impulsados por LLM. - Familiaridad con frameworks de orquestación de agentes (por ejemplo, LangGraph, CrewAI o similares). - Experiencia en infraestructura de datos, incluida la familiaridad con Airflow, Kafka, Spark o herramientas de data lake. - Experiencia con pipelines de CI/CD y automatización de despliegues para cargas de trabajo de IA/ML. - Exposición a frameworks de evaluación y monitoreo del rendimiento de modelos a escala. - Experiencia trabajando en entornos 0→1 de rápido movimiento o equipos de construcción de plataformas. - Experiencia en la construcción de SDKs, herramientas para desarrolladores o productos de plataforma interna con un fuerte enfoque en la usabilidad y adopción. - Experiencia con la plataforma en la nube y el ecosistema de productos de Cloudflare, incluyendo redes, seguridad, rendimiento y soluciones Zero Trust. A menos que se indique una fecha límite específica en la publicación del trabajo, las postulaciones se aceptan de forma continua. Por favor, tené en cuenta que se permite a los postulantes tachar o eliminar información de su CV que identifique la edad, fecha de nacimiento o fechas de asistencia o graduación de una institución educativa. Consideramos postulantes calificados con historial penal para empleo en nuestro equipo, evaluando a los candidatos de manera consistente con los requisitos de la Ordenanza de Oportunidades Justas de San Francisco. Payward está impulsado por personas de todo el mundo y celebramos los diversos talentos, antecedentes, contribuciones y perspectivas únicas que cada uno aporta. Contratamos por mérito, buscando personas con las habilidades, conocimientos y capacidades adecuadas para el puesto. Te animamos a postularte a roles donde no cumplas completamente con los requisitos enumerados, especialmente si te apasiona o tenés conocimientos sobre criptomonedas. Podríamos pedir a los candidatos que completen evaluaciones de habilidades relacionadas con el trabajo o estilos de trabajo como parte de nuestro proceso de contratación. Estas evaluaciones evalúan competencias relevantes para el rol y se aplican de manera consistente entre los candidatos para puestos similares. Los resultados se consideran junto con la experiencia y las entrevistas, y no son la única base para ninguna decisión de empleo. Como empleador que ofrece igualdad de oportunidades, no toleramos discriminación ni acoso de ningún tipo, ya sea por motivos de raza, etnia, edad, identidad de género, ciudadanía, religión, orientación sexual, discapacidad, embarazo, condición de veterano o cualquier otra característica protegida según las leyes federales, estatales o locales. Mantente informado Seguinos en Twitter https://twitter.com/krakenfx Leé el Blog de Kraken https://blog.kraken.com/#:~:text=Enter%20your%20email%20address Conectate en LinkedIn https://www.linkedin.com/company/kraken-exchange/ Aviso de Privacidad del Candidato https://www.kraken.com/legal/candidate-privacy-notice

Responsabilidades

  • Diseñar, construir y operar la capa de infraestructura para flujos de trabajo de agentes de IA en producción
  • Garantizar la confiabilidad, escalabilidad y observabilidad de los sistemas de agentes
  • Diseñar y desarrollar servicios de plataforma, APIs y SDKs
  • Gestionar y mantener la infraestructura de cómputo, orquestación y serving
  • Implementar sistemas de monitoreo, alertas y respuesta a incidentes
  • Utilizar herramientas de Infraestructura como Código (IaC) como Terraform
  • Construir y mantener pipelines de CI/CD
  • Definir e implementar patrones de manejo de fallos y recuperación
  • Colaborar con equipos de IA e Ingeniería de Datos
  • Gestionar cargas de trabajo contenerizadas con Kubernetes
  • Implementar controles de acceso y mejores prácticas de seguridad
  • Documentar arquitectura y runbooks

Skills requeridas

Diseño de plataformas para desarrolladoresExperiencia de desarrolladorInfraestructura como servicioDiseño de plataformas basado en APIRespuesta a incidentesColaboración interfuncionalOwnershipColaboración