Senior AI Compute Infrastructure Engineer
Kraken busca un Senior AI Compute Infrastructure Engineer para unirse a su equipo de infraestructura de cómputo de IA. El rol es responsable de diseñar y operar infraestructura de cómputo de alto rendimiento para cargas de trabajo de IA.
Atractivo para profesionales de IA que buscan trabajar en un entorno remoto y contribuir a la adopción global de criptomonedas. Ideal para aquellos que comparten valores de innovación y libertad financiera.
Descripción del puesto
Construyendo el futuro de las criptomonedas Nuestros empleados de Kraken somos un equipo de clase mundial con convicción en las criptomonedas, unidos por nuestro deseo de descubrir y desbloquear el potencial de la tecnología de criptomonedas y blockchain. ¿Qué nos hace diferentes? Kraken es una empresa enfocada en su misión, arraigada en los valores de las criptomonedas. Como empleado de Kraken, te unirás a nosotros en nuestra misión de acelerar la adopción global de criptomonedas, para que todos puedan lograr libertad e inclusión financiera. Durante más de una década, el enfoque de Kraken en nuestra misión y ethos de criptomonedas ha atraído a muchos de los expertos más talentosos en criptomonedas del mundo. Antes de postular, lee nuestra página de Cultura de Kraken https://www.kraken.com/culture para obtener más información sobre nuestra cultura interna, valores y misión. También esperamos que los candidatos se familiaricen con la aplicación de Kraken. Aprende a crear una cuenta de Kraken aquí https://support.kraken.com/hc/en-us/articles/226090548-How-to-create-an-account-on-Kraken. Como empresa totalmente remota, tenemos empleados de Kraken en más de 70 países que hablan más de 50 idiomas. Los empleados de Kraken son pioneros en la industria que desarrollan productos de criptomonedas premium para traders experimentados, instituciones y recién llegados al espacio. Kraken se compromete a liderar la seguridad en la industria https://blog.kraken.com/crypto-education/security-at-kraken, educación sobre criptomonedas https://blog.kraken.com/category/crypto-education y soporte al cliente de clase mundial https://blog.kraken.com/crypto-education/support-at-kraken a través de nuestros productos como Kraken Pro https://pro.kraken.com/, Desktop https://www.kraken.com/desktop, Wallet https://www.kraken.com/wallet y Kraken Futures https://www.kraken.com/features/futures. ¡Conviértete en un empleado de Kraken y construye el futuro de las criptomonedas! PRUEBA DE TRABAJO EL EQUIPO Kraken está construyendo un equipo dedicado de Inteligencia Artificial (IA) y Infraestructura para impulsar la próxima generación de entrenamiento de modelos, inferencia, evaluación y experimentación en toda la bolsa. Este equipo se encuentra dentro del liderazgo de ingeniería y posee la capa de infraestructura que permite a Kraken ejecutar cargas de trabajo de IA con control, velocidad, confiabilidad y disciplina de costos. El equipo es responsable de la infraestructura de GPU y aceleradores, operaciones de clúster, programación, servicio de modelos, observabilidad, planificación de capacidad y computación rentable a escala. Esto es la columna vertebral que permite a Kraken entrenar, servir, evaluar e iterar sobre sistemas de IA internamente donde es importante para la privacidad, la latencia, la confiabilidad, el costo o la diferenciación del producto. Te unirás a un equipo pequeño, senior y de alto impacto que trabaja directamente con investigadores de IA/ML, ingenieros de plataforma, equipos de seguridad y equipos de producto. El mandato es simple: hacer realidad las ambiciones de IA de Kraken construyendo infraestructura de computación que sea rápida, confiable, eficiente y de producción. LA OPORTUNIDAD - Poseer y operar clústeres de GPU y aceleradores utilizados para entrenamiento, inferencia, evaluación y experimentación, incluidos controladores, runtimes, kernels, plugins de dispositivo, configuración de nodos, primitivas de programación y aislamiento de carga de trabajo. - Diseñar infraestructura que permita a los equipos de Kraken ejecutar modelos localmente en GPU donde sea estratégicamente y económicamente preferible, reduciendo la dependencia innecesaria de proveedores externos y conteniendo los costos de computación. - Construir y mejorar sistemas de programación, orquestación, ubicación, gestión de cuotas y utilización en entornos de aceleradores heterogéneos. - Optimizar pipelines de inferencia para latencia, rendimiento, confiabilidad, eficiencia de memoria y costo utilizando frameworks como vLLM, Triton Inference Server, TensorRT o equivalentes. - Colaborar con ingenieros de ML e investigadores para eliminar cuellos de botella en entrenamiento, evaluación, inferencia por lotes, inferencia en línea, implementación y flujos de trabajo de depuración de producción. - Construir observabilidad para utilización de GPU, presión de memoria, profundidad de cola, saturación, rendimiento de tokens, latencia de solicitud, cargas de trabajo fallidas, presión de capacidad y gasto. - Impulsar confiabilidad, respuesta a incidentes, alertas, libros de procedimientos y mejoras posteriores a incidentes para infraestructura de computación de IA siempre activa. - Evaluar e integrar nuevo hardware, familias de instancias en la nube, aceleradores especializados, runtimes, programadores y frameworks de servicio a medida que evoluciona el panorama de infraestructura de IA. - Construir herramientas que hagan que el uso de GPU sea visible, responsable y más fácil para que los equipos internos lo consuman sin necesidad de convertirse en expertos en infraestructura. - Contribuir a decisiones de arquitectura a largo plazo que equilibren rendimiento, eficiencia de costos, escalabilidad, simplicidad operativa y seguridad de producción. HABILIDADES QUE DEBES POSEER - 5+ años de experiencia en ingeniería de infraestructura, con tiempo significativo dedicado a computación de GPU, infraestructura de ML, sistemas distribuidos, computación de alto rendimiento o plataformas de producción a gran escala. - Experiencia práctica en la operación de clústeres de GPU o infraestructura respaldada por aceleradores en entornos de producción o similares a la producción, incluyendo programación, orquestación, monitoreo de utilización y optimización de costos. - Fuertes fundamentos de ingeniería de sistemas en Linux, redes, almacenamiento, contenedores, Kubernetes, runtimes distribuidos y depuración de producción. - Experiencia con frameworks de servicio de ML como vLLM, Triton Inference Server, TensorRT, TorchServe, KServe, Ray Serve o sistemas equivalentes. - Proficiencia en Python para automatización de infraestructura, herramientas, depuración, integración y flujos de trabajo operativos. - Comprensión práctica de las compensaciones de rendimiento en loteo, concurrencia, uso de memoria, utilización de GPU, tamaño de modelo, latencia, rendimiento, disponibilidad y costo. - Historial de optimización de costos de computación mientras se mantienen expectativas claras de rendimiento, confiabilidad y disponibilidad. - Experiencia en la construcción de sistemas observables con métricas útiles, registros, trazas, paneles de control, alertas y flujos de trabajo de incidentes. - Cómodo trabajando en entornos de alto riesgo y siempre activos donde la disponibilidad, el rendimiento, la corrección y la disciplina operativa son críticas. - Comunicador claro que puede traducir compensaciones de infraestructura para investigadores, equipos de producto, ingenieros de plataforma, partes interesadas de seguridad y liderazgo de ingeniería. NICE TO HAVES - Experiencia en un laboratorio de IA de frontera, hyperscaler, empresa de comercio de alta frecuencia, plataforma de investigación o organización de ML a gran escala. - Familiaridad con silicio personalizado o aceleradores especializados como TPUs, AWS Trainium, Gaudi o plataformas similares. - Antecedentes en planificación de capacidad, aporte de adquisiciones, estrategia de capacidad reservada, economía de aceleradores en la nube o gestión de costos de flota de GPU. - Experiencia con frameworks de entrenamiento distribuido como DeepSpeed, Megatron-LM, FSDP, Ray o sistemas equivalentes. - Experiencia depurando CUDA, NCCL, kernel, controlador, runtime, memoria, redes o problemas de rendimiento de bajo nivel. - Experiencia con Rust, C++, Go, CUDA u otros lenguajes de sistemas utilizados para infraestructura crítica de rendimiento. - Experiencia en criptomonedas, servicios financieros, infraestructura de comercio, o infraestructura de producción sensible a la seguridad. Salvo que se indique un plazo específico para la presentación de solicitudes en la publicación del trabajo, las solicitudes se aceptan de forma continua. Por favor, ten en cuenta que se permite a los solicitantes redactar o eliminar información de su currículum que identifique la edad, la fecha de nacimiento o las fechas de asistencia o graduación de una institución educativa. Consideramos a solicitantes calificados con antecedentes penales para trabajar en nuestro equipo, evaluando a los candidatos de manera coherente con los requisitos de la Ordenanza de Oportunidades Justas de San Francisco. Kraken está impulsado por personas de todo el mundo y celebramos a todos los empleados de Kraken por sus diversas habilidades, antecedentes, contribuciones y perspectivas únicas. Contratamos estrictamente en función del mérito, lo que significa que buscamos a los candidatos con las habilidades, conocimientos y habilidades adecuadas para el trabajo. ¡Te animamos a postular a roles donde no cumplas todos los requisitos enumerados, especialmente si eres apasionado o conocedor de criptomonedas! Es posible que solicitemos a los candidatos que completen evaluaciones de habilidades relacionadas con el trabajo o de estilo de trabajo como parte de nuestro proceso de contratación. Estas evaluaciones están diseñadas para evaluar competencias relevantes para el rol y se aplican de manera coherente a los candidatos para puestos similares. Los resultados de la evaluación se consideran junto con otra información relevante, como la experiencia y las entrevistas, y no son la única base para cualquier decisión de empleo. Como empleador de igualdad de oportunidades, no toleramos la discriminación o el acoso de ningún tipo. Ya sea basado en raza, etnia, edad, identidad de género, ciudadanía, religión, orientación sexual, discapacidad, embarazo, estado de veterano o cualquier otra característica protegida por leyes federales, estatales o locales. Mantente al tanto Síguenos en Twitter https://twitter.com/krakenfx Aprende en el Blog de Kraken https://blog.kraken.com/#:~:text=Ingresa%20tu%20dirección%20de%20correo Conéctate en LinkedIn https://www.linkedin.com/company/kraken-exchange/ Aviso de Privacidad para Candidatos https://www.kraken.com/legal/candidate-privacy-notice
Responsabilidades
- Diseñar y operar infraestructura de cómputo de alto rendimiento
- Optimizar pipelines de inferencia
- Colaborar con equipos de ML y investigadores
- Evaluar y integrar nuevo hardware y software