directohace 2 meses

Especialista en Operaciones de IA

NewselaRemoto · Por proyecto
Semi Senior2+ años
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Estamos buscando un experimentado Ingeniero de ML Ops para unirse al equipo de ML/AI en Newsela, enfocado en llevar modelos desde el prototipado hasta la producción, construir pipelines de datos robustos y mantener servicios en funcionamiento suave a medida que escalamos.

Por qué aplicar

Ideal para profesionales con experiencia en ML Ops y DevOps que buscan un desafío en un equipo de ML/AI en un entorno remoto.

Descripción del puesto

¿Por qué te encantará este rol? Estamos buscando un ingeniero de operaciones de aprendizaje automático (ML Ops) experimentado para unirse al equipo de ML/AI en Newsela. Este equipo trabaja en proyectos que van desde el aprendizaje automático clásico hasta pipelines de inteligencia artificial (IA) y generación. Este es un rol práctico. Trabajarás en estrecha colaboración con ingenieros de ML/AI, datos e ingeniería de confiabilidad del sitio para llevar modelos desde el prototipo hasta la producción, crear pipelines de datos robustos y mantener nuestros servicios funcionando sin problemas mientras continuamos escalando. Qué estarás haciendo: - Diseñar y mantener pipelines de CI/CD para entrenamiento de modelos de ML, empaquetado y despliegue en nuestros microservicios. - Gestionar servicios en contenedores en AWS ECS, optimizando por costo, latencia y disponibilidad. - Automatizar la provisión de infraestructura y la configuración de servicios con Terraform. - Trabajar para mantener y escalar servicios que utilizan proveedores de LLM de terceros. - Crear y mejorar pipelines de datos que alimentan modelos desde BigQuery, S3 y DynamoDB en flujos de trabajo de entrenamiento e inferencia. - Instrumentar servicios con herramientas de observabilidad (Datadog, OpenTelemetry, Langfuse) y establecer SLOs para puntos finales de servicio de modelos. - Colaborar con ingenieros de ML para producir nuevos modelos utilizando BentoML, FastAPI y servicio basado en contenedores. Sobre ti: - 2-3 años de experiencia en operaciones de ML en apoyo a características, sistemas y flujos de trabajo de ML/AI con 3-4 años de experiencia previa en DevOps, CloudOps o SRE. - Fuerte dominio de Python. - Experiencia práctica con contenedores Docker y orquestación de contenedores. - Sólido entendimiento de CI/CD para flujos de trabajo de ML en un entorno de producción empresarial. - Experiencia con infraestructura como código, preferentemente Terraform. - Familiaridad con plataformas en la nube — específicamente AWS (ECS, ECR, S3, DynamoDB, CloudWatch) y GCP (BigQuery, Vertex AI). - Experiencia con integración de LLM y observabilidad (OpenAI API, Google GenAI, trazado Langfuse). - Experiencia en la creación y mantenimiento de pipelines de datos para entrenamiento de ML e ingeniería de características. - Familiaridad con flujos de trabajo de modelado de ML — entrenamiento, evaluación, seguimiento de experimentos (por ejemplo, MLFlow, Weights & Biases) y versión de modelos. - Experiencia en el monitoreo y marcado de la deriva del modelo con el tiempo. - Exposición a modelos y marcos de NLP/NLU como Hugging Face Transformers, spaCy o sentence-transformers. - Conocimiento de bases de datos vectoriales (LanceDB, FAISS) y sistemas de recuperación basados en incrustaciones. - Experiencia con el escalado y mantenimiento de marcos de aprendizaje profundo (TensorFlow, PyTorch) en entornos de producción. - Familiaridad con bibliotecas de ML clásicas (scikit-learn, XGBoost, LightGBM) y herramientas de explicabilidad de modelos (SHAP). - Conocimiento práctico de marcos de servicio de ML como BentoML o similares. - Comodidad al trabajar con marcos web asincrónicos de Python como FastAPI o similares. Ten en cuenta que dada la naturaleza del contrato, este rol no será elegible para participar en beneficios patrocinados por la empresa. Sobre Newsela: Newsela es una empresa líder en tecnología educativa dedicada al aprendizaje significativo en el aula para cada estudiante. Ofrecemos soluciones integradas impulsadas por IA diseñadas para desbloquear la participación de los estudiantes, empoderar a los docentes y impulsar resultados de aprendizaje significativos. Nuestra suite de productos admite el desarrollo de conocimientos y habilidades, la práctica de escritura, la instrucción diaria, la evaluación y la toma de decisiones informada por datos en las aulas de K-12. Basados en la investigación de la ciencia del aprendizaje, las soluciones de Newsela integran contenido, evaluación y análisis para ayudar a los educadores a rastrear el progreso, comprender los resultados de los estudiantes y brindar instrucción de alto impacto que admita a cada estudiante. #LI-Remote

Responsabilidades

  • Diseñar y mantener pipelines CI/CD para entrenamiento, empaquetado y despliegue de modelos ML
  • Gestionar servicios en contenedores en AWS ECS
  • Automatizar aprovisionamiento de infraestructura y configuración de servicios con Terraform
  • Trabajar en servicios que utilizan proveedores LLM de terceros
  • Construir y mejorar pipelines de datos para flujos de trabajo de entrenamiento e inferencia

Skills requeridas

CI/CD para flujos de trabajo de MLInfraestructura como CódigoNubes (AWS, GCP)ObservabilidadEscalabilidad de serviciosTrabajo en equipoColaboraciónResolución de problemas