Data Science Engineer (Python)
Estamos buscando un Data Science Engineer con experiencia en Python y procesamiento de grandes cantidades de datos para unirse a nuestro equipo remoto. El candidato será responsable de diseñar, construir y mantener pipelines de datos y sistemas de ML escalables.
Atractivo para desarrolladores con experiencia en Python y procesamiento de datos. Ideal para aquellos que buscan trabajar en un entorno remoto y colaborativo.
Descripción del puesto
En DevSavant, somos un socio tecnológico de confianza especializado en Desarrollo de Software, Ingeniería de Datos, Inteligencia Artificial/ Aprendizaje Automático, Soluciones en la Nube, Automatización de Pruebas y Diseño de UI/UX. Brindamos soluciones innovadoras y de alta calidad con un enfoque en la excelencia y los resultados. Nuestras personas están en el centro de todo lo que hacemos, fomentando una cultura de crecimiento y bienestar. Únete a nosotros y prospera en un entorno de apoyo y éxito. Estamos buscando un talentoso Científico de Datos con habilidades expertas en Python y experiencia en procesar grandes cantidades de datos para unirse al equipo de nuestro cliente. Serás un jugador clave en diseñar, construir y hacer que nuestras principales canalizaciones de datos y sistemas de Aprendizaje Automático (que impulsan nuestros análisis avanzados y modelos de Aprendizaje Automático) puedan manejar más. Trabajarás en estrecha colaboración con científicos de datos e ingenieros para crear sistemas fuertes, eficientes y escalables. Si te encanta resolver problemas técnicos complejos, construir sistemas de datos listos para producción y quieres tener un gran impacto en una empresa impulsada por datos, ¡este trabajo es para ti! Antenna, nuestro cliente, es una empresa remota y estamos buscando candidatos que puedan trabajar durante las horas laborales de EE. UU. Informarás al Líder de Ciencia de Datos. Qué Harás - Diseñar, desarrollar, probar y mantener canalizaciones de datos fuertes y escalables utilizando Python y herramientas para el procesamiento de grandes cantidades de datos (como Spark, Dask o similares en GCP). - Diseñar y tomar posesión de partes clave de nuestros sistemas de Aprendizaje Automático, asegurándote de que sean confiables, eficientes y puedan crecer. - Configurar y gestionar prácticas de MLOps, incluidas actualizaciones automáticas para modelos de Aprendizaje Automático (CI/CD), monitoreo de modelos y planes de lanzamiento automatizados. - Mejorar y gestionar trabajos de procesamiento de datos en plataformas en la nube (GCP: Dataproc, BigQuery, Cloud Run, Cloud Build). - Trabajar con científicos de datos para preparar modelos de Aprendizaje Automático para producción y conectarlos a nuestros sistemas de datos. - Escribir documentos detallados para los diseños de sistemas, código y sistemas que crees y gestiones. - Solucionar problemas técnicos complejos en sistemas de datos que se ejecutan en muchas computadoras y en canalizaciones de Aprendizaje Automático. Quién Eres - Tienes 3-5+ años de experiencia laboral en ingeniería de software, con un fuerte enfoque en ingeniería de datos, ingeniería de Aprendizaje Automático o construcción de aplicaciones que utilizan muchos datos. - Eres un experto en Python, con una sólida comprensión del diseño orientado a objetos, diseño de sistemas de software y experiencia en construir código de alta calidad y comprobable para producción. - Tienes experiencia práctica sólida con herramientas para manejar grandes cantidades de datos como Apache Spark (PySpark), Dask o similares. - Tienes experiencia sólida con plataformas en la nube (GCP es altamente preferible). Esto incluye poner servicios en vivo, gestionarlos, hacer que manejen más usuarios (por ejemplo, Docker, Cloud Run, GKE) y trabajar con sistemas de datos grandes (por ejemplo, Dataproc, BigQuery). - Tienes sólidas habilidades en SQL y experiencia trabajando con conjuntos de datos complejos y grandes. - Tienes una comprensión profunda de las ideas de Aprendizaje Automático, el proceso completo de creación de un modelo y principios de MLOps. - Eres un solucionador de problemas excelente, bueno para solucionar problemas complejos en sistemas que se ejecutan en muchas computadoras y hacer que rindan mejor y manejen más datos. - Explicas ideas técnicas complejas y decisiones de diseño de sistemas de manera clara y efectiva en inglés. - Dominio avanzado del inglés (B2-C1); Excelentes habilidades de comunicación, trabajo en equipo y consultoría. - Estás apasionado por construir sistemas escalables fuertes y estás ansioso por guiar y trabajar con un equipo. - Te importa profundamente la calidad del código, la confiabilidad del sistema y escribir buena documentación. Plus - Experiencia o pasión por la Economía de la Suscripción, especialmente en medios y entretenimiento. - Conocimiento profundo de servicios específicos de GCP como Dataproc, Dataflow, Cloud Composer, Vertex AI o Kubernetes Engine. - Experiencia en construir y mantener código Python (bibliotecas) utilizado por muchos o contribuciones a proyectos de código abierto. - Conocimiento avanzado de herramientas de MLOps y formas de gestionar flujos de trabajo (por ejemplo, Cloudbuild, Cloudrun). Pila Tecnológica - Lenguajes: Python (experto), SQL (fuerte) - Procesamiento de Datos a Gran Escala: Apache Spark/PySpark (o similar como Dask) - Plataforma en la Nube: Google Cloud (Dataproc, BigQuery, Cloud Storage, Cloud Run, Cloud Build, GKE - se espera experiencia sólida) - Control de Versiones: Git (experto) - MLOps y Orquestación: Familiaridad con herramientas como Airflow, Kubeflow, Vertex AI Pipelines - Contenedorización: Docker, Kubernetes - Bibliotecas de Análisis de Datos: Pandas, NumPy (muy bueno con estos) - Aprendizaje Automático: scikit-learn, TensorFlow/PyTorch (entiendes cómo hacer que funcionen en producción) - Herramientas de IA: Claude, Gemini, ofertas de OpenAI
Responsabilidades
- Diseñar, desarrollar, probar y mantener pipelines de datos escalables
- Diseñar y tomar propiedad de partes clave de sistemas de ML
- Configurar y gestionar prácticas de MLOps
- Mejorar y gestionar trabajos de procesamiento de datos en plataformas en la nube
- Trabajar con científicos de datos para preparar modelos de ML para producción