workablehace 5 días

Data Engineer

PavagoRemoto · Tiempo completo
Senior3+ años
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Se busca Data Engineer para diseñar, construir y mantener infraestructura de datos escalable y pipelines de datos confiables para alimentar análisis, informes y toma de decisiones operativas en una empresa.

Por qué aplicar

Atractivo para profesionales con sólidas bases en ingeniería de software y pasión por sistemas de datos confiables y escalables.

Descripción del puesto

Título del puesto: Ingeniero de Datos Tipo de puesto: Tiempo completo, remoto Horario de trabajo: Horario comercial del cliente en EE. UU. (con flexibilidad para monitoreo de pipelines, despliegues y ciclos de actualización de datos) Sobre el rol Nuestro cliente busca un Ingeniero de Datos para diseñar, construir y mantener infraestructura de datos escalable y pipelines de datos confiables que impulsen análisis, informes y toma de decisiones operativas en toda la empresa. Este rol requiere sólidos fundamentos de ingeniería de software, amplia experiencia con stacks de datos modernos y pasión por construir sistemas de datos limpios, confiables y de alto rendimiento. El Ingeniero de Datos garantizará que los datos fluyan sin problemas desde los sistemas de origen hacia los almacenes de datos, los paneles de control y las aplicaciones secundarias, manteniendo altos estándares de calidad, gobernanza y escalabilidad. El candidato ideal es analítico, orientado a los detalles y cómodo trabajando en equipos de ingeniería, análisis y negocio para entregar datos confiables y procesables. Responsabilidades - Desarrollo de pipelines y integración de datos - Construir, mantener y optimizar pipelines ETL/ELT utilizando Python, SQL o Scala - Orquestar flujos de trabajo utilizando Airflow, Prefect, Dagster o herramientas de orquestación similares - Ingerir datos estructurados y no estructurados desde APIs, plataformas SaaS, bases de datos, archivos y sistemas de streaming - Desarrollar conectores escalables y flujos de trabajo de ingesta automatizados - Almacenamiento de datos y modelado - Gestionar y optimizar almacenes de datos en la nube como Snowflake, BigQuery o Redshift - Diseñar esquemas escalables utilizando técnicas de modelado en estrella y snowflake - Implementar estrategias de particionamiento, agrupación, indexación y optimización de rendimiento - Construir conjuntos de datos listos para análisis para casos de uso de inteligencia empresarial e informes - Calidad de datos, gobernanza y confiabilidad - Implementar comprobaciones de validación, detección de anomalías, registro y monitoreo para garantizar la integridad de los datos - Hacer cumplir convenciones de nomenclatura, seguimiento de linaje y estándares de documentación utilizando herramientas como dbt o Great Expectations - Mantener procesos de datos listos para auditorías y garantizar el cumplimiento con requisitos específicos de la industria como GDPR, HIPAA - Monitorear la salud de los pipelines y resolver proactivamente fallas o inconsistencias - Procesamiento de datos en tiempo real y streaming - Construir y gestionar pipelines de datos en tiempo real utilizando Kafka, Kinesis, Pub/Sub o plataformas similares - Soportar arquitecturas de ingesta de baja latencia y basadas en eventos para aplicaciones sensibles al tiempo - Monitorear la infraestructura de streaming y optimizar el rendimiento y la confiabilidad - Colaboración y habilitación de análisis - Colaborar estrechamente con analistas, científicos de datos y partes interesadas del negocio para entregar conjuntos de datos confiables - Soportar iniciativas de paneles de control e informes en Tableau, Looker o Power BI - Traducir requisitos comerciales en soluciones y modelos de datos escalables - Mantener documentación técnica clara para pipelines, esquemas y flujos de trabajo - Infraestructura, DevOps y automatización - Contener servicios de datos utilizando Docker y gestionar despliegues a través de Kubernetes cuando corresponda - Automatizar despliegues utilizando pipelines CI/CD como GitHub Actions, Jenkins o GitLab CI - Gestionar infraestructura en la nube utilizando Terraform, CloudFormation o herramientas similares de Infraestructura como Código - Optimizar continuamente el rendimiento, la escalabilidad, la confiabilidad y los costos en la nube ¿Qué te hace un candidato perfecto? - Apasionado por construir sistemas de datos limpios, confiables y escalables - Fuerte mentalidad de depuración y resolución de problemas con alta atención al detalle - Equilibrio entre disciplina de ingeniería de software y pensamiento analítico - Cómodo trabajando de forma transversal con partes interesadas técnicas y no técnicas - Comunicador proactivo que se hace cargo de la calidad y confiabilidad de los datos Experiencia y habilidades requeridas - 3+ años de experiencia en roles de Ingeniería de Datos, Ingeniería de Backend o Infraestructura de Datos - Fuerte dominio de Python y SQL - Experiencia con al menos un almacén de datos moderno (Snowflake, Redshift, BigQuery) - Experiencia práctica con herramientas de orquestación como Airflow o Prefect - Fuerte comprensión de pipelines ETL/ELT, modelado de datos y flujos de trabajo de transformación de datos - Familiaridad con plataformas en la nube como AWS, GCP o Azure Experiencia y habilidades preferidas - Experiencia con dbt para gestión de modelado y transformación de datos - Experiencia con pipelines de datos en streaming y basados en eventos (Kafka, Kinesis, Pub/Sub) - Experiencia con servicios de datos nativos en la nube como AWS Glue, GCP Dataflow o Azure Data Factory - Familiaridad con Docker, Kubernetes, Terraform o flujos de trabajo CI/CD - Antecedentes en industrias reguladas como atención médica, fintech o SaaS empresarial - Experiencia optimizando costos de almacenes de datos y rendimiento de consultas a gran escala ¿Cómo es un día típico? Un día de un Ingeniero de Datos gira en torno a mantener pipelines confiables, mejorar la calidad de los datos y habilitar equipos con acceso escalable a datos confiables. Usted: - Monitoreará la salud de los pipelines y solucionará trabajos fallidos en Airflow o sistemas de orquestación relacionados - Construirá y mantendrá pipelines de ingesta para APIs, plataformas SaaS y bases de datos operativas - Optimizará consultas SQL y rendimiento de almacenes de datos para mejorar la eficiencia y reducir los costos en la nube - Colaborará con analistas y científicos de datos para proporcionar conjuntos de datos seleccionados para informes y modelado - Implementará comprobaciones de validación y monitoreo para prevenir problemas de calidad de datos en los sistemas de informes secundarios - Documentará modelos de datos, transformaciones y flujos de trabajo para garantizar la escalabilidad y la capacidad de mantenimiento En esencia: usted asegura que la organización tenga datos precisos, oportunos y confiables que impulsen decisiones operativas, analíticas y estratégicas. Métricas clave para el éxito (KPIs) - Uptime de pipelines ≥ 99% - Frescura de datos mantenida dentro de los SLA acordados - Cero problemas críticos de calidad de datos que lleguen a los sistemas de informes secundarios - Mejor rendimiento de consultas en el almacén de datos y optimización de costos - Entrega oportuna de conjuntos de datos escalables y confiables - Retroalimentación positiva de analistas, científicos de datos y partes interesadas del negocio Proceso de entrevista - Pantalla telefónica inicial - Entrevista en video con reclutador de Pavago - Evaluación técnica (por ejemplo, construir un pequeño pipeline ETL o optimizar una consulta SQL) - Entrevista con el cliente con el equipo de Ingeniería/ Datos - Oferta y verificación de antecedentes

Responsabilidades

  • Desarrollo de pipelines de datos
  • Ingesta de datos
  • Modelado de datos
  • Optimización de desempeño
  • Garantía de calidad de datos

Skills requeridas

Atención al clienteResolución de problemasTrabajo en equipoComunicación proactiva