Ingeniero/a de Datos Senior
Proofpoint busca un/a Ingeniero/a de Datos Senior para diseñar, construir y mantener la infraestructura de datos de ML/AI para su plataforma de ciberseguridad, trabajando con tecnologías cloud y big data.
Si sos Ingeniero/a de Datos Senior y te apasiona la ciberseguridad, esta oportunidad en Proofpoint es para vos. Podrás diseñar y construir la infraestructura de datos para ML/AI en una empresa líder, trabajando en un modelo híbrido en Córdoba.
Descripción del puesto
Acerca de nosotros: Proofpoint es un líder global en ciberseguridad centrada en el ser humano y en agentes. Protegemos cómo las personas, los datos y los agentes de IA se conectan a través de correo electrónico, la nube y herramientas de colaboración. Más del 80 % de las Fortune 100, 10.000 grandes empresas y millones de organizaciones más pequeñas confían en Proofpoint para detener amenazas, prevenir la pérdida de datos y generar resiliencia en sus flujos de trabajo de personas e IA. Nuestra misión es simple: proteger el mundo digital y empoderar a las personas para que trabajen de forma segura y con confianza. Únete a nosotros en nuestra búsqueda para defender datos y proteger personas. Cómo trabajamos: En Proofpoint, serás parte de un equipo global que rompe barreras para redefinir la ciberseguridad, guiado por nuestros valores fundamentales BRAVE: - Bold (Audaz) en cómo soñamos e innovamos - Responsive (Responsivo) a comentarios, desafíos y oportunidades - Accountable (Responsable) por los resultados y los mejores resultados de su clase - Visionary (Visionario) en la resolución de problemas enfocada en el futuro - Exceptional (Excepcional) en la ejecución e impacto El rol: Buscamos un Ingeniero de Datos Senior para construir y mantener la infraestructura de datos de ML/IA que impulsa nuestra plataforma de seguridad de correo electrónico. En este rol, diseñarás y optimizarás pipelines de datos escalables que permitan la detección e investigación de amenazas, al tiempo que soportan tanto modelos de aprendizaje automático como agentes impulsados por LLM que brindan información de seguridad contextual. Trabajarás en nuestra Plataforma de Inteligencia de Detección (DIP), construyendo frameworks de ingeniería de características y almacenes de características offline/online que sirven como base para la investigación de modelos de ML y la ingeniería de contexto para agentes de IA. Colaborarás con científicos de datos, ingenieros de ML e investigadores de seguridad para construir modelos de datos y almacenes de contexto que impulsen nuestros sistemas de detección y permitan a los analistas de seguridad humanos investigar amenazas de manera efectiva. Responsabilidades clave: - Desarrollar y mantener pipelines de datos escalables en AWS/Azure utilizando tecnologías como Spark, Airflow, Athena, Kubernetes, etc., para procesar datos de correo electrónico estructurados y no estructurados a escala. - Diseñar y optimizar tablas y esquemas de data lake basados en Iceberg para un almacenamiento, consulta y versionado eficientes en conjuntos de datos a escala de petabytes distribuidos en centros de datos a nivel mundial. - Construir y gestionar frameworks de ingeniería de características que soporten el procesamiento por lotes offline y el servicio de características en tiempo real online para el entrenamiento e inferencia de modelos de ML. - Desarrollar y mantener pipelines de datos de entrenamiento optimizados para el entrenamiento de modelos de ML distribuidos, asegurando la linaje de datos y la reproducibilidad. - Colaborar con científicos de datos e investigadores de seguridad para comprender los requisitos de datos y traducirlos en soluciones de datos robustas y listas para producción. - Monitorear y optimizar el rendimiento de los pipelines de datos, implementando observabilidad y alertas para garantizar la frescura y calidad de los datos. - Ser mentor de ingenieros junior y fomentar una cultura de excelencia en ingeniería y intercambio de conocimientos. Experiencia requerida: - Varios años de experiencia en la industria construyendo y manteniendo sistemas de datos distribuidos y pipelines de datos a gran escala en un entorno de nube administrada (AWS/Azure/GCP) utilizando motores de procesamiento de big data como Spark, Flink, Dask, Ray, Beam, DataBricks Workflows o similares. - Profundo conocimiento de Python para desarrollar código de procesamiento de datos listo para producción. - Sólida experiencia con frameworks de Infraestructura como Código (IaC), particularmente Terraform. - Sólida comprensión y experiencia práctica con formatos de tabla abiertos para data lakes (Apache Iceberg, Hudi, DeltaLake) y las mejores prácticas de modelado de datos. - Experiencia con AWS Athena, Glue o servicios similares de consulta y catalogación de datos. - Experiencia con Apache Airflow o herramientas similares de orquestación de flujos de trabajo para la gestión de pipelines batch y en tiempo real. - Capacidad demostrada para diseñar e implementar pipelines ETL/ELT escalables que manejen transformaciones de datos complejas. - Excelentes habilidades de comunicación y capacidad para colaborar eficazmente con partes interesadas técnicas y no técnicas. Bueno tener: - Experiencia con frameworks de ingeniería de características y almacenes de características (por ejemplo, Feast, Tecton o soluciones personalizadas). - Familiaridad con Kubernetes para cargas de trabajo de datos contenerizadas y orquestación. - Experiencia en la construcción de infraestructura de datos para aplicaciones de aprendizaje automático e IA. - Experiencia con frameworks de calidad de datos y herramientas de observabilidad para pipelines de datos. ¿Por qué Proofpoint? En Proofpoint, creemos que una experiencia profesional excepcional incluye un paquete integral de compensación y beneficios. Aquí hay solo algunas razones por las que te encantará trabajar con nosotros: - Compensación competitiva - Beneficios integrales - Éxito profesional en tus términos - Entorno de trabajo flexible - Días anuales de bienestar y alcance comunitario - Reconocimiento constante de tus contribuciones - Colaboración global y oportunidades de networking Nuestra cultura: Nuestra cultura está arraigada en valores que inspiran pertenencia, empoderan el propósito y generan éxito, todos los días, para todos. Fomentamos las solicitudes de personas de todos los orígenes, experiencias y perspectivas. Si necesitas alguna adaptación durante el proceso de solicitud o entrevista, comunícate con [email protected]. Cómo postularse: ¿Interesado? Envía tu solicitud junto con cualquier información de apoyo. ¡Estamos ansiosos por saber de ti!
Responsabilidades
- Desarrollar y mantener pipelines de datos escalables en AWS/Azure
- Diseñar y optimizar tablas y esquemas de data lake basados en Iceberg
- Construir y gestionar frameworks de ingeniería de características
- Desarrollar y mantener pipelines de datos de entrenamiento
- Colaborar con científicos de datos e investigadores de seguridad
- Monitorear y optimizar el rendimiento de los pipelines de datos
- Mentorizar ingenieros junior
Skills requeridas
Beneficios
- Compensación competitiva
- Beneficios integrales
- Éxito profesional
- Entorno de trabajo flexible
- Días de bienestar y alcance comunitario
- Reconocimiento
- Colaboración y networking global