Empresa de tecnología busca un Senior Data Engineer con experiencia en Python y AWS para construir y mantener pipelines de ingesta de datos para una plataforma de IA. Se requiere experiencia en Microsoft Graph API y familiaridad con bases de datos vectoriales.
Si sos un Data Engineer con experiencia en Python y AWS, esta es tu oportunidad de sumarte a un equipo LATAM para construir la base de una plataforma de IA innovadora. Vas a ser clave en el desarrollo de pipelines de ingesta de datos, trabajando con tecnologías de punta en un rol remoto.
Descripción del puesto
Sobre el Proyecto Software Mind está construyendo un asistente de IA privado y aislado por tenant para la industria de títulos y liquidaciones inmobiliarias. La plataforma es un sistema "retrieval-first" (RAG) que ingiere correos electrónicos históricos, documentos y metadatos estructurados en un índice vectorial por tenant, y ofrece respuestas fundamentadas, citadas y ponderadas por expertos a través de una interfaz de preguntas y respuestas estilo chat con inicio de sesión único y registro de auditoría completo. La plataforma es nativa de AWS con un backend Python/FastAPI, frontend Vue.js, almacén vectorial OpenSearch/Pinecone y OpenAI/Anthropic/Bedrock como proveedor de LLM. Te unirás a un equipo senior y multifuncional con base en LATAM, donde la experiencia práctica en entrega de IA, no solo la familiaridad, es la expectativa base. Serás responsable de la columna vertebral de ingesta y procesamiento de la plataforma: los pipelines que transforman corpus de correos electrónicos y documentos sin procesar en datos limpios, minimizados en PII, fragmentados e indexados en el almacén vectorial por tenant. Esta es la capa fundamental de la que depende la puerta de enlace de extracción de IA; la calidad aquí determina directamente la precisión del sistema. Tus Responsabilidades - Construir y ser responsable del pipeline de ingesta de correos electrónicos históricos a través de Microsoft Graph API. - Implementar el pipeline de ingesta de documentos de SharePoint / OneDrive con acceso a carpetas con ámbito. - Diseñar e implementar la capa de preprocesamiento de minimización de PII. - Construir el flujo de trabajo de indexación del almacén vectorial (OpenSearch/Pinecone) con aislamiento de datos por tenant. - Definir e implementar el esquema de procesamiento de datos; producir y mantener la documentación del esquema. - Construir el orquestador de enrutamiento de OCR e integrar el servicio de OCR para documentos escaneados. - Implementar la capa de extracción de texto sin procesar / contenido para todos los tipos de documentos admitidos. - Definir y prototipar la estrategia de ingesta "push" vs. "pull", desde un PoC único hasta un pipeline incremental nocturno. - Asegurar que el linaje de datos y la trazabilidad de auditoría se incorporen a las salidas del pipeline desde el principio. Tech Stack: Python, Microsoft Graph API, AWS (S3, DynamoDB, Lambda), OpenSearch, Pinecone, Herramientas de OCR, Librerías de PII, Librerías de NER, Docker, Jira, Confluence. Habilidades y Experiencia Imprescindibles: - Más de 6 años en ingeniería de datos; se requiere una sólida experiencia en pipelines y ETL/ELT. - Dominio de Python para el desarrollo de pipelines de datos. - Experiencia con Microsoft Graph API o APIs similares de correo electrónico/documentos empresariales (M365, Exchange Online). - Servicios de datos de AWS: S3, DynamoDB, Glue y/o procesamiento basado en eventos con Lambda. - Familiaridad con técnicas de detección de PII y minimización de datos (basadas en regex, NER o librerías específicas). - Experiencia en la construcción de pipelines de indexación de almacenes vectoriales o búsqueda semántica. Habilidades Deseables: - Experiencia previa en la construcción de pipelines de ingesta específicamente para plataformas basadas en IA/ML, NLP o LLM. - Experiencia con herramientas de OCR: AWS Textract, Tesseract o servicios comerciales de OCR. - Comprensión de patrones de aislamiento de datos por tenant, cifrado con ámbito de tenant y seguridad a nivel de fila. - Familiaridad con los cargadores de documentos de LangChain, pipelines de incrustación o gestión de índices vectoriales. Aceptamos postulaciones de países de LATAM.
Responsabilidades
- Construir y mantener el pipeline de ingesta de emails históricos vía Microsoft Graph API
- Implementar pipeline de ingesta de documentos de SharePoint / OneDrive
- Diseñar e implementar capa de pre-procesamiento de minimización de PII
- Construir flujo de indexación de vector store (OpenSearch/Pinecone)
- Definir e implementar esquema de procesamiento de datos
- Construir orquestador de routing OCR e integrar servicio OCR
- Implementar capa de extracción de texto/contenido crudo
- Definir y prototipar estrategia de ingesta push vs. pull
- Asegurar linaje de datos y trazabilidad de auditoría