directohace 17 horas

Ingeniero/a de Datos Senior - Plataforma de Ingesta de IA

Buenos AiresRemoto · Por proyecto

Senior6+ años

A convenir

Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa de software busca Ingeniero/a de Datos Senior para unirse a un equipo LATAM en la construcción de una plataforma de IA para el sector inmobiliario. El rol se enfoca en el desarrollo de pipelines de ingesta y procesamiento de datos.

Por qué aplicar

Si sos un/a Ingeniero/a de Datos Senior con experiencia en IA y querés ser parte de un equipo LATAM construyendo una plataforma innovadora para el sector inmobiliario, este puesto remoto es para vos. Vas a tener un rol clave en el desarrollo de pipelines de ingesta y procesamiento de datos.

Descripción del puesto

Software Mind está desarrollando un asistente de IA privado y aislado por tenant para la industria de títulos y liquidaciones inmobiliarias. La plataforma es un sistema RAG (Retrieval-Augmented Generation) que ingiere correos electrónicos históricos, documentos y metadatos estructurados en un índice vectorial por tenant, y ofrece respuestas fundamentadas, citadas y ponderadas por expertos a través de una interfaz de preguntas y respuestas estilo chat con inicio de sesión único y registro de auditoría completo. La plataforma es nativa de AWS con un backend Python/FastAPI, frontend Vue.js, vector store OpenSearch/Pinecone y OpenAI/Anthropic/Bedrock como proveedor de LLM. Te unirás a un equipo senior, multifuncional y basado en LATAM, donde la experiencia práctica en entrega de IA, no solo la familiaridad, es la expectativa base. Serás responsable de la columna vertebral de ingesta y procesamiento de la plataforma: los pipelines que transforman corpus de correos electrónicos y documentos sin procesar en datos limpios, con minimización de PII, fragmentados e indexados en el vector store por tenant. Esta es la capa fundamental de la que depende la puerta de enlace de extracción de IA; la calidad aquí determina directamente la precisión del sistema. Responsabilidades: - Construir y ser responsable del pipeline de ingesta de correos electrónicos históricos a través de Microsoft Graph API. - Implementar el pipeline de ingesta de documentos de SharePoint / OneDrive con acceso a carpetas con ámbito. - Diseñar e implementar la capa de preprocesamiento de minimización de PII. - Construir el flujo de trabajo de indexación del vector store (OpenSearch/Pinecone) con aislamiento de datos por tenant. - Definir e implementar el esquema de procesamiento de datos; producir y mantener la documentación del esquema. - Construir el orquestador de enrutamiento de OCR e integrar el servicio de OCR para documentos escaneados. - Implementar la capa de extracción de texto sin procesar / contenido para todos los tipos de documentos compatibles. - Definir y prototipar la estrategia de ingesta push vs. pull, desde una prueba de concepto única hasta un pipeline incremental nocturno. - Asegurar que el linaje de datos y la trazabilidad de auditoría se incorporen a las salidas del pipeline desde el principio. Tech Stack: - Python, Microsoft Graph API, AWS (S3, DynamoDB, Lambda), OpenSearch, Pinecone, Herramientas de OCR, Bibliotecas de PII, Bibliotecas de NER, Docker, Jira, Confluence. Habilidades y Experiencia Imprescindibles: - +90% de inglés escrito y oral (al menos nivel B2) con excelentes habilidades de comunicación. - Más de 6 años de experiencia en ingeniería de datos; se requiere una sólida experiencia en pipelines y ETL/ELT. - Dominio de Python para el desarrollo de pipelines de datos. - Experiencia con Microsoft Graph API o APIs similares de correo electrónico/documentos empresariales (M365, Exchange Online). - Servicios de datos de AWS: S3, DynamoDB, Glue y/o procesamiento basado en eventos con Lambda. - Familiaridad con técnicas de detección de PII y minimización de datos (basadas en regex, NER o bibliotecas específicas). - Experiencia en la construcción de pipelines de indexación de vector store o búsqueda semántica. Habilidades Deseables: - Experiencia previa en la construcción de pipelines de ingesta específicamente para plataformas basadas en IA/ML, NLP o LLM. - Experiencia con herramientas de OCR: AWS Textract, Tesseract o servicios de OCR comerciales. - Comprensión de patrones de aislamiento de datos por tenant, cifrado con ámbito de tenant y seguridad a nivel de fila. - Familiaridad con los cargadores de documentos de LangChain, pipelines de embedding o gestión de índices vectoriales. Aceptamos postulaciones de países de LATAM.

Responsabilidades

Construir y mantener el pipeline de ingesta de emails históricos vía Microsoft Graph API
Implementar pipeline de ingesta de documentos de SharePoint / OneDrive
Diseñar e implementar capa de pre-procesamiento de minimización de PII
Construir el flujo de indexación del vector store (OpenSearch/Pinecone) con aislamiento de datos por tenant
Definir e implementar el esquema de procesamiento de datos y mantener documentación
Construir el orquestador de routing OCR e integrar servicio OCR para documentos escaneados
Implementar capa de extracción de texto/contenido crudo
Definir y prototipar estrategia de ingesta push vs. pull
Asegurar linaje de datos y trazabilidad de auditoría en los outputs del pipeline

Skills requeridas

Ingeniería de datosETL/ELTDesarrollo de pipelinesProcesamiento de datosAislamiento de datos por tenantIndexación de vector storesBúsqueda semánticaComunicaciónTrabajo en equipo

Trabajos similares

Ingeniero/a de Datos Senior - Plataforma de Ingesta de IA

Descripción del puesto

Responsabilidades

Skills requeridas

Trabajos similares

AI/ML Engineer: RAG & API Pipelines

Senior Data Engineer - AWS & RAG Pipelines

Senior Data Engineer

Sr. AI Engineer

Senior AI Platform Engineer

Senior AI Engineer

Más ofertas de Software Mind

Senior Business Analyst

Senior DevOps Engineer

Full Stack Developer

Backend Developer

Explorar empleos relacionados