directohace 17 horas

Ingeniero/a de Datos Senior - Plataforma de Ingesta de IA

S
Software Mind
Buenos AiresRemoto · Por proyecto
Senior6+ años
A convenir
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa de software busca Ingeniero/a de Datos Senior para unirse a un equipo LATAM en la construcción de una plataforma de IA para el sector inmobiliario. El rol se enfoca en el desarrollo de pipelines de ingesta y procesamiento de datos.

Por qué aplicar

Si sos un/a Ingeniero/a de Datos Senior con experiencia en IA y querés ser parte de un equipo LATAM construyendo una plataforma innovadora para el sector inmobiliario, este puesto remoto es para vos. Vas a tener un rol clave en el desarrollo de pipelines de ingesta y procesamiento de datos.

Descripción del puesto

Software Mind está desarrollando un asistente de IA privado y aislado por tenant para la industria de títulos y liquidaciones inmobiliarias. La plataforma es un sistema RAG (Retrieval-Augmented Generation) que ingiere correos electrónicos históricos, documentos y metadatos estructurados en un índice vectorial por tenant, y ofrece respuestas fundamentadas, citadas y ponderadas por expertos a través de una interfaz de preguntas y respuestas estilo chat con inicio de sesión único y registro de auditoría completo. La plataforma es nativa de AWS con un backend Python/FastAPI, frontend Vue.js, vector store OpenSearch/Pinecone y OpenAI/Anthropic/Bedrock como proveedor de LLM. Te unirás a un equipo senior, multifuncional y basado en LATAM, donde la experiencia práctica en entrega de IA, no solo la familiaridad, es la expectativa base. Serás responsable de la columna vertebral de ingesta y procesamiento de la plataforma: los pipelines que transforman corpus de correos electrónicos y documentos sin procesar en datos limpios, con minimización de PII, fragmentados e indexados en el vector store por tenant. Esta es la capa fundamental de la que depende la puerta de enlace de extracción de IA; la calidad aquí determina directamente la precisión del sistema. Responsabilidades: - Construir y ser responsable del pipeline de ingesta de correos electrónicos históricos a través de Microsoft Graph API. - Implementar el pipeline de ingesta de documentos de SharePoint / OneDrive con acceso a carpetas con ámbito. - Diseñar e implementar la capa de preprocesamiento de minimización de PII. - Construir el flujo de trabajo de indexación del vector store (OpenSearch/Pinecone) con aislamiento de datos por tenant. - Definir e implementar el esquema de procesamiento de datos; producir y mantener la documentación del esquema. - Construir el orquestador de enrutamiento de OCR e integrar el servicio de OCR para documentos escaneados. - Implementar la capa de extracción de texto sin procesar / contenido para todos los tipos de documentos compatibles. - Definir y prototipar la estrategia de ingesta push vs. pull, desde una prueba de concepto única hasta un pipeline incremental nocturno. - Asegurar que el linaje de datos y la trazabilidad de auditoría se incorporen a las salidas del pipeline desde el principio. Tech Stack: - Python, Microsoft Graph API, AWS (S3, DynamoDB, Lambda), OpenSearch, Pinecone, Herramientas de OCR, Bibliotecas de PII, Bibliotecas de NER, Docker, Jira, Confluence. Habilidades y Experiencia Imprescindibles: - +90% de inglés escrito y oral (al menos nivel B2) con excelentes habilidades de comunicación. - Más de 6 años de experiencia en ingeniería de datos; se requiere una sólida experiencia en pipelines y ETL/ELT. - Dominio de Python para el desarrollo de pipelines de datos. - Experiencia con Microsoft Graph API o APIs similares de correo electrónico/documentos empresariales (M365, Exchange Online). - Servicios de datos de AWS: S3, DynamoDB, Glue y/o procesamiento basado en eventos con Lambda. - Familiaridad con técnicas de detección de PII y minimización de datos (basadas en regex, NER o bibliotecas específicas). - Experiencia en la construcción de pipelines de indexación de vector store o búsqueda semántica. Habilidades Deseables: - Experiencia previa en la construcción de pipelines de ingesta específicamente para plataformas basadas en IA/ML, NLP o LLM. - Experiencia con herramientas de OCR: AWS Textract, Tesseract o servicios de OCR comerciales. - Comprensión de patrones de aislamiento de datos por tenant, cifrado con ámbito de tenant y seguridad a nivel de fila. - Familiaridad con los cargadores de documentos de LangChain, pipelines de embedding o gestión de índices vectoriales. Aceptamos postulaciones de países de LATAM.

Responsabilidades

  • Construir y mantener el pipeline de ingesta de emails históricos vía Microsoft Graph API
  • Implementar pipeline de ingesta de documentos de SharePoint / OneDrive
  • Diseñar e implementar capa de pre-procesamiento de minimización de PII
  • Construir el flujo de indexación del vector store (OpenSearch/Pinecone) con aislamiento de datos por tenant
  • Definir e implementar el esquema de procesamiento de datos y mantener documentación
  • Construir el orquestador de routing OCR e integrar servicio OCR para documentos escaneados
  • Implementar capa de extracción de texto/contenido crudo
  • Definir y prototipar estrategia de ingesta push vs. pull
  • Asegurar linaje de datos y trazabilidad de auditoría en los outputs del pipeline

Skills requeridas

Ingeniería de datosETL/ELTDesarrollo de pipelinesProcesamiento de datosAislamiento de datos por tenantIndexación de vector storesBúsqueda semánticaComunicaciónTrabajo en equipo

Explorar empleos relacionados

¿Te interesa empleos en Buenos Aires? Creá una alerta y te avisamos.