directohace 20 horas

Ingeniero de Datos Senior - Plataforma de Ingesta de IA

Software MindBuenos AiresRemoto · Tiempo completo

Senior6+ años

Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Software Mind busca un Ingeniero de Datos Senior para unirse a un equipo LATAM en la construcción de un asistente de IA privado para la industria inmobiliaria. El rol se enfoca en el backbone de ingesta y procesamiento de datos.

Por qué aplicar

Si te copa la IA y querés ser clave en la construcción de un asistente para el sector inmobiliario, este puesto remoto es para vos. Vas a armar el corazón del sistema de ingesta de datos, un rol fundamental para la precisión de la IA.

Descripción del puesto

Acerca del Proyecto Software Mind está construyendo un asistente de IA privado y aislado por tenant para la industria de títulos y liquidación de bienes raíces. La plataforma es un sistema RAG (Retrieval-Augmented Generation) que ingiere correos electrónicos históricos, documentos y metadatos estructurados en un índice vectorial por tenant, y ofrece respuestas fundamentadas, citadas y con peso experto a través de una interfaz de preguntas y respuestas estilo chat con inicio de sesión único y registro de auditoría completo. La plataforma es nativa de AWS con un backend Python/FastAPI, frontend Vue.js, vector store OpenSearch/Pinecone y OpenAI/Anthropic/Bedrock como proveedor de LLM. Te unirás a un equipo senior y multifuncional con base en LATAM, donde la experiencia práctica en entrega de IA, no solo la familiaridad, es la expectativa base. Serás responsable de la columna vertebral de ingesta y procesamiento de la plataforma: los pipelines que transforman corpus de correos electrónicos y documentos sin procesar en datos limpios, con minimización de PII, fragmentados e indexados en el vector store por tenant. Esta es la capa fundamental de la que depende la puerta de enlace de extracción de IA; la calidad aquí determina directamente la precisión del sistema. Tus Responsabilidades - Construir y ser responsable del pipeline de ingesta de correos electrónicos históricos a través de Microsoft Graph API. - Implementar el pipeline de ingesta de documentos de SharePoint / OneDrive con acceso a carpetas con ámbito. - Diseñar e implementar la capa de preprocesamiento de minimización de PII. - Construir el flujo de trabajo de indexación del vector store (OpenSearch/Pinecone) con aislamiento de datos por tenant. - Definir e implementar el esquema de procesamiento de datos; producir y mantener la documentación del esquema. - Construir el orquestador de enrutamiento de OCR e integrar el servicio de OCR para documentos escaneados. - Implementar la capa de extracción de texto sin procesar / contenido para todos los tipos de documentos compatibles. - Definir y prototipar la estrategia de ingesta push vs. pull, desde una prueba de concepto única hasta un pipeline incremental nocturno. - Asegurar que el linaje de datos y la trazabilidad de auditoría se incorporen a las salidas del pipeline desde el principio. Habilidades y Experiencia Imprescindibles - Más de 6 años en ingeniería de datos; se requiere una sólida experiencia en pipelines y ETL/ELT. - Dominio de Python para el desarrollo de pipelines de datos. - Experiencia con Microsoft Graph API o APIs similares de correo electrónico/documentos empresariales (M365, Exchange Online). - Servicios de datos de AWS: S3, DynamoDB, Glue y/o procesamiento basado en eventos con Lambda. - Familiaridad con técnicas de detección de PII y minimización de datos (basadas en regex, NER o bibliotecas específicas). - Experiencia en la construcción de pipelines de indexación de vector store o búsqueda semántica. Habilidades Deseables - Experiencia previa en la construcción de pipelines de ingesta específicamente para plataformas basadas en IA/ML, NLP o LLM. - Experiencia con herramientas de OCR: AWS Textract, Tesseract o servicios de OCR comerciales. - Comprensión de patrones de aislamiento de datos por tenant, cifrado con ámbito de tenant y seguridad a nivel de fila. - Familiaridad con los cargadores de documentos de LangChain, pipelines de incrustación o gestión de índices vectoriales. Aceptamos postulaciones de países de LATAM. #LI-DNI Somos Software Mind, un equipo increíble de ingenieros listos para potenciar los proyectos de cualquier empresa de primer nivel. Nuestro objetivo: estar siempre un paso adelante. ¡Conviértete en parte de una empresa multicultural en constante crecimiento con un excelente ambiente de trabajo certificado por Great Place To Work!

Responsabilidades

Construir y poseer el pipeline de ingesta de correos electrónicos históricos vía Microsoft Graph API
Implementar pipeline de ingesta de documentos de SharePoint / OneDrive con acceso a carpetas con ámbito definido
Diseñar e implementar la capa de preprocesamiento de minimización de PII
Construir el flujo de trabajo de indexación de vector store (OpenSearch/Pinecone)
Definir e implementar el esquema de procesamiento de datos y mantener documentación del esquema
Construir el orquestador de enrutamiento de OCR e integrar el servicio de OCR para documentos escaneados
Implementar la capa de extracción de texto crudo / contenido para todos los tipos de documentos soportados
Definir y prototipar la estrategia de ingesta push vs. pull
Asegurar que la linaje de datos y la trazabilidad de auditoría estén integradas en los resultados del pipeline desde el principio

Skills requeridas

Ingeniería de datosETL/ELTDesarrollo de pipelines de datosProcesamiento de datosAislamiento de datos por tenantIndexación de bases de datos vectorialesBúsqueda semántica

Trabajos similares

Más ofertas de Software Mind

Backend Developer

Software Mind

Buenos AiresRemoto

Directo de la empresa · hace 16 horas

Senior Business Analyst

Software Mind

Buenos AiresRemoto

Directo de la empresa · hace 18 horas

Senior Development Lead

Software Mind

Buenos AiresRemoto

Directo de la empresa · hace 20 horas

Senior QA Automation Engineer

Software Mind

Buenos AiresRemoto

Directo de la empresa · hace 20 horas

¿Te interesa empleos en Buenos Aires? Avisame cuando haya nuevos.

Ingeniero de Datos Senior - Plataforma de Ingesta de IA

Descripción del puesto

Responsabilidades

Skills requeridas

Trabajos similares

AI/ML Engineer: RAG & API Pipelines

Senior Data Engineer - AWS & RAG Pipelines

Senior AI Data Engineer

Senior Data Engineer

Senior Data Engineer

Senior Data Engineer - Argentina

Más ofertas de Software Mind

Backend Developer

Senior Business Analyst

Senior Development Lead

Senior QA Automation Engineer