Ingeniero de Datos Senior - Plataforma de Ingesta de IA
Software Mind busca un Ingeniero de Datos Senior para unirse a un equipo LATAM en la construcción de un asistente de IA privado para la industria inmobiliaria. El rol se enfoca en el backbone de ingesta y procesamiento de datos.
Si te copa la IA y querés ser clave en la construcción de un asistente para el sector inmobiliario, este puesto remoto es para vos. Vas a armar el corazón del sistema de ingesta de datos, un rol fundamental para la precisión de la IA.
Descripción del puesto
Acerca del Proyecto Software Mind está construyendo un asistente de IA privado y aislado por tenant para la industria de títulos y liquidación de bienes raíces. La plataforma es un sistema RAG (Retrieval-Augmented Generation) que ingiere correos electrónicos históricos, documentos y metadatos estructurados en un índice vectorial por tenant, y ofrece respuestas fundamentadas, citadas y con peso experto a través de una interfaz de preguntas y respuestas estilo chat con inicio de sesión único y registro de auditoría completo. La plataforma es nativa de AWS con un backend Python/FastAPI, frontend Vue.js, vector store OpenSearch/Pinecone y OpenAI/Anthropic/Bedrock como proveedor de LLM. Te unirás a un equipo senior y multifuncional con base en LATAM, donde la experiencia práctica en entrega de IA, no solo la familiaridad, es la expectativa base. Serás responsable de la columna vertebral de ingesta y procesamiento de la plataforma: los pipelines que transforman corpus de correos electrónicos y documentos sin procesar en datos limpios, con minimización de PII, fragmentados e indexados en el vector store por tenant. Esta es la capa fundamental de la que depende la puerta de enlace de extracción de IA; la calidad aquí determina directamente la precisión del sistema. Tus Responsabilidades - Construir y ser responsable del pipeline de ingesta de correos electrónicos históricos a través de Microsoft Graph API. - Implementar el pipeline de ingesta de documentos de SharePoint / OneDrive con acceso a carpetas con ámbito. - Diseñar e implementar la capa de preprocesamiento de minimización de PII. - Construir el flujo de trabajo de indexación del vector store (OpenSearch/Pinecone) con aislamiento de datos por tenant. - Definir e implementar el esquema de procesamiento de datos; producir y mantener la documentación del esquema. - Construir el orquestador de enrutamiento de OCR e integrar el servicio de OCR para documentos escaneados. - Implementar la capa de extracción de texto sin procesar / contenido para todos los tipos de documentos compatibles. - Definir y prototipar la estrategia de ingesta push vs. pull, desde una prueba de concepto única hasta un pipeline incremental nocturno. - Asegurar que el linaje de datos y la trazabilidad de auditoría se incorporen a las salidas del pipeline desde el principio. Habilidades y Experiencia Imprescindibles - Más de 6 años en ingeniería de datos; se requiere una sólida experiencia en pipelines y ETL/ELT. - Dominio de Python para el desarrollo de pipelines de datos. - Experiencia con Microsoft Graph API o APIs similares de correo electrónico/documentos empresariales (M365, Exchange Online). - Servicios de datos de AWS: S3, DynamoDB, Glue y/o procesamiento basado en eventos con Lambda. - Familiaridad con técnicas de detección de PII y minimización de datos (basadas en regex, NER o bibliotecas específicas). - Experiencia en la construcción de pipelines de indexación de vector store o búsqueda semántica. Habilidades Deseables - Experiencia previa en la construcción de pipelines de ingesta específicamente para plataformas basadas en IA/ML, NLP o LLM. - Experiencia con herramientas de OCR: AWS Textract, Tesseract o servicios de OCR comerciales. - Comprensión de patrones de aislamiento de datos por tenant, cifrado con ámbito de tenant y seguridad a nivel de fila. - Familiaridad con los cargadores de documentos de LangChain, pipelines de incrustación o gestión de índices vectoriales. Aceptamos postulaciones de países de LATAM. #LI-DNI Somos Software Mind, un equipo increíble de ingenieros listos para potenciar los proyectos de cualquier empresa de primer nivel. Nuestro objetivo: estar siempre un paso adelante. ¡Conviértete en parte de una empresa multicultural en constante crecimiento con un excelente ambiente de trabajo certificado por Great Place To Work!
Responsabilidades
- Construir y poseer el pipeline de ingesta de correos electrónicos históricos vía Microsoft Graph API
- Implementar pipeline de ingesta de documentos de SharePoint / OneDrive con acceso a carpetas con ámbito definido
- Diseñar e implementar la capa de preprocesamiento de minimización de PII
- Construir el flujo de trabajo de indexación de vector store (OpenSearch/Pinecone)
- Definir e implementar el esquema de procesamiento de datos y mantener documentación del esquema
- Construir el orquestador de enrutamiento de OCR e integrar el servicio de OCR para documentos escaneados
- Implementar la capa de extracción de texto crudo / contenido para todos los tipos de documentos soportados
- Definir y prototipar la estrategia de ingesta push vs. pull
- Asegurar que la linaje de datos y la trazabilidad de auditoría estén integradas en los resultados del pipeline desde el principio