Empresa de tecnología busca un Senior DevOps Engineer con experiencia en AWS y en la operación de infraestructura para cargas de trabajo de IA/ML o LLM. El rol es 100% remoto para LATAM.
Si te copa la IA y los LLMs, este puesto remoto es para vos. Vas a tener la posta de la infraestructura en AWS para un proyecto súper innovador y vas a ser clave desde el día uno. Ideal si ya tenés experiencia operando cargas de trabajo de IA en la nube.
Descripción del puesto
Sobre el Proyecto Software Mind está construyendo un asistente de IA privado y aislado por tenant para la industria de títulos y liquidación de bienes raíces. La plataforma es un sistema "retrieval-first" (RAG) que ingiere correos electrónicos históricos, documentos y metadatos estructurados en un índice vectorial por tenant, y ofrece respuestas fundamentadas, citadas y con peso experto a través de una interfaz de preguntas y respuestas estilo chat con inicio de sesión único (SSO) y registro de auditoría completo. La plataforma es nativa de AWS con un backend Python/FastAPI, frontend Vue.js, vector store OpenSearch/Pinecone y OpenAI/Anthropic/Bedrock como proveedor de LLM. Te unirás a un equipo senior, multifuncional y basado en LATAM, donde la experiencia práctica en entrega de IA, no solo la familiaridad, es la expectativa base. Te encargarás y serás responsable de la infraestructura cloud y la base de CI/CD sobre la que corre todo el proyecto. Tu trabajo estará en el camino crítico desde el primer día: la entrega comienza con el aprovisionamiento del entorno. Diseñarás para el aislamiento de tenant, la observabilidad y la seguridad desde el principio, no como una ocurrencia tardía. Este rol requiere experiencia previa operando infraestructura para cargas de trabajo de producción basadas en IA o LLM. Tus Responsabilidades - Provisionar y configurar una VPC dedicada y un entorno cloud segmentado en AWS. - Construir el pipeline de CI/CD base y mantenerlo y evolucionarlo a través de todas las fases de entrega. - Configurar y gestionar la infraestructura del vector store (OpenSearch/Pinecone en AWS). - Configurar y gestionar el stack de observabilidad: CloudWatch, X-Ray, umbrales de alerta y monitoreo específico de LLM. - Implementar infraestructura como código (IaC) para todos los entornos (dev, staging, producción) usando Terraform o CDK. - Gestionar secretos, configuración de claves de encriptación KMS y controles de acceso por tenant. - Configurar la conectividad del proveedor de LLM (OpenAI / Anthropic / Amazon Bedrock nivel empresarial, "zero-data-retention"). - Definir e implementar la estrategia de promoción de entornos alineada con la cadencia de sprints de 2 semanas. - Soportar los requisitos de infraestructura del pipeline de ingesta incremental y la programación nocturna. Tech Stack: AWS (VPC, ECS, Lambda), Terraform, CDK, OpenSearch, Pinecone, CloudWatch, X-Ray, GitHub Actions, CodePipeline, OpenAI, Anthropic, Bedrock, Cognito, KMS, Docker. Habilidades y Experiencia Imprescindibles - +90% de inglés escrito y oral (nivel B2 como mínimo) con excelentes habilidades de comunicación. - 6+ años en DevOps o ingeniería de infraestructura cloud; se requiere una fuerte especialización en AWS. - Infraestructura como código: Terraform, CloudFormation o AWS CDK. - Herramientas de CI/CD: GitHub Actions, AWS CodePipeline o equivalentes. - Servicios AWS Core: VPC, ECS, Lambda, S3, DynamoDB, API Gateway, Cognito, CloudWatch, X-Ray. - Experiencia diseñando y operando entornos cloud multi-tenant con aislamiento de datos a nivel de tenant. Experiencia en IA (Requerido, No Opcional) - Al menos un proyecto operando infraestructura para un sistema de producción integrado con IA/ML o LLM, no solo cargas de trabajo cloud generales. - Experiencia configurando y gestionando infraestructura de vector store (OpenSearch, Pinecone, Weaviate o equivalente) en un entorno de producción. - Familiaridad con las APIs de proveedores de LLM (OpenAI, Anthropic o Amazon Bedrock) en una configuración empresarial/de producción, incluyendo la configuración del nivel "zero-data-retention". - Comprensión de las preocupaciones de observabilidad específicas de IA: monitoreo de uso de tokens, perfilado de latencia para llamadas a LLM y registro de respuestas del modelo. Experiencia Deseable - Experiencia con SSO empresarial y federación de identidades: Cognito, Okta o Azure AD. - Experiencia en configuración de entornos cloud regulados (HIPAA, SOC 2 o datos regulados). - Familiaridad con infraestructura de servicios de OCR o procesamiento de documentos (AWS Textract, etc.). Aceptamos postulaciones de países de LATAM.
Responsabilidades
- Provisionar y configurar entorno cloud en AWS
- Construir y mantener pipeline CI/CD
- Configurar y gestionar infraestructura de vector store
- Configurar y gestionar stack de observabilidad
- Implementar infraestructura como código
- Gestionar secretos y controles de acceso
- Configurar conectividad con proveedor LLM
- Definir estrategia de promoción de entornos
- Soportar requisitos de infraestructura de pipeline de ingesta