workablehace 1 día

Ingeniero de Evaluación de Agentes Freelance

MindriftCórdoba ProvinceRemoto · Por proyecto

Senior5+ años

Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa busca Ingeniero de Evaluación de Agentes Freelance para crear y evaluar tareas para agentes de IA en entornos de desarrollo simulados. Requiere 5+ años de experiencia en desarrollo de software y dominio de Python, JavaScript/TypeScript, Docker, Postgres, Kafka, Redis, y testing. Se ofrece hasta $30/hr.

Por qué aplicar

Si sos un ingeniero de software con experiencia y te copa el mundo de la IA, esta es tu chance. Podés laburar remoto en proyectos desafiantes para empresas top, evaluando agentes de IA y creando entornos de prueba. Ideal si buscás sumar experiencia en IA sin dejar tu trabajo actual.

Descripción del puesto

Mindrift conecta especialistas con oportunidades de proyectos de IA para empresas líderes de tecnología, enfocadas en probar, evaluar y mejorar sistemas de IA. La participación es por proyecto, no es empleo permanente. Qué implica esta oportunidad: Estamos construyendo un dataset para evaluar agentes de codificación de IA: qué tan bien un modelo maneja tareas de desarrollador del mundo real. Crearás tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: - Construir entornos de desarrollador realistas: una empresa virtual con codebase, infraestructura y contexto (tickets, docs, conversaciones) que formen un historial de desarrollo creíble. - Diseñar tareas a partir de estados intermedios de estos entornos: crear el prompt, definir qué significa "resuelto" y asegurar que la tarea sea resoluble por un agente de IA. - Escribir tests que verifiquen las soluciones del agente: aceptar todos los enfoques válidos y rechazar los incorrectos, sin ser demasiado estrictos ni demasiado laxos. - Iterar sobre tareas y tests basándose en feedback de QA: revisar soluciones de agentes, analizar fallos y refinar hasta que la evaluación sea justa y robusta. Qué NO es: - No es etiquetado de datos. - No es prompt engineering. - No es escribir código desde cero: el agente escribe la mayor parte del código; vos guiás y evaluás. Qué buscamos: - Más de 5 años en desarrollo de software. - Stack principal: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. - Experiencia escribiendo tests (funcionales, de integración). - Dominio del inglés: B2+. Por qué es difícil: Los modelos de frontera ya son buenos codificando. Crear una tarea que realmente desafíe a los mejores modelos no es trivial. Necesitás entender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una solución buena y una mala. Las tareas tienen muchas soluciones válidas: escribir tests que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. Cómo funciona: - Aplicás → Pasás calificación(es) → Te unís a un proyecto → Completás tareas → Te pagan. Estimación de esfuerzo: Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; vos elegís cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación listados para ser aprobadas. Compensación: Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; vos establecés tu propio horario.

Responsabilidades

Crear tareas desafiantes para evaluar agentes de IA.
Diseñar criterios de evaluación.
Escribir tests para verificar soluciones de agentes.
Iterar sobre tareas y tests basándose en feedback de QA.

Skills requeridas

TestingEvaluación de sistemas de IADiseño de tareasCriterios de evaluaciónComprensión de fallos de modelos de IAAnálisis de fallos

Trabajos similares

AI Testers - Evaluacion IA - REMOTO INGLES REQUERIDO

Confidencial

CABARemoto

ZonaJobs · hace 24 días

Senior Software Engineer - AI Interaction Evaluator (Codex / Claude Code, up to $200/hr)

G2I

Buenos AiresRemoto

Directo de la empresa · hace 6 días

Coding Specialist (Fluent in Spanish - Latin America) - Freelance AI Trainer Project

Meridial

Directo de la empresa · hace 12 meses

Más ofertas de Mindrift

Optical Engineer - Freelance AI Trainer

Mindrift

Buenos AiresRemoto

Directo de la empresa · hace 1 día

Optical Engineer - Freelance AI Trainer

Mindrift

Remoto

Directo de la empresa · hace 1 día

Biology & Python Expert - Freelance AI Trainer

Mindrift

Córdoba ProvinceRemoto

Directo de la empresa · hace 2 días

Biology & Python Expert - Freelance AI Trainer

Mindrift

Remoto

Directo de la empresa · hace 2 días

¿Te interesa empleos en Córdoba Province? Avisame cuando haya nuevos.

Ingeniero de Evaluación de Agentes Freelance

Descripción del puesto

Responsabilidades

Skills requeridas

Trabajos similares

AI Testers - Evaluacion IA - REMOTO INGLES REQUERIDO

Senior Software Engineer - AI Interaction Evaluator (Codex / Claude Code, up to $200/hr)

Evaluación de Modelos de IA / AI Testers / Analistas de Datos / Data Analysts

AI Software Development Engineer in Test (AI-SDET)

AI Trainer - Freelance Data Annotator

Coding Specialist (Fluent in Spanish - Latin America) - Freelance AI Trainer Project

Más ofertas de Mindrift

Optical Engineer - Freelance AI Trainer

Optical Engineer - Freelance AI Trainer

Biology & Python Expert - Freelance AI Trainer

Biology & Python Expert - Freelance AI Trainer