workablehace 1 día

Ingeniero de Evaluación de Agentes IA Freelance

MindriftBuenos AiresRemoto · Por proyecto

Senior5+ años

Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa busca Ingeniero de Evaluación de Agentes IA freelance para crear y evaluar tareas para modelos de IA en entornos de desarrollo simulados. Se requiere experiencia en desarrollo de software y dominio de Python, JavaScript/TypeScript, Docker, bases de datos y colas de mensajes.

Por qué aplicar

Si te copa la IA y tenés experiencia en desarrollo, este puesto freelance remoto te permite meter mano en la evaluación de agentes de IA. Ideal para quienes buscan proyectos desafiantes y sumar experiencia en el sector.

Descripción del puesto

Mindrift conecta especialistas con oportunidades de proyectos de IA para empresas líderes de tecnología, enfocadas en probar, evaluar y mejorar sistemas de IA. La participación es por proyecto, no es empleo permanente. Qué implica esta oportunidad: Estamos construyendo un dataset para evaluar agentes de codificación de IA: qué tan bien un modelo maneja tareas de desarrollador del mundo real. Crearás tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: - Construir entornos de desarrollador realistas: una empresa virtual con codebase, infraestructura y contexto (tickets, docs, conversaciones) que formen un historial de desarrollo creíble. - Diseñar tareas a partir de estados intermedios de estos entornos: crear el prompt, definir qué significa "resuelto" y asegurar que la tarea sea resoluble por un agente de IA. - Escribir tests que verifiquen las soluciones del agente: aceptar todos los enfoques válidos y rechazar los incorrectos, sin ser demasiado estrictos ni demasiado laxos. - Iterar sobre tareas y tests basándose en feedback de QA: revisar soluciones de agentes, analizar fallos y refinar hasta que la evaluación sea justa y robusta. Qué NO es: - No es etiquetado de datos. - No es prompt engineering. - No es escribir código desde cero: el agente escribe la mayor parte del código; vos guiás y evaluás. Qué buscamos: - Más de 5 años en desarrollo de software. - Stack principal: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. - Experiencia escribiendo tests (funcionales, de integración). - Dominio del inglés: B2+. Por qué es difícil: Los modelos de frontera ya son buenos codificando. Crear una tarea que realmente desafíe a los mejores modelos no es trivial. Necesitás entender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una solución buena y una mala. Las tareas tienen muchas soluciones válidas: escribir tests que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. Cómo funciona: - Aplicás → Pasás calificación(es) → Te unís a un proyecto → Completás tareas → Te pagan. Estimación de esfuerzo: Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; vos elegís cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación listados para ser aprobadas. Compensación: Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; vos establecés tu propio horario.

Responsabilidades

Crear entornos de desarrollo realistas (código, infraestructura, tickets, docs)
Diseñar tareas desafiantes para agentes de IA
Definir criterios de evaluación claros y alcanzables
Escribir tests para verificar soluciones de agentes
Iterar sobre tareas y tests basándose en feedback de QA
Evaluar soluciones de agentes y analizar fallos

Skills requeridas

Experiencia escribiendo tests (funcionales, de integración)Comprensión profunda de fallos de modelos de IACapacidad para crear criterios de evaluación justos y robustosPensamiento críticoAtención al detalle

Trabajos similares

AI Testers - Evaluacion IA - REMOTO INGLES REQUERIDO

Confidencial

CABARemoto

ZonaJobs · hace 24 días

Evaluación de Modelos de IA / AI Testers / Analistas de Datos / Data Analysts

Confidencial

CABARemoto

ZonaJobs · hace 23 días

Senior Software Engineer - AI Interaction Evaluator (Codex / Claude Code, up to $200/hr)

G2I

Buenos AiresRemoto

Directo de la empresa · hace 6 días

AI Software Development Engineer in Test (AI-SDET)

Web

Remoto

Directo de la empresa

AI Trainer - Freelance Data Annotator

Toloka Annotators

Buenos AiresRemoto

Directo de la empresa · hace 17 días

Coding Specialist (Fluent in Spanish - Latin America) - Freelance AI Trainer Project

Meridial

Directo de la empresa · hace 12 meses

Más ofertas de Mindrift

¿Te interesa empleos en Buenos Aires? Avisame cuando haya nuevos.