Ingeniero de Evaluación de Agentes Freelance
Empresa busca Ingeniero de Evaluación de Agentes Freelance para crear y evaluar tareas para agentes de IA en entornos de desarrollo simulados. Requiere 5+ años de experiencia en desarrollo de software y dominio de Python, JavaScript/TypeScript, Docker, Postgres, Kafka, Redis, y testing. Se ofrece hasta $30/hr.
Si sos un ingeniero de software con experiencia y te copa el mundo de la IA, esta es tu chance. Podés laburar remoto en proyectos desafiantes para empresas top, evaluando agentes de IA y creando entornos de prueba. Ideal si buscás sumar experiencia en IA sin dejar tu trabajo actual.
Descripción del puesto
Mindrift conecta especialistas con oportunidades de proyectos de IA para empresas líderes de tecnología, enfocadas en probar, evaluar y mejorar sistemas de IA. La participación es por proyecto, no es empleo permanente. Qué implica esta oportunidad: Estamos construyendo un dataset para evaluar agentes de codificación de IA: qué tan bien un modelo maneja tareas de desarrollador del mundo real. Crearás tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: - Construir entornos de desarrollador realistas: una empresa virtual con codebase, infraestructura y contexto (tickets, docs, conversaciones) que formen un historial de desarrollo creíble. - Diseñar tareas a partir de estados intermedios de estos entornos: crear el prompt, definir qué significa "resuelto" y asegurar que la tarea sea resoluble por un agente de IA. - Escribir tests que verifiquen las soluciones del agente: aceptar todos los enfoques válidos y rechazar los incorrectos, sin ser demasiado estrictos ni demasiado laxos. - Iterar sobre tareas y tests basándose en feedback de QA: revisar soluciones de agentes, analizar fallos y refinar hasta que la evaluación sea justa y robusta. Qué NO es: - No es etiquetado de datos. - No es prompt engineering. - No es escribir código desde cero: el agente escribe la mayor parte del código; vos guiás y evaluás. Qué buscamos: - Más de 5 años en desarrollo de software. - Stack principal: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. - Experiencia escribiendo tests (funcionales, de integración). - Dominio del inglés: B2+. Por qué es difícil: Los modelos de frontera ya son buenos codificando. Crear una tarea que realmente desafíe a los mejores modelos no es trivial. Necesitás entender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una solución buena y una mala. Las tareas tienen muchas soluciones válidas: escribir tests que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. Cómo funciona: - Aplicás → Pasás calificación(es) → Te unís a un proyecto → Completás tareas → Te pagan. Estimación de esfuerzo: Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; vos elegís cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación listados para ser aprobadas. Compensación: Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; vos establecés tu propio horario.
Responsabilidades
- Crear tareas desafiantes para evaluar agentes de IA.
- Diseñar criterios de evaluación.
- Escribir tests para verificar soluciones de agentes.
- Iterar sobre tareas y tests basándose en feedback de QA.