Ingeniero Evaluador de Agentes de IA Freelance
Empresa busca un Ingeniero Evaluador de Agentes de IA freelance con 5+ años de experiencia en desarrollo de software para evaluar y mejorar sistemas de IA. El rol implica crear tareas desafiantes y criterios de evaluación en entornos simulados, con una dedicación estimada de 20 horas por proyecto y una paga de hasta $30/hora.
Si sos un ingeniero de software con experiencia y te interesa el mundo de la IA, esta es tu chance de laburar en proyectos desafiantes y remotos. Ideal para quienes buscan sumar experiencia en evaluación de sistemas de IA y tener flexibilidad horaria.
Descripción del puesto
Mindrift conecta especialistas con oportunidades de proyectos de IA para empresas líderes de tecnología, enfocadas en probar, evaluar y mejorar sistemas de IA. La participación es por proyecto, no es empleo permanente. Qué implica esta oportunidad: Estamos construyendo un dataset para evaluar agentes de codificación de IA: qué tan bien un modelo maneja tareas de desarrollador del mundo real. Crearás tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: - Construir entornos de desarrollador realistas: una empresa virtual con codebase, infraestructura y contexto (tickets, docs, conversaciones) que formen un historial de desarrollo creíble. - Diseñar tareas a partir de estados intermedios de estos entornos: crear el prompt, definir qué significa "resuelto" y asegurar que la tarea sea resoluble por un agente de IA. - Escribir tests que verifiquen las soluciones del agente: aceptar todos los enfoques válidos y rechazar los incorrectos, sin ser demasiado estrictos ni demasiado laxos. - Iterar sobre tareas y tests basándose en feedback de QA: revisar soluciones de agentes, analizar fallos y refinar hasta que la evaluación sea justa y robusta. Qué NO es: - No es etiquetado de datos. - No es prompt engineering. - No es escribir código desde cero: el agente escribe la mayor parte del código; vos guiás y evaluás. Qué buscamos: - Más de 5 años en desarrollo de software. - Stack principal: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. - Experiencia escribiendo tests (funcionales, de integración). - Dominio del inglés: B2+. Por qué es difícil: Los modelos de frontera ya son buenos codificando. Crear una tarea que realmente desafíe a los mejores modelos no es trivial. Necesitás entender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una solución buena y una mala. Las tareas tienen muchas soluciones válidas: escribir tests que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. Cómo funciona: - Aplicás → Pasás calificación(es) → Te unís a un proyecto → Completás tareas → Te pagan. Estimación de esfuerzo: Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; vos elegís cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación listados para ser aprobadas. Compensación: Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; vos establecés tu propio horario.
Responsabilidades
- Crear entornos de desarrollador realistas (compañía virtual con codebase, infraestructura, contexto)
- Diseñar tareas desde estados intermedios de estos entornos
- Escribir tests que verifiquen las soluciones del agente
- Iterar sobre tareas y tests basándose en feedback de QA