Ingeniero de Evaluación de Agentes de IA Freelance
Empresa busca un Ingeniero de Evaluación de Agentes de IA freelance con experiencia en desarrollo de software y testing para crear y evaluar tareas en entornos simulados de desarrollo. El rol es por proyecto, con una estimación de 20 horas por tarea y una paga de hasta $30/hora.
Si sos ingeniero de software con experiencia en testing y querés sumar proyectos freelance a tu carrera, esta oportunidad en Mindrift es para vos. Podés trabajar remoto en la evaluación de agentes de IA, creando tareas desafiantes en entornos simulados. Ideal para quienes buscan flexibilidad y experiencia en IA.
Descripción del puesto
Mindrift conecta especialistas con oportunidades de proyectos de IA para empresas líderes en tecnología, enfocados en probar, evaluar y mejorar sistemas de IA. La participación es por proyecto, no es un empleo permanente. **En qué consiste esta oportunidad:** Estamos creando un conjunto de datos para evaluar agentes de codificación de IA: qué tan bien un modelo maneja tareas de desarrollador del mundo real. Crearás tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: - Construir entornos de desarrollo realistas: una empresa virtual con código base, infraestructura y contexto (tickets, documentos, conversaciones) que formen un historial de desarrollo creíble. - Diseñar tareas a partir de estados intermedios de estos entornos: elaborar el prompt, definir qué significa "resuelto" y asegurar que la tarea sea resoluble por un agente de IA. - Escribir pruebas que verifiquen las soluciones del agente: aceptar todos los enfoques válidos y rechazar los incorrectos, sin ser demasiado estrictos ni demasiado laxos. - Iterar sobre tareas y pruebas según el feedback de QA: revisar soluciones de agentes, analizar fallos y refinar hasta que la evaluación sea justa y robusta. **Lo que NO es esta oportunidad:** - No es etiquetado de datos. - No es ingeniería de prompts. - No es escribir código desde cero: el agente escribe la mayor parte del código; tú guías y evalúas. **Qué buscamos:** - Más de 5 años de experiencia en desarrollo de software. - Stack principal: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. - Experiencia escribiendo pruebas (funcionales, de integración). - Dominio del inglés: B2+. **Por qué esto es difícil:** Los modelos de frontera ya son buenos codificando. Crear una tarea que realmente desafíe a los mejores modelos no es trivial. Necesitas entender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una solución buena y una mala. Las tareas tienen muchas soluciones válidas: escribir pruebas que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. **Cómo funciona:** - Postulá - Pasá la(s) calificación(es) - Uníte a un proyecto - Completá tareas - Recibí el pago **Estimación de esfuerzo:** Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; tú eliges cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación listados para ser aprobadas. **Compensación:** Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; tú estableces tu propio horario.
Responsabilidades
- Crear entornos de desarrollo virtuales realistas
- Diseñar tareas desafiantes para agentes de IA
- Definir criterios de éxito y evaluación
- Escribir pruebas para verificar soluciones de agentes
- Iterar sobre tareas y pruebas basándose en feedback de QA
- Analizar fallos de agentes y refinar evaluaciones