Empresa busca un Ingeniero de Evaluación de Agentes Freelance con 5+ años de experiencia en desarrollo de software para un proyecto de 20 horas. Se requiere experiencia en Python, JavaScript/TypeScript, Docker, Postgres, Kafka, Redis y testing. El rol implica crear y evaluar tareas para agentes de IA en entornos de desarrollo simulados. Se ofrece hasta $30/hora.
Si sos un ingeniero de software con experiencia y te interesa el mundo de la IA, este proyecto freelance remoto te puede servir. Podrás crear y evaluar tareas para agentes de IA, aplicando tus conocimientos en un entorno desafiante.
Descripción del puesto
Mindrift conecta especialistas con oportunidades de proyectos de IA para empresas líderes en tecnología, enfocados en probar, evaluar y mejorar sistemas de IA. La participación es por proyecto, no es un empleo permanente. **En qué consiste esta oportunidad:** Estamos creando un conjunto de datos para evaluar agentes de codificación de IA: qué tan bien un modelo maneja tareas de desarrollador del mundo real. Crearás tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: - Construir entornos de desarrollo realistas: una empresa virtual con código base, infraestructura y contexto (tickets, documentos, conversaciones) que formen un historial de desarrollo creíble. - Diseñar tareas a partir de estados intermedios de estos entornos: elaborar el prompt, definir qué significa "resuelto" y asegurar que la tarea sea resoluble por un agente de IA. - Escribir pruebas que verifiquen las soluciones del agente: aceptar todos los enfoques válidos y rechazar los incorrectos, sin ser demasiado estrictos ni demasiado laxos. - Iterar sobre tareas y pruebas según el feedback de QA: revisar soluciones de agentes, analizar fallos y refinar hasta que la evaluación sea justa y robusta. **Lo que NO es esta oportunidad:** - No es etiquetado de datos. - No es ingeniería de prompts. - No es escribir código desde cero: el agente escribe la mayor parte del código; tú guías y evalúas. **Qué buscamos:** - Más de 5 años de experiencia en desarrollo de software. - Stack principal: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. - Experiencia escribiendo pruebas (funcionales, de integración). - Dominio del inglés: B2+. **Por qué esto es difícil:** Los modelos de frontera ya son buenos codificando. Crear una tarea que realmente desafíe a los mejores modelos no es trivial. Necesitas entender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una solución buena y una mala. Las tareas tienen muchas soluciones válidas: escribir pruebas que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. **Cómo funciona:** - Postulá - Pasá la(s) calificación(es) - Uníte a un proyecto - Completá tareas - Recibí el pago **Estimación de esfuerzo:** Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; tú eliges cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación listados para ser aprobadas. **Compensación:** Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; tú estableces tu propio horario.
Responsabilidades
- Crear entornos de desarrollo realistas
- Diseñar tareas desde estados intermedios de entornos
- Escribir tests que verifiquen soluciones de agentes
- Iterar sobre tareas y tests basándose en feedback de QA