workablehace 2 días

Ingeniero Evaluador de Agentes de IA Freelance

MindriftRemoto · Por proyecto
Senior5+ años
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa busca un Ingeniero Evaluador de Agentes de IA freelance con 5+ años de experiencia en desarrollo de software para evaluar y mejorar sistemas de IA. El rol implica crear tareas desafiantes y criterios de evaluación en entornos simulados, con una dedicación estimada de 20 horas por proyecto y una paga de hasta $30/hora.

Por qué aplicar

Si sos un ingeniero de software con experiencia y te interesa el mundo de la IA, esta es tu chance de laburar en proyectos desafiantes y remotos. Ideal para quienes buscan sumar experiencia en evaluación de sistemas de IA y tener flexibilidad horaria.

Descripción del puesto

Mindrift conecta especialistas con oportunidades de proyectos de IA para empresas líderes de tecnología, enfocadas en probar, evaluar y mejorar sistemas de IA. La participación es por proyecto, no es empleo permanente. Qué implica esta oportunidad: Estamos construyendo un dataset para evaluar agentes de codificación de IA: qué tan bien un modelo maneja tareas de desarrollador del mundo real. Crearás tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: - Construir entornos de desarrollador realistas: una empresa virtual con codebase, infraestructura y contexto (tickets, docs, conversaciones) que formen un historial de desarrollo creíble. - Diseñar tareas a partir de estados intermedios de estos entornos: crear el prompt, definir qué significa "resuelto" y asegurar que la tarea sea resoluble por un agente de IA. - Escribir tests que verifiquen las soluciones del agente: aceptar todos los enfoques válidos y rechazar los incorrectos, sin ser demasiado estrictos ni demasiado laxos. - Iterar sobre tareas y tests basándose en feedback de QA: revisar soluciones de agentes, analizar fallos y refinar hasta que la evaluación sea justa y robusta. Qué NO es: - No es etiquetado de datos. - No es prompt engineering. - No es escribir código desde cero: el agente escribe la mayor parte del código; vos guiás y evaluás. Qué buscamos: - Más de 5 años en desarrollo de software. - Stack principal: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. - Experiencia escribiendo tests (funcionales, de integración). - Dominio del inglés: B2+. Por qué es difícil: Los modelos de frontera ya son buenos codificando. Crear una tarea que realmente desafíe a los mejores modelos no es trivial. Necesitás entender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una solución buena y una mala. Las tareas tienen muchas soluciones válidas: escribir tests que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. Cómo funciona: - Aplicás → Pasás calificación(es) → Te unís a un proyecto → Completás tareas → Te pagan. Estimación de esfuerzo: Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; vos elegís cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación listados para ser aprobadas. Compensación: Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; vos establecés tu propio horario.

Responsabilidades

  • Crear entornos de desarrollador realistas (compañía virtual con codebase, infraestructura, contexto)
  • Diseñar tareas desde estados intermedios de estos entornos
  • Escribir tests que verifiquen las soluciones del agente
  • Iterar sobre tareas y tests basándose en feedback de QA

Skills requeridas

Experiencia escribiendo tests (funcionales, de integración)Comprensión profunda de fallos de modelos de IACapacidad para crear tareas desafiantesCapacidad para definir criterios de evaluaciónCapacidad para refinar evaluaciones