workablehace 5 horas

Ingeniero de Evaluación de Agentes de IA Freelance

Logo de Mindrift
Mindrift
Córdoba ProvinceRemoto · Tiempo parcial
Senior5+ años
A convenir
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa busca un Ingeniero de Evaluación de Agentes de IA freelance con experiencia en desarrollo de software y testing para crear y evaluar tareas en entornos simulados de desarrollo. El rol es por proyecto, con una estimación de 20 horas por tarea y una paga de hasta $30/hora.

Por qué aplicar

Si sos ingeniero de software con experiencia en testing y querés sumar proyectos freelance a tu carrera, esta oportunidad en Mindrift es para vos. Podés trabajar remoto en la evaluación de agentes de IA, creando tareas desafiantes en entornos simulados. Ideal para quienes buscan flexibilidad y experiencia en IA.

Descripción del puesto

Mindrift conecta especialistas con oportunidades de proyectos de IA para empresas líderes en tecnología, enfocados en probar, evaluar y mejorar sistemas de IA. La participación es por proyecto, no es un empleo permanente. **En qué consiste esta oportunidad:** Estamos creando un conjunto de datos para evaluar agentes de codificación de IA: qué tan bien un modelo maneja tareas de desarrollador del mundo real. Crearás tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: - Construir entornos de desarrollo realistas: una empresa virtual con código base, infraestructura y contexto (tickets, documentos, conversaciones) que formen un historial de desarrollo creíble. - Diseñar tareas a partir de estados intermedios de estos entornos: elaborar el prompt, definir qué significa "resuelto" y asegurar que la tarea sea resoluble por un agente de IA. - Escribir pruebas que verifiquen las soluciones del agente: aceptar todos los enfoques válidos y rechazar los incorrectos, sin ser demasiado estrictos ni demasiado laxos. - Iterar sobre tareas y pruebas según el feedback de QA: revisar soluciones de agentes, analizar fallos y refinar hasta que la evaluación sea justa y robusta. **Lo que NO es esta oportunidad:** - No es etiquetado de datos. - No es ingeniería de prompts. - No es escribir código desde cero: el agente escribe la mayor parte del código; tú guías y evalúas. **Qué buscamos:** - Más de 5 años de experiencia en desarrollo de software. - Stack principal: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. - Experiencia escribiendo pruebas (funcionales, de integración). - Dominio del inglés: B2+. **Por qué esto es difícil:** Los modelos de frontera ya son buenos codificando. Crear una tarea que realmente desafíe a los mejores modelos no es trivial. Necesitas entender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una solución buena y una mala. Las tareas tienen muchas soluciones válidas: escribir pruebas que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. **Cómo funciona:** - Postulá - Pasá la(s) calificación(es) - Uníte a un proyecto - Completá tareas - Recibí el pago **Estimación de esfuerzo:** Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; tú eliges cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación listados para ser aprobadas. **Compensación:** Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; tú estableces tu propio horario.

Responsabilidades

  • Crear entornos de desarrollo virtuales realistas
  • Diseñar tareas desafiantes para agentes de IA
  • Definir criterios de éxito y evaluación
  • Escribir pruebas para verificar soluciones de agentes
  • Iterar sobre tareas y pruebas basándose en feedback de QA
  • Analizar fallos de agentes y refinar evaluaciones

Skills requeridas

Escritura de pruebas (funcionales, integración)Evaluación de sistemas de IADiseño de criterios de evaluaciónComprensión de fallos de modelos de IAPensamiento críticoResolución de problemas

Explorar empleos relacionados

¿Te interesa empleos en Córdoba Province? Creá una alerta y te avisamos.