workablehace 15 horas

Ingeniero de Evaluación de Agentes Freelance

Remoto · Tiempo parcial

Senior5+ años

A convenir

Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa busca un Ingeniero de Evaluación de Agentes Freelance con 5+ años de experiencia en desarrollo de software para un proyecto de 20 horas. Se requiere experiencia en Python, JavaScript/TypeScript, Docker, Postgres, Kafka, Redis y testing. El rol implica crear y evaluar tareas para agentes de IA en entornos de desarrollo simulados. Se ofrece hasta $30/hora.

Por qué aplicar

Si sos un ingeniero de software con experiencia y te interesa el mundo de la IA, este proyecto freelance remoto te puede servir. Podrás crear y evaluar tareas para agentes de IA, aplicando tus conocimientos en un entorno desafiante.

Descripción del puesto

Mindrift conecta especialistas con oportunidades de proyectos de IA para empresas líderes en tecnología, enfocados en probar, evaluar y mejorar sistemas de IA. La participación es por proyecto, no es un empleo permanente. **En qué consiste esta oportunidad:** Estamos creando un conjunto de datos para evaluar agentes de codificación de IA: qué tan bien un modelo maneja tareas de desarrollador del mundo real. Crearás tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: - Construir entornos de desarrollo realistas: una empresa virtual con código base, infraestructura y contexto (tickets, documentos, conversaciones) que formen un historial de desarrollo creíble. - Diseñar tareas a partir de estados intermedios de estos entornos: elaborar el prompt, definir qué significa "resuelto" y asegurar que la tarea sea resoluble por un agente de IA. - Escribir pruebas que verifiquen las soluciones del agente: aceptar todos los enfoques válidos y rechazar los incorrectos, sin ser demasiado estrictos ni demasiado laxos. - Iterar sobre tareas y pruebas según el feedback de QA: revisar soluciones de agentes, analizar fallos y refinar hasta que la evaluación sea justa y robusta. **Lo que NO es esta oportunidad:** - No es etiquetado de datos. - No es ingeniería de prompts. - No es escribir código desde cero: el agente escribe la mayor parte del código; tú guías y evalúas. **Qué buscamos:** - Más de 5 años de experiencia en desarrollo de software. - Stack principal: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. - Experiencia escribiendo pruebas (funcionales, de integración). - Dominio del inglés: B2+. **Por qué esto es difícil:** Los modelos de frontera ya son buenos codificando. Crear una tarea que realmente desafíe a los mejores modelos no es trivial. Necesitas entender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una solución buena y una mala. Las tareas tienen muchas soluciones válidas: escribir pruebas que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. **Cómo funciona:** - Postulá - Pasá la(s) calificación(es) - Uníte a un proyecto - Completá tareas - Recibí el pago **Estimación de esfuerzo:** Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; tú eliges cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación listados para ser aprobadas. **Compensación:** Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; tú estableces tu propio horario.

Responsabilidades

Crear entornos de desarrollo realistas
Diseñar tareas desde estados intermedios de entornos
Escribir tests que verifiquen soluciones de agentes
Iterar sobre tareas y tests basándose en feedback de QA

Skills requeridas

Experiencia escribiendo tests (funcionales, de integración)Comprensión profunda de fallos de modelos de IACapacidad de crear tareas desafiantesCapacidad de definir criterios de evaluaciónCapacidad de refinar tareas y tests

Trabajos similares

Más ofertas de Mindrift

Freelance Agent Evaluation Engineer

MindriftCórdoba Province

Remoto

hace 15 horas

A convenirDirecto de la empresa

Freelance Agent Evaluation Engineer

MindriftBuenos Aires

Remoto

hace 15 horas

A convenirDirecto de la empresa

Freelance Frontend Developer

Mindrift

Remoto

hace 1 día

A convenirDirecto de la empresa

Freelance Full-Stack Web App Developer

Mindrift

Remoto

hace 1 día

A convenirDirecto de la empresa

Explorar empleos relacionados

Empleos remotos

Postularte en la empresa

Ingeniero de Evaluación de Agentes Freelance

Descripción del puesto

Responsabilidades

Skills requeridas

Trabajos similares

Software Engineering AI Trainer

Python Developer - AI Trainer

Backend Developer - AI Trainer

AI Testers - Evaluacion IA - Remoto Ingles Requerido

Evaluación de Modelos de IA / AI Testers / Analistas de Datos / Data Analysts

AI Software Development Engineer in Test

Más ofertas de Mindrift

Freelance Agent Evaluation Engineer

Freelance Agent Evaluation Engineer

Freelance Frontend Developer

Freelance Full-Stack Web App Developer

Explorar empleos relacionados