workablehace 6 días

Freelance Agent Evaluation Engineer

MindriftCórdoba ProvinceRemoto · Por proyecto

Senior5+ años

Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Se busca Freelance Agent Evaluation Engineer para trabajar en proyectos de evaluación de agentes de codificación de IA. El freelancer será responsable de crear tareas y criterios de evaluación para agentes de codificación de IA en entornos simulados realistas.

Por qué aplicar

Ideal para desarrolladores con experiencia en Python y JavaScript. Se busca freelancer para crear tareas de evaluación de agentes de IA.

Descripción del puesto

Envíe su CV en inglés e indique su nivel de fluidez en inglés. Mindrift conecta especialistas con oportunidades de proyectos basados en inteligencia artificial para empresas tecnológicas líderes, enfocadas en probar, evaluar y mejorar sistemas de inteligencia artificial. La participación es por proyecto, no es un empleo permanente. En qué consiste esta oportunidad Estamos construyendo un conjunto de datos para evaluar agentes de codificación de inteligencia artificial - qué tan bien maneja un modelo tareas reales de desarrolladores. Creará tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: Construya entornos de desarrollador realistas - una empresa virtual con código base, infraestructura y contexto (tickets, documentos, conversaciones) que forma un historial de desarrollo creíble. Diseñe tareas a partir de estados intermedios de estos entornos - elabore la solicitud, defina qué significa "resuelto" y asegúrese de que la tarea sea solucionable por un agente de inteligencia artificial. Escriba pruebas que verifiquen las soluciones del agente - acepte todos los enfoques válidos y rechace los incorrectos, ni demasiado estrictos ni demasiado indulgentes. Iterar sobre tareas y pruebas según comentarios de control de calidad - revise las soluciones del agente, analice los fallos y refine hasta que la evaluación sea justa y robusta. Lo que esto NO es No es etiquetado de datos. No es ingeniería de solicitudes. No es escribir código desde cero - el agente escribe la mayor parte del código; usted guía y evalúa. Qué buscamos 5+ años en desarrollo de software. Pila central: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. Experiencia escribiendo pruebas (funcionales, de integración). Fluidez en inglés - B2+. Por qué esto es difícil Los modelos de frontera ya son buenos en codificación. Crear una tarea que desafíe genuinamente a los mejores modelos no es trivial. Debe comprender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una buena y una mala solución. Las tareas tienen muchas soluciones válidas - escribir pruebas que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. Cómo funciona Aplique → Apruebe la(s) cualificación(es) → Únase a un proyecto → Complete tareas → Reciba pago. Estimación de esfuerzo Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; usted elige cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación enumerados para ser aceptadas. Compensación Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; usted establece su propio horario.

Responsabilidades

Crear tareas y criterios de evaluación para agentes de codificación de IA
Diseñar entornos simulados realistas
Escribir pruebas para verificar soluciones de agentes

Skills requeridas

Desarrollo de softwareEvaluación de agentes de IACreación de tareas y criterios de evaluaciónAnálisis de problemasDiseño de tareasEvaluación de soluciones

Trabajos similares

Más ofertas de Mindrift

Civil Engineer & Python Expert - Freelance AI Trainer

Mindrift

Córdoba ProvinceRemoto

workable · hace 4 horas

Civil Engineer & Python Expert - Freelance AI Trainer

Mindrift

Buenos AiresRemoto

workable · hace 4 horas

Civil Engineer & Python Expert - Freelance AI Trainer

Mindrift

Remoto

workable · hace 4 horas

Chemistry & Python Expert - Freelance AI Trainer

Mindrift

Remoto

workable · hace 6 horas

¿Te interesa empleos en Córdoba Province? Avisame cuando haya nuevos.

Freelance Agent Evaluation Engineer

Descripción del puesto

Responsabilidades

Skills requeridas

Trabajos similares

Senior Software Engineer — AI Evaluation & Benchmarks (Python)

AI Testers - Evaluacion IA - REMOTO INGLES REQUERIDO

Evaluación de Modelos de IA / AI Testers / Analistas de Datos / Data Analysts

AI Software Development Engineer in Test (AI-SDET)

Programadores de Software - REMOTO INGLES REQUERIDO

AI Trainer - Freelance Data Annotator

Más ofertas de Mindrift

Civil Engineer & Python Expert - Freelance AI Trainer

Civil Engineer & Python Expert - Freelance AI Trainer

Civil Engineer & Python Expert - Freelance AI Trainer

Chemistry & Python Expert - Freelance AI Trainer