workablehace 6 días

Freelance Agent Evaluation Engineer

MindriftCórdoba ProvinceRemoto · Por proyecto
Senior5+ años
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Se busca Freelance Agent Evaluation Engineer para trabajar en proyectos de evaluación de agentes de codificación de IA. El freelancer será responsable de crear tareas y criterios de evaluación para agentes de codificación de IA en entornos simulados realistas.

Por qué aplicar

Ideal para desarrolladores con experiencia en Python y JavaScript. Se busca freelancer para crear tareas de evaluación de agentes de IA.

Descripción del puesto

Envíe su CV en inglés e indique su nivel de fluidez en inglés. Mindrift conecta especialistas con oportunidades de proyectos basados en inteligencia artificial para empresas tecnológicas líderes, enfocadas en probar, evaluar y mejorar sistemas de inteligencia artificial. La participación es por proyecto, no es un empleo permanente. En qué consiste esta oportunidad Estamos construyendo un conjunto de datos para evaluar agentes de codificación de inteligencia artificial - qué tan bien maneja un modelo tareas reales de desarrolladores. Creará tareas desafiantes y criterios de evaluación dentro de entornos simulados realistas: Construya entornos de desarrollador realistas - una empresa virtual con código base, infraestructura y contexto (tickets, documentos, conversaciones) que forma un historial de desarrollo creíble. Diseñe tareas a partir de estados intermedios de estos entornos - elabore la solicitud, defina qué significa "resuelto" y asegúrese de que la tarea sea solucionable por un agente de inteligencia artificial. Escriba pruebas que verifiquen las soluciones del agente - acepte todos los enfoques válidos y rechace los incorrectos, ni demasiado estrictos ni demasiado indulgentes. Iterar sobre tareas y pruebas según comentarios de control de calidad - revise las soluciones del agente, analice los fallos y refine hasta que la evaluación sea justa y robusta. Lo que esto NO es No es etiquetado de datos. No es ingeniería de solicitudes. No es escribir código desde cero - el agente escribe la mayor parte del código; usted guía y evalúa. Qué buscamos 5+ años en desarrollo de software. Pila central: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis. Experiencia escribiendo pruebas (funcionales, de integración). Fluidez en inglés - B2+. Por qué esto es difícil Los modelos de frontera ya son buenos en codificación. Crear una tarea que desafíe genuinamente a los mejores modelos no es trivial. Debe comprender profundamente dónde fallan los modelos y qué escenarios revelan la diferencia entre una buena y una mala solución. Las tareas tienen muchas soluciones válidas - escribir pruebas que acepten todas las soluciones correctas y rechacen las incorrectas es más difícil de lo que parece. Cómo funciona Aplique → Apruebe la(s) cualificación(es) → Únase a un proyecto → Complete tareas → Reciba pago. Estimación de esfuerzo Las tareas para este proyecto se estiman en 20 horas para completarse, dependiendo de la complejidad. Esta es una estimación y no un requisito de horario; usted elige cuándo y cómo trabajar. Las tareas deben enviarse antes de la fecha límite y cumplir con los criterios de aceptación enumerados para ser aceptadas. Compensación Hasta $30/hora equivalente, dependiendo del nivel y el ritmo. Las tareas se estiman en ~20 horas cada una; usted establece su propio horario.

Responsabilidades

  • Crear tareas y criterios de evaluación para agentes de codificación de IA
  • Diseñar entornos simulados realistas
  • Escribir pruebas para verificar soluciones de agentes

Skills requeridas

Desarrollo de softwareEvaluación de agentes de IACreación de tareas y criterios de evaluaciónAnálisis de problemasDiseño de tareasEvaluación de soluciones
¿Te interesa empleos en Córdoba Province? Avisame cuando haya nuevos.