directohace 17 horas

Líder de Evaluación de Datos Humanos

Remoto · Por proyecto

Gerencial5+ años

A convenir

Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa de IA busca un Líder de Evaluación de Datos Humanos para gestionar propuestas, desarrollo de muestras y entrega de pilotos. Requiere experiencia en evaluación de LLMs y gestión de calidad.

Por qué aplicar

Si te copa la IA y tenés experiencia en evaluación de LLMs, este puesto remoto te permite liderar iniciativas de datos y propuestas para empresas líderes. Es una oportunidad clave para crecer en un área de vanguardia.

Descripción del puesto

Reporta a: CEO Responsable de: propuestas de datos, desarrollo de muestras, calidad y entrega de pilotos. Ubicación: Remoto / Latam / US EL ROL Serás responsable de las iniciativas y propuestas de datos de Anyone AI para laboratorios de IA, desde la propuesta de datos o la respuesta a solicitudes hasta la entrega de pilotos. Serás responsable de cómo construimos las propuestas y desarrollamos los paquetes de muestras y benchmarks: paquetes de vanguardia en razonamiento, codificación, agentes y uso de herramientas, multimodales y otros, producidos en colaboración con expertos en la materia, con datos verificados por expertos, resultados de "headroom" multimodelo y control de calidad que resista el escrutinio del comprador. Eres la persona que diseña la muestra que demuestra nuestra calidad y convierte los pilotos en compromisos de producción. En un equipo pequeño, este es el centro operativo de la División de Datos Humanos. RESPONSABILIDADES - Propuestas y solicitudes. Estudiar benchmarks públicos y objetivos de evaluación, y convertirlos en propuestas y paquetes de muestras que demuestren capacidad y ganen el trabajo. Responder a las solicitudes de datos y pilotos de los laboratorios. - Desarrollo de muestras y benchmarks. Diseñar y construir los paquetes de muestras, trabajando con expertos en la materia. Cada paquete cumple con el estándar de nuestro conjunto de muestras actual: - Datos verificados por expertos, comprobables con coincidencia exacta y trayectorias de razonamiento de oro. - Evaluación multimodelo que muestre "headroom" real y pruebas de que la tarea discrimina al modelo, no solo que es difícil. - Estructura rigurosa de control de calidad: capas de calibración, rúbricas ponderadas por severidad, verificadores deterministas, mapas de evidencia, etc. - Expertos en la materia. Reclutar, instruir, calibrar y revisar un grupo de expertos en codificación, agentes/uso de herramientas y STEM/razonamiento. Elevar su producción a nuestro estándar y mantenerla; ser el árbitro de lo que significan "correcto" y "dificultad de vanguardia". - Relaciones con laboratorios. Ser un punto de contacto directo para los socios de laboratorio en Slack y llamadas, con el apoyo del CEO y el equipo en general. Mantener informados a los contactos senior de los laboratorios, identificar lo que realmente necesitan e involucrar al CEO y a los expertos en la materia cuando la conversación lo requiera. - Entrega de pilotos. Ser responsable de los pilotos de principio a fin: alcance, SOW, personal, producción, control de calidad y entrega. Nada se envía antes de que esté listo para el laboratorio, y nada regresa rechazado como "no de nivel de vanguardia" sin que ya sepamos por qué. EXPERIENCIA - Haber originado propuestas de datos o benchmarks para laboratorios de IA, traducido objetivos de evaluación en tareas de muestra que demuestren capacidad y haber sido responsable del compromiso hasta la entrega. - Profunda experiencia en evaluación y calidad: benchmarking de LLM, con fortaleza real en la evaluación de modelos de código. - Haber construido procesos de control de calidad y estándares de artefactos que cumplieron con los requisitos empresariales o de laboratorio, y haber establecido un estándar de calidad al que se adhirió un equipo de expertos. - Capacidad para prosperar en entornos ambiguos y de rápido movimiento donde las reglas aún se están escribiendo, y entregar bajo presión. Calificaciones - Más de 5 años en entrega técnica, calidad o gestión de programas, con experiencia reciente en datos de IA/ML, evaluación de modelos o benchmarking. - Experiencia práctica en la entrega de trabajos de datos o evaluación a laboratorios de IA o equipos de ML empresariales, desde la definición del alcance hasta la entrega. - Fluidez operativa con la forma en que se evalúan los modelos de vanguardia: benchmarks, rúbricas, tasas de aprobación, "headroom" y lo que hace que una tarea discrimine a un modelo. - Liderazgo demostrado de personas/proveedores, haber reclutado, calibrado y mantenido a un equipo o grupo de expertos con un estándar de calidad. - Inglés fluido. Español es un plus.

Responsabilidades

Gestionar propuestas y solicitudes de datos para laboratorios de IA.
Diseñar y desarrollar paquetes de muestras y benchmarks.
Reclutar, calibrar y supervisar expertos en diversas áreas.
Ser punto de contacto directo para socios de laboratorio.
Gestionar pilotos de principio a fin, incluyendo alcance, SOW, personal, producción, QC y entrega.

Skills requeridas

Gestión de calidadEvaluación de modelosBenchmarking de LLMsDesarrollo de propuestasGestión de proyectos técnicosLiderazgo de equipos/expertosLiderazgoComunicaciónAdaptabilidad

Trabajos similares

Más ofertas de Anyone Ai

Human Data Manager

Anyone Ai

Remoto

hace 17 horas

A convenirDirecto de la empresa

Strategic Project Lead

Anyone Ai

Remoto

hace 17 horas

A convenirDirecto de la empresa

Mathematics Expert

Anyone Ai

Remoto

hace 18 horas

A convenirDirecto de la empresa

Mathematics Expert

Anyone Ai

Remoto

hace 1 día

A convenirDirecto de la empresa

Explorar empleos relacionados

Empleos remotos

Postularte en la empresa

Líder de Evaluación de Datos Humanos

Descripción del puesto

Responsabilidades

Skills requeridas

Trabajos similares

Evaluación de Modelos de IA / AI Testers / Analistas de Datos / Data Analysts

Project Manager, Applied AI

Subject Matter Expert – Quantative/Scientific/Corporate – Remote

Freelance Technical Consultant

AI Testers - Evaluacion IA - Remoto Ingles Requerido

Freelance Technical Consultant

Más ofertas de Anyone Ai

Human Data Manager

Strategic Project Lead

Mathematics Expert

Mathematics Expert

Explorar empleos relacionados