Empresa de IA busca un Líder de Evaluación de Datos Humanos para gestionar propuestas, desarrollo de muestras y entrega de pilotos. Requiere experiencia en evaluación de LLMs y gestión de calidad.
Si te copa la IA y tenés experiencia en evaluación de LLMs, este puesto remoto te permite liderar iniciativas de datos y propuestas para empresas líderes. Es una oportunidad clave para crecer en un área de vanguardia.
Descripción del puesto
Reporta a: CEO Responsable de: propuestas de datos, desarrollo de muestras, calidad y entrega de pilotos. Ubicación: Remoto / Latam / US EL ROL Serás responsable de las iniciativas y propuestas de datos de Anyone AI para laboratorios de IA, desde la propuesta de datos o la respuesta a solicitudes hasta la entrega de pilotos. Serás responsable de cómo construimos las propuestas y desarrollamos los paquetes de muestras y benchmarks: paquetes de vanguardia en razonamiento, codificación, agentes y uso de herramientas, multimodales y otros, producidos en colaboración con expertos en la materia, con datos verificados por expertos, resultados de "headroom" multimodelo y control de calidad que resista el escrutinio del comprador. Eres la persona que diseña la muestra que demuestra nuestra calidad y convierte los pilotos en compromisos de producción. En un equipo pequeño, este es el centro operativo de la División de Datos Humanos. RESPONSABILIDADES - Propuestas y solicitudes. Estudiar benchmarks públicos y objetivos de evaluación, y convertirlos en propuestas y paquetes de muestras que demuestren capacidad y ganen el trabajo. Responder a las solicitudes de datos y pilotos de los laboratorios. - Desarrollo de muestras y benchmarks. Diseñar y construir los paquetes de muestras, trabajando con expertos en la materia. Cada paquete cumple con el estándar de nuestro conjunto de muestras actual: - Datos verificados por expertos, comprobables con coincidencia exacta y trayectorias de razonamiento de oro. - Evaluación multimodelo que muestre "headroom" real y pruebas de que la tarea discrimina al modelo, no solo que es difícil. - Estructura rigurosa de control de calidad: capas de calibración, rúbricas ponderadas por severidad, verificadores deterministas, mapas de evidencia, etc. - Expertos en la materia. Reclutar, instruir, calibrar y revisar un grupo de expertos en codificación, agentes/uso de herramientas y STEM/razonamiento. Elevar su producción a nuestro estándar y mantenerla; ser el árbitro de lo que significan "correcto" y "dificultad de vanguardia". - Relaciones con laboratorios. Ser un punto de contacto directo para los socios de laboratorio en Slack y llamadas, con el apoyo del CEO y el equipo en general. Mantener informados a los contactos senior de los laboratorios, identificar lo que realmente necesitan e involucrar al CEO y a los expertos en la materia cuando la conversación lo requiera. - Entrega de pilotos. Ser responsable de los pilotos de principio a fin: alcance, SOW, personal, producción, control de calidad y entrega. Nada se envía antes de que esté listo para el laboratorio, y nada regresa rechazado como "no de nivel de vanguardia" sin que ya sepamos por qué. EXPERIENCIA - Haber originado propuestas de datos o benchmarks para laboratorios de IA, traducido objetivos de evaluación en tareas de muestra que demuestren capacidad y haber sido responsable del compromiso hasta la entrega. - Profunda experiencia en evaluación y calidad: benchmarking de LLM, con fortaleza real en la evaluación de modelos de código. - Haber construido procesos de control de calidad y estándares de artefactos que cumplieron con los requisitos empresariales o de laboratorio, y haber establecido un estándar de calidad al que se adhirió un equipo de expertos. - Capacidad para prosperar en entornos ambiguos y de rápido movimiento donde las reglas aún se están escribiendo, y entregar bajo presión. Calificaciones - Más de 5 años en entrega técnica, calidad o gestión de programas, con experiencia reciente en datos de IA/ML, evaluación de modelos o benchmarking. - Experiencia práctica en la entrega de trabajos de datos o evaluación a laboratorios de IA o equipos de ML empresariales, desde la definición del alcance hasta la entrega. - Fluidez operativa con la forma en que se evalúan los modelos de vanguardia: benchmarks, rúbricas, tasas de aprobación, "headroom" y lo que hace que una tarea discrimine a un modelo. - Liderazgo demostrado de personas/proveedores, haber reclutado, calibrado y mantenido a un equipo o grupo de expertos con un estándar de calidad. - Inglés fluido. Español es un plus.
Responsabilidades
- Gestionar propuestas y solicitudes de datos para laboratorios de IA.
- Diseñar y desarrollar paquetes de muestras y benchmarks.
- Reclutar, calibrar y supervisar expertos en diversas áreas.
- Ser punto de contacto directo para socios de laboratorio.
- Gestionar pilotos de principio a fin, incluyendo alcance, SOW, personal, producción, QC y entrega.