Senior Software Engineer - AI Interaction Evaluator
Se busca un Senior Software Engineer para evaluar interacciones con agentes de codificación de IA como OpenAI Codex y Claude Code. El rol implica evaluar la calidad de las interacciones, no escribir código de producción.
Atractivo para ingenieros experimentados que buscan evaluar interacciones de IA en un entorno remoto.
Descripción del puesto
SENIOR AI INTERACTION EVALUATOR (CODEX / CLAUDE CODE) Contrato | $50-200/hr | 10+ hrs/semana | Basado en proyectos Se abren puestos de forma continua - aplica para unirte al banco de talentos y nos pondremos en contacto cuando uno se adapte. Esperá 40+ hrs una vez que comience un proyecto; el tiempo depende de la disponibilidad, pero movemos a las personas lo antes posible. Estos puestos están actualmente cubiertos, pero contratamos de forma continua a medida que se abren nuevos proyectos. Aplica ahora para unirte a nuestro banco de talentos - se contactará directamente con los candidatos calificados cuando estén disponibles. Mirá este video de Loom para obtener más detalles. https://www.loom.com/share/b0d1b0bf24c44ae8b95dca84b9db60e5 Estamos buscando ingenieros de software altamente experimentados (SR+) para ayudar a evaluar la calidad de las interacciones con agentes de codificación modernos como OpenAI Codex y Claude Code. Este no es un rol de ingeniería tradicional. No estarás escribiendo código de producción. Estarás evaluando algo más difícil: si el modelo piensa como un gran ingeniero. QUÉ ES ESTE ROL REALMENTE Evaluarás cómo se comportan los agentes de codificación de IA en escenarios del mundo real, enfocándote en: - Si la respuesta tiene sentido - Si el preámbulo y el razonamiento son útiles - Si la salida refleja un buen juicio de ingeniería - Si la interacción se siente bien para un desarrollador experimentado Este rol se trata de gusto de ingeniería, no de corrección de sintaxis. QUÉ HARÁS - Evaluar interacciones de codificación generadas por IA de extremo a extremo - Juzgar si las salidas son: - Útiles - Correctas (a un alto nivel) - Alineadas con cómo pensaría un ingeniero fuerte - Evaluar la calidad de las explicaciones y el razonamiento, no solo el código - Distinguir entre diferentes niveles de calidad de respuesta (por ejemplo, qué hace que algo sea un 2 frente a un 4) - Proporcionar comentarios claros y opinativos sobre: - Qué funcionó - Qué no funcionó - Qué se sintió "off" o engañoso - Ayudar a definir qué se ve bien cuando se interactúa con herramientas como Cursor QUÉ ENTENDEMOS POR "TASTE" Estamos buscando específicamente ingenieros que puedan responder preguntas como: - ¿Se siente como si algo que un ingeniero fuerte realmente diría? - ¿Es esta explicación útil o simplemente técnicamente correcta? - ¿Está guiando el modelo al usuario correctamente o simplemente volcando la salida? - ¿Esta interacción generaría o erosionaría la confianza? Deberías sentirte cómodo tomando juicios subjetivos pero rigurosos. QUIÉN ERES - Ingeniero de nivel Staff / Principal (o experiencia equivalente) - Fuerte experiencia en uno de los siguientes: - TypeScript / JavaScript - Python - Experiencia práctica con: - OpenAI Codex - Claude Code - Cursor - Familiaridad profunda con flujos de trabajo de desarrollo asistidos por IA modernos - Capaz de evaluar código sin necesidad de revisar o ejecutar completamente cada línea - Cónodo dando retroalimentación directa y opinativa - Alto nivel para lo que se ve "buena ingeniería" Agradable tener - Experiencia con herramientas como Cursor o IDEs similares de IA - Exposición previa a flujos de trabajo de diseño o evaluación de indicaciones - Experiencia en la tutoría de ingenieros senior o la definición de estándares de ingeniería DETalles de compromiso - EE. UU. y Canadá hasta $200/hr - UE y Latam hasta $150/hr - Otros lugares hasta $100/hr - Horas: ~10-20 horas/semana - Duración: Continua - basada en proyectos - Proceso: - Ejercicio de evaluación en casa - Una entrevista conductual
Responsabilidades
- Evaluar interacciones con agentes de codificación de IA
- Proporcionar feedback claro y opinado