Directo de la empresahace 1 mes

Ingeniero de Software Senior - Evaluador de Interacción IA

Buenos AiresRemoto · Por proyecto

Senior10+ años

USD 10.000 – 40.000bruto mensual

Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa busca Ingeniero de Software Senior (SR+) para evaluar la calidad de interacciones con agentes de codificación de IA como OpenAI Codex y Claude Code. El rol se enfoca en el juicio de ingeniería y la calidad de las explicaciones, no en la escritura de código de producción. Se ofrece pago por hora de hasta $200 USD para roles en US/Canadá y hasta $150 USD para Latam, con una dedicación de 10-20 horas semanales.

Por qué aplicar

Atractivo para ingenieros experimentados que buscan evaluar interacciones de IA en un entorno remoto.

Descripción del puesto

SENIOR AI INTERACTION EVALUATOR (CODEX / CLAUDE CODE) Contrato | $50-200/hr | 10+ hrs/semana | Basado en proyectos Se abren puestos de forma continua - aplica para unirte al banco de talentos y nos pondremos en contacto cuando uno se adapte. Esperá 40+ hrs una vez que comience un proyecto; el tiempo depende de la disponibilidad, pero movemos a las personas lo antes posible. Estos puestos están actualmente cubiertos, pero contratamos de forma continua a medida que se abren nuevos proyectos. Aplica ahora para unirte a nuestro banco de talentos - se contactará directamente con los candidatos calificados cuando estén disponibles. Mirá este video de Loom para obtener más detalles. https://www.loom.com/share/b0d1b0bf24c44ae8b95dca84b9db60e5 Estamos buscando ingenieros de software altamente experimentados (SR+) para ayudar a evaluar la calidad de las interacciones con agentes de codificación modernos como OpenAI Codex y Claude Code. Este no es un rol de ingeniería tradicional. No estarás escribiendo código de producción. Estarás evaluando algo más difícil: si el modelo piensa como un gran ingeniero. QUÉ ES ESTE ROL REALMENTE Evaluarás cómo se comportan los agentes de codificación de IA en escenarios del mundo real, enfocándote en: - Si la respuesta tiene sentido - Si el preámbulo y el razonamiento son útiles - Si la salida refleja un buen juicio de ingeniería - Si la interacción se siente bien para un desarrollador experimentado Este rol se trata de gusto de ingeniería, no de corrección de sintaxis. QUÉ HARÁS - Evaluar interacciones de codificación generadas por IA de extremo a extremo - Juzgar si las salidas son: - Útiles - Correctas (a un alto nivel) - Alineadas con cómo pensaría un ingeniero fuerte - Evaluar la calidad de las explicaciones y el razonamiento, no solo el código - Distinguir entre diferentes niveles de calidad de respuesta (por ejemplo, qué hace que algo sea un 2 frente a un 4) - Proporcionar comentarios claros y opinativos sobre: - Qué funcionó - Qué no funcionó - Qué se sintió "off" o engañoso - Ayudar a definir qué se ve bien cuando se interactúa con herramientas como Cursor QUÉ ENTENDEMOS POR "TASTE" Estamos buscando específicamente ingenieros que puedan responder preguntas como: - ¿Se siente como si algo que un ingeniero fuerte realmente diría? - ¿Es esta explicación útil o simplemente técnicamente correcta? - ¿Está guiando el modelo al usuario correctamente o simplemente volcando la salida? - ¿Esta interacción generaría o erosionaría la confianza? Deberías sentirte cómodo tomando juicios subjetivos pero rigurosos. QUIÉN ERES - Ingeniero de nivel Staff / Principal (o experiencia equivalente) - Fuerte experiencia en uno de los siguientes: - TypeScript / JavaScript - Python - Experiencia práctica con: - OpenAI Codex - Claude Code - Cursor - Familiaridad profunda con flujos de trabajo de desarrollo asistidos por IA modernos - Capaz de evaluar código sin necesidad de revisar o ejecutar completamente cada línea - Cónodo dando retroalimentación directa y opinativa - Alto nivel para lo que se ve "buena ingeniería" Agradable tener - Experiencia con herramientas como Cursor o IDEs similares de IA - Exposición previa a flujos de trabajo de diseño o evaluación de indicaciones - Experiencia en la tutoría de ingenieros senior o la definición de estándares de ingeniería DETalles de compromiso - EE. UU. y Canadá hasta $200/hr - UE y Latam hasta $150/hr - Otros lugares hasta $100/hr - Horas: ~10-20 horas/semana - Duración: Continua - basada en proyectos - Proceso: - Ejercicio de evaluación en casa - Una entrevista conductual

Responsabilidades

Evaluar interacciones de código generadas por IA de principio a fin
Juzgar si las salidas son útiles, correctas (a alto nivel) y alineadas con el pensamiento de un ingeniero fuerte
Evaluar la calidad de las explicaciones y el razonamiento
Distinguir entre diferentes niveles de calidad de respuesta
Proporcionar feedback claro y argumentado sobre lo que funcionó, lo que no y lo que se sintió 'fuera de lugar' o engañoso
Ayudar a definir qué es lo excelente al interactuar con herramientas como Cursor

Habilidades

Juicio de ingenieríaEvaluación de calidad de códigoFeedback directo y argumentadoComprensión de flujos de trabajo de desarrollo asistidos por IAPensamiento críticoCapacidad de juicio subjetivo pero riguroso

Trabajos similares

Software Engineering AI Trainer

Anyone Ai · Remoto

Senior Python Engineer - AI Coding Agent Evaluation

Mindrift · Remoto

Freelance Agent Evaluation Engineer

Mindrift · Buenos Aires · Remoto

Freelance Agent Evaluation Engineer

Mindrift · Córdoba · Remoto

Freelance Agent Evaluation Engineer

Mindrift · Remoto

Coding Specialist - Freelance AI Trainer Project

Meridial · Presencial

Más ofertas de G2I

AI Interaction Evaluator

G2I · Buenos Aires · Remoto

Data Analytics and Visualization Engineer

G2I · Presencial

Data Scientist

G2I · Presencial

Data Engineer

G2I · Presencial

Más empleos de Tecnología y Sistemas en Buenos Aires

Especialista Técnico Funcional NetSuite - La Plata

Cubi · Buenos Aires · Presencial

Presales Technology Consultant - Argentina

GeoVictoria · Buenos Aires · Presencial

Software Technical Leader - GenAI Gateway

Mercado Libre · Buenos Aires · Presencial

Software Engineer Senior - Productivity GenAI

Mercado Libre · Buenos Aires · Presencial

Ver los 1.484 empleos de Tecnología y Sistemas en Buenos Aires →

Explorar empleos relacionados

Empleos de Tecnología y Sistemas en Buenos Aires Empleos de Tecnología y Sistemas Tecnología y Sistemas remotos Sueldos de Tecnología y Sistemas Empleos en Buenos Aires

¿Te interesa empleos en Buenos Aires? Creá una alerta y te avisamos.

Postularte en la empresa

Descripción del puesto

Responsabilidades

Evaluar interacciones de código generadas por IA de principio a fin

Juzgar si las salidas son útiles, correctas (a alto nivel) y alineadas con el pensamiento de un ingeniero fuerte

Evaluar la calidad de las explicaciones y el razonamiento

Distinguir entre diferentes niveles de calidad de respuesta

Proporcionar feedback claro y argumentado sobre lo que funcionó, lo que no y lo que se sintió 'fuera de lugar' o engañoso

Ayudar a definir qué es lo excelente al interactuar con herramientas como Cursor

Más empleos de Tecnología y Sistemas en Buenos Aires