workablehace 14 horas

Ingeniero Senior de Data Scraping con Python

Logo de Mindrift
Mindrift
Buenos Aires ProvinceRemoto · Tiempo parcial
Senior5+ años
A convenir
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa busca Ingeniero Senior de Python para Data Scraping en proyecto freelance, con tareas de extracción de datos web y validación, para un proyecto de 10-20 horas semanales.

Por qué aplicar

Si sos un/a ingeniero/a Python con experiencia en web scraping y te gusta trabajar en proyectos freelance, este puesto remoto te puede interesar. Es una buena oportunidad para aplicar tus habilidades técnicas en un proyecto con dedicación part-time.

Descripción del puesto

Mindrift busca Ingenieros Senior de Data Scraping con Python altamente calificados para unirse al proyecto Tendem y potenciar flujos de trabajo especializados de extracción de datos dentro de nuestro sistema híbrido de IA + humano. En este rol, como "AI Pilot" (así nos referimos a esta posición en Mindrift), colaborarás con "Tendem Agents" que manejan tareas repetitivas, mientras aportas pensamiento crítico, experiencia en el dominio y control de calidad para entregar resultados precisos y accionables. Esta oportunidad remota a tiempo parcial es ideal para profesionales técnicos con experiencia práctica en web scraping, extracción y procesamiento de datos. ¿Qué hacemos? La plataforma Mindrift conecta especialistas con proyectos de IA de los principales innovadores tecnológicos. Nuestra misión es desbloquear el potencial de la IA Generativa aprovechando la experiencia del mundo real de todo el planeta. Este es un rol freelance para un proyecto Tendem. Como Ingeniero Senior de Data Scraping con Python, te encargarás de tareas de extracción de datos que requieren precisión técnica para la extracción y procesamiento web, utilizando diversas herramientas como Apify y OpenRouter (proporcionadas por nosotros) junto con tus propios enfoques ingeniosos. Responsabilidades clave: - Liderar flujos de trabajo de extracción de datos de extremo a extremo en sitios web complejos, asegurando una cobertura completa, precisión y entrega confiable de conjuntos de datos estructurados. - Utilizar herramientas internas (Apify, OpenRouter) junto con flujos de trabajo personalizados para acelerar la recopilación, validación y ejecución de tareas de datos, cumpliendo con los requisitos definidos. - Garantizar la extracción confiable de fuentes web dinámicas e interactivas, adaptando los enfoques según sea necesario para manejar contenido renderizado por JavaScript y cambios en el comportamiento del sitio. - Aplicar estándares de calidad de datos mediante verificaciones de validación, controles de consistencia entre fuentes, cumplimiento de especificaciones de formato y verificación sistemática antes de la entrega. - Escalar las operaciones de scraping para grandes conjuntos de datos utilizando paralelización o procesamiento por lotes eficiente, monitorear fallos y mantener la estabilidad frente a cambios menores en la estructura del sitio. Requisitos: - Al menos 5 años de experiencia relevante en ingeniería de datos, web scraping, automatización o desarrollo de software (requerido). - Título de Grado o Posgrado en Ingeniería, Matemáticas Aplicadas, Ciencias de la Computación o campos técnicos relacionados es un plus. - Los candidatos deben tener una sólida base técnica y experiencia práctica con scripting, automatización y flujos de trabajo asistidos por IA. - Buscamos especialistas que puedan resolver problemas no triviales, trabajar con confianza con LLMs y recopilar, estructurar y validar datos de diversas fuentes de manera sistemática. - Un enfoque metódico y orientado al detalle, y la capacidad de trabajar de forma independiente son esenciales. - Fuerte experiencia en web scraping con Python (BeautifulSoup, Selenium o similar), incluyendo contenido dinámico (JS, AJAX, scroll infinito) y APIs a través de proxies. - Capacidad probada para extraer datos de estructuras complejas (jerarquías, páginas archivadas, HTML inconsistente). - Sólida experiencia en limpieza, normalización y validación de datos, entregando conjuntos de datos estructurados (CSV, JSON, Google Sheets). - Experiencia demostrada en el manejo de mecanismos anti-bots y estructuras de sitios dinámicos a escala. - Experiencia con infraestructura en la nube (AWS o equivalente) y contenerización (Docker) como parte de flujos de trabajo reales. - Experiencia práctica con frameworks de LLM (LangChain, OpenRouter o similar) aplicados a tareas de automatización. - Fuerte atención al detalle y compromiso con la precisión de los datos. - Ética de trabajo autodirigida con capacidad para solucionar problemas de forma independiente. - Un enlace a GitHub es un plus. - Dominio del inglés: Intermedio-alto (B2) o superior (requerido). Expectativas de tiempo del proyecto: Para este proyecto, se estima que las tareas requerirán entre 10 y 20 horas por semana durante las fases activas, según los requisitos del proyecto. Esta es una estimación, no una carga de trabajo garantizada, y se aplica solo mientras el proyecto esté activo. Compensación: En este proyecto, los colaboradores pueden ganar hasta el equivalente a $25 por hora, dependiendo de su nivel y ritmo de contribución. La compensación varía entre proyectos según el alcance, la complejidad y la experiencia requerida. Tenga en cuenta que otros proyectos en la plataforma pueden ofrecer diferentes niveles de ganancias según sus requisitos.

Responsabilidades

  • Gestionar flujos de trabajo de extracción de datos de extremo a extremo en sitios web complejos.
  • Asegurar la cobertura completa, precisión y entrega confiable de conjuntos de datos estructurados.
  • Utilizar herramientas internas (Apify, OpenRouter) y flujos de trabajo personalizados para acelerar la recopilación, validación y ejecución de tareas de datos.
  • Garantizar la extracción confiable de fuentes web dinámicas e interactivas.
  • Adaptar enfoques para manejar contenido renderizado por JavaScript y cambios en el comportamiento del sitio.
  • Aplicar estándares de calidad de datos mediante verificaciones de validación, controles de consistencia entre fuentes y verificación sistemática.
  • Escalar operaciones de scraping para grandes conjuntos de datos utilizando paralelización o lotes eficientes.
  • Monitorear fallos y mantener la estabilidad frente a cambios menores en la estructura del sitio.
  • Colaborar con Agentes de Tendem, proporcionando pensamiento crítico, experiencia en el dominio y control de calidad.

Skills requeridas

Pensamiento críticoExperiencia en dominioControl de calidadResolución de problemas no trivialesTrabajo independienteAtención al detalleMetodología de trabajoAutonomíaMetódicoOrientado al detalle
¿Te interesa empleos en Buenos Aires Province? Creá una alerta y te avisamos.