Senior Python Data Scraping Engineer (Freelance)
Se busca Senior Python Data Scraping Engineer para proyecto freelance en Tendem, liderando workflows de extracción de datos especializada en sistema híbrido AI + humano.
Ideal para profesionales técnicos con experiencia en web scraping y extracción de datos. Ofrece la oportunidad de trabajar en un proyecto freelance remoto con un sistema híbrido AI + humano.
Descripción del puesto
Mindrift está buscando Ingenieros senior de raspado de datos con Python altamente capacitados para unirse al proyecto Tendem y liderar flujos de trabajo de raspado de datos especializados dentro de nuestro sistema híbrido de inteligencia artificial (IA) y humanos. En este rol, como piloto de IA (así nos referimos a este rol en Mindrift), colaborarás con agentes de Tendem que manejan tareas repetitivas, mientras tú brindas pensamiento crítico, experiencia en el dominio y control de calidad para entregar resultados precisos y accionables. Esta oportunidad remota a tiempo parcial es ideal para profesionales técnicos con experiencia práctica en raspado web, extracción y procesamiento de datos. Qué hacemos: La plataforma de Mindrift conecta especialistas con proyectos de IA de importantes innovadores tecnológicos. Nuestra misión es desbloquear el potencial de la IA generativa aprovechando la experiencia del mundo real de todo el mundo. Este es un rol freelance para un proyecto de Tendem. Como ingeniero senior de raspado de datos con Python, manejarás tareas de raspado de datos que requieren precisión técnica para la extracción y el procesamiento web, utilizando diversas herramientas como Apify y OpenRouter, que te proporcionamos, junto con tus propios enfoques ingeniosos. Responsabilidades clave: - Poseer flujos de trabajo de extracción de datos de extremo a extremo en sitios web complejos, asegurando la cobertura completa, la precisión y la entrega confiable de conjuntos de datos estructurados. - Aprovechar herramientas internas (Apify, OpenRouter) junto con flujos de trabajo personalizados para acelerar la recopilación de datos, la validación y la ejecución de tareas mientras cumples con los requisitos definidos. - Garantizar la extracción confiable de fuentes web dinámicas e interactivas, adaptando enfoques según sea necesario para manejar contenido renderizado en JavaScript y cambios en el comportamiento del sitio. - Hacer cumplir los estándares de calidad de los datos mediante comprobaciones de validación, controles de coherencia entre fuentes, cumplimiento de especificaciones de formato y verificación sistemática antes de la entrega. - Escalar operaciones de raspado para grandes conjuntos de datos utilizando agrupación eficiente o paralelización, monitorear fallas y mantener la estabilidad contra cambios estructurales menores en el sitio. Requisitos: - Al menos 5 años de experiencia relevante en ingeniería de datos, raspado web, automatización o desarrollo de software (requerido). - Licenciatura o Maestría en Ingeniería, Matemáticas Aplicadas, Ciencias de la Computación o campos técnicos relacionados es una ventaja. - Los candidatos deben tener una sólida base técnica y experiencia práctica con scripting, automatización y flujos de trabajo asistidos por IA. Buscamos especialistas que puedan resolver problemas no triviales, trabajar con confianza con LLM y recolectar, estructurar y validar sistemáticamente datos de diversas fuentes. Es esencial un enfoque metódico y detallado y la capacidad de trabajar de forma independiente. Experiencia sólida en raspado web con Python (BeautifulSoup, Selenium o similar), incluido contenido dinámico (JS, AJAX, desplazamiento infinito) y API a través de proxies. - Capacidad demostrada para extraer datos de estructuras complejas (jerarquías, páginas archivadas, HTML inconsistente). - Sólido conocimiento en limpieza, normalización y validación de datos, entregando conjuntos de datos estructurados (CSV, JSON, Google Sheets). - Experiencia demostrada en el manejo de mecanismos anti-bot y estructuras de sitios dinámicas a gran escala. - Experiencia con infraestructura en la nube (AWS o equivalente) y contenedorización (Docker) como parte de flujos de trabajo reales. - Experiencia práctica con marcos LLM (LangChain, OpenRouter o similar) aplicados a tareas de automatización. - Fuerte atención al detalle y compromiso con la precisión de los datos. - Ética de trabajo autodirigida con capacidad para solucionar problemas de forma independiente. Un enlace a GitHub es una ventaja. Nivel de inglés: intermedio superior (B2) o superior (requerido). Expectativas de tiempo del proyecto: Para este proyecto, se estima que las tareas requieren alrededor de 10-20 horas por semana durante las fases activas, según los requisitos del proyecto. Esta es una estimación, no una carga de trabajo garantizada, y se aplica solo mientras el proyecto esté activo. Compensación: En este proyecto, los contribuyentes pueden ganar hasta $25 por hora equivalente, dependiendo de su nivel y ritmo de contribución. La compensación varía entre proyectos según el alcance, la complejidad y la experiencia requerida. Tenga en cuenta que otros proyectos en la plataforma pueden ofrecer diferentes niveles de ganancias según sus requisitos.
Responsabilidades
- Extracción de datos
- Validación de datos
- Liderazgo de workflows
Skills requeridas
Trabajos similares
Python Scraping Developer

Python Software Engineer – Web Scraping - Remoto - 1728
