directohace 2 meses

Python Scraping Developer

OnhiresRemoto · Por proyecto
Senior
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Desarrollador de Python para scraping de datos con experiencia en web scraping y data extraction, responsable del ciclo de vida de pipelines de scraping de alto volumen.

Por qué aplicar

Ideal para desarrolladores de Python con experiencia en web scraping que buscan un desafío en un entorno remoto y dinámico.

Descripción del puesto

Nuestra empresa cliente es una empresa en crecimiento con sede en Berlín que brinda soluciones de software y inteligencia de mercado de última generación a la industria automotriz. Actualmente buscan un Desarrollador Python para extracción de datos con experiencia para fortalecer su equipo internacional de alto impacto. Si te gusta enfrentar desafíos complejos de extracción de datos, crear rastreadores web altamente escalables y garantizar que los sistemas de extracción de datos a gran escala funcionen sin problemas en producción, este rol es para vos. Serás responsable de todo el ciclo de vida de nuestras canalizaciones de extracción de datos de alto volumen, garantizando que los datos que recopilamos sean precisos, consistentes y entregados con velocidad. Responsabilidades - Diseño y desarrollo: Desarrollar, probar y desplegar scripts y rastreadores de extracción web robustos utilizando herramientas avanzadas de Python (Playwright, Selenium, Requests, BeautifulSoup, etc.). - Escalabilidad: Diseñar y mantener sistemas de extracción asincrónicos capaces de extracción de datos a gran escala. - Resiliencia: Implementar, monitorear y optimizar estrategias sofisticadas de anti-bloqueo y rotación de proxy para garantizar alta confiabilidad y tiempo de actividad. - Integración: Gestionar y automatizar canalizaciones de ingesta de datos e integraciones fluidas con API REST externas. - Excelencia operativa: Depurar, monitorear y mejorar continuamente el rendimiento, la confiabilidad y la calidad de los datos del extractor. - Colaboración: Trabajar en equipo con otros ingenieros para mejorar nuestra infraestructura de extracción central, herramientas, registro y sistemas de monitoreo. - Soporte de DevOps: Ayudar con tareas de DevOps, incluyendo Docker, CI/CD y gestión de entornos Linux. Requisitos - Experiencia central: Experiencia profesional comprobada y práctica en extracción de datos web de alto volumen y extracción de datos utilizando Python. - Profundidad técnica: Sólido entendimiento del análisis de HTML, técnicas de automatización del navegador y programación asincrónica. - Marcos: Competencia con marcos de extracción web líderes (por ejemplo, Playwright, Scrapy o Selenium). - Conocimiento web: Fuerte conocimiento de API REST, protocolos HTTP y gestión efectiva de proxy. - Habilidades de base de datos: Familiaridad con bases de datos SQL y NoSQL para almacenamiento y procesamiento de datos eficientes. - Infraestructura: Experiencia con Docker, entornos Linux y control de versiones (Git). - Comunicación: Fluido en inglés (escrito y hablado). - Mentalidad: Autónomo, orientado a detalles y capaz de asumir plena responsabilidad de proyectos importantes. Ventajas (Puntos de bonificación) - Experiencia con bibliotecas asincrónicas avanzadas (por ejemplo, asyncio) - Entendimiento de herramientas de validación de calidad de datos y monitoreo de canalizaciones. Qué ofrecen - Impacto y propiedad: Un alto grado de libertad y la oportunidad de tener un impacto significativo y medible en una empresa en crecimiento. - Flexibilidad: Un alto grado de flexibilidad - nuestra empresa cliente es una empresa que apoya activamente el trabajo remoto. - Crecimiento: Un paquete de compensación competitivo y apoyo dedicado para tu desarrollo personal y profesional (capacitación y asesoramiento continuo). - Equipo y atmósfera: Un ambiente de trabajo agradable dentro de un equipo pequeño, talentoso e internacional. - Oficina (opcional): Una oficina moderna ubicada en el campus de la Universidad de Tecnología de Wildau, de fácil acceso en transporte público (justo fuera de Berlín).

Responsabilidades

  • Diseño y desarrollo de scripts de scraping
  • Arquitectura de sistemas de scraping escalables
  • Implementación de estrategias anti-bloqueo
  • Integración con APIs REST
  • Depuración y monitoreo de rendimiento

Skills requeridas

Desarrollo de scripts de scrapingArquitectura de sistemas de scraping escalablesEstrategias anti-bloqueoIntegración con APIs RESTDepuración y monitoreo de rendimientoAutonomíaOrientación al detallePropietario de proyectosComunicación efectiva

Beneficios

  • Impacto y propiedad
  • Flexibilidad
  • Crecimiento
  • Equipo y atmósfera
  • Oficina opcional