directohace 2 mesesInclusión laboral

Ingeniero de Confiabilidad de Sitio II - LATAM

B
Backblaze External Website
Remoto · Tiempo completo
Semi Senior2+ años
A convenir
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa de almacenamiento en la nube busca un Ingeniero de Confiabilidad de Sitio II para asegurar la estabilidad, escalabilidad y fiabilidad de sus servicios e infraestructura, enfocándose en automatización, observabilidad y respuesta a incidentes.

Por qué aplicar

Si buscás un rol remoto en una empresa líder en almacenamiento en la nube, esta es tu oportunidad. Podrás aportar a la estabilidad y escalabilidad de servicios clave, trabajando en automatización y respuesta a incidentes. Ideal para ingenieros de confiabilidad con ganas de crecer.

Descripción del puesto

Acerca de Backblaze Backblaze es el líder en almacenamiento de objetos en el movimiento de la nube abierta, impulsando el éxito de los clientes con almacenamiento en la nube diseñado específicamente para liberar presupuestos, aliviar a los administradores y potenciar a los innovadores. Junto con nuestros socios, ayudamos a los clientes a liberarse de las soluciones heredadas restrictivas y de precios excesivos que los frenan, y a avanzar con todo el poder de la nube abierta en sus manos. Fundada en 2007, escalamos el negocio con menos de 3 millones de dólares en financiación externa hasta 2021, cuando realizamos una IPO tradicional en el mercado Nasdaq. Hoy, Backblaze genera más de 100 millones de dólares en ingresos y es la nube de almacenamiento especializada líder, gestionando más de tres mil millones de gigabytes de almacenamiento de datos para más de 500.000 clientes en más de 175 países, incluyendo empresas, desarrolladores, profesionales de TI y particulares. Acerca del puesto Buscamos un Ingeniero de Confiabilidad de Sitios II (SRE II) para ayudar a garantizar la estabilidad, escalabilidad y confiabilidad de nuestros servicios e infraestructura. Este rol se enfoca en construir automatización, mantener la observabilidad y apoyar la respuesta a incidentes para mantener los sistemas orientados al cliente funcionando al máximo rendimiento. El SRE colaborará con los equipos de ingeniería, producto y operaciones para integrar prácticas de confiabilidad en el desarrollo y las operaciones diarias, al tiempo que contribuye a herramientas y procesos que mejoran la eficiencia y reducen el esfuerzo manual. Responsabilidades clave Confiabilidad y Operaciones del Servicio - Soporte a la disponibilidad y durabilidad de servicios críticos en entornos de producción. - Monitoreo de la salud del servicio utilizando SLI, SLO y presupuestos de error, y escalamiento de problemas cuando los umbrales están en riesgo. - Participación en rotaciones de guardia, respuesta a incidentes y revisiones post-incidente para impulsar mejoras en el servicio. - Seguimiento de los procesos ITIL/OSS establecidos (gestión de incidentes, cambios, problemas y capacidad). Automatización y Herramientas - Desarrollo de automatización para tareas operativas comunes, reduciendo la intervención manual y el trabajo repetitivo. - Contribución a marcos de monitoreo, registro y alerta (ej. Prometheus, Grafana, Catchpoint, ELK). - Trabajo con pipelines de CI/CD, gestión de configuración y herramientas de infraestructura como código (Terraform, Ansible, Jenkins). - Escritura de scripts (Bash, Python, Go, etc.) para mejorar la confiabilidad y eficiencia del sistema. Colaboración - Colaboración con los equipos de ingeniería, producto y operaciones para apoyar el diseño y las operaciones de sistemas resilientes. - Asistencia en la planificación de capacidad y ejercicios de recuperación ante desastres. - Trabajo con proveedores y prestadores de servicios para solucionar problemas y rastrear el rendimiento de los SLA. - Documentación de sistemas, intercambio de aprendizajes y ayuda para cultivar una cultura de ingeniería enfocada en la confiabilidad. Mejora Continua - Contribución a playbooks, runbooks y documentación operativa. - Identificación de problemas recurrentes y propuesta de mejoras a largo plazo. - Promoción de prácticas enfocadas en la confiabilidad dentro de los equipos de desarrollo y operaciones. Calificaciones Educación y Experiencia - Título de Grado en Ciencias de la Computación, Ingeniería o campo relacionado (o experiencia equivalente). - 2-4 años de experiencia en confiabilidad de sitios, ingeniería de sistemas u operaciones. - Exposición a sistemas de producción a gran escala. Habilidades Técnicas - Sólidas habilidades de administración y resolución de problemas en sistemas Linux. - Familiaridad con conceptos de confiabilidad de servicios: monitoreo, alertas, respuesta a incidentes y análisis de causa raíz. - Dominio de al menos un lenguaje de scripting (Python, Bash o Go). - Comprensión de contenedores (Kubernetes, Docker) y conceptos de microservicios. - Conocimiento de respuesta a incidentes y mejores prácticas operativas. Atributos Preferidos - Experiencia en entornos SaaS, de proveedor de servicios o de sistemas distribuidos. - Familiaridad con prácticas ITIL/OSS y SLO/SLA. - Fuertes habilidades de resolución de problemas y disposición para aprender nuevas tecnologías. - Experiencia con plataformas en la nube (AWS, GCP o Azure). - Capacidad para trabajar de forma independiente, asumir responsabilidades y liderar proyectos desde el descubrimiento del problema hasta la resolución. En este punto, esperamos que te sientas entusiasmado con la descripción del puesto que estás leyendo. Incluso si no cumples con todos los requisitos, te animamos a postularte. Aprender, desarrollar y crecer son partes clave de nuestra cultura. Estamos ansiosos por conocer personas que crean en nuestra misión y puedan contribuir a nuestro equipo de diversas maneras. Queremos que las personas se sientan cómodas expresando su verdadero yo y que vengan, se queden y hagan su mejor trabajo aquí. En Backblaze, valoramos ser justos y buenos con nuestros clientes, socios y empleados. Es por eso que la diversidad, la equidad y la inclusión están en el centro de nuestros valores. Estamos comprometidos a fomentar una fuerza laboral donde todos los empleados sientan un sentido de pertenencia, independientemente de su raza, etnia, nacionalidad, género, orientación sexual, edad, religión, estatus socioeconómico, habilidad, estado de veterano y educación. Creemos que nuestra dedicación a cultivar un espacio de trabajo diverso no solo nos permite servir mejor a nuestros clientes en más de 175 países, sino que refuerza aún más nuestro compromiso de hacer lo correcto. Somos un Empleador que Ofrece Igualdad de Oportunidades. Para comprender mejor los datos que recopilamos y procesamos como parte de tu solicitud, consulta nuestro Aviso de Privacidad Relacionado con Empleados de Backblaze.

Responsabilidades

  • Soportar la disponibilidad y durabilidad de servicios críticos
  • Monitorear la salud del servicio usando SLIs, SLOs y presupuestos de error
  • Participar en rotaciones de guardia, respuesta a incidentes y revisiones post-incidente
  • Seguir procesos ITIL/OSS
  • Desarrollar automatización para tareas operativas
  • Contribuir a frameworks de monitoreo, logging y alertamiento
  • Trabajar con pipelines CI/CD, gestión de configuración e infraestructura como código
  • Escribir scripts para mejorar la confiabilidad y eficiencia del sistema
  • Colaborar con equipos de ingeniería, producto y operaciones
  • Asistir en la planificación de capacidad y ejercicios de recuperación ante desastres
  • Trabajar con proveedores y proveedores de servicios
  • Documentar sistemas y compartir aprendizajes
  • Contribuir a playbooks, runbooks y documentación operativa
  • Identificar problemas recurrentes y proponer mejoras a largo plazo
  • Promover prácticas enfocadas en la confiabilidad

Skills requeridas

Administración y troubleshooting de sistemas LinuxMonitoreoAlertamientoRespuesta a incidentesAnálisis de causa raízGestión de incidentesGestión de cambiosGestión de capacidadPlanificación de capacidadRecuperación ante desastresColaboraciónComunicación

Explorar empleos relacionados