directohace 2 mesesInclusión laboral

Ingeniero de Confiabilidad de Sitio II - LATAM

Remoto · Tiempo completo

Semi Senior2+ años

A convenir

Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa de almacenamiento en la nube busca un Ingeniero de Confiabilidad de Sitio II para asegurar la estabilidad, escalabilidad y fiabilidad de sus servicios e infraestructura, enfocándose en automatización, observabilidad y respuesta a incidentes.

Por qué aplicar

Si buscás un rol remoto en una empresa líder en almacenamiento en la nube, esta es tu oportunidad. Podrás aportar a la estabilidad y escalabilidad de servicios clave, trabajando en automatización y respuesta a incidentes. Ideal para ingenieros de confiabilidad con ganas de crecer.

Descripción del puesto

Acerca de Backblaze Backblaze es el líder en almacenamiento de objetos en el movimiento de la nube abierta, impulsando el éxito de los clientes con almacenamiento en la nube diseñado específicamente para liberar presupuestos, aliviar a los administradores y potenciar a los innovadores. Junto con nuestros socios, ayudamos a los clientes a liberarse de las soluciones heredadas restrictivas y de precios excesivos que los frenan, y a avanzar con todo el poder de la nube abierta en sus manos. Fundada en 2007, escalamos el negocio con menos de 3 millones de dólares en financiación externa hasta 2021, cuando realizamos una IPO tradicional en el mercado Nasdaq. Hoy, Backblaze genera más de 100 millones de dólares en ingresos y es la nube de almacenamiento especializada líder, gestionando más de tres mil millones de gigabytes de almacenamiento de datos para más de 500.000 clientes en más de 175 países, incluyendo empresas, desarrolladores, profesionales de TI y particulares. Acerca del puesto Buscamos un Ingeniero de Confiabilidad de Sitios II (SRE II) para ayudar a garantizar la estabilidad, escalabilidad y confiabilidad de nuestros servicios e infraestructura. Este rol se enfoca en construir automatización, mantener la observabilidad y apoyar la respuesta a incidentes para mantener los sistemas orientados al cliente funcionando al máximo rendimiento. El SRE colaborará con los equipos de ingeniería, producto y operaciones para integrar prácticas de confiabilidad en el desarrollo y las operaciones diarias, al tiempo que contribuye a herramientas y procesos que mejoran la eficiencia y reducen el esfuerzo manual. Responsabilidades clave Confiabilidad y Operaciones del Servicio - Soporte a la disponibilidad y durabilidad de servicios críticos en entornos de producción. - Monitoreo de la salud del servicio utilizando SLI, SLO y presupuestos de error, y escalamiento de problemas cuando los umbrales están en riesgo. - Participación en rotaciones de guardia, respuesta a incidentes y revisiones post-incidente para impulsar mejoras en el servicio. - Seguimiento de los procesos ITIL/OSS establecidos (gestión de incidentes, cambios, problemas y capacidad). Automatización y Herramientas - Desarrollo de automatización para tareas operativas comunes, reduciendo la intervención manual y el trabajo repetitivo. - Contribución a marcos de monitoreo, registro y alerta (ej. Prometheus, Grafana, Catchpoint, ELK). - Trabajo con pipelines de CI/CD, gestión de configuración y herramientas de infraestructura como código (Terraform, Ansible, Jenkins). - Escritura de scripts (Bash, Python, Go, etc.) para mejorar la confiabilidad y eficiencia del sistema. Colaboración - Colaboración con los equipos de ingeniería, producto y operaciones para apoyar el diseño y las operaciones de sistemas resilientes. - Asistencia en la planificación de capacidad y ejercicios de recuperación ante desastres. - Trabajo con proveedores y prestadores de servicios para solucionar problemas y rastrear el rendimiento de los SLA. - Documentación de sistemas, intercambio de aprendizajes y ayuda para cultivar una cultura de ingeniería enfocada en la confiabilidad. Mejora Continua - Contribución a playbooks, runbooks y documentación operativa. - Identificación de problemas recurrentes y propuesta de mejoras a largo plazo. - Promoción de prácticas enfocadas en la confiabilidad dentro de los equipos de desarrollo y operaciones. Calificaciones Educación y Experiencia - Título de Grado en Ciencias de la Computación, Ingeniería o campo relacionado (o experiencia equivalente). - 2-4 años de experiencia en confiabilidad de sitios, ingeniería de sistemas u operaciones. - Exposición a sistemas de producción a gran escala. Habilidades Técnicas - Sólidas habilidades de administración y resolución de problemas en sistemas Linux. - Familiaridad con conceptos de confiabilidad de servicios: monitoreo, alertas, respuesta a incidentes y análisis de causa raíz. - Dominio de al menos un lenguaje de scripting (Python, Bash o Go). - Comprensión de contenedores (Kubernetes, Docker) y conceptos de microservicios. - Conocimiento de respuesta a incidentes y mejores prácticas operativas. Atributos Preferidos - Experiencia en entornos SaaS, de proveedor de servicios o de sistemas distribuidos. - Familiaridad con prácticas ITIL/OSS y SLO/SLA. - Fuertes habilidades de resolución de problemas y disposición para aprender nuevas tecnologías. - Experiencia con plataformas en la nube (AWS, GCP o Azure). - Capacidad para trabajar de forma independiente, asumir responsabilidades y liderar proyectos desde el descubrimiento del problema hasta la resolución. En este punto, esperamos que te sientas entusiasmado con la descripción del puesto que estás leyendo. Incluso si no cumples con todos los requisitos, te animamos a postularte. Aprender, desarrollar y crecer son partes clave de nuestra cultura. Estamos ansiosos por conocer personas que crean en nuestra misión y puedan contribuir a nuestro equipo de diversas maneras. Queremos que las personas se sientan cómodas expresando su verdadero yo y que vengan, se queden y hagan su mejor trabajo aquí. En Backblaze, valoramos ser justos y buenos con nuestros clientes, socios y empleados. Es por eso que la diversidad, la equidad y la inclusión están en el centro de nuestros valores. Estamos comprometidos a fomentar una fuerza laboral donde todos los empleados sientan un sentido de pertenencia, independientemente de su raza, etnia, nacionalidad, género, orientación sexual, edad, religión, estatus socioeconómico, habilidad, estado de veterano y educación. Creemos que nuestra dedicación a cultivar un espacio de trabajo diverso no solo nos permite servir mejor a nuestros clientes en más de 175 países, sino que refuerza aún más nuestro compromiso de hacer lo correcto. Somos un Empleador que Ofrece Igualdad de Oportunidades. Para comprender mejor los datos que recopilamos y procesamos como parte de tu solicitud, consulta nuestro Aviso de Privacidad Relacionado con Empleados de Backblaze.

Responsabilidades

Soportar la disponibilidad y durabilidad de servicios críticos
Monitorear la salud del servicio usando SLIs, SLOs y presupuestos de error
Participar en rotaciones de guardia, respuesta a incidentes y revisiones post-incidente
Seguir procesos ITIL/OSS
Desarrollar automatización para tareas operativas
Contribuir a frameworks de monitoreo, logging y alertamiento
Trabajar con pipelines CI/CD, gestión de configuración e infraestructura como código
Escribir scripts para mejorar la confiabilidad y eficiencia del sistema
Colaborar con equipos de ingeniería, producto y operaciones
Asistir en la planificación de capacidad y ejercicios de recuperación ante desastres
Trabajar con proveedores y proveedores de servicios
Documentar sistemas y compartir aprendizajes
Contribuir a playbooks, runbooks y documentación operativa
Identificar problemas recurrentes y proponer mejoras a largo plazo
Promover prácticas enfocadas en la confiabilidad

Skills requeridas

Administración y troubleshooting de sistemas LinuxMonitoreoAlertamientoRespuesta a incidentesAnálisis de causa raízGestión de incidentesGestión de cambiosGestión de capacidadPlanificación de capacidadRecuperación ante desastresColaboraciónComunicación

Trabajos similares

Más ofertas de Backblaze External Website

AI Enablement Director | LATAM

Backblaze External Website

Remoto

hace 9 días

A convenirDirecto de la empresa

Sr. AI Security Engineer

Backblaze External Website

Remoto

hace 15 días

A convenirDirecto de la empresa

Manager, Software Engineering

Backblaze External Website

Remoto

hace 15 días

A convenirDirecto de la empresa

Senior Revenue Analytics Lead

Backblaze External Website

Remoto

hace 27 días

A convenirDirecto de la empresa

Explorar empleos relacionados

Empleos remotos

Postularte en la empresa

Ingeniero de Confiabilidad de Sitio II - LATAM

Descripción del puesto

Responsabilidades

Skills requeridas

Trabajos similares

Infrastructure / Site Reliability Engineer

Site Reliability Engineer

Site Reliability Engineer - Senior Associate

SRE / Site Reliability Engineer

Staff Site Reliability Engineer

Cloud Storage Site Reliability Engineer

Más ofertas de Backblaze External Website

AI Enablement Director | LATAM

Sr. AI Security Engineer

Manager, Software Engineering

Senior Revenue Analytics Lead

Explorar empleos relacionados