directohace 6 meses

Ingeniero de Soporte SRE - Observabilidad

V
Virtasant
Remoto · Por proyecto
Semi Senior3+ años
A convenir
Este aviso fue publicado originalmente en inglés, así que es probable que necesites inglés para este puesto. La descripción puede estar traducida automáticamente al español; ante la duda, revisá el aviso original con el botón de postularte.

Empresa global busca Ingeniero de Soporte SRE enfocado en Observabilidad para un rol remoto, brindando soporte técnico avanzado en plataformas de nube y herramientas de monitoreo.

Por qué aplicar

Si te copa resolver problemas complejos en plataformas de nube y te interesa la observabilidad, este puesto remoto es para vos. Vas a dar soporte a nivel global en herramientas de monitoreo de primer nivel.

Descripción del puesto

SRE Support Engineer - Observability Si bien este puesto no está abierto actualmente, estamos entrevistando candidatos sólidos para futuras oportunidades en este equipo. Ubicación: Remoto | Zona horaria: (EE. UU., Canadá, Brasil, Chile, Colombia, México) (8 AM - 5 PM Pacífico) Libertad para crecer. Poder para entregar. Virtasant es una empresa global de servicios tecnológicos que ofrece soluciones de nube, datos e ingeniería a gran escala en más de 130 países. Nos asociamos con algunas de las organizaciones más grandes del mundo para ayudarles a construir, operar y escalar plataformas internas utilizadas por decenas de miles de ingenieros. Para este rol, darás soporte a una de las plataformas de desarrolladores internas más avanzadas del mundo, impulsando productos utilizados por cientos de millones de personas. Los problemas que resolverás son profundos, complejos y esenciales para mantener en movimiento a una organización a escala global. Descripción general del rol El Ingeniero de Soporte de Observabilidad y Herramientas proporciona soporte técnico de alto impacto para los clientes de la plataforma IaaS interna de una gran empresa de tecnología, con un enfoque en monitoreo, alertas, telemetría y herramientas operativas. Este rol abarca una amplia gama de soporte, desde la incorporación personalizada hasta la habilitación integral del cliente, pasando por la resolución profunda de problemas técnicos en sistemas Linux, de redes y de observabilidad (especialmente Prometheus y AlertManager). También contribuirás a mejorar la función de soporte en sí misma: fortaleciendo herramientas, documentación, flujos de trabajo y bucles de retroalimentación para que el servicio escale. El éxito depende de una excelente resolución de problemas, una sólida comunicación escrita, comodidad trabajando con clientes altamente técnicos y la madurez para identificar patrones e impulsar mejoras operativas más allá de la resolución de tickets individuales. Resultado de negocio Conviértete en un experto de confianza en la primera línea del ecosistema de observabilidad y herramientas operativas del cliente, brindando soporte rápido y preciso a través de Slack y tickets, mejorando la confiabilidad del monitoreo y reduciendo el impacto de incidentes a través de una mejor clasificación, resolución de problemas y captura de conocimiento. Medidas de éxito - Volumen saludable de hilos y tickets manejados con resultados de alta calidad. - Logro constante de SLAs basados en tiempo. - Alta satisfacción del cliente a través de encuestas. - Clasificación precisa del tipo de problema, severidad y patrones recurrentes. - Reducción de problemas repetidos a través de mejores documentos, herramientas e incorporación escalable. Qué será cierto cuando tengas éxito - Los clientes podrán incorporarse sin problemas al monitoreo/alertas con una fricción mínima. - Los problemas de monitoreo y alertas se resolverán rápidamente, con menos escalaciones. - Los incidentes relacionados con Linux y redes se resolverán más rápido debido a una sólida resolución de problemas y transferencias limpias. - Los equipos de ingeniería y SRE recibirán comentarios claros y accionables basados en tendencias reales de los clientes. - El contenido de la base de conocimientos evitará tickets y acelerará el autoservicio. Unidades de trabajo principales 1) Soporte de primera línea para Observabilidad y Herramientas - Gestionar hilos de Slack y tickets (aproximadamente 50/50). - Manejar una amplia gama de soporte al cliente: desde la resolución de problemas simples hasta la incorporación integral. - Proporcionar orientación clara y estructurada a clientes altamente técnicos. - Mantener una sólida atención al detalle mientras se gestionan múltiples interacciones en paralelo. 2) Resolución de problemas profunda y soporte de incidentes - Solucionar, aislar y resolver problemas de monitoreo y alertas (especialmente Prometheus + AlertManager). - Solucionar problemas complejos de Linux y redes (se requieren fundamentos de TCP/IP). - Dar soporte a OpenTelemetry, tracing y pipelines de telemetría, incluida la investigación de lagunas en señales e instrumentación. - Impulsar la resolución de incidentes en colaboración con los equipos de Ingeniería/SRE. 3) Documentación y desarrollo de conocimiento - Crear y mantener artículos de la base de conocimientos para clientes e internos. - Crear publicaciones informativas para la plataforma de soporte comunitario. - Convertir problemas repetidos en guías reutilizables, listas de verificación y playbooks de incorporación. 4) Análisis de tendencias y retroalimentación a Ingeniería - Analizar y categorizar las tendencias de interacción del cliente. - Proporcionar retroalimentación precisa y significativa a las organizaciones de Ingeniería y SRE para mejorar el producto/herramientas. - Identificar los "principales infractores" y proponer soluciones prácticas (herramientas, documentos, procesos, producto). 5) Excelencia operativa y mejora continua - Participar en revisiones post-mortem e impulsar el seguimiento de las mejoras. - Contribuir significativamente a los objetivos y metas del equipo (procesos, herramientas y escalado del servicio). - Aportar creatividad y discreción para resolver problemas altamente complejos "fuera de lo común". Trabajo de alta calidad - lo que parece el máximo rendimiento Soporte de primera línea: - Transita sin problemas de la clasificación a un análisis más profundo sin perder al cliente. - Se comunica de manera clara y segura con usuarios técnicos. - Mantiene seguimientos limpios e higiene de hilos incluso con un alto cambio de contexto. Resolución de problemas: - Aísla rápidamente problemas en configuraciones de monitoreo/alertas, comportamiento del tiempo de ejecución de Linux y conectividad de red. - Utiliza enfoques estructurados para el manejo de incidentes: hipótesis → prueba → evidencia → resolución. - Produce resúmenes de alta señal que aceleran la resolución posterior. Documentación y habilitación: - La documentación es lo suficientemente clara como para que los clientes eviten abrir tickets. - Los flujos de incorporación reducen el tiempo de valorización y evitan configuraciones erróneas comunes. - Captura el "conocimiento tribal" rápidamente y lo hace reutilizable. Excelencia operativa: - Obsesión por los detalles: severidad correcta, etiquetado preciso, líneas de tiempo limpias, transferencias sólidas. - Detecta patrones temprano y propone proactivamente mejoras que escalan el soporte. Día típico / Patrones de trabajo - ~50% soporte de Slack, ~50% manejo de tickets. - Investigaciones profundas durante períodos de bajo volumen de tickets. - Escritura de documentación y mejoras ligeras de herramientas/procesos cuando surgen patrones. - Revisión semanal del equipo de escalaciones, temas y mejoras operativas. - Alta tasa de cambio de contexto y gestión de problemas paralelos. Habilidades y experiencia requeridas (No negociables) - Varios años de soporte para aplicaciones y servicios web altamente escalables. - Experiencia práctica con herramientas de observabilidad de código abierto y nativas de la nube, incluyendo: - Kubernetes (y fundamentos de contenedores). - Resolución de problemas de Prometheus y AlertManager. - Conceptos de OpenTelemetry y distributed tracing. - Sólida comprensión del sistema operativo Linux (línea de comandos, depuración de procesos/redes, logs). - Buena comprensión de los principios de observabilidad de infraestructura (señales, estrategia de alertas, pensamiento SLO, reducción de ruido). - Buena comprensión de la suite TCP/IP y resolución práctica de problemas de red. - Sólida experiencia en la resolución de problemas ambiguos de múltiples capas. - Excelentes capacidades analíticas y gran atención al detalle. - Sólida comunicación escrita y verbal (clara, estructurada, amigable con el cliente). - Comodidad trabajando con una base de clientes muy técnica. - Pasión por el Soporte Técnico y una mentalidad de servicio. Sería deseable (Nice-to-Haves) - Experiencia mejorando o dando soporte a herramientas o flujos de trabajo de soporte internos (automatización, plantillas, runbooks). - Experiencia operando a escala en un entorno de servicios (detección de patrones, conocimiento de KPIs/SLAs, madurez de procesos operativos). - Familiaridad con Grafana, agregación de logs, herramientas de incidentes y prácticas de soporte de producción. - Experiencia previa en SRE o soporte de plataforma. Calificaciones mínimas - 3–7+ años en Ingeniería de Soporte Técnico, Soporte SRE, DevOps, Soporte de Plataforma o similar. - Experiencia demostrada en soporte de sistemas distribuidos, IaaS o plataformas en la nube. - Sólidos antecedentes en Linux, resolución de problemas y comunicación con el cliente. - Evidencia de contribuciones a la documentación, base de conocimientos y mentalidad de mejora de procesos. Descalificadores: fundamentos débiles de Linux, incapacidad para solucionar problemas de manera sistemática, mala comunicación escrita o incomodidad al dar soporte a usuarios altamente técnicos. Lo que te encantará - Resolución de problemas técnicos reales con impacto tangible en el cliente. - Un rol que combina la resolución profunda de problemas con la escalada del soporte a través de documentos, herramientas y procesos. - Alta autonomía en un entorno remoto-first. Lo que puede ser un desafío - Alto cambio de contexto y gestión de múltiples hilos en paralelo. - Patrones repetidos que requieren disciplina para convertir el dolor en mejoras escalables. - Soporte a sistemas de alta visibilidad donde la velocidad y la precisión son importantes. Diferenciación Industria: Cultura remota-first, basada en la confianza; equipo global; autonomía; sistemas modernos; desafíos técnicos significativos. Interno: Soporte de observabilidad de cara al cliente y de alto impacto; influencia directa en la madurez de herramientas y procesos; oportunidad de dar forma a prácticas de soporte escalables.

Responsabilidades

  • Soporte frontline para Observabilidad y Herramientas
  • Troubleshooting de monitoreo y alertas (Prometheus, AlertManager)
  • Soporte de incidentes complejos en Linux y redes
  • Creación y mantenimiento de documentación
  • Análisis de tendencias y feedback a Ingeniería/SRE
  • Mejora continua de procesos y herramientas de soporte

Skills requeridas

Soporte técnicoTroubleshootingComunicación con clientesAnálisis de problemasResolución de incidentesSoporte de plataformasAtención al detalleComunicación escritaComunicación verbalPensamiento analíticoOrientación al servicioAutonomía

Beneficios

  • Oportunidad de crecimiento
  • Trabajo remoto
  • Cultura basada en la confianza
  • Equipo global
  • Autonomía
  • Desafíos técnicos modernos
  • Influencia directa en herramientas y procesos

Explorar empleos relacionados