Recebemos hoje a Lara Xavier para um papo direto, técnico e bem-humorado sobre como fazer observabilidade de verdade no Brasil. Conversamos sobre o que muda quando saímos do “monitorar páginas” para desenhar telemetria que responde perguntas do produto e reduz MTTR. E, claro, falamos do que dói: custo, ruído de alerta e responsabilidade compartilhada entre dev e SRE.
Ao longo do episódio, passamos por logs, métricas e rastros (tracing), demos exemplos de instrumentação com OpenTelemetry e comparamos abordagens entre ferramentas e stacks. Entramos também na realidade dos times: quando começar, como priorizar, como não transformar dashboard em wallpaper e por que SLI mal definido sabota qualquer estratégia.
Fechamos com um tour pela stack da Grafana (Loki e Tempo), boas práticas de governança de dados de observabilidade e links para quem quer se aprofundar. Ficou redondo para quem está dando os primeiros passos e para quem já está calibrando sinais e alerts em produção.
Quem é a convidada
Lara Xavier é referência em observabilidade na comunidade, atua no dia a dia com telemetria aplicada e integra o programa Grafana Champions. No episódio, ela compartilha aprendizados de incidentes, migrações e construção de SLI em times que vão do “apagar incêndio” para a melhoria contínua.
O que discutimos
Observabilidade sem glamour
Nós quebramos a ideia de que observabilidade é só “ter dashboard bonito”. Discutimos como sinais acionáveis começam definindo perguntas (hipóteses) e desenhando eventos, métricas e rastros que as respondem. Falamos sobre alertas com menos ruído e sobre como separar sintoma de causa antes de abrir incidente.
Logs, métricas e tracing
Falamos de métricas como sinais agregados que sustentam SLI, de logs como narrativa detalhada que não deve ser dump irrestrito e de tracing para costurar a jornada da requisição. Reforçamos critérios de retenção, cardinalidade e amostragem.
OpenTelemetry na prática
Mostramos por que OpenTelemetry é a base neutra para instrumentação e demos um caminho de adoção incremental: começar com métricas de negócio e latência, adicionar contextos, propagar IDs e só então expandir cobertura. Comentamos erros frequentes: criar spans inúteis, coletar tudo sem orçamento e não definir atributos estáveis.
Monitoring legado vs. cloud-native
Contrastamos monitoramento clássico com Zabbix e práticas de observabilidade em sistemas distribuídos. A discussão foca menos em ferramenta e mais em modelar sinais que respondem perguntas de disponibilidade, performance e fluxo de negócio.
Stack Grafana: quando e por quê
Fizemos um giro na stack da Grafana para times que preferem soluções open source/managed: Loki para logs e Tempo para traces. Comparações honestas com “Elastic” aparecem, com prós e contras em custo e operação. A Lara também comenta o programa Grafana Champions e materiais para estudo.
Custos, prioridade e responsabilidade
Debatemos custo e priorização. Observabilidade sem limites vira gargalo financeiro; com limites e propósito, vira acelerador. Falamos de responsabilidade compartilhada: dev instrumenta e cuida de qualidade do sinal; SRE define padrões, governa e facilita a plataforma.
Principais aprendizados
Começar por perguntas e SLI evita coleções de métricas que não ajudam em incidentes.
Menos é mais: cardinalidade controlada, retenções claras e amostragem protegem o orçamento.
Alertas devem apontar ação. Se ninguém sabe o que fazer ao acordar com um alerta, esse alerta está mal definido.
Tracing brilha em debug cross-service; use spans com propósito e atributos estáveis.
OpenTelemetry reduz lock-in e cria base comum entre times e ferramentas.
Stack Grafana (Loki/Tempo) é uma opção sólida quando seus requisitos batem com o perfil da stack; escolha pelo problema, não pela moda.
Cultura importa: pós-mortem sem caça às bruxas e revisão contínua de sinais.
Links Importantes:
- Lara Xavier - https://www.linkedin.com/in/lara-xavier-bb389788/
- Links da Lara - https://linktr.ee/Larasxavier
- João Brito - https://www.linkedin.com/in/juniorjbn
- Assista ao FilmeTEArapia - https://youtu.be/M4QFmW_HZh0?si=HIXBDWZJ8yPbpflM
- Seja Grafana Champion - https://grafana.com/community/champions/
- Participe de nosso programa de acesso antecipado e tenha um ambiente mais seguro em instantes! https://getup.io/zerocve
🎧 Ouça também o Kubicast no Spotify, e compartilhe com toda a turma que nem sabe o que é barramento!