Recebemos hoje a Lara Xavier para um papo direto, técnico e bem-humorado sobre como fazer observabilidade de verdade no Brasil. Conversamos sobre o que muda quando saímos do “monitorar páginas” para desenhar telemetria que responde perguntas do produto e reduz MTTR. E, claro, falamos do que dói: custo, ruído de alerta e responsabilidade compartilhada entre dev e SRE.

Ao longo do episódio, passamos por logs, métricas e rastros (tracing), demos exemplos de instrumentação com OpenTelemetry e comparamos abordagens entre ferramentas e stacks. Entramos também na realidade dos times: quando começar, como priorizar, como não transformar dashboard em wallpaper e por que SLI mal definido sabota qualquer estratégia.

Fechamos com um tour pela stack da Grafana (Loki e Tempo), boas práticas de governança de dados de observabilidade e links para quem quer se aprofundar. Ficou redondo para quem está dando os primeiros passos e para quem já está calibrando sinais e alerts em produção.


Quem é a convidada

Lara Xavier é referência em observabilidade na comunidade, atua no dia a dia com telemetria aplicada e integra o programa Grafana Champions. No episódio, ela compartilha aprendizados de incidentes, migrações e construção de SLI em times que vão do “apagar incêndio” para a melhoria contínua.


O que discutimos

Observabilidade sem glamour

Nós quebramos a ideia de que observabilidade é só “ter dashboard bonito”. Discutimos como sinais acionáveis começam definindo perguntas (hipóteses) e desenhando eventos, métricas e rastros que as respondem. Falamos sobre alertas com menos ruído e sobre como separar sintoma de causa antes de abrir incidente.

Logs, métricas e tracing

Falamos de métricas como sinais agregados que sustentam SLI, de logs como narrativa detalhada que não deve ser dump irrestrito e de tracing para costurar a jornada da requisição. Reforçamos critérios de retenção, cardinalidade e amostragem.

OpenTelemetry na prática

Mostramos por que OpenTelemetry é a base neutra para instrumentação e demos um caminho de adoção incremental: começar com métricas de negócio e latência, adicionar contextos, propagar IDs e só então expandir cobertura. Comentamos erros frequentes: criar spans inúteis, coletar tudo sem orçamento e não definir atributos estáveis.

Monitoring legado vs. cloud-native

Contrastamos monitoramento clássico com Zabbix e práticas de observabilidade em sistemas distribuídos. A discussão foca menos em ferramenta e mais em modelar sinais que respondem perguntas de disponibilidade, performance e fluxo de negócio.

Stack Grafana: quando e por quê

Fizemos um giro na stack da Grafana para times que preferem soluções open source/managed: Loki para logs e Tempo para traces. Comparações honestas com “Elastic” aparecem, com prós e contras em custo e operação. A Lara também comenta o programa Grafana Champions e materiais para estudo.

Custos, prioridade e responsabilidade

Debatemos custo e priorização. Observabilidade sem limites vira gargalo financeiro; com limites e propósito, vira acelerador. Falamos de responsabilidade compartilhada: dev instrumenta e cuida de qualidade do sinal; SRE define padrões, governa e facilita a plataforma.


Principais aprendizados

  • Começar por perguntas e SLI evita coleções de métricas que não ajudam em incidentes.

  • Menos é mais: cardinalidade controlada, retenções claras e amostragem protegem o orçamento.

  • Alertas devem apontar ação. Se ninguém sabe o que fazer ao acordar com um alerta, esse alerta está mal definido.

  • Tracing brilha em debug cross-service; use spans com propósito e atributos estáveis.

  • OpenTelemetry reduz lock-in e cria base comum entre times e ferramentas.

  • Stack Grafana (Loki/Tempo) é uma opção sólida quando seus requisitos batem com o perfil da stack; escolha pelo problema, não pela moda.

  • Cultura importa: pós-mortem sem caça às bruxas e revisão contínua de sinais.



Links Importantes:

- Lara Xavier - https://www.linkedin.com/in/lara-xavier-bb389788/

- Links da Lara - https://linktr.ee/Larasxavier

- João Brito - https://www.linkedin.com/in/juniorjbn

- Assista ao FilmeTEArapia - https://youtu.be/M4QFmW_HZh0?si=HIXBDWZJ8yPbpflM

- Seja Grafana Champion - https://grafana.com/community/champions/

- Participe de nosso programa de acesso antecipado e tenha um ambiente mais seguro em instantes! https://getup.io/zerocve

🎧 Ouça também o Kubicast no Spotify, e compartilhe com toda a turma que nem sabe o que é barramento!

Social

Contact us

Almeda Campinas 802, CJ 12, Jardim Paulista,

São Paulo - SP, 01404-001

Opportunities

Our content

Social

Contact us

Almeda Campinas 802, CJ 12, Jardim Paulista,

São Paulo - SP, 01404-001

Opportunities

Our content

Social

Contact us

Almeda Campinas 802, CJ 12, Jardim Paulista,

São Paulo - SP, 01404-001

Opportunities

Our content