Chaos Engineering: How to Use Dynatrace to Turn Failures into Learning

By Luiz Siqueira

Elevator Pitch

Como o Bradesco transformou o Chaos Engineering em uma prática contínua e automatizada de experimentos controlados, integrando Dynatrace, Ansible e Azure Chaos Studio para validar hipóteses, fortalecer padrões de resiliência e acelerar o aprendizado das squads em ambientes cloud native.

Description

Case Bradesco: Escalando Resiliência com Chaos Engineering

Em um cenário onde a confiabilidade é fator decisivo para a experiência dos clientes, o Banco Bradesco tem investido fortemente em práticas de Site Reliability Engineering (SRE) e automação para garantir estabilidade, disponibilidade e previsibilidade em seus serviços digitais. Com uma arquitetura distribuída, baseada em cloud native e múltiplas integrações entre plataformas, surgiu o desafio de validar a resiliência das jornadas críticas de negócio diante de falhas reais, sem comprometer a operação e mantendo a agilidade de entrega das squads.

Para enfrentar esse desafio, o Bradesco iniciou a adoção do Chaos Engineering como um modelo estruturado de experimentação e aprendizado. A proposta foi transformar o “caos” em uma ferramenta estratégica para testar hipóteses, revelar fragilidades e fortalecer a arquitetura de ponta a ponta.

A Estratégia

A jornada começou de forma manual, com pequenos experimentos controlados que permitiram compreender o comportamento das aplicações durante situações de falha. Na sequência, evoluímos para um modelo automatizado e governado, utilizando um ecossistema integrado de ferramentas:

Ansible Automation Platform para orquestração e agendamento dos testes;

Azure Chaos Studio, Kraken e Toxiproxy para injeção de falhas em diferentes camadas da infraestrutura e aplicações;

Dynatrace como pilar de observabilidade end to end, responsável por fornecer métricas, traces, SLOs e dashboards que revelaram o impacto real de cada experimento.

Essa integração permitiu padronizar os cenários de teste, criar templates reutilizáveis e gerar trilhas completas de auditoria, garantindo reprodutibilidade, segurança e aprendizado contínuo.

Execução e Cultura

Durante as execuções, foram simuladas falhas como desligamento de pods críticos, stress de CPU e memória, injeção de latência, falhas em services e interrupções em componentes da nuvem. Os resultados eram acompanhados em tempo real pelo Dynatrace, possibilitando análises detalhadas de service flow, distributed tracing e method hotspots, revelando pontos cegos e oportunidades de melhoria.

O ápice do projeto foi o GameDay, um exercício colaborativo que reuniu equipes de Operações, Desenvolvimento e especialistas da Dynatrace. Durante o evento, as falhas foram injetadas de forma randômica e sem aviso prévio, desafiando os times a detectar, diagnosticar e resolver problemas em tempo real — uma simulação fiel do ambiente produtivo que consolidou o aprendizado coletivo e fortaleceu a cultura de resiliência organizacional.

Resultados e Impactos

A iniciativa gerou ganhos significativos e mensuráveis:

Redução de incidentes recorrentes e melhoria na resposta a falhas.

Ampliação da cobertura de observabilidade e precisão dos alertas.

Aceleração do tempo de feedback e análise de causas-raiz.

Padronização dos experimentos e criação de um baseline de KPIs.

Evolução da cultura das squads, com maior maturidade técnica e foco em confiabilidade.

Mais do que testar limites, o programa de Chaos Engineering do Bradesco consolidou uma nova forma de aprender com falhas — de maneira segura, automatizada e mensurável. Cada experimento passou a gerar insights acionáveis para as equipes, conectando hipóteses técnicas a objetivos de negócio, o que fortaleceu a tomada de decisão e aumentou a confiança nas entregas digitais.

Notes

Notas para Revisores – Case: Escalando Resiliência com Chaos Engineering

🧠 Contexto Técnico

O Banco Bradesco, uma das maiores instituições financeiras da América Latina, opera com uma arquitetura híbrida e distribuída entre data centers próprios e cloud pública (Microsoft Azure, Kubernetes, ARO).
A prática de Chaos Engineering foi estruturada em ambientes não produtivos com automação, governança e observabilidade ponta a ponta, garantindo segurança, reprodutibilidade e aprendizado contínuo.

A solução integra: - Ansible Automation Platform para orquestração e agendamento automatizado dos experimentos;
- Azure Chaos Studio, Kraken e Toxiproxy para injeção controlada de falhas;
- Dynatrace como ferramenta central de observabilidade end to end, correlacionando métricas, logs e traces;
- JMeter para geração de carga e simulação de jornadas de negócio.

Essa abordagem permitiu padronizar experimentos, reduzir o tempo de feedback e aprimorar a resiliência das aplicações e infraestruturas cloud native do banco.


🎯 Por que este case é relevante

  • Demonstra como uma instituição financeira tradicional implementou Chaos Engineering de forma governada, automatizada e auditável.
  • Mostra uma integração real entre automação, observabilidade e injeção de falhas, em um dos maiores ecossistemas corporativos do país.
  • Apresenta resultados concretos: redução de incidentes, aumento da confiabilidade, melhoria de SLOs e fortalecimento cultural das squads.
  • Traz uma visão prática e replicável, unindo teoria, execução técnica e lições aprendidas sobre como criar valor de negócio por meio de experimentação controlada.

👤 Sobre os Apresentadores

Luiz SiqueiraGerente de Site Reliability Engineering (SRE Core Team) – Banco Bradesco
Atua na liderança técnica e estratégica de iniciativas de resiliência, automação e observabilidade.
É professor da disciplina de SRE, com foco em práticas modernas de confiabilidade e engenharia de caos.
Foi palestrante no SRE CON Americas 2024 e 2025, representando o Bradesco em painéis sobre maturidade SRE e cultura de resiliência.
Também participou do Dynatrace Perform 2025 e do Executive Briefing Center (EBC), compartilhando experiências sobre observabilidade e performance em larga escala.
Reconhecido por promover o aculturamento SRE e integrar práticas de performance, Chaos Engineering e automação dentro de uma visão estratégica de negócio.

Leonardo Siqueira MarquesGerente de Site Reliability Engineering Senior – Banco Bradesco
Cofundador da iniciativa de SRE Core Team no Bradesco, Leonardo possui ampla experiência em observabilidade, performance e arquitetura de resiliência em ambientes cloud native.
Atua na definição de padrões e governança de confiabilidade, liderando times multidisciplinares em projetos de automação, resiliência e Chaos Engineering.
Com perfil técnico e estratégico, contribui ativamente na evolução da maturidade SRE no banco, sendo corresponsável pelo desenho e execução do case apresentado.


💡 Diferenciais do Case

  • Integração real entre Azure, Dynatrace, Ansible e Kraken.
  • Automação completa e governada dos experimentos de Chaos Engineering.
  • Execução de GameDay real com times multidisciplinares (Operações, Desenvolvimento e parceiros técnicos).
  • Aplicabilidade prática e imediata: o público entenderá como estruturar, automatizar e mensurar experimentos de caos dentro de uma estratégia SRE corporativa.

✅ Objetivo da Palestra

Inspirar equipes técnicas e de liderança a enxergar o Chaos Engineering como ferramenta de aprendizado organizacional e evolução da confiabilidade digital, demonstrando como o Bradesco transformou o caos em um processo seguro, automatizado e mensurável.