Monitorando Pagamentos com Datadog: Além do "Health Check"
Em um sistema financeiro, saber que o serviço está “UP” (200 OK) não é suficiente. Você precisa saber se as pessoas estão conseguindo gastar seus benefícios. O Datadog é a ferramenta de elite para essa observabilidade profunda.
O Erro Silencioso
O serviço está rodando, a CPU está baixa, mas o número de transações aprovadas caiu 50% nos últimos 10 minutos. Nenhum alerta de infraestrutura disparou, mas o negócio está perdendo dinheiro. Isso é um erro de negócio que só a observabilidade real pega.
1. Métricas Customizadas (Business Metrics)
Não monitore apenas memória; monitore o negócio.
- Métrica de Negócio (exemplo):
transactions.approved.countvstransactions.denied.count. - Se a taxa de negação subir subitamente, algo está errado com o processador de cartões ou com a regra de saldo.
2. Dashboards de Funil
No Datadog, você pode criar um dashboard que mostra o caminho da transação: Requisição Recebida -> Validação de Saldo -> Chamada Gateway -> Resposta Usuário. Onde está o gargalo? Se o tempo da “Chamada Gateway” subiu, o problema é externo. Se a “Validação de Saldo” subiu, o banco de dados está lento.
3. Logs Estruturados e Facetas
Envie logs em JSON para o Datadog. Isso permite criar “Facetas” para filtrar instantaneamente:
- “Mostre todos os erros de pagamento para o
merchantIdX”. - “Quais usuários do estado de
SPestão tendo timeout?”.
4. APM e Distributed Tracing
Com o APM (Application Performance Monitoring) do Datadog, você vê o trace de uma transação cruzando 5 microserviços. Você descobre que o serviço de “Notificação” está atrasando a resposta final do pagamento porque está tentando enviar um SMS de forma síncrona.
Dica: SLOs (Service Level Objectives)
Defina objetivos claros. “99.9% das transações devem ser processadas em menos de 200ms”. O Datadog monitora esse erro de orçamento (Error Budget) e te avisa antes que você quebre o acordo de nível de serviço (SLA) com seus clientes.
Takeaway prático
Para começar a monitorar o valor de negócio hoje, crie um “Dashboard de Saúde da Operação” no Datadog que contenha apenas três gráficos: a taxa de sucesso das transações (2xx vs 4xx/5xx), a latência média do gateway de pagamento e o volume de transações por minuto comparado com a semana anterior. Esse “triângulo de ouro” dirá mais sobre a saúde da sua empresa do que cem gráficos de uso de CPU.