top of page

Create Your First Project

Start adding your projects to your portfolio. Click on "Manage Projects" to get started

TI - Incidentes críticos do NOC

Data

Dezembro 2025

Sobre o projeto

Serviço: monitoramento NOC e resposta a incidente crítico (SEV1) + gestão de tickets + análise de alertas SIEM

Tipo de incidente: indisponibilidade de portais de clientes em múltiplas regiões (suspeita de bloqueio por firewall)

Ambiente: operação remota com coordenação entre times de rede, segurança e operação

Escopo: triagem de alertas e e-mails, criação e atualização de ticket SEV1, acionamento de bridge call, coleta de evidências e acompanhamento até estabilização

Ações principais: escalonamento imediato, revisão de políticas de firewall e mudanças recentes, testes de caminho de tráfego, coleta de evidências (análise de tráfego) e rollback para restauração do serviço

Entregáveis: ticket com work notes completos + linha do tempo do SEV1 + notas do bridge preparadas para registro interno

Requisitos operacionais: priorização do SEV1, controle de ruído (alertas paralelos), comunicação objetiva e documentação auditável

Resultado: serviço restaurado via rollback seguro e abertura de acompanhamento técnico para investigação da causa raiz com o fornecedor

Data: dezembro de 2025

Local: execução remota (Brasil – suporte internacional)

Localização

Florianópolis / Brasil serviço exportado

Tipo de projeto

Remoto - Cliente de longo prazo

Estudo de Caso: Resposta a Incidente Crítico (SEV1) por Bloqueio em Firewall afetando Portais de Clientes
Visão geral
Durante um turno de NOC, recebemos alertas indicando que portais de clientes estavam indisponíveis em múltiplas regiões. O ponto crítico era que os painéis de “saúde global” pareciam normais, enquanto o impacto real era confirmado pelo lado do usuário. Esse tipo de cenário exige triagem rápida, coordenação entre times e documentação rigorosa do que foi feito, em que ordem e por quê.
Data: dezembro de 2025
Local: execução remota (Brasil – suporte internacional)
Serviço: Remote NOC / Resposta a Incidentes / SIEM & Gestão de Tickets

O desafio
• Indisponibilidade do portal em mais de uma região ao mesmo tempo.
• Indicadores gerais sem evidência clara do problema, aumentando o risco de diagnóstico errado.
• Volume alto de alertas e e-mails durante o incidente, exigindo controle de ruído.
• Ocorrência de incidentes paralelos (memória/alertas de rede) que precisavam ser administrados sem tirar o foco do SEV1.

O que fizemos
1. Triagem rápida e definição do “evento principal”
Separamos o incidente real (indisponibilidade do portal) de alertas que não exigiam ação imediata, mantendo tudo registrado no sistema de tickets.
2. Abertura de incidente crítico e escalonamento imediato
Criamos o ticket do SEV1 e acionamos o fluxo de resposta, envolvendo os times responsáveis por rede, firewall e operação.
3. Diagnóstico guiado por hipóteses técnicas, não por suposições
Como a “saúde global” não refletia o impacto, tratamos como provável caso de políticas de firewall/bloqueio e/ou caminho de tráfego (traffic path). Revisamos mudanças recentes, validamos regras relacionadas e testamos retorno para caminhos anteriores para isolar o comportamento.
4. Coleta de evidências durante o bridge
Rodamos análises de tráfego para identificar onde o fluxo estava sendo interrompido e sustentar decisões com dados, não com sensação.
5. Restauração rápida com rollback seguro
No encerramento do bridge, foi aplicado um rollback para um caminho conhecido como estável, priorizando a volta do serviço. A investigação do root cause continuou em paralelo.
6. Gestão de incidentes paralelos sem comprometer o SEV1
Alertas adicionais (ex.: memória e interface de switch) foram monitorados e escalonados quando necessário, sem interromper a linha principal de resposta do incidente crítico.
7. Documentação completa e pronta para auditoria
O ticket foi atualizado com work notes claras, e as notas do bridge foram organizadas para registro interno, com linha do tempo, ações executadas e resultado final.

Resultado
• Serviço restaurado com rollback do caminho/alteração que estava gerando bloqueio.
• Controle de prioridade: foco total no SEV1 sem perder visibilidade de alertas paralelos.
• Melhor governança operacional: ticket bem documentado, timeline consistente e registro pronto para repasse interno.
• Abertura de follow-up com fornecedor para investigação do root cause relacionado a políticas/integração (API), evitando “apenas apagar incêndio” e encerrar sem causa.

Por que isso importa para empresas de tecnologia?
Porque mostra operação real:
• Quando o dashboard diz “ok” e o usuário diz “fora”, a resposta precisa ser baseada em método: isolar, provar, restaurar e documentar.
E tudo isso com disciplina de tickets, coordenação e foco no impacto do negócio

bottom of page