Create Your First Project
Start adding your projects to your portfolio. Click on "Manage Projects" to get started
TI - Incidentes críticos do NOC
Data
Dezembro 2025
Sobre o projeto
Serviço: monitoramento NOC e resposta a incidente crítico (SEV1) + gestão de tickets + análise de alertas SIEM
Tipo de incidente: indisponibilidade de portais de clientes em múltiplas regiões (suspeita de bloqueio por firewall)
Ambiente: operação remota com coordenação entre times de rede, segurança e operação
Escopo: triagem de alertas e e-mails, criação e atualização de ticket SEV1, acionamento de bridge call, coleta de evidências e acompanhamento até estabilização
Ações principais: escalonamento imediato, revisão de políticas de firewall e mudanças recentes, testes de caminho de tráfego, coleta de evidências (análise de tráfego) e rollback para restauração do serviço
Entregáveis: ticket com work notes completos + linha do tempo do SEV1 + notas do bridge preparadas para registro interno
Requisitos operacionais: priorização do SEV1, controle de ruído (alertas paralelos), comunicação objetiva e documentação auditável
Resultado: serviço restaurado via rollback seguro e abertura de acompanhamento técnico para investigação da causa raiz com o fornecedor
Data: dezembro de 2025
Local: execução remota (Brasil – suporte internacional)
Localização
Florianópolis / Brasil serviço exportado
Tipo de projeto
Remoto - Cliente de longo prazo
Estudo de Caso: Resposta a Incidente Crítico (SEV1) por Bloqueio em Firewall afetando Portais de Clientes
Visão geral
Durante um turno de NOC, recebemos alertas indicando que portais de clientes estavam indisponíveis em múltiplas regiões. O ponto crítico era que os painéis de “saúde global” pareciam normais, enquanto o impacto real era confirmado pelo lado do usuário. Esse tipo de cenário exige triagem rápida, coordenação entre times e documentação rigorosa do que foi feito, em que ordem e por quê.
Data: dezembro de 2025
Local: execução remota (Brasil – suporte internacional)
Serviço: Remote NOC / Resposta a Incidentes / SIEM & Gestão de Tickets
O desafio
• Indisponibilidade do portal em mais de uma região ao mesmo tempo.
• Indicadores gerais sem evidência clara do problema, aumentando o risco de diagnóstico errado.
• Volume alto de alertas e e-mails durante o incidente, exigindo controle de ruído.
• Ocorrência de incidentes paralelos (memória/alertas de rede) que precisavam ser administrados sem tirar o foco do SEV1.
O que fizemos
1. Triagem rápida e definição do “evento principal”
Separamos o incidente real (indisponibilidade do portal) de alertas que não exigiam ação imediata, mantendo tudo registrado no sistema de tickets.
2. Abertura de incidente crítico e escalonamento imediato
Criamos o ticket do SEV1 e acionamos o fluxo de resposta, envolvendo os times responsáveis por rede, firewall e operação.
3. Diagnóstico guiado por hipóteses técnicas, não por suposições
Como a “saúde global” não refletia o impacto, tratamos como provável caso de políticas de firewall/bloqueio e/ou caminho de tráfego (traffic path). Revisamos mudanças recentes, validamos regras relacionadas e testamos retorno para caminhos anteriores para isolar o comportamento.
4. Coleta de evidências durante o bridge
Rodamos análises de tráfego para identificar onde o fluxo estava sendo interrompido e sustentar decisões com dados, não com sensação.
5. Restauração rápida com rollback seguro
No encerramento do bridge, foi aplicado um rollback para um caminho conhecido como estável, priorizando a volta do serviço. A investigação do root cause continuou em paralelo.
6. Gestão de incidentes paralelos sem comprometer o SEV1
Alertas adicionais (ex.: memória e interface de switch) foram monitorados e escalonados quando necessário, sem interromper a linha principal de resposta do incidente crítico.
7. Documentação completa e pronta para auditoria
O ticket foi atualizado com work notes claras, e as notas do bridge foram organizadas para registro interno, com linha do tempo, ações executadas e resultado final.
Resultado
• Serviço restaurado com rollback do caminho/alteração que estava gerando bloqueio.
• Controle de prioridade: foco total no SEV1 sem perder visibilidade de alertas paralelos.
• Melhor governança operacional: ticket bem documentado, timeline consistente e registro pronto para repasse interno.
• Abertura de follow-up com fornecedor para investigação do root cause relacionado a políticas/integração (API), evitando “apenas apagar incêndio” e encerrar sem causa.
Por que isso importa para empresas de tecnologia?
Porque mostra operação real:
• Quando o dashboard diz “ok” e o usuário diz “fora”, a resposta precisa ser baseada em método: isolar, provar, restaurar e documentar.
E tudo isso com disciplina de tickets, coordenação e foco no impacto do negócio



