De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.

Era uma vez um gerente de redes...

Colaboração: Antonio M. Moreiras

Data de Publicação: 25 de agosto de 2014

Vou contar uma pequena história para ilustrar a importância de gerenciar corretamente a rede de dados de uma empresa, ou outro tipo de organização. A história do Paulo. Ele tinha acabado de ser contratado como gerente de redes da XPTO, uma empresa muito importante...

O Paulo não teve muita sorte, porque logo nos primeiros dias houve uma série de problemas. Em um dos dias, o acesso à Internet estava lento. Dava até pra fechar os olhos e imaginar ao longe aquele barulhinho que os modems faziam quando a conexão era discada. No outro dia, foi o site da empresa que ficou fora. Por horas! No dia seguinte, todo sistema de telefonia voIP parou.

Quando a Internet ficou lenta, o Paulo deu uma olhada no roteador e percebeu que estava usando cerca de 80% da conexão contratada. Bastante, mas não o suficiente para ser a causa do problema... Ou seria? Ele pediu à sua equipe para ver os gráficos históricos de utilização. Mas esses não existiam! Como saber se 80% era normal ou não? No final das contas era só um dos cabos ligados ao switch. Quando houve o problema com o servidor do sítio web, os logs indicaram um possível ataque de negação de serviço. Mas, adivinhe! Esse ataque havia começado 2h horas antes e não teve relação com o problema, mas os relógios dos servidores estavam errados e só depois de quase um dia de trabalho percebeu-se que o problema era realmente um bug na aplicação. Quando o sistema de telefonia parou, não havia sequer documentação sobre como ele estava conectado à rede e Paulo ganhou alguns novos cabelos brancos naquele dia...

Paulo começou a duvidar da "falta de sorte" e a entender porque a XPTO realmente havia contratado um gerente de redes novo. Começou a imaginar se tinha negociado um salário compatível com o tamanho do problema... Havia muito a ser feito. Como a fada madrinha dos gerentes de redes não apareceu para transformar clipes e parafusos em novos servidores e roteadores, nem os peixinhos do aquário por mágica viraram técnicos com certificação ITIL, LPI, CCNP, JNCIS e PMP, ele começou a tomar por si mesmo algumas ações simples, mas importantes.

A primeira coisa que o Paulo fez, enquanto ainda apagava incêndios, foi um inventário dos equipamentos e a documentação da topologia de toda a rede. Isso o ajudaria a entender os possíveis elementos envolvidos, no caso de novos problemas.

Ele instalou também um sistema para fazer backup automático diário de todas as configurações importantes dos servidores e roteadores, manter seu histórico, e mesmo avisá-lo automaticamente no caso de mudanças feitas sem seu conhecimento prévio. Ele considerou que isso seria importante para recuperar rapidamente uma configuração anterior, caso uma modificação causasse um problema inesperado. Criou ainda um processo formal de aprovação para qualquer modificação, segundo o qual todas as áreas possivelmente afetadas deveriam ser consultadas.

Paulo também instalou NTP em todos os roteadores e servidores, e padronizou o horário utilizado nos relógios para UTC, a fim de manter a coerência dos logs. Isso o ajudaria a comparar os registros de diferentes servidores, cruzando as informações e entendendo as relações de causa e efeito no caso de problemas.

Ele também configurou um servidor novo, com a única finalidade de centralizar os logs de todos os outros servidores e roteadores. Os equipamentos armazenariam os registros localmente, mas também enviariam uma cópia para esse servidor central. No caso de uma falha grave ou mesmo invasão em um equipamento, os registros originais estariam preservados e ajudariam a achar o problema. No futuro, depois de ter registros suficientes do comportamento normal da rede, Paulo poderia também criar alguns scripts para analisar anormalidades nos novos registros e avisá-lo imediatamente.

Outra ação importante foi instalar um novo servidor e sistema para coletar métricas importantes de todos os equipamentos, como banda utilizada, processamento, memória, disco, número de usuários logados, número de processos rodando, etc. Esse sistema armazena o histórico dessas métricas em formato de gráficos. Com essas informações complementando os logs, Paulo poderia entender o comportamento normal da rede, ter uma base line, incluindo as variações diárias e sazonais. Assim, no caso de um problema, seria fácil saber o que realmente estava diferente do normal. Além disso o sistema poderia ajudá-lo a entender variações de médio e longo prazo, por exemplo: um aumento gradual na utilização da banda Internet contratada e a necessidade de renegociar um contrato, ou fazer a aquisição de um roteador ou servidor mais potente.

Paulo instalou um sistema de alertas, que verificava a cada minuto, automaticamente, alguns parâmetros importantes de funcionamento dos principais serviços. A página web estava respondendo? A utilização da CPU dos equipamentos estava em um nível normal? Havia mais processos rodando do que deveria em algum servidor? O espaço em disco estaria acabando? Esse sistema era capaz de dar alertas visuais e sonoros aos técnicos de plantão na empresa, e enviar alertas via SMS e para sua conta de Instant Messenger. Assim, a resposta a qualquer problema passou a ser muito rápida.

Por fim, ele instalou também um sistema de gerenciamento de ocorrências, para registrar todos os problemas e soluções. Isso permitiria um melhor controle sobre a atividade da equipe. Permitiria a criação de uma base de conhecimento. E mesmo a identificação de problemas recorrentes, que provavelmente tinham uma causa estrutural e exigiriam mudanças na topologia da rede, em equipamentos ou programas.

Paulo fez tudo isso usando software livre e pequenos scripts criados na própria XPTO, por causa dos custos e porque já tinha experiência prévia no assunto, embora também houvesse ótimas opções proprietárias disponíveis comercialmente.

Depois de algumas semanas ele já foi capaz de usar as informações documentadas e histórico acumulado para começar a fazer mudanças na topologia e configuração dos equipamentos, otimizando o funcionamento da rede. Em pouco tempo, a quantidade de incêndios a apagar diminuiu muito e cada vez mais seu tempo passou a ser dedicado a melhorar os serviços que apoiavam os negócios da XPTO. Ele até conseguiu um aumento, suficiente para comprar um belo cavalo alazão, imponente, com sua cor castanho avermelhada, crina e cauda douradas.

Paulo e a XPTO viveram, então, felizes para sempre... : -)

E você, gerente de redes, já conseguiu sair da fase das bruxas em seu próprio conto de fadas?

Antonio M. Moreiras é engenheiro, gerente de desenvolvimento e projetos no NIC.br, onde trabalha com projetos ligados à infraestrutura da Internet.

Adicionar comentário

Comentários

Nenhum comentário ainda. Seja o primeiro!

Veja a relação completa dos artigos de Antonio M. Moreiras