Focando-se nos negócios: o impacto do desempenho da rede e dos aplicativos

Por Colaborador externo | 06 de Março de 2015 às 15h22
photo_camera Divulgação

por Leon Adato*

Não há uma empresa hoje que não tenha passado por uma falha de rede não planejada – ou por interrupções internas que afetam a capacidade dos funcionários de acessar sistemas vitais, como inteligência comercial, gerenciamento de relacionamento com o cliente, atendimento de pedidos, serviços de voz e e-mail; ou interrupções que afetam os aplicativos voltados para o cliente, incluindo pedidos online, suporte ao cliente e entrega de conteúdo.

Mesmo as marcas mais conhecidas em todo o mundo, para quem o dinheiro realmente não é uma barreira, dentre as quais se incluem Amazon e eBay, têm experiências de interrupção em seus serviços devido a falhas na rede.

Entretanto, essas mesmas aplicações e serviços estão se tornando diferenciais competitivos para as empresas.

Somando-se a tudo isso, há um novo elemento a ser acrescentado na questão da disponibilidade: a dura realidade de que o "lento" é o "fora do ar". Uma pesquisa recente feita pela SolarWinds descobriu que 92 por cento dos usuários finais de empresas acreditam que o desempenho e a disponibilidade dos aplicativos afetam sua capacidade de fazer o trabalho, com mais de 34 por cento dizendo que é absolutamente essencial. Estas estatísticas surpreendentes ressaltam que não é mais suficiente que os sistemas e serviços estejam disponíveis. Hoje a velocidade de resposta é tão importante quanto.

Essas estatísticas (com o custo do tempo de inatividade e a possibilidade da resposta lenta sendo tão ruins quanto a falta absoluta de resposta) criam um caso de negócios atraente para a importância de saber o que está acontecendo em sua rede, em tempo real, o tempo todo. Significado: monitoramento abrangente de rede e de sistemas, gerenciamento e resposta automatizada.

Só para ficar claro: os sistemas de monitoramento e gerenciamento de rede (NMS, Network Management and Monitoring Systems) não são mais um centro de custo bom de se ter no departamento de TI. Eles são uma ferramenta essencial para evitar custos.

Obviamente, evita-se o custo quando o tempo de inatividade e as interrupções são reduzidos. Os custos das oportunidades perdidas também são evitados quando a equipe de TI está livre para se concentrar em projetos estratégicos que melhoram o desempenho e a confiabilidade, em vez de ficar combatendo incêndios. Finalmente, os custos são evitados quando se monitora não apenas a equipe de alertas para os sintomas separados de um problema, mas quando as métricas podem descobrir rapidamente a causa principal do problema. Isso permite que a empresa implemente a solução correta na primeira tentativa (e logo que possível), evitando atrasos onerosos e receitas desperdiçadas devido ao trabalho de adivinhação, e não a decisões baseadas em dados.

Um NMS sofisticado vai coletar os dados em todos os níveis da infraestrutura – da integridade básica do hardware em cada sistema do componente à disponibilidade dos aplicativos e serviços nos recursos com cluster, passando pela experiência real de cada usuário final atualmente no sistema.

Levando isso um passo adiante, vejamos algumas capacidades que qualquer organização deve buscar quando avaliam as ferramentas NMS:

Monitoramento abrangente dos componentes

Embora todas as soluções NMS devam tentar fornecer monitoramento dos processos de negócios e do status dos sistemas inter-relacionados, isso não pode ser feito ignorando-se as bases. O monitoramento de rede precisa ir além do "ping". Também deve incluir o estado das interfaces da WAN, informações de largura de banda, e pacotes que caíram e com erros, bem como informações sobre o status dos hardwares de rede, como CPU e RAM.

No lado do servidor, você precisa controlar a CPU, o desempenho do disco, a carga do sistema e a memória; depois, conexões do banco de dados, processos e threads em execução, status do serviço, número de consultas/segundos e mais sobre os aplicativos.

Mas não para por aí. Uma solução NMS sólida deve conseguir ter uma visão sobre os componentes de virtualização e armazenamento, como hypervisors, recursos físicos apresentados às máquinas virtuais, malha do SAN e arrays de disco.

Visibilidade em tempo real:

Os aplicativos críticos de negócios, como CRM, CITRIX, ERP, etc., precisam de monitoramento contínuo em todas as camadas da "pilha", incluindo rede, armazenamento e virtualização para máquinas virtuais, além dos aplicativos que estão sendo executados neles. Os aplicativos críticos são utilizados por centenas de usuários em toda a organização e não haverá processos como adição, modificação ou exclusão de dados, atualizações, backups, etc. rodando o tempo todo. Para garantir o tempo de atividade, você precisa se certificar de que o servidor nunca esteja sobrecarregado. Qualquer falta de recursos pode causar um gargalo, fazendo com que o aplicativo pareça estar rodando de forma "lenta". Daí faz-se necessária uma visibilidade holística em sua infraestrutura de aplicativos críticos, atualizada em tempo real.

Relatórios proativos, alertas inteligentes:

Como você pode reduzir o tempo de inatividade? Você não deve ficar esperando que os usuários finais identifiquem o problema. Um NMS vigoroso vai analisar os aplicativos e criar uma linha de base de seu comportamento normal. Essas linhas de base são facilmente convertidas em relatórios que vão ajudá-lo a identificar as áreas problemáticas, seja um disco que está gerando erros, uma conexão de rede esquisita ou um aplicativo que está sendo executado "mais quente" do que o esperado em termos de CPU ou memória. Relatórios consistentes (e o compromisso de transformar esses relatórios em melhorias comprováveis) podem ajudar a evitar o tempo de inatividade antes que ele ocorra.

Mas nem todos os problemas são previsíveis, e alguns são encaminhados mais rapidamente do que um relatório diário (ou até mesmo por hora) iria capturar. É aqui que entram em jogo os alertas inteligentes. Usando os mesmos dados da linha de base, um NMS consistente vai sugerir limites que o alertam antes que uma mudança de comportamento se transforme em um problema. O essencial aqui é a utilização de uma abordagem baseada em dados para os alertas. Não ligue tudo, esperando para desligar o que se mostrar problemático. O resultado é que tudo vai parecer problemático. Em vez disso, foque-se nas áreas que já apresentaram problemas no passado, e busque reduzir o MTTR (tempo médio de reparo) ao gerar alertas sobre a condição tão logo possa ser detectada.

Aplicar automação

Um dos recursos mais esquecidos em um produto NMS forte é a capacidade de responder automaticamente aos fatos que geram problemas. Tem um disco cheio? Por que não tentar limpar a pasta temporária antes de chamar o técnico às duas da madrugada? Na pior das hipóteses, a tentativa de limpeza não vai funcionar e o alerta será enviado no próximo ciclo. Mas em muitos casos (por exemplo, ao reiniciar um serviço de aplicativo que caiu e reequilibrar a carga em um cluster de servidores) permitir que o NMS faça o trabalho significa uma resposta ultrarrápida aos erros, o que, mais uma vez, reduz ou até elimina o tempo de inatividade.

Aprender com as interrupções:

As interrupções estão prestes a acontecer, apesar dos melhores esforços por você empreendidos. Use cada interrupção crítica como uma oportunidade. O bom NMS vai coletar uma grande variedade de métricas, mas nem todas essas métricas terão uma correlação individualizada com um alerta. Depois de uma interrupção, determine se você tinha os dados corretos e simplesmente não conseguiu transformá-lo em um alerta eficaz; ou se os indicadores-chave não estavam sendo coletados... caso em que há a oportunidade de adicionar mais um monitor no centro de comando.

Entender protocolos

Um bom NMS terá vários métodos de coletar dados do ambiente. As informações de hardware podem ser coletadas através do SNMP. Isso vai lhe mostrar, por exemplo, que 10 gigabits de dados por segundo estão passando por uma interface WAN. Mas isso não vai lhe dizer para onde o tráfego está indo. Para isso, podemos usar o protocolo NetFlow. Ele vai mostrar o quanto desses 10 gigabits são solicitações do banco de dados do servidor de pedidos online, quantos são backups do sistema e quantos giga são o João, da contabilidade, assistindo ao show favorito dele.

Enquanto isso, os protocolos baseados em gatilho, como traps e syslog, vão enviar os dados apenas quando ocorre algo diferente. Embora isso não ajude como dado comprovado, pode fornecer informações sobre os eventos que de outra forma não são detectáveis.

O tráfego de voz tem seu próprio protocolo, o IPSLA, que oferece uma riqueza de informações, incluindo instabilidade e qualidade real de uma chamada de diferentes pontos da rede.

Finalmente, algumas soluções NMS vão oferecer análise em tempo real dos pacotes na rede, calculando o tempo que leva para um usuário obter informações de um sistema interno como ERP ou de um sistema externo como SalesForce.com. Técnicas como estas permitem que você responda rapidamente à pergunta: "o problema (a resposta lenta) é o aplicativo ou é a rede". Isso vai lhe permitir começar a resolver o problema com muito mais rapidez.

Resumindo

Reduzir o tempo de inatividade e melhorar a capacidade de resposta do aplicativo pode ser fácil se você levar em consideração os fatores acima mencionados. Você precisa não só monitorar seus ativos importantes e fatores críticos, como também precisa ter uma compreensão do comportamento normal e problemático. Essa tarefa poderá ficar mais fácil se você tiver as ferramentas certas para monitoramento dos servidores e aplicativos em sua rede.

*Leon Adato é geek da SolarWinds, fornecedora de softwares de gerenciamento de TI com sede em Austin, no Texas.

Fique por dentro do mundo da tecnologia!

Inscreva-se em nossa newsletter e receba diariamente as notícias por e-mail.