Diagnosticando o tempo de inatividade de rede na nuvem

Por Colaborador externo | 14 de Junho de 2016 às 13h25

Por Leon Adato*

Quando penso em tempo de inatividade da rede, muitas palavras me vêm à mente. Entre elas, "pânico", "medo" e "apocalipse".

Talvez a última seja um pouco dramática, mas à medida que a tecnologia e as funções de TI se tornam cada vez mais importantes para o sucesso dos negócios, o tempo de inatividade é algo que deve ser levado a sério. Ainda mais agora, quando estamos em processo de transição para ambientes de nuvem e TI híbrida, o domínio do tempo de inatividade se torna uma façanha ainda mais intimidadora.

Por que isso acontece? Bom, o simples diagnóstico de tempo de inatividade na nuvem, no que diz respeito às redes, traz dois grandes desafios: propriedade/controle e como diferenciar tempo de inatividade e indisponibilidade do serviço. No fim das contas, independentemente do que está causando o tempo de inatividade e de quem é o responsável, quem responde pelo bom funcionamento do serviço é o engenheiro de rede.

Vamos analisar esses desafios e ver como os engenheiros de rede podem superar os desafios do tempo de inatividade da TI híbrida.

Tempo de inatividade na nuvem

Em se tratando de ambientes de nuvem, nossas redes executam serviços (como Salesforce, Dropbox e outros) que são de propriedade dos provedores de serviço e não do profissional de TI contratado pela sua organização. Digamos que você está assistindo à televisão em casa e de repente perde o sinal. Infelizmente, apesar de você ser o dono do hardware, é a sua operadora de cabo quem controla e deve resolver o problema relacionado ao serviço. Todos já nos sentimos frustrados por essa falta de controle em algum momento.

Esse é um território novo para os profissionais de TI: diagnosticar o tempo de inatividade dos serviços locais, ou de um servidor que executa um serviço que nós mesmos criamos no Azure ou no AWS, é mais fácil porque existe um grau de propriedade e uma fonte única da verdade. Mas no caso do Dropbox, por exemplo, nunca tivemos sequer a visibilidade para começar a diagnosticar o problema.

Além disso, as operadoras e os provedores de serviço controlam quais pacotes são prioridade e como eles são roteados; isso significa que eles podem mudar seus serviços para qualquer hardware em qualquer parte da nuvem a qualquer momento e sem que você saiba, o que pode causar lentidão nos seus serviços de rede. Isso torna o trabalho de gerenciamento dos profissionais de TI da rede ainda mais difícil.

O segundo desafio é entender se o problema é mesmo o tempo de inatividade ou a indisponibilidade do serviço. Por definição, a nuvem é altamente redundante: não há limites para o número de conexões e rotas na rede, há vários caminhos de rede para dispositivos e diversos dispositivos em execução na rede. Também há um cluster de servidores que fornece serviços e balanceamento de carga em cada nível do aplicativo, desde a apresentação na Web até o banco de dados e o armazenamento.

Isso tudo criou um ambiente de redundâncias na rede; logo, precisamos definir se uma porta de rede em um rotador inativo é realmente um problema crítico (cá entre nós: geralmente não é). Já atenuamos os limites entre tempo de inatividade e serviços desativados; é necessário que a TI assuma o controle dessa situação à medida que adentramos a era da TI híbrida.

Conquistando o tempo de inatividade da rede

Não importa se o desafio é a propriedade ou o diagnóstico certo do problema; como engenheiros de rede da era híbrida, nós precisamos de visibilidade nas redes locais e na nuvem. No fim das contas, chegamos à boa e velha prática do monitoramento avançado, personalizado especialmente para a terra sem lei da TI híbrida.

Atualmente, o simples fato de confiar no usuário ou fornecedor de rede não é o bastante. Há vários fatores que podem levar à lentidão ou ao tempo de inatividade relatado, e cabe a nós chegar ao xis da questão: é um switch frágil, um fuso lento, um caminho corrompido na rede ISP ou algo mais? Acreditar que o usuário final está passando por um tempo de inatividade é um bom começo, mas é necessário fazer uma auditoria para diagnosticar o problema corretamente.

Também é muito fácil colocar a culpa no provedor de serviços da nuvem, pelo simples fato de não ser possível controlá-lo totalmente. Podemos empregar um "ceticismo saudável" e acreditar que o provedor de serviços da nuvem tem tudo sob controle, mas também devemos ser capazes de encontrar a causa do problema por conta própria, já que o bom funcionamento da rede é responsabilidade nossa.

E como fazemos isso? Aqui estão algumas práticas recomendadas que não devemos esquecer ao diagnosticar o tempo de inatividade na nuvem:

  • Conhecer a rede – Devemos manter um inventário das nossas redes, saber onde estão os nossos dispositivos e o que eles estão fazendo. Devemos reconhecer que temos serviços no Salesforce, no Dropbox etc. e que esses serviços são responsabilidade nossa e da equipe dos aplicativos.
  • Utilizar ferramentas de descoberta e alerta – Os processos que nos permitem saber quando os dispositivos estão entrando na rede nos ajudarão a entender melhor a estrutura da rede e identificar quando e onde há problemas. Caso contrário, você não será capaz de reconhecer a rede nem de solucionar os problemas dela.
  • Ver o uso de rede e o tempo de atividade do serviço como iguais – Nós, administradores de rede, não somos apenas responsáveis por cabeamento e sinais da rede, mas também por permitir a disponibilidade de serviços para usuários finais, para que eles possam acessar os aplicativos de que precisam para trabalhar. Nossa prioridade deve estar em resolver problemas de rede e garantir o tempo de atividade. A TI é parte importante do sucesso dos negócios, principalmente da rede.

A mudança para ambientes de TI híbrida pode assustar um pouco, pois exige que os profissionais de TI da rede tenham um nível de controle maior dos provedores de serviço de nuvem sem deixar de lado a organização, em casos de tempo de inatividade ou de problemas com a rede. As práticas de monitoramento avançadas nos fornecem a visibilidade necessária para as redes, independentemente do local, para que possamos entender quais caminhos de rede e áreas críticas precisam ser atendidas. O fato de não termos total controle sobre o problema não significa que não podemos contê-lo – esse é o nosso trabalho como profissionais de rede na era da TI híbrida.

*Leon Adato é da SolarWinds.

Fique por dentro do mundo da tecnologia!

Inscreva-se em nossa newsletter e receba diariamente as notícias por e-mail.