Big data: seus dados perderam a estrutura, e agora?

Por Colaborador externo | 21 de Dezembro de 2012 às 09h55

Por Marcelo Sales*

O mundo costumava ser simples. A caneta e o papel resolviam tudo. Com essas ferramentas básicas era possível planejar, operar e controlar qualquer empresa. Então, vieram os computadores e eles trouxeram automação, controle e eficiência. Mesmo com o uso de computadores, tudo continuava relativamente simples até dez anos atrás, quando os dados eram todos estruturados. As transações entravam manualmente nos sistemas e os dados referentes a elas eram armazenados em banco de dados. Os documentos que suportavam essas transações eram produzidos em papel, de maneira separada, e armazenados em armários físicos (lembra-se daqueles gabinetes com gaveta de correr do escritório do seu pai?). Coisa do passado. Hoje, a grande maioria das transações de negócios é feita on-line, mas os documentos que as suportam também são mantidos (quando não produzidos) eletronicamente, ou seja, são enviados por e-mail e ficam disponíveis na internet. Já entramos na era dos dados não estruturados, que não seguem um padrão linear de formato ou conteúdo. Embora não tenha uma definição precisa, dados não estruturados podem ser referidos como todo tipo de informação não mantida em tabelas nos banco de dados: documentos, planilhas, fotos, vídeos, fax, e-mails, conteúdo das médias sociais e por ai vai. O número de formatos é incontável.

Sim, os dados não estruturados chegaram para valer! Segundo a consultoria IDC, em estudo de 2009, a taxa de crescimento dos dados não estruturados é maior que a dos estruturados, chegando a incríveis 62% de aumento ao ano. Com isso, os formatos não estruturados já representam mais de 70% dos dados produzidos hoje e, ainda segundo o IDC, devem chegar a 93% de todos os dados produzidos em 2022.

Para os céticos com respeito a esse cenário, vale reforçar que nós, seres humanos, nem somos os maiores produtores de dados não estruturados, como muitos podem supor. Estamos em uma era de grande automação e dados são produzidos e coletados por toda parte, imagens de satélite, previsão do tempo, dados geográficos, medição de energia elétrica, vídeo vigilância, semáforos inteligentes, transporte público, logs de sistemas e a lista segue. Todos dados não estruturados. E são produzidos por máquinas, não por pessoas.

Mas estes tais dados não estruturados são relevantes? As empresas devem se preocupar? A resposta é: sim! E por várias razões, que passam por necessidades regulatórias, legais e operacionais, para mencionar as mais diretas e óbvias. Há, porém, uma razão mais importante que é utilizar mais de 80% de seus dados para tirar daí informações úteis ao negócio. Qualquer executivo facilmente verá valor aí. Nestes dados estão impregnados o comportamento dos clientes, tendências de vendas, informações da marca, produtos e muito, muito mais. Em resumo: dados não estruturados são a fonte mais preciosa para o Big Data!

Gerenciar volumes tão expressivos de dados não é, nem de perto, uma tarefa fácil. São muitos os desafios que surgem como acompanhar a alta taxa de crescimento, armazenar esses grandes volumes, conter o aumento do custo de armazenamento, enormes dificuldades operacionais (como, por exemplo, proteção, pois as janelas de backup já não são mais suficientes), problemas para reorganizar e classificar esses dados e para encontrar a informação quando ela é necessária, dificuldade de migração e movimentação durante as atualizações tecnológicas. Essa lista não tem fim!

Na mesma proporção que os dados não estruturados crescem de maneira acelerada, eles trazem impacto para os ambientes de TI. Em resposta, as organizações têm que lançar mão da tecnologia adequada para gerenciar e tirar proveito de seus dados, com isso um novo paradigma de gerenciamento de dados precisa ser introduzido.

A verdade é que as tecnologias tradicionais de armazenamento já não são mais adequadas. Esta é uma nova realidade e que requer diferentes abordagens. É nesse contexto que surgem as plataformas para armazenamento de conteúdo, que são equipamentos inteligentes e otimizados para gerenciar dados não estruturados e ainda são escaláveis, pois permitem acompanhar o crescimento exponencial dos dados não estruturados. Podem começar pequenos (alguns terabytes) e crescer, sob demanda, atingindo dezenas de petabytes. Conseguem gerenciar o ciclo de vida da informação e garantir sua integridade e segurança. Inclusive, são tão seguros que podem eliminar a necessidade de realização de backup dos gigantescos volumes de dados, trazendo grandes beneficios operacionais. Possuem recursos que permitem que a informação armazenada seja facilmente encontrada, promovendo sua reutilização. E formam um repositório centralizado, permitindo a utilização dos dados como fonte para análises de Big Data.

Felizmente a tecnologia da informação tem evoluído a tempo das empresas acompanharem as novas tendências e se beneficiarem delas. Mas é fato que o volume de dados presentes nas organizações cresce assustadoramente e são, na verdade, um dos maiores patrimônios de uma companhia moderna, sendo fundamental para seu desenvolvimento contínuo e sustentável. Desta forma, essa informação precisa ser assegurada e gerenciada de forma estratégica. Afinal, informação é o principal ativo das organizações modernas.

* Marcelo Sales é responsável pela Área de Vendas do portfólio de File and Content Services para a América Latina da Hitachi Data Systems

Fique por dentro do mundo da tecnologia!

Inscreva-se em nossa newsletter e receba diariamente as notícias por e-mail.