Queira o Sr. Perito explicar a relação entre os conceitos de Big Data e Deduplicação de dados

Estamos vivenciando um momento tecnológico importante na história, onde uma nova tendência na forma de se tomar decisões está surgindo. A tomada de decisão analítica e em tempo real é uma realidade e está sendo utilizada como diferencial competitivo no mercado. Hoje, as empresas que não possuem a capacidade de tomar decisões em tempo real, ou em um espaço de tempo muito próximo disso, ficam para trás.

Como quando em qualquer outra grande mudança moderna motivada por avanço tecnológico, a nova tendência de tomada de decisão analítica trouxe consigo a necessidade de novas estruturas computacionais. Dentre elas, encontramos a infraestrutura de Big Data.

Em linhas gerais, Big Data é um conceito de infraestrutura de coleta, tratamento, armazenamento de dados e produção de resultados ou extração de indicadores. Trata-se de um ambiente voltado para a recepção de enormes volumes de dados estruturados e não estruturados com a finalidade de gerar informação, em tempo real, a partir de dados de diferentes origens ou referentes a diferentes transações (contábeis, financeiras, técnicas, etc.) dentro de um sistema ou de um conjunto de sistemas.

Esse novo conceito vai ao encontro da demanda moderna de tomada de decisão em tempo real, contudo, acentuou um problema  velho conhecido dos profissionais gerenciadores de sistemas de armazenamento de dados, trata-se da duplicidade de dados.

O problema da duplicação de dados pode ser analisado por dois aspectos principais. O primeiro deles e o que causa impactos financeiros mais óbvios é o aspecto do custo de armazenamento. Se considerarmos que grande parte dos dados de uma empresa é igual, ou, ao menos, muito semelhante, podemos inferir que as empresas gastam com armazenamento de dados muito mais do que de fato precisariam. O custo de armazenamento ganha relevância ainda maior quando analisado sob a ótica de infraestruturas de Big Data, pois, conceitualmente, espera-se encontrar nesses ambientes um volume gigantesco e crescente de dados.

O segundo principal aspecto do problema da existência de dados em duplicidade é o da perda ou diminuição desnecessária de desempenho do processamento de dados. Quanto maior for o volume de dados que tiver que ser analisado, maior será o tempo que essa análise demorará. Se um grande volume de dados duplicados for processado/analisando, certamente será consumido muito mais tempo de processamento do que o devido.

Uma solução usual para essa problemática é a deduplicação de dados. A deduplicação consiste em deixar de gravar dados idênticos àqueles já existentes no ambiente de armazenamento. Ao invés de regravar os dados já existente, cria-se um ponteiro para a informação original. Isso mitiga a duplicação excessiva de dados.

O gráfico a seguir foi produzido pela Reliant, empresa especializada em serviços de deduplicação, e mostra as vantagens da utilização de procedimento de deduplicação de dados.

Existem, basicamente, três formas de deduplicação: em nível de arquivo, em nível de blocos e em nível de byte.

A forma de deduplicação em nível de arquivo é baseada em verificação de seus códigos hashes, ou seja, arquivos idênticos terão códigos hashes idênticos e, portanto, podem ser deduplicados. No lugar dos arquivos duplicados que foram excluídos, ou simplesmente não gravados, cria-se um ponteiro para o arquivo “original”. A figura a seguir ilustra esse processo de deduplicação.

A forma de deduplicação em nível de bloco é muito similar à forma anterior, embora computacionalmente muito mais complexa. Contudo, seu objetivo é deduplicar, inclusive, partes comuns encontradas em arquivos que, se fossem analisados como um todo, seriam tratados como arquivos diferentes. Esses são métodos baseados em semelhança. Um bom exemplo de aplicação desse tipo de deduplicação seria em um servidor de arquivos de uma empresa engenharia que emite relatórios técnicos. Esse tipo de relatório sempre é precedido por diversas páginas de informações sobre a restrição de uso do documento, acordos de confidencialidade entre as partes envolvidas, metodologia de trabalho, entre outras. Nesse caso, se centenas de documentos têm essas mesmas partes, a deduplicação em nível de bloco se encarregaria de eliminar os dados duplicados em disco, contudo, garantindo transparência ao usuário ao apresentar cada documento como se não houvesse essa deduplicação.

A figura a seguir ilustra o funcionamento do método de deduplicação em nível de blocos.

Existe, ainda, o terceiro método de deduplicação que acontece em nível de byte. Esse método faz o mesmo tratamento que o anterior, contudo, ao invés de buscar por blocos iguais, busca por bytes.

Seja qual for o método escolhido, a deduplicação sempre resulta em um ganho significativo de espaço, pois se deixa de armazenar informações redundantes. Contudo, embora isso não seja regra devido à grande quantidade de soluções disponíveis no mercado, tecnologias de deduplicação em nível de byte tendem a consumir muito mais processamento que os níveis de arquivo e blocos, gerando aumento de investimento com hardware. Por outro lado, sua efetividade é muito maior resultando em grande economia com armazenamento.

Esse é um dilema que deve ser resolvido caso a caso de acordo com o interesse de quem deseja implementar essa solução e, obviamente, não é a solução absoluta para problemas de armazenamento. Até mesmo por essa razão a deduplicação de dados é comumente aplicada em conjunto com a compactação de dados. Entretanto, embora a deduplicação de dados ainda não seja uma necessidade iminente no mercado, o rápido crescimento do volume de dados, principalmente os não estruturados, em função da massificação das redes sociais, blogs e outros meios de comunicação, resultará em uma corrida tecnológica contra a duplicação de dados. Quem estiver na frente dessa corrida será mais competitivo, pois tomará decisões muito rapidamente e à frente de seus concorrentes.


Fontes:

http://www.reliant-technology.com/services/deduplication/

http://liobaashlyritchie.blogspot.com.br/2014/02/data-deduplication-what-does-it-mean.html

http://www.starwindsoftware.com/features/data-deduplication

http://vmdamentals.com/?p=4342

Um comentário sobre “Queira o Sr. Perito explicar a relação entre os conceitos de Big Data e Deduplicação de dados

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s