O que significa e qual a importância do SCD no Data Warehouse

Por Diego Elias
photo_camera EKS

Foto:EKS/Shutterstock

Uma das características do Data Warehouse (DW) é a capacidade de armazenar dados históricos. Essa característica é essencial para manter a veracidade e fidelidade das informações e permite a correspondência dos fatos com suas perspectivas de acordo com o tempo da ocorrência.

O SCD é uma sigla que significa Slowly Changing Dimensions (Dimensões que Mudam Lentamente, em português) e retrata as dimensões que sofrem atualizações em seus campos e os classifica pelo tipo de mudança existente em cada uma delas.

Vários tipos de SCD podem ser identificados no DW, variando de acordo com as características de atualizações das dimensões. As alternativas mais comuns de SCD são o SCD Tipo 1, SCD Tipo 2, SCD Tipo 3 e o SCD Híbrido.

O SCD Tipo 1 é a alteração que não armazena histórico na dimensão, ou seja, não é feito o versionamento do registro modificado. Trata-se do tipo mais simples, pois não há nenhum controle específico para a atualização dos dados, havendo apenas a sobreposição.

O SCD Tipo 2 é a técnica mais utilizada para atualizações de dimensões. Nesse tipo de SCD é adicionado um novo registro com as mudanças, preservando sempre os dados anteriores. Dessa forma, os registros da tabela fato vão apontar para a versão correspondente nas dimensões de acordo com a data de referência.

O SCD Tipo 3 permite manter as modificações no mesmo registro. Essa técnica funciona com a adição de uma nova coluna na tabela de dimensão, onde é armazenada a atualização, mantendo na antiga coluna o valor anterior.

O SCD Híbrido (conhecido também como SCD Tipo 6), combina todas os SCD anteriores. Isso o torna bastante flexível para as atualizações das dimensões, porém com um grande custo de complexidade.

Vamos ao exemplo:

Registro original

Tabelas

Agora, vejamos como se comporta cada SCD após alterar o nome do responsável do setor:

SCD Tipo 1

Tabelas

SCD Tipo 2

Tabelas

SCD Tipo 3

Tabelas

Na solução híbrida é combinado os SCD de acordo com a estratégia e conveniência, sendo mais completo que os demais SCD. Dessa forma é flexibilizado as atualizações, de maneira que melhor se adeque às modificações dos dados nas dimensões.

Apesar do SCD tipo 2 ser predominante e normalmente utilizado, podem haver situações onde outros tipos possuam melhores aplicabilidades. Cabe analisar cada um e verificar a melhor estratégia para o versionamento dos dados, mantendo, assim, a base histórica do DW com alto grau de precisão e confiabilidade.

Canaltech no Facebook

Mais de 370K likes. Curta nossa página você!