penguin-datalayer-collect

O penguin-datalayer-collect é um modulo do ecossistema raf-suite criado pela DP6 para garantir a qualidade dos dados (Data Quality) nos projetos de engenharia de dados implementados nos clientes da DP6, através de monitoramento automatizados de dados.

Ecossistema raft-suite

O penguin-datalayer-collect consegue auxiliar as áreas de digital analytics das empresas nos seguintes pilares da qualidade de dados:

Disponibilidade (atende totalmente)
Tempestividade (atende totalmente)
Completude (atende totalmente)
Validade (atende parcialmente)
Consistência (atende parcialmente)
Acurácia (atende parcialmente)
Uniformidade (atende totalmente)
Acessibilidade (atende totalmente)
Segurança (atende parcialmente)

Essa abrangência pode ser observada com mais detalhes na imagem abaixo que representa o ciclo de vida do dado, e em quais momentos a solução pode ser aplicada.

Dimensões de qualidade de dados adaptadas do framework TDQM

O ecossistema raft-suite é uma solução da DP6 que visa suprir as necessidades de monitoria do ciclo de vida dos dados para antecipar possíveis inconsistências.

Dimensões de qualidade de dados adaptadas do framework TDQM

Setup penguin-datalayer-collect

1. Requisitos para utilização

1.1 Produtos do GCP

Cloud Storage
Cloud Function
Bigquery
Service account

1.2 Dependências ambiente local

Google Cloud SDK
Pacotes zip, unzip e curl
Criar service Account com as permissões (Storage Object Admin, Cloud Functions Admin, BigQuery Admin e Service Account User)
Variável GOOGLE_APPLICATION_CREDENTIALS
Instalar o Terraform
Habilitar os produtos no GCP Cloud Function, BigQuery, Cloud Build API, Cloud Resource Manager API, BigQuery Data Transfer API e Cloud Storage, para uso do BigQuery é necessário ter um billing ativo
Importante o usuário que executar o script do terraform precisa ter a permissão de owner no projeto do GCP.

Observação: Utilizando o ambiente no Google Cloud Shell não é necessário fazer os 1, 2, 4 e 5

1.3 Ludwig gerador de Schemas

Para gerar o schema de validação da camada de dados acesse a documentação disponível em penguin-datalayer-core

2. Instalando o penguin-datalayer-core

Clone o projeto do github para sua máquina local ou Cloud Shell, usando o comando abaixo

git clone https://github.com/DP6/penguin-datalayer-collect.git

Para fazer deploy no GCP usando o Terraform, o utilize o shell script terraform_deploy, usando o comando abaixo

cd penguin-datalayer-collect
sh terraform_deploy.sh

3. Configurando a tag no GTM

3.1 GTM Web

Para enviar o JSON da camada de dados para a Cloud Function de validação, é necessário implementar uma tag no GTM do tipo custom html, abaixo está o código base para essa configuração.

Essa tag dar total autonomia para o engenheiro customizar o escopo da coleta da camada de dados para validação, uma coleta ativa para o ambiente de produção considerando todos os usuários terá um custo muito maior que uma baseada em amostragem, como exemplificado no código abaixo.

Outra abordagem que pode ser utilizada é fazer a coleta somente no ambiente de homologação, com base em identificadores previamente acordados com o time de TI.

<script>
  /*
  *Tag responsável por enviar a camada de dados para o penguin-datalayer-collect
  */
  analyticsHelper.safeFn('Penguin Datalayer Collect ', function(helper){
    // Array do dataLyer, filtrando os eventos nativos do GTM e easyCollect
    var body = window.dataLayer.filter(function(item) {return /gtm\.+|ga_pageview|midia_pageview/.test(item.event) == false});

    if (habilitarAmostragemValidacao() === 'true') {
      var request = new XMLHttpRequest();
      //Os dados de validação podem ser enriquecidos com dados de negocios enviados como queryString
      request.open("POST",  + "?schema="+  , true);
      request.setRequestHeader('Content-Type', 'application/json');
      request.onreadystatechange = logHttpResponse;
      request.send(JSON.stringify(body));
    }

    function habilitarAmostragemValidacao() {
      function random(min, max) {
        min = Math.ceil(min);
        max = Math.floor(max);
        return Math.floor(Math.random() * (max - min)) + min;
      }

      var sample = 1;
      var domain =  ?  : 'auto';
      var cookie_penguin_datalayer_collect = helper.cookie('penguin_datalayer_collect');

      /* Limitador realizar o envio apenas de uma amostragem dos usuários, assim é possível reduzir
      os custos de GCP, não deixando a tag ativas para todos os usuários.*/
      if (!cookie_penguin_datalayer_collect) {
        cookie_penguin_datalayer_collect = (random(0, 100) <= sample) ? 'true' : 'false';
        helper.cookie('penguin_datalayer_collect', cookie_penguin_datalayer_collect, {'exdays': 1, 'domain': domain});
      }

      return cookie_penguin_datalayer_collect;
    }

    function logHttpResponse() {
      if () {
        console.log('Penguin-datalayer-collect - Status: ', this.status);
        console.log('Penguin-datalayer-collect - Object dataLayer:', window.dataLayer);
        console.log(JSON.stringify(window.dataLayer));
      }
    }
  });
</script>

O código da tag fornecido acima, utiliza a biblioteca easy-collect também desenvolvida pela DP6 para facilitar a implementação no GTM e manipulação do DOM.

3.2 GTM Server-side

O penguin-datalayer-collect também pode ser utilizado para validar a coleta server-side, necessitando apenas que a coleta consiga gerar um array com as chaves implementadas.

4. Enriquecendo os dados com informações de negócio

A implementação do penguin-datalayer-collect disponibiliza alguns dados brutos, eles são obtidos a partir da validação da camada de dados com base nos schemas fornecido para o validador, é importante salientar que o resulto depende do schema de validação, então sempre que ocorrer uma alteração na especificação técnica da camada de dados os schemas devem refletir as mesmas.

Os dados padrões são:

Nome	Tipo	Opcional	Descrição
data	DATETIME	Não	Datetime com timezone America/Sao_Paulo no padrão yyyy-mm-ddThh:mm:ss
schema	STRING	Não	Nome do schema utilizado para validação das chaves
status	STRING	Não	Status da validação que pode ser (ERRO, WARNING ou OK)
objectName	STRING	Sim	Nome do objeto da camada de dados validada
keyName	STRING	Sim	Chave da camada de dados validada

Os dados padrões por si só, possibilitam visualizações básicas da saúde da camada de dados, pois com esses dados as possibilidades de cruzamentos e classificação são poucas, entretanto, é muito fácil enriquecer os dados de validação com dados customizados do domínio de negócio, por meio da customização da tag base 3.1 GTM Web.

A adição de novas dimensões é bem simples, basta disponibilizar os dados escolhidos como parâmetros query string no endoint de validação, fazendo isso os parâmetros fornecidos estarão disponíveis para todas as validações, e serão inseridos no bigquery juntos com os dados padrões, na tabela penguin_datalayer_raw.

Para que a inserção ocorra com sucesso é necessário apenas atualizar o schema da tabela disponível no json de configuração.

Para saber mais sobre o funcionamento do penguin-datalayer-collect e como customizar os dados acesse nossa wiki.

5. Dashboard de acompanhamento

A base de dados criada pelo penguin-datalayer-collect, pode ser utilizada para diversas análises fazendo o cruzamento com os dados de domínio do negócio, porém a DP6 desenvolveu um dashboard base para monitoramento das métricas de erros disponibilizada pelo módulo.

6. Como contribuir

Pull requests são bem-vindos! Nós vamos adorar ajuda para evoluir esse modulo. Sinta-se livre para navegar por issues abertas buscando por algo que possa fazer. Caso tenha uma nova feature ou bug, por favor abra uma nova issue para ser acompanhada pelo nosso time.

6.1 Requisitos obrigatórios

Só serão aceitas contribuições que estiverem seguindo os seguintes requisitos:

Padrão de commit

7. Api Docs

Index.js

Suporte:

DP6 Koopa-troopa Team

e-mail: koopas@dp6.com.br