top of page

A Inteligência Artificial vem revolucionando todos os setores

Conheça o nosso trabalho através das histórias de sucesso que compartilhamos com quem mais importa: nossos clientes.

Data Lake na AWS para grupo varejista de moda: centralização de dados
on-premises e analytics em escala com governança e segurança

 

Contexto: Um grupo varejista brasileiro de moda com operação industrial e de varejo (lojas físicas e e-commerce) precisava centralizar dados fragmentados em múltiplos sistemas legados on-premises - ERP de varejo (SQL Server), sistema industrial (Oracle), manutenção (SQL Server), tickets (MySQL), e dados históricos de BI - em uma plataforma única e escalável para habilitar analytics por todas as áreas de negócio (Financeiro, Vendas, Comercial, Industrial e Supply Chain). O desafio incluía lidar com ~1 bilhão de registros processados diariamente, sistemas legados com restrições técnicas (stored procedures que reescrevem dados históricos), conectividade de rede entre on- premises e cloud com redundância (fábrica em Paraíba, sede no Rio de Janeiro), e necessidade de governança com segmentação de acesso por área funcional.

Solução: Foi construída uma arquitetura de Data Lake / Lake House na AWS com arquitetura medalhão (Bronze > Silver > Gold) em Amazon S3. A ingestão utiliza AWS DMS para bases relacionais e AWS Glue para extração via JDBC. Fontes cloud (SharePoint, APIs externas) são integradas via AWS Lambda. A orquestração centralizada é feita com Apache Airflow em Amazon EKS, executando transformações dbt. Para governança, foi implementado AWS Lake Formation com Tag-Based Access Control (TBAC), segmentando o acesso por área de negócio. O catálogo e descoberta de dados usam AWS Glue Crawlers e Data Catalog, com consumo analítico via Amazon Athena. Toda a infraestrutura é gerenciada como código com Terraform e Atlantis (GitOps). A conectividade on-premises é garantida por VPN Site-to-Site e alertas operacionais são enviados em tempo real via Amazon SNS integrado ao Slack.
 

Impacto Gerado:

  • Centralização de dados de 5 sistemas legados on-premises + fontes cloud em uma fundação analítica unificada.

  • Democratização do acesso a dados com governança por área (Lake Formation TBAC), eliminando consultas diretas a bancos de produção.

  • Redução significativa do time-to-insight: consultas ad-hoc em segundos via Athena sobre dados curados (Silver/Gold).

  • Base preparada para analytics avançados (churn, recomendação, otimização de sortimento) como próxima fase.

Arquitetura - Principais serviços AWS utilizados:

  • Amazon S3 (Data Lake - Bronze/Silver/Gold, Parquet)

  • AWS DMS (ingestão Full Load + CDC com auto-scaling)

  • AWS Glue (PySpark Jobs + Crawlers + Data Catalog)

  • Amazon EKS (Airflow orquestração + dbt pods efêmeros)

  • AWS Lake Formation (governança TBAC por área de negócio)

  • Amazon Athena (consultas serverless)

  • AWS Lambda (conectores OneDrive/APIs + health checks VPN)

bottom of page